Meta merilis model bahasa besar (large language model/LLM) Llama 3.2 1B dan 3B versi ringan atau terkuantisasi (quantized). Varian ini ditujukan agar model dapat berjalan lebih efisien di perangkat berdaya rendah, termasuk smartphone.
Llama 3.2 ukuran 1B dan 3B sebelumnya telah diumumkan pada acara Meta Connect pada September 2024. Keduanya disebut sebagai model Llama paling kecil dibandingkan LLM lain buatan Meta, sehingga diarahkan untuk penggunaan di perangkat seluler.
Apa itu kuantisasi dan apa dampaknya
Menurut Meta, kuantisasi adalah teknik untuk mengurangi ukuran model AI dengan memodifikasi bobot presisi, yakni indikator seberapa baik model memprediksi sesuatu. Meta menyebut versi terkuantisasi ini membutuhkan memori lebih rendah saat menjalankan program, serta menawarkan inferensi yang lebih cepat.
Meta menyatakan akurasi Llama 3.2 1B dan 3B terkuantisasi tetap setara dengan versi aslinya. Untuk itu, perusahaan menggunakan dua metode kuantisasi, yaitu QLoRA dan SpinQuant.
Klaim kinerja: lebih ringan dan lebih cepat
Berdasarkan pengujian internal Meta, ukuran Llama 3.2 1B dan 3B terkuantisasi disebut sekitar 56 persen lebih ringan dibanding model aslinya. Kecepatan inferensi juga diklaim meningkat sekitar 2 hingga 4 kali lipat.
Meta juga menguji model terkuantisasi ini pada smartphone Android OnePlus 12. Hasilnya, penggunaan sumber daya memori dilaporkan turun 41 persen, sementara kinerjanya disebut hampir setara dengan versi asli.
Optimasi untuk CPU mobile dan kerja sama dengan mitra chip
Agar lebih optimal di perangkat mobile, Meta mengembangkan versi ringan ini bersama perusahaan semikonduktor Qualcomm serta MediaTek. Meta juga memanfaatkan kernel AI Kleidi untuk memaksimalkan kinerja model pada CPU mobile.
Meta menilai kemampuan menjalankan Llama di CPU ponsel dapat membantu pengembang menciptakan pengalaman AI yang lebih unik, sekaligus menawarkan privasi yang lebih baik karena pemrosesan berlangsung langsung di perangkat.
Ketersediaan
Llama 3.2 1B dan 3B terkuantisasi telah tersedia untuk diunduh melalui situs Llama dan Hugging Face.
Konteks: Llama 3.2 dan posisinya di pasar
Meta memperkenalkan keluarga Llama 3.2 pada Meta Connect, Rabu (25/9/2024), dan memposisikannya sebagai pesaing GPT-4o Mini milik OpenAI. CEO Meta Mark Zuckerberg menyebut Llama mengalami pertumbuhan 10 kali lipat sejak 2023 dan diklaim menyamai GPT-4o Mini dalam pengenalan gambar serta tugas pemahaman visual.
Meta juga menyatakan Llama 3.2 unggul atas model open-source dari Google (Gemma) dan Microsoft (Phi 3.5-mini) dalam sejumlah aspek, seperti mengikuti instruksi, meringkas, penggunaan alat, dan penulisan ulang perintah.
Seperti Llama 3.1, Llama 3.2 diposisikan sebagai model bersumber terbuka (open-source), sehingga pengembang dapat menggunakannya secara bebas dan gratis. Llama 3.2 mencakup model berukuran 11 miliar parameter (11B) dan 90 miliar parameter (90B), serta ukuran lebih kecil 1B dan 3B.
- Model dengan parameter lebih tinggi umumnya dikaitkan dengan akurasi yang lebih baik dan kemampuan menangani tugas yang lebih kompleks.
- Llama 3.2 memiliki panjang konteks 128.000 token, yang memungkinkan pengguna memasukkan teks dalam jumlah besar.
- Varian 11B dan 90B memiliki kemampuan multimodal untuk memahami gambar, termasuk membaca bagan dan grafik, memberi keterangan pada gambar, serta mengenali objek dari deskripsi bahasa alami.
- Model berukuran kecil dirancang untuk bekerja pada perangkat keras Qualcomm, MediaTek, dan Arm, dengan harapan dapat digunakan lebih luas di perangkat seluler.