Meta Diketahui Lakukan Manipulasi Benchmark untuk Model AI Teranyarnya

Meta

GadgetDIVA - Meta dilaporkan melakukan manipulasi benchmark pada model AI terbarunya, Llama 4. Hal ini dilakukan supaya teknologi besutannya tersebut nampak lebih baik dari kompetitiornya. 

Pada Sabtu (5/4) lalu, Meta meluncurkan dua model Llama 4 terbaru bernama Scout dan Maverick. Model ini diiklaim dapat mengalahkan kemampuan GPT-4o dan Gemini 2.0 Flash dalam berbagai benchmark yang dilaporkan secara luas. 

Laporan dari TechCrunch menyampaikan bahwa versi Maverick yang diterapkan Meta dalam LM Arena berbeda dengan versi yang tersedia secara luas untuk para pengembang. Perlu diketahui, LM Arena merupakan sebuah pengujian melibatkan penilai manusia yang membandingkan keluaran model dan memilih model yang mereka sukai. 

Advertisement

Seperti yang ditunjukkan oleh beberapa peneliti AI di X, Meta mencatat dalam pengumumannya bahwa Maverick di LM Arena merupakan versi obrolan eksperimental. Sementara, bagan di situs web resmi Llama mengungkap bahwa pengujian LM Arena Meta dilakukan menggunakan Llama 4 Maverick yang dioptimalkan untuk percakapan. 

LM Arena sendiri tak pernah menjadi ukuran performa model AI yang dapat diandalkan. Namun, perusahaan AI pada umumnya belum menyesuaikan atau menyempurnakan model mereka untuk mendapatkan skor yang lebih baik dalam pengujian tersebut atau setidaknya belum mengakuinya. 

Menyesuaikan model dengan benchmark, menahannya dan kemudian merilis varian biasa dari model yang sama dapat membuat pengembang kesulitan untuk memprediksi dengan tepat seberapa baik model akan bekerja dalam konteks tertentu. Hal itu juga menyesatkan. 

Advertisement

Idealnya, benchmark dapat memberikan gambaran singkat tentang kekuatan dan kelemahan satu model dalam berbagai tugas. Di samping itu, para peneliti di X telah mengammati perbedaan mencolok dalam perilaku Maverick yang dapat diunduh secara publik dibandingkan dengan model yang dihosting pada LM Arena. 

Sementara, versi LM Arena tampaknya menggunakan banyak emoji dan memberikan jawaban yang sangat panjang. Llama 4 sendiri diklaim telah mendukung asisten Meta di Web, WhatsApp, Messenger dan Instagram. 

Kedua model ini tersedia untuk diunduh dari Meta atau Hugging Face. Llama 4 Maverick merupakan model yang lebih mirip dengan GPT-4o dan Gemini 2.0 Flash, sedangkan Llama 4 Scout merupakan model kecil yang mampu dipasang dalam satu GPU Nvidia H100. 

Advertisement

Untuk Llama 4, perusahaan menyatakan pihaknya beralihh ke arsitektur “campuran para ahli” (MoE). Yakni, sebuah pendekatan yang menghemat sumber daya dengan hanya menggunakan bagian-bagian model yang dibutuhkan untuk tugas tertentu. 

Perusahaan berencana untuk membahas rencana masa depan pada model dan produk AI di konferensi LlamaCon yang berlangsung tanggal 29 April mendatang. Serupa dengan model-model sebelumnya, Meta menyebut koleksi Llama 4 sebagai “open source”, meskipun model ini telah lama dikritik karena pembatasan lisensinya.

Advertisement

Cek berita teknologi, review gadget dan video Gadgetdiva.id di Google News. Baca berita otomotif untuk perempuan di Otodiva.id, kalau butuh in-depth review gadget terkini kunjungi Gizmologi.id. Bagi yang suka jalan-jalan, wajib baca Traveldiva.id.