Jakarta, Gizmologi – Pekan lalu, media sosial diramaikan dengan video rilisan Google yang cukup viral termasuk di platform X. Dalam sebuah video, terlihat demo interaksi Gemini AI terbaru yang mampu berinteraksi dengan pengguna secara instan. Nyatanya, yang terjadi di belakang layar bisa dibilang cukup jauh dari apa yang ditampilkan. Kok bisa?
Lewat sebuah postingan yang diunggah langsung oleh sang CEO, Sundar Pichai pada Rabu (6/12), ditampilkan sebuah video untuk menunjukkan kebolehan Gemini AI sebagai sebuah AI large language model (LLM) yang mendukung model multimodal—mengombinasikan dua jenis perintah berbeda, dalam hal ini teks dan gambar atau visual.
Alih-alih benar-benar sepenuhnya menggunakan video yang kemudian direspon oleh Gemini AI dengan suara, ternyata proses pembuatan video tersebut berbeda dengan yang ditampilkan. Sejumlah situs pun menyebutkan bahwa video tersebut sudah sampai batas penipuan, tidak lagi sekadar penyempurnaan ilustrasi dari sebuah demo, meski Google sendiri sudah menyebutkan kalau video tersebut sudah diproses lebih jauh.
Baca juga: Peta Google Maps Berubah Warna, Apa Alasannya?
Multimodal Prompting Gemini AI yang Asli Berbeda dari Video
Dalam video yang kini sudah ditonton oleh lebih dari dua juta kali di YouTube, Google memang sudah memberikan informasi bila demo Gemini AI di atas sudah diedit dengan latensi yang dikurangi maupun pemotongan durasi tertentu. Namun di sisi lain, kalimat “this video highlights some of our favorite interactions,” hanya menandakan bila interaksi yang terjadi bukan dalam bentuk rekayasa.
Tidak lama kemudian, Google mengunggah sebuah postingan lewat situs Google for Developers, menjelaskan lebih lanjut bagaimana Gemini AI dapat menangkap perintah berbasis multimodal, yang kemudian “dibedah” satu persatu oleh TechCrunch. Terlihat cara memberikan perintah yang cukup berbeda dari apa yang didemokan.

Dalam sebuah gambar di atas, terlihat bila pengguna harus menginputkan perintah dengan mengunggah tiga gambar, sekaligus teks yang berisi pertanyaan, bahkan petunjuk. Baru kemudian Gemini AI dapat menebak bila urutan gambar tersebut mengindikasikan permainan batu gunting kertas. Dalam hal ini, Gemini AI sukses menginterpretasikan perintah berbasis multimodal.

Namun penjelasan tersebut sangat berbeda dari apa yang Google tunjukkan di dalam video. Pada menit ke-2:46, pengguna hanya perlu menunjukkan video gestur tangan, dan Gemini AI langsung meresponnya dengan “I know what you’re doing!”, seolah sama sekali tidak memerlukan bantuan petunjuk.
Ditampilkan Untuk Menginspirasi Para Developer

Mencoba mengklarifikasi, Oriol Vinyals selaku VP of Research pada Google DeepMind, mengunggah sebuah postingan pada platform X bila video yang sudah viral terkait Gemini AI, dirancang untuk mengilustrasikan bisa seperti apa pengalaman multimodal pada AI terbaru Google. “Semua perintah dan keluaran pengguna dalam video adalah nyata, hanya dipersingkat. Kami membuatnya untuk menginspirasi para pengembang.”
Tentu jawaban tersebut kemudian menimbulkan kontroversi serta kekecewaan oleh sejumlah pengguna X. Di mana tak sedikit dari mereka tetap berpikir bahwa demo tersebut masih terlalu jauh dari apa yang seharusnya bisa dilakukan oleh Gemini AI saat ini, dan tidak ditegaskan secara gamblang pada video.
Beberapa pengguna pun mulai mempertanyakan kapabilitas Google dalam mengembangkan bahasa AI mereka, seolah berusaha terlalu jauh untuk bersaing dengan OpenAI dan kompetitor lainnya. Bagaimana menurut Gizmo friends, apakah masih bisa dibilang impresif, atau demo di atas sudah bisa dianggap menipu?
Eksplorasi konten lain dari Gizmologi.id
Berlangganan untuk dapatkan pos terbaru lewat email.




