Berita  

OpenAI o1: Kemajuan dan Batasan dalam Kemampuan Perencanaan AI Berdasarkan PlanBench

OpenAI o1

Perkembangan teknologi kecerdasan buatan (AI) kian pesat, dengan berbagai model AI yang diuji dalam kemampuan perencanaan untuk menyelesaikan masalah kompleks. Salah satu penelitian terbaru dari tim peneliti Universitas Negeri Arizona (Arizona State University) menguji kemampuan perencanaan OpenAI o1 menggunakan PlanBench, sebuah tolok ukur yang dirancang untuk mengevaluasi kemampuan AI dalam menyelesaikan tugas-tugas perencanaan. Meski menunjukkan kemajuan signifikan, hasil penelitian ini mengungkapkan bahwa model o1 masih menghadapi sejumlah keterbatasan.

PlanBench: Standar Penilaian Perencanaan AI

Dikembangkan pada tahun 2022, PlanBench adalah tolok ukur yang berfungsi untuk mengukur kemampuan AI dalam perencanaan. Tolok ukur ini mencakup 600 tugas dari Blocksworld, sebuah bidang di mana AI diharuskan menyusun balok-balok sesuai urutan tertentu. Pengujian ini menantang AI untuk membuat rencana langkah demi langkah yang efektif, mengingat bahwa semakin rumit tugasnya, semakin sulit perencanaannya.

Blocksworld sendiri merupakan skenario klasik dalam pengujian kecerdasan buatan. Tugas-tugasnya melibatkan berbagai kombinasi pergerakan balok yang membutuhkan kemampuan berpikir dan merencanakan langkah ke depan, sehingga menjadi acuan ideal untuk mengevaluasi seberapa baik sebuah model AI dalam perencanaan.

Keunggulan OpenAI o1 Dibandingkan Model Lain

Dalam pengujian yang dilakukan di PlanBench, OpenAI o1 mampu mencapai tingkat akurasi yang mengesankan, yaitu sebesar 97.8% pada tugas Blocksworld. Hasil ini jauh melampaui model LLaMA 3.1 405B, yang sebelumnya memegang rekor dengan tingkat akurasi sebesar 62.6%. Ini menunjukkan bahwa OpenAI o1 memiliki kemampuan yang lebih baik dalam menyelesaikan tugas-tugas perencanaan yang relatif sederhana.

Namun, ketika dihadapkan pada tugas yang lebih kompleks dalam versi terenkripsi dari Blocksworld, yang dikenal sebagai “Mystery Blocksworld,” akurasi OpenAI o1 menurun menjadi 52.8%. Meskipun begitu, hasil ini tetap unggul dibandingkan dengan model AI tradisional lainnya, yang umumnya gagal menyelesaikan tugas-tugas ini sama sekali.

Pengujian Lebih Lanjut dan Keterbatasan Model o1

Para peneliti juga melakukan pengujian tambahan untuk memastikan bahwa kinerja OpenAI o1 bukan hasil dari data pelatihan yang kebetulan cocok dengan tugas PlanBench. Mereka menguji varian acak baru yang tidak ada dalam data pelatihan model. Dalam pengujian ini, tingkat akurasi o1 turun menjadi 37.3%, tetapi hasil ini masih jauh di atas model AI lain yang hampir semuanya mendapatkan skor mendekati nol.

Meski unggul dalam banyak tugas, kemampuan o1 menurun drastis saat harus menghadapi tugas-tugas yang lebih kompleks dengan lebih banyak langkah perencanaan. Ketika dihadapkan pada masalah yang membutuhkan 20 hingga 40 langkah perencanaan, akurasi o1 turun drastis dari 97.8% menjadi hanya 23.63%. Ini menunjukkan bahwa semakin panjang proses perencanaan yang diperlukan, semakin besar kemungkinan model untuk mengalami kegagalan dalam menghasilkan rencana yang benar.

Selain itu, model o1 juga menghadapi kesulitan dalam mengenali tugas-tugas yang tidak dapat diselesaikan. Dalam 27% kasus, model ini dapat mengidentifikasi bahwa tugas tersebut tidak memiliki solusi, tetapi dalam 54% kasus, model malah menghasilkan rencana yang tampaknya lengkap namun tidak mungkin diselesaikan.

“Quantum Improvement” tanpa Terobosan Besar

Salah satu pencapaian OpenAI o1 adalah peningkatan yang disebut sebagai “quantum improvement” dalam tolok ukur PlanBench, di mana model menunjukkan peningkatan signifikan dalam kemampuannya menyelesaikan tugas-tugas perencanaan. Namun, meskipun peningkatan ini mencolok, hasil penelitian menegaskan bahwa o1 masih belum dapat diandalkan untuk menghasilkan solusi yang selalu benar.

Model AI klasik seperti algoritma perencanaan yang cepat dan efisien masih mampu memberikan hasil dengan akurasi yang sempurna dalam waktu yang lebih singkat. Bahkan, algoritma-algoritma klasik ini dapat berjalan dengan baik pada komputer standar tanpa memerlukan biaya besar, sementara pengujian OpenAI o1 membutuhkan biaya sekitar 1900 dolar AS untuk menjalankannya. Ini menyoroti betapa besar sumber daya yang diperlukan untuk menjalankan model AI modern seperti o1, dan pentingnya mempertimbangkan efisiensi serta biaya dalam mengukur keberhasilan AI.

Penutup

Penelitian ini menegaskan bahwa OpenAI o1 telah mencapai kemajuan yang signifikan dalam kemampuan perencanaan, terutama dalam menyelesaikan tugas-tugas perencanaan yang sederhana hingga menengah. Akan tetapi, model ini masih memiliki banyak kelemahan, terutama saat dihadapkan pada masalah yang kompleks dan panjang.

Bagi para pengembang AI dan peneliti, hasil ini menunjukkan bahwa meskipun teknologi kecerdasan buatan terus mengalami kemajuan, kemampuan AI saat ini belum sempurna. Masih diperlukan inovasi lebih lanjut untuk mengatasi keterbatasan, terutama dalam hal efisiensi, akurasi, dan pengurangan biaya operasional.

Bagi pembaca di Indonesia yang tertarik dengan perkembangan AI, penelitian ini menjadi bukti bahwa teknologi ini terus berkembang pesat, namun belum bisa sepenuhnya menggantikan metode perencanaan tradisional yang lebih sederhana dan efisien.

Info tech paling update! Ikuti kami di WhatsApp Channel & Google News, Jadilah bagian komunitas kami!

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Dapatkan Update Terbaru Langsung! OK No thanks