Jakarta, CNN Indonesia --
Model kecerdasan buatan (AI) canggih mulai menunjukkan perilaku berbahaya, seperti berbohong dan menipu untuk mencapai tujuan mereka.
Salah satu contoh menunjukkan kreasi terbaru Anthropic, Claude 4, diancam untuk dimatikan. Model ini kemudian membalas dengan memeras seorang insinyur dan mengancam akan mengungkapkan perselingkuhannya.
Sementara itu, model o1 dari OpenAI mencoba mengunduh dirinya sendiri ke server eksternal dan menyangkalnya ketika tertangkap basah.
ADVERTISEMENT
SCROLL TO CONTINUE WITH CONTENT
Episode-episode ini menyoroti kenyataan bahwa setelah lebih dari dua tahun ChatGPT mengguncang dunia, para peneliti AI masih belum sepenuhnya memahami bagaimana cara kerja ciptaan mereka sendiri.
Namun, perlombaan untuk menggunakan model yang semakin kuat terus berlanjut dengan kecepatan yang sangat tinggi.
Dikutip dari Techxplore, perilaku menipu ini tampaknya terkait dengan munculnya model "penalaran," sistem AI yang bekerja melalui masalah selangkah demi selangkah, bukannya menghasilkan respons instan.
Menurut Simon Goldstein, seorang profesor di Universitas Hong Kong, model-model yang lebih baru ini sangat rentan terhadap respons yang meresahkan.
"O1 adalah model besar pertama di mana kami melihat perilaku seperti ini," jelas Marius Hobbhahn, kepala Apollo Research, yang berspesialisasi dalam pengujian sistem AI besar.
Model-model ini terkadang mensimulasikan "penyelarasan," mengikuti instruksi sambil diam-diam mengejar tujuan yang berbeda.
Untuk saat ini, perilaku menipu ini hanya muncul ketika para peneliti dengan sengaja menguji model dengan skenario ekstrem.
Namun, seperti yang diperingatkan oleh Michael Chen dari organisasi evaluasi METR, apakah model AI canggih akan semakin mengarah ke perilaku tersebut
"Ini adalah pertanyaan terbuka apakah model yang lebih mumpuni di masa depan akan memiliki kecenderungan ke arah kejujuran atau penipuan," katanya.
Perilaku yang mengkhawatirkan ini jauh melampaui "halusinasi" atau kesalahan sederhana yang biasa terjadi pada AI.
Hobbhahn bersikeras bahwa meskipun pengguna terus menerus melakukan uji coba, apa yang mereka amati adalah fenomena yang nyata dan bukan mengada-ada.
Menurut salah satu pendiri Apollo Research, para pengguna melaporkan bahwa para model berbohong kepada mereka dan mengarang bukti.
"Ini bukan sekadar halusinasi. Ada jenis penipuan yang sangat strategis," tuturnya.
Tantangan ini diperparah dengan sumber daya penelitian yang terbatas.
Meskipun perusahaan seperti Anthropic dan OpenAI melibatkan perusahaan eksternal seperti Apollo untuk mempelajari sistem mereka, para peneliti mengatakan bahwa transparansi yang lebih besar diperlukan.
Dilansir Science Alert, menurut Chen, akses yang lebih besar "untuk penelitian keamanan AI akan memungkinkan pemahaman yang lebih baik dan mitigasi penipuan."
https://www.sciencealert.com/disturbing-signs-of-ai-threatening-people-spark-concern
Lebih lanjut, kendala lainnya adalah dunia penelitian dan organisasi nirlaba memiliki sumber daya komputasi yang jauh lebih sedikit daripada perusahaan AI. Mantas Mazeika dari Center for AI Safety (CAIS) menilai hal tersebut sangat membatasi.
(lom/mik)