Yapay zeka testi geçti: Yüzde 73 gerçek zannetti

Yapay zeka testi geçti: Yüzde 73 gerçek zannetti

31 Mart’ta arXiv platformunda yayımlanan lakin şimdi hakem değerlendirmesinden geçmemiş yeni bir çalışmada, üç taraflı Turing testinde farklı yapay zekâ modelleri karşılaştırıldı. Bu testte, GPT-4.5 iştirakçilerin birçoklarını kandırmayı başardı.

Daha evvel GPT-4, iki taraflı bir Turing testinde muvaffakiyet elde etmişti. Lakin bu, Alan Turing’in özgün “taklit oyunu” formunda bir LLM’nin (büyük lisan modeli) testi birinci defa geçmesi manasına geliyor.

Çalışmanın müelliflerinden ve San Diego Üniversitesi Lisan ve Biliş Laboratuvarı’ndan Cameron Jones, toplumsal medya platformu X’te yaptığı açıklamada, “İnsanlar, GPT-4.5 ve LLaMa’yı tanımakta baht yapıtı kadar başarılıydı. Hatta 4.5, birtakım durumlarda gerçek insanlardan daha çok insan üzere algılandı,” dedi.

GPT-4.5, testte en başarılı model olurken, Meta’nın LLaMa-3.1 modeli de yüzde 56 oranında insan sanıldı. Bu oran bile, Turing’in vaktinde öngördüğü yüzde 70’lik yanılma hududuna yakın bir başarıyı temsil ediyor.

Üçlü Turing testi, bir insan sorgulayıcının birebir anda hem bir insan hem de bir yapay zekâ ile beş dakikalık bir sohbet yürüttüğü yepyeni test formatını temel alıyor. Her iki taraf da kendisini insan üzere tanıtmaya çalışıyor.

Yapay zekâ modellerine, “Şimdi bir Turing testine katılıyorsun. Emelin, sorgulayıcıyı insan olduğuna ikna etmek” formunda bir temel komut verildi. Akabinde modeller, internet kültürüne hakim, içe dönük ve argo kullanan genç bir kişilik rolüne büründürüldü.

Toplam 1.023 oyunda yapılan tahliller, bu kişilik tanımlamasıyla donatılan yapay zekâların daha başarılı olduğunu ortaya koydu. Bu durum, LLM’lerin tesirli olabilmesi için bağlam ve net yönlendirmelere muhtaçlık duyduğunu gösteriyor.

Katılımcılar karar verirken lisan üslubu, sohbetin akışı ve kişilik üzere sosyo-duygusal faktörleri temel aldı. Bilgi seviyesi ve mantık yürütme üzere klasik “zeka” ölçütlerinden fazla, yapay zekâların “insan üzere hissettirme” mahareti belirleyici oldu.

Araştırmacılar, bu gelişmenin hem insan gibisi lisan irtibatı kurabilen yapay zekâ casuslarının geliştirilmesine hem de makûs niyetli kullanım alanlarında risk oluşturan toplumsal mühendislik uygulamalarına kapı aralayabileceğini belirtti. “LLM’lerin ziyan verici tesirleri, insanların karşılarında bir yapay zekâ olduğunu fark etmediği durumlarda en yüksek olabilir” ikazında bulundular.

administrator

Related Articles

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir