Araştırma yapay zekanın temel zayıflığını ortaya çıkardı: Yüzde 26 doğru okuyabildi

Araştırma yapay zekanın temel zayıflığını ortaya çıkardı: Yüzde 26 doğru okuyabildi

Uluslararası Temsillerin Tahsili Konferansı (ICLR) 2025’te sunulan ve 18 Mart’ta arXiv platformunda yayımlanan araştırma, yapay zekanın analog saatleri ve takvim tarihlerini okuma konusunda şaşırtan derecede başarısız olduğunu gösterdi. Bulgular şimdi hakem değerlendirmesinden geçmedi.

Araştırmayı yürüten Edinburgh Üniversitesi’nden Rohit Saxena, “Çoğu insan erken yaşta saat okumayı ve takvim kullanmayı öğrenir. Bu çalışma, AI sistemlerinin gerçek dünyadaki vakte hassas vazifelerde ne kadar eksik olduğunu ortaya koyuyor” dedi.

Çalışma kapsamında Meta’nın Llama 3.2-Vision, Anthropic’in Claude-3.5 Sonnet, Google’ın Gemini 2.0 ve OpenAI’ın GPT-4o modellerine özel hazırlanmış saat ve takvim görselleri sunuldu. Lakin modeller, saatleri sadece yüzde 38,7 oranında, takvim tarihlerini ise yalnızca yüzde 26,3 oranında gerçek okuyabildi.

Saxena, bu başarısızlığın temelinde yapay zekanın görsel algılama ve mekânsal akıl yürütme hususlarındaki yetersizliğinin yattığını belirtiyor. Saxena, “Analog saat okumak yalnızca manzara tanıma değil; açı ölçmek, örtüşen akrep-yelkovanı ayırt etmek ve farklı dizaynlarla başa çıkmak demektir” diyor.

Takvim hesaplamaları da benzeri formda zayıf sonuçlar verdi. Örneğin “Yılın 153. günü hangi güne denk gelir?” üzere sorularda AI sistemlerinin karşılıkları çoğunlukla kusurluydu. Zira bu cins sorular, sadece bilgiye değil, dengeli mantıksal süreç hünerine dayanıyor.

Saxena, klasik bilgisayarlar için aritmetiğin kolay olduğunu lakin büyük lisan modellerinin algoritmik olarak süreç yapmadığını, yalnızca örüntülere nazaran kestirim yürüttüğünü vurguluyor. Bu da dengeli ve kural bazlı düşünme gerektiren alanlarda zayıf performansa yol açıyor.

Sonuç olarak araştırma, AI sistemlerinin hala insan gibisi sezgi, soyutlama ve mantıkla hareket edemediğini ve bilhassa vakit algısı üzere temel misyonlarda beşere gereksinim duyulduğunu açıkça ortaya koyuyor.

administrator

Related Articles

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir