TDK 'yaşayan Türkçenin sözlüğü' için yapay zekadan destek alıyormuş

Türk Dil Kurumu (TDK) Başkanı Prof. Dr. Osman Mert, 1 milyar kelimeden oluşan derlem tabanlı ‘yaşayan Türkçe sözlüğü’ yapıldığını duyurdu. Mert sözlük için yapay zekadan da destek aldıklarını açıkladı.

Fotoğraf: TDK

Yaşayan Türkçe sözlük, Türkçe’nin güncel ve sürekli değişen yapısını takip ediyor. Bu sözlükler dile dahil olan yeni kelimeler (örneğin selfie) ve anlam değişikliklerini içeriyor.

Mert, Türkiye Türkçesi’nin tarihi coğrafyasında kullanılan Türkçe’yi hedefleyen projede derleme aşamasının yüzde 95 tamamlandığını söyledi. Mert’in açıklamasına göre yazılıma veri girilmeye başlandı ve yıl sonuna kadar proje tamamlanacak.

Osman Mert. Fotoğraf: AA

Mert sözlük çalışmalarına ilişkin şöyle konuştu:

* Derlem tabanlı Türkçe sözlük çalışmaları da devam ediyor. Kullanılan sözlük büyük oranda edebiyat dili sözlüğü ve Türkçe’yi temsil kabiliyeti düşük.

* Bütün bilim dallarını, kültür alanlarını temsil eden 1 milyar kelimelik işlenebilir metin havuzu, metin bankası oluşturuyoruz. Derlem tabanlı Türkçe sözlük için yapay zekadan da destek aldık. Yaşayan Türkçe’nin sözlüğünü yapacağız.

* Türkçe’nin kullanıldığı bütün alanlardaki söz varlığı orada temsil edilecek. Sözlükte edebiyat, sanat, felsefe, tarih, coğrafya, biyoloji, kimya, matematik, fizik gibi bütün bilim dallarına ait metinlerin yanında konuşma diline ait metinler de olacak, aile ortamında, kafede, sokakta, ders ortamında konuşulan dil ile çocuk dili örnekleri de bulunacak.

‘Söz varlığı yedi, sekiz katına çıkacak’

* İlkokul, ortaokul öğrencilerinin yazılı sınav kağıtları da olacak. Bütün toplum kesimleri, bütün bilim dalları, kültür alanları temsil edilecek ve sonuç itibarıyla temsil kabiliyeti çok yüksek, her maddenin örneklerinin olduğu, bize her konuda istatistiki bilgi verebilen bir sözlük olacak.

* Bu sözlükle mevcut sözlüğümüzdeki söz varlığı en az yedi, sekiz katına çıkacak. Bu dilimiz için fevkalade bir durum. Bu gelişme, başta Türkçe düşünen yapay zeka olmak üzere sözlüğün kullanıldığı her alanı etkileyecek.

* Nasıl insanlar, bütün bilim dallarına ait bilgileri dille öğreniyorsa aslında yapay zekalar da bütün bilgileri dille öğreniyor. Bu çalışma bittiğinde Türkçe düşünen yapay zeka çok önemli ölçüde gelişme kaydedecek.

Fotoğraf: AA

‘1 milyar kelimelik’

* Çalışmanın üç buçuk yıl sürmesini öngörüyoruz. 1 milyar kelimelik bir derlem üzerinde çalışıyoruz. Normal koşullarda insanın 1 milyar kelimelik bir veriye hakim olması mümkün değil, işte bunu yapay zekanın, yazılımların desteğiyle yapıyoruz.

Derlem tabanlı ne demek?

Dil Bilim Derneği’nin derlem tanımı şöyle:

“Derlemler, binlerce veya milyonlarca sözcükten oluşan belirli bir dil kullanımını temsil eden, dil içi ve dil dışı ölçütlerine referans olan araçlardır.

Derlem çalışmaları, sözcüklerin belirli dizimler içinde kullanıldığını ve sıklıkla kullanılan sözcüklerinse belirli eşdizimliliklerinin (collocate) ve kullanımlarının neler olduğunu göstermeye olanak tanımaktadır.

Derlemler, yazılı ve sözlü veriler bir araya getirilerek oluşturulmaktadır. Boyut ve yapı bağlamında derlemler ikiye ayrılmaktadırlar: Hazır derlemler (ready-made corpus) ve özelleşmiş derlemler (specialised corpora).

Hazır derlemler, çoğunlukla akademik gruplarca oluşturulmakta ve dili bir bütün olarak ele almaktadır. Bunlar, ayrıca bireysel kullanımlara da açıktır.

Diğer derlem türüyse küçük boyutlu ve dilde belirli bir türü (genre) içermektedir. Araştırmacı bunu sınırlı bir bağlamdaki dili incelemek amacıyla kendi hazırlamaktadır.”

TDK, bazı sözcüklerin yazımını güncelledi

Kılavuzu ‘İmla/Yazım Kılavuzu’ olanın kalemi…

1 milyon kişi oy kullandı: TDK’ya göre yılın kelimesi ‘kalabalık yalnızlık’

Mahkeme karar verdi: TDK sözlüğündeki cinsiyetçi ifadeler kaldırılacak