Skip to content

Türk Dil Kurumunun kurallarına göre heceleme yapan bir çözüm

Notifications You must be signed in to change notification settings

alperali/hecele-tdk

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 

Repository files navigation

Türkçe Heceleme - TDK

Türk Dil Kurumunun sitesinde belirttiği kurallara göre heceleme yapan bir uygulamadır.

Kurallar

Kurum, üç adet kural belirtmiştir:

  1. Türkçede kelime içinde iki ünlü arasındaki ünsüz, kendinden sonraki ünlüyle hece kurar: a-ra-ba, bi-çi-mi-ne, in-sa-nın, ka-ra-ca vb.
  2. Kelime içinde yan yana gelen iki ünsüzden ilki kendinden önceki ünlüyle, ikincisi kendinden sonraki ünlüyle hece kurar: al-dı, bir-lik, sev-mek vb.
  3. Kelime içinde yan yana gelen üç ünsüz harften ilk ikisi kendinden önceki ünlüyle, üçüncüsü kendinden sonraki ünlüyle hece kurar: alt-lık, Türk-çe, kork-mak vb.

Analiz

Kuralların girmediği detaylar var.

  1. Sözcüğe baştan mı yoksa sondan mı bakılarak heceler kurulacak? Belli değil.
    Kurallar bir tür kümeleme (clustering) tekniği ima etmektedir. Halbuki bilgisayarda metinler string olarak tutulur, yani kümeli değil sıralı (sequential) bir veri yapısıdır, iteratif işlenirler. Kümeleyici anlatımı bu yapıya uyarlamak durumundayız. Baştan veya sondan fark etmez. Baştan yani okuma yönünde giderek heceleme yapan bir çözüm olsun.

  2. “Hece yapar” demek, “hecedir” demek değil.
    Somurtkan sözcüğünü ele alalım. Birinci kurala göre m harfi u ile hece yapar, ancak -mu doğru hece değildir. Üçünü kurala göre rt de u ile hece yapar. Bu ikisi birleştirilecek ve nihai -murt hecesi saptanacak. Yani iki adımda bir hece bulundu. Fakat a-ra-ba örneğinde bu durum yok, tek adımda hece bulunuyor.

  3. Ünlüler arasında olmayan ünsüz nasıl işlenecek?
    Sözcük başında ve sonunda bulunan ünsüzler hiçbir kurala uymuyor. Bunlar kendine en yakın heceye eklemlenecek gibi kabul ediyoruz.

  4. Ünsüzler arasında olmayan ünlü (yanyana iki ünlü) nasıl işlenecek?
    Kaide sözcüğünü ele alalım. Hiçbir kurala uymadığı için K harfini atladık. d harfi birinci kurala göre e ile hece yaptı. Geriye kalan Kai hangi kurala göre hecelenecek? Benzer durum fiil, şiir, nail gibi sözcüklerde de var: hiçbir kurala uymadıkları için baştaki ve sondaki ünsüzleri atladık, geriye yanyana iki ünlü kaldı, hangi kurala göre heceleme yapılacak?

  5. Bazı birleşik sözcükler ve yabancı kökenli terimlerde kurallar doğru işlemiyor.
    Vanspor , Demirspor , Trabzonspor , Şokokrem gibi birleşikler üçüncü kurala göre heceleniyor ve istenmeyen sonuçlar elde ediyoruz: Vans-por, Demirs-por, Trabzons-por, Şokok-rem. Yine Elektrik, Elektronik gibi terimler üçüncü kurala göre heceleniyor ve yanlış sonuç veriyor: Elekt-rik, Elekt-ronik.

Bu sorunlara resmi çözümler ortaya konulmadan bir algoritmanın oluşturulması mümkün görülmemektedir. Türkçe heceleme için özgün https://github.com/alperali/hecele çözümü halen mevcuttur.

About

Türk Dil Kurumunun kurallarına göre heceleme yapan bir çözüm

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published