# TURKISH NPL

# NPL

NLP, yani "Doğal Dil İşleme", insan dilinin bilgisayarlar tarafından anlaşılması ve işlenmesi ile ilgili bir alandır. Bu, bilgisayarların insan dili ile etkileşim kurmasına izin veren çeşitli teknikleri içerir. Türkçe NLP, Türkçe dilinin özelliklerine özgü olan ve Türkçe metinleri işlemek için kullanılan NLP teknikleri ve araçlarıdır. Bu teknikler, örneğin metin sınıflandırması, kelime dağarcığı oluşturma, anlamsal analiz, makine çevirisi, duygu analizi gibi uygulamalar için kullanılabilir

In [1]:
# !pip install turkishnlp

In [2]:
import turkishnlp

# VERİ ELDESİ

Veri kümesi wikipedia'nın Türkçe dump'ı bölünerek temizlenerek oluşturuldu.
Veriyi indirmek için önce TurkishNLP sınıfından türetilmiş bir obje oluşturmamız lazım;

In [5]:
from turkishnlp import detector
obje = detector.TurkishNLP()


Objeyi indiriyoruz.

In [6]:
obje.download()

Download is successful


Veri seti oluşturmak.

In [11]:
obje.create_word_set()


# TÜRKÇE DİL TESPİTİ 

Türkçe bir cümle ile öncesinde kontrol gerçekleştirelim.

In [12]:

print(obje.is_turkish("Ben bugün ankaraya gideceğim belki birşeyler alırım"))


0.8571428571428571
True


# YAZIM HATASI DÜZELTME

Alttaki kod bloğu yazım hatası kontrolünün başarısını görebilmek için bir sözcük listesinde otomatik yazım düzeltmesi yapmak için yazılmıştır.

İlk satır lwords = obje.list_words("vri kümsi idrae edre ancaka daha güezl oalbilir") verilen "vri kümsi idrae edre ancaka daha güezl oalbilir" dizgesindeki tek tek kelimeleri içeren lwords adlı bir liste oluşturur.

İkinci satır olan obje.auto_correct(lwords), lwords listesindeki her bir kelimeye bir yazım düzeltme algoritması uygulayan, lwords bağımsız değişkeniyle object adlı bir nesne üzerinde auto_correct() adlı bir yöntemi çağırır. Düzeltilen kelimeler yeni bir liste olarak döndürülür.

In [13]:

lwords = obje.list_words("vri kümsi idrae edre ancaka daha güezl oalbilir")
print(obje.auto_correct(lwords))


['veri', 'kümesi', 'idare', 'eder', 'ancak', 'daha', 'güzel', 'olabilir']




"vri kümsi idrae edre ancaka daha güezl oalbilir" girdi dizgisi ile obje adlı bir nesne üzerinde list_words() yöntemini çağırarak lwords adı verilen bir sözcük listesi oluşturur.
obj nesnesinde auto_correct() yöntemini çağırarak ve lwords'ü bağımsız değişken olarak ileterek lwords listesindeki her sözcük için otomatik yazım düzeltmesi uygular. Düzeltilen sözcükler daha sonra düzeltilmiş_kelimeler adı verilen yeni bir listede saklanır.
Düzeltilen sözcükleri aralarında boşluk olacak şekilde birleştirmek için join() yöntemini kullanarak düzeltilmiş_kelimeler listesini, düzeltilmiş_dize adlı bir dizeye dönüştürür.
Düzeltilmiş dizeyi konsola yazdırır.
Bu nedenle, kodun çıktısı "vri kümsi idrae edre ancaka daha güezl oalbilir" giriş dizisinin düzeltilmiş halini içeren bir dizidir. Çıktı, auto_correct() yöntemi tarafından kullanılan otomatik yazım düzeltme algoritmasına bağlı olarak değişebilir.

In [15]:
lwords = obje.list_words("vri kümsi idrae edre ancaka daha güezl oalbilir")
corrected_words = obje.auto_correct(lwords)
corrected_string = " ".join(corrected_words)
print(corrected_string)


veri kümesi idare eder ancak daha güzel olabilir


# Hecelere Ayırmak


"Ben hayatta en çok babamı vermedim" giriş cümlesiyle obje adlı bir nesne üzerinde syllabicate_sentence() adlı bir yöntemi çağırıyor.

syllabicate_sentence() yönteminin amacı, bir cümledeki her sözcüğü hecelemek veya onu oluşturan hecelere ayırmaktır. Yöntemin çıktısı, her kelimenin kendisini oluşturan hecelere bölündüğü ve kısa çizgilerle ("-") ayrıldığı bir dize olacaktır.

Bu nedenle, kodun çıktısı, "Ben hayatta en çok babamı sevmedim" giriş cümlesinin heceli halini temsil eden bir dizi olacaktır. Çıktı şöyle görünebilir: "Ben ha-yat-ta en çok ba-ba-mı sev-dim".

In [16]:
obje.syllabicate_sentence("Ben hayatta en çok babamı sevdim")


[['ben'],
 ['ha', 'yat', 'ta'],
 ['en'],
 ['çok'],
 ['ba', 'ba', 'mı'],
 ['sev', 'dim']]

# Büyük Ünlü Uyumu


"kekik" giriş dizesiyle obje adlı bir nesne üzerinde is_vowel_harmonic() adlı bir yöntemi çağırıyor.

is_vowel_harmonic() yönteminin amacı Türkçe bir kelimenin ünlü uyumuna sahip olup olmadığını tespit etmektir. Ünlü uyumu, bir kelimedeki ünlülerin, ünlülerin kelimedeki konumuna göre birbirleriyle eşleşecek şekilde seçildiği Türk dilinin bir özelliğidir. Bir Türkçe kelimedeki tüm ünlüler ön/arka ve yuvarlak/yuvarlak olmayan ayrımına göre eşleşiyorsa o kelime ünlü uyumuna sahiptir denir.

Bu nedenle kodun çıktısı "kekik" giriş dizisinin ünlü uyumuna sahip olup olmadığını gösteren bir Boole değeri olacaktır. Çıktı değeri, is_vowel_harmonic() yönteminin özel uygulamasına ve "kekik"nin Türkçede sesli harf uyumu olup olmadığına bağlı olacaktır.

In [19]:
obje.is_vowel_harmonic("kekik")

True

# Türkçe Köken Kontrolü


"bisküvi" giriş dizesiyle obje adlı bir nesne üzerinde is_turkish_origin() adlı bir yöntemi çağırıyor.

is_turkish_origin() yönteminin amacı verilen bir kelimenin Türkçe kökenli olup olmadığını tespit etmektir. Yöntem, verilen kelimenin sadece Türkçe karakterler (yani Türk alfabesinde kullanılan harfler: a, b, c, ç, d, e, f, g, ğ, h, ı, i, j, k,) içerip içermediğini kontrol eder. l, m, n, o, ö, p, r, s, ş, t, u, ü, v, y ve z) ve Türk dilinin fonotaktiğine (izin verilen ses kombinasyonları kurallarına) uyup uymadığı.

Bu nedenle kodun çıktısı "bisküvi" giriş dizisinin Türkçe kökenli olup olmadığını gösteren bir Boole değeri olacaktır. "bisküvi", Türkçe'nin fonotaktiğine uyması için bazı değişikliklere uğrayan Fransızca "bisküvi" kelimesinden ödünç alınan bir kelime olduğundan, çıktı değeri is_turkish_origin() yönteminin özel uygulamasına bağlı olabilir.

In [20]:
obje.is_turkish_origin("bisküvi")


True

In [21]:
obje.is_turkish_origin("yazılım")


True

# Boşluksuz Yazılan Yazıyı Düzeltme


obje nesnesi üzerinde correct_text_without_space() metodunu çağırmaktadır. Bu metodun parametresi olarak "türkçeçalışmakgüzeldir" isimli bir string verilmiştir.

correct_text_without_space() metodunun amacı, verilen bir string içerisindeki boşluk olmayan yanlış yazılmış kelimeleri otomatik olarak düzeltmektir. Bu metod kelime bazlı bir düzeltme yapmaktadır. Verilen string içerisindeki kelimeleri algılar ve yanlış yazılmış kelimeleri doğru halleriyle değiştirir. Bu işlem sonucunda, string içerisindeki boşluk olmayan kelimelerin doğru halleri ile düzeltildiği bir string elde edilir.

Bu nedenle, verilen "türkçeçalışmakgüzeldir" stringi içerisindeki yanlış yazılmış kelimelerin doğru halleriyle değiştirilmiş hali olan bir string, correct_text_without_space() metodunun çıktısı olarak elde edilecektir.

In [24]:
obje.correct_text_without_space("türkçeçalışmakgüzeldir")

'türkçe çalışmak güzeldir'

In [26]:
obje.correct_text_without_space("herbirtürkgenciatatürkünnutukkitabınıokumakzorundadır")


'her bir türk gen c i a t a t ü r k ü n n u t u k k i t a b ı n ı o k u m a k z o r u n d a d ı r'