<h2 align="center">DOĞAL DİL İŞLEME (NLP)</h2>

Doğal dil işlemeyi Python'da yer alan <b>NLTK (Natural Language Tool Kit) Kütüphanesi</b> yardımıyla gerçekleştirmekteyiz.
Bunun için öncelikle sistemimize ntlk kütüphanesini indirmeliyiz. Ben, işlemlerimi jupyter notebook üzerinden 
gerçekleştirdiğimden ötürü bu kütüphanenin indirilmesini terminal üzerinden gerçekleştirdim.

<h3><ins>NTLK Kütüphanesi Nasıl İndirilir?</ins></h3>

<ul>

<li>Öncelikle bilgisayarınızda python'ın yüklediğiniz klasörün içine girin.</li>
<li>Daha sonra <b>Scripts</b> adlı klasöre tıklayınız.</li>
<li>Git Bash terminalini burada çalıştırınız.</li>
<li>Daha sonra <code>pip3 install ntlk</code> komut satırını terminale yazınız</li>
<li>Eğer işlemleriniz doğru ise <i>Successfully installed click-7.1.2 joblib-0.16.0 nltk-3.5 regex-2020.7.14 tqdm-4.48.2
</i> yazısını terminalizden görünteleyebilirsiniz</li>


</ul>

    Tüm adımları aşağıdaki görseli inceleyerek gerçekleştirebilirsiniz !

![](/images/nltk-indirmek.jpg)

In [2]:
import nltk
nltk.download()
from nltk.book import *


showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml
*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


<h3><ins>NLTK Paketlerinin İndirilmesi</ins></h3>

Yukarıda yazan cümlelerin otomatik olarak çalışma kağıdına gelmesi için <code>nltk.download()</code> kodunun çalıştırılması
gerekmektedir. Bu kod ile bilgisayarınıza aşağıdaki gibi <b>NLTK Downloader</b> uygulaması açılacaktır.

![](/images/nltk-downloader.jpg)

* Yukarıdaki ekrandan <b>all seçeneğine</b> tıklayın. Bu paketler ile birlikte text corpora, wordnet gibi birçok paket 
bilgisayarınıza kurulmuş olacak.

* Tüm işlem tamamlandığında aşağıdaki gibi bir ekran karşınıza gelecektir.

![](/images/all-packages.jpg)

* Bu adımdan sonra **jupyter notebook'unuzu** açın.Örnek textleriniz ekrana geldiğini göreceksiniz. İşlemlerinizi yapmaya devam edebilirsiniz

<h2 align="center">NTLK Kütüphanesi ile İşlemler</h2>

In [3]:
text7 #text7'yi goruntule

<Text: Wall Street Journal>

In [4]:
sent7 #cumleyi goruntule

['Pierre',
 'Vinken',
 ',',
 '61',
 'years',
 'old',
 ',',
 'will',
 'join',
 'the',
 'board',
 'as',
 'a',
 'nonexecutive',
 'director',
 'Nov.',
 '29',
 '.']

In [5]:
len(sent7) #kelime sayisini bul

18

In [6]:
len(text7) #text7'deki karakter sayisini bul

100676

In [7]:
len(set(text7)) #text7'deki unique degerlerin karakter sayisini bul

12408

In [8]:
list(set(text7))[:10] #text7'deki ilk 10 unique kelimeyi listele

['Donuts',
 'shot',
 'Bunny',
 'keyboards',
 'Fears',
 'Labor',
 'sweet',
 'fellow',
 'foundering',
 'quantitive']

<h3><ins>Kelimelerin Frekanslarını (Sıklıklarını) Bulma</ins></h3>

Kelimelerin frekanslarını hesaplamak için NLTK kütüphanesinde yer alan <b>FreqDist</b> metodunu kullanırız

In [9]:
dist = FreqDist(text7) #text7 icerisindeki kelimelerin frekanslarını hesapla
dist

FreqDist({',': 4885, 'the': 4045, '.': 3828, 'of': 2319, 'to': 2164, 'a': 1878, 'in': 1572, 'and': 1511, '*-1': 1123, '0': 1099, ...})

<i>Yukarıda gördüğünüz örneğe göre;</i>



<li>4885 adet ,</li>
<li>4045 adet the</li>
<li>3828 adet .</li>
<li>2319 adet of</li>
<li>2164 adet to</li>
<li>1878 adet a</li>
<li>1572 adet in</li>
<li>1511 adet and kullanılmıştır.</li> 

In [28]:
vocab1 = dist.keys() #liste şeklinde unique kelimeleri vocab1 degiskenine ata
#vocab1

In [12]:
list(vocab1)[:10] #ilk 10 kelimeyi listele

['Pierre', 'Vinken', ',', '61', 'years', 'old', 'will', 'join', 'the', 'board']

<h3><ins>İstenilen Kelimenin Frekansını Bulma<ins></h3>

Bunun için NTLK kütüphanesinde yer alan <b>dist metodunu</b> kullanmamız gerekmektedir.

In [13]:
dist['four'] #four kelimesinin frekansını bulma

20

In [14]:
freqwords = [w for w in vocab1 if len(w) > 5 and dist[w] > 100] #5 karakterden uzun frekansı 100'den fazla olan kelimeleri yaz
freqwords  

['billion',
 'company',
 'president',
 'because',
 'market',
 'million',
 'shares',
 'trading',
 'program']

<h2 align="center">Normalleştirme ve Kök Bulma (Normalization and Stemming)</h2>

Cümlelerin içinde kullanılan kelimeler her zaman yalın halde kullanılmaz. İngilizce üzerinden gidersek eğer, kelimeler 
kullanıldıkları zaman kavramına göre belli ekler almaktadır. Bu kelimelerin köklerini bulmak için öncelikle cümle normalleştirilip
daha sonra kök bulma işlemine tâbi tutulur.

Köklerin bulunması için öncelikle tüm kelimelerin küçük harf karakteriyle başlaması gerekmektedir. Cümle başlangıcında yer alan 
kelimeler genellikle büyük harfle başladığı için öncelikle aşağıdaki gibi tüm cümle küçük harfe çevrilir.

In [15]:
input1 = "List listed lists listing listings"
words1 = input1.lower().split(' ') #tum cumleyi kucuk harfe cevir ve bosluk karakterine gore ayir
words1

['list', 'listed', 'lists', 'listing', 'listings']

Çevirme işlemi tamamlandıktan sonra NLTK Kütüphanesinde yer alan <b>PorterStemmer metodu</b> ile tum kelimeler bir liste atılır.
Daha sonra listenin adı.<b>stem</b> metodu ile tüm kelimelerin kökleri bulunur

In [17]:
porter = nltk.PorterStemmer()
[porter.stem(t) for t in words1] #words1 listesindeki tum kelimelerin koklerini bul

['list', 'list', 'list', 'list', 'list']

<h2 align="center">Lemmatization</h2>

In [20]:
udhr = nltk.corpus.udhr.words('English-Latin1') #corpusa kayıtlı english-latin1 olan kelimeleri udhr degiskenine ata
udhr[:20]

['Universal',
 'Declaration',
 'of',
 'Human',
 'Rights',
 'Preamble',
 'Whereas',
 'recognition',
 'of',
 'the',
 'inherent',
 'dignity',
 'and',
 'of',
 'the',
 'equal',
 'and',
 'inalienable',
 'rights',
 'of']

In [21]:
[porter.stem(t) for t in udhr[:20]] #udhr listesindeki ilk 20 kelimenin kökünü bul

['univers',
 'declar',
 'of',
 'human',
 'right',
 'preambl',
 'wherea',
 'recognit',
 'of',
 'the',
 'inher',
 'digniti',
 'and',
 'of',
 'the',
 'equal',
 'and',
 'inalien',
 'right',
 'of']

<h2 align="center">Tokenization</h2>

<p>Tokenizasyon, hassas verilerin rastgele ve benzersiz bir değer ile ifade edilmesine denilmektedir. NLP işlemlerinde kullanılma
sebebi ise bazı metotların ihtiyacı tam karşılayamamasıdır.</p>


<i>Örneğin;</i> text11'e atadığımız cümleyi boşluk karakterine göre ayıralım

In [23]:
text11 = "Children shouldn't drink a sugary drink before bed." 
text11.split(' ')

['Children', "shouldn't", 'drink', 'a', 'sugary', 'drink', 'before', 'bed.']

Eğer cümleleri bu şekilde ayırıp kök bulma işlemine sokarsak verimli bir sonuç elde edemeyiz. Çünkü <b>shouldn't</b> kelimesi
aslında <b>should</b> ve **not** kelimelerinin birleşmesi ile oluşmaktadır. Boşluk karakterine göre ayırdığımızda
bu iki ayrı kelimeyi tek kelime olarak algılamaktadır. Bir diğer sorun ise cümle sonundaki noktalama işaretini son kelime ile
birleşik tutması. O yüzden cümle içerisindeki bu tür kısaltmaları ayrı ayrı ele almamız gerekmektedir. Bunun için de
**word_tokenize** metodunu kullanılır

In [24]:
nltk.word_tokenize(text11)

['Children',
 'should',
 "n't",
 'drink',
 'a',
 'sugary',
 'drink',
 'before',
 'bed',
 '.']

<h3><ins>Metinleri Cümlelere Ayırmak</ins></h3>

Metinde yer alan cümleleri bir liste halinde tutmak için NLTK Kütüphanesinde yer alan **sent_tokenize** metodu kullanılmaktadır.
Bu metodun çalışma mantığına göre metindeki cümleler .'lara göre ayrılmamaktadır. Eğer öyle olsaydı **U.S** kısaltması ve
**$2.99** olarak ifade edilmiş para birimi biçim için sorun teşkil ederdi. 

In [25]:
text12 = "This is the first sentence. A gallon of milk in the U.S. costs $2.99. Is this the third sentence? Yes, it is!"
sentences = nltk.sent_tokenize(text12) #text12'yi cumlelere ayir
sentences                              #cumleleri ekrana bas

['This is the first sentence.',
 'A gallon of milk in the U.S. costs $2.99.',
 'Is this the third sentence?',
 'Yes, it is!']

In [27]:
len(sentences) #sentences degiskeninin uzunlugunu (text12'deki cumle sayisini) ekrana bas

4