<h2 align="center">NLTK Kütühanesi ile Gelişmiş Doğal Dil İşleme</h2>

NLTK'ın İşlevleri Şunlardır:



<li> Kelimeleri sayma, kelimelerin sıklığını sayma </li>
<li> Cümle sınırlarını bulma </li>
<li> Konuşma parçalarını etiketleme (POS)</li>
<li> Cümle yapısını ayrıştırma </li>
<li> Anlamsal rol etiketlemesini tanımlama </li>
<li> Adlandırılmış Varlık Tanıma </li>
<li> Ortak referans ve zamir çözümü </li>

<h2 align="center">Part of Speech Tagging (POS)</h2>

NLTK kütüphanesi içerisinde yer alan metotlar bir cümle içindeki isimleri, fiilleri, sembolleri, zamirleri bulup bunları etiketleme
yaparak tablo oluşturabilmektedir. Aynı zamanda cümle içindeki kelimeleri ayırıp onları kategorilendirir.

<h3><ins>NLTK Kütüphanesinde Yer Alan TagSetlerini Sorgulama</ins></h3>

In [2]:
import nltk
nltk.help.upenn_tagset('MD')  #yardımcı fiiller hangileridir

MD: modal auxiliary
    can cannot could couldn't dare may might must need ought shall should
    shouldn't will would


In [8]:
nltk.help.upenn_tagset('TO') #edatlar hangileridir

TO: "to" as preposition or infinitive marker
    to


In [9]:
nltk.help.upenn_tagset('RB') #zarflar hangileridir

RB: adverb
    occasionally unabatingly maddeningly adventurously professedly
    stirringly prominently technologically magisterially predominately
    swiftly fiscally pitilessly ...


In [10]:
nltk.help.upenn_tagset('NN') #tekil yaygın isim ya da topluluklar hangileridir

NN: noun, common, singular or mass
    common-carrier cabbage knuckle-duster Casino afghan shed thermostat
    investment slide humour falloff slick wind hyena override subhumanity
    machinist ...


In [12]:
nltk.help.upenn_tagset('NNP') #isim ve tekil kelimeler hangileridir

NNP: noun, proper, singular
    Motown Venneboerger Czestochwa Ranzer Conchita Trumplane Christos
    Oceanside Escobar Kreisler Sawyer Cougar Yvette Ervin ODI Darryl CTCA
    Shannon A.K.C. Meltex Liverpool ...


In [13]:
nltk.help.upenn_tagset('VB') #fiil ve yalın haldeki kelimeleri hangileridir

VB: verb, base form
    ask assemble assess assign assume atone attention avoid bake balkanize
    bank begin behold believe bend benefit bevel beware bless boil bomb
    boost brace break bring broil brush build ...


<h2 align="center">POS İşlemleri</h2>

<b>word_tokenize metodunda</b> tüm kelimeler düzgünce ayrılmaktadır ama bu kelimelerin isim mi fiil mi zarf mı olduğu konusunda
bizlere herhangi bir bilgi verilmemektedir. Bu konuda imdadımıza POS yetişir.

**pos_tag** metodunu kullanabilmemiz için öncelikle cümle **word tokenize metoduna** tâbi tutulur.

In [14]:
text11 = "Children shouldn't drink a sugary drink before bed." 
text13 = nltk.word_tokenize(text11)
text13

['Children',
 'should',
 "n't",
 'drink',
 'a',
 'sugary',
 'drink',
 'before',
 'bed',
 '.']

In [16]:
nltk.pos_tag(text13) #kelimeleri kelime sınıflarına göre ayır

[('Children', 'NNP'),
 ('should', 'MD'),
 ("n't", 'RB'),
 ('drink', 'VB'),
 ('a', 'DT'),
 ('sugary', 'JJ'),
 ('drink', 'NN'),
 ('before', 'IN'),
 ('bed', 'NN'),
 ('.', '.')]

<h2 align="center">Cümle Yapısına Göre Ayırma İşlemi</h2>

Örneğin <b>Alice loves Bob</b> cümlesini inceleyelim. Cümle (S), isim (NP) ve fiil cümlelerinden (VP) oluşmaktadır.

![](/images/cumle-yapisi.jpg)

In [17]:
text15 = nltk.word_tokenize("Alice loves Bob")
grammar = nltk.CFG.fromstring("""
S -> NP VP
VP -> V NP
NP -> 'Alice' | 'Bob'
V -> 'loves'
""")

parser = nltk.ChartParser(grammar)
trees = parser.parse_all(text15)
for tree in trees:
    print(tree)

(S (NP Alice) (VP (V loves) (NP Bob)))


In [20]:
text16 = nltk.word_tokenize("I saw the man with a telescope")
grammar1 = nltk.data.load('mygrammar.cfg')
grammar1

IndexError: list index out of range

In [40]:
from nltk.corpus import treebank
text17 = treebank.parsed_sents('wsj_0001.mrg')[0]
print(text17)

(S
  (NP-SBJ
    (NP (NNP Pierre) (NNP Vinken))
    (, ,)
    (ADJP (NP (CD 61) (NNS years)) (JJ old))
    (, ,))
  (VP
    (MD will)
    (VP
      (VB join)
      (NP (DT the) (NN board))
      (PP-CLR (IN as) (NP (DT a) (JJ nonexecutive) (NN director)))
      (NP-TMP (NNP Nov.) (CD 29))))
  (. .))


In [41]:
text18 = nltk.word_tokenize("The old man the boat")
nltk.pos_tag(text18)

[('The', 'DT'), ('old', 'JJ'), ('man', 'NN'), ('the', 'DT'), ('boat', 'NN')]

In [None]:
text19 = nltk.word_tokenize("Colorless green ideas sleep furiously")
nltk.pos_tag(text19)