# NLP Uygulamaları 

## N-Gram 
- N-gram'lar birlikte kullanılan kelimelerin kombinasyolarını gösterir

In [42]:
a = """
Bu örneği anlaşılabilmesi için daha uzun bir metin üzerinden göstereceğim.
N-gram'lar birlikte kullanılan kelimelerin kombinasyolarını gösterir"""

In [3]:
import textblob
from textblob import TextBlob

In [4]:
TextBlob(a).ngrams(1)

[WordList(['Bu']),
 WordList(['örneği']),
 WordList(['anlaşılabilmesi']),
 WordList(['için']),
 WordList(['daha']),
 WordList(['uzun']),
 WordList(['bir']),
 WordList(['metin']),
 WordList(['üzerinden']),
 WordList(['göstereceğim']),
 WordList(["N-gram'lar"]),
 WordList(['birlikte']),
 WordList(['kullanılan']),
 WordList(['kelimelerin']),
 WordList(['kombinasyolarını']),
 WordList(['gösterir'])]

In [7]:
TextBlob(a).ngrams(3)

[WordList(['Bu', 'örneği', 'anlaşılabilmesi']),
 WordList(['örneği', 'anlaşılabilmesi', 'için']),
 WordList(['anlaşılabilmesi', 'için', 'daha']),
 WordList(['için', 'daha', 'uzun']),
 WordList(['daha', 'uzun', 'bir']),
 WordList(['uzun', 'bir', 'metin']),
 WordList(['bir', 'metin', 'üzerinden']),
 WordList(['metin', 'üzerinden', 'göstereceğim']),
 WordList(['üzerinden', 'göstereceğim', "N-gram'lar"]),
 WordList(['göstereceğim', "N-gram'lar", 'birlikte']),
 WordList(["N-gram'lar", 'birlikte', 'kullanılan']),
 WordList(['birlikte', 'kullanılan', 'kelimelerin']),
 WordList(['kullanılan', 'kelimelerin', 'kombinasyolarını']),
 WordList(['kelimelerin', 'kombinasyolarını', 'gösterir'])]

## Part Of Speech Tagging (POS)
- Metin de bulunan kelimelerin sıfat, isim, zarf olma durumlarını tespit etmek için kullanılıyor.

In [9]:
import nltk
nltk.download("averaged_perceptron_tagger")

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\halil\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [54]:
import pandas as pd
vektor = a.split("\n")
metin_v = pd.Series(vektor)
metin_v = metin_v[1:len(vektor)]
metin = pd.DataFrame(metin_v,columns=["metinler"])
metin

Unnamed: 0,metinler
1,Bu örneği anlaşılabilmesi için daha uzun bir m...
2,N-gram'lar birlikte kullanılan kelimelerin kom...


In [56]:
TextBlob(metin["metinler"][1]).tags

[('Bu', 'NNP'),
 ('örneği', 'NNP'),
 ('anlaşılabilmesi', 'VBZ'),
 ('için', 'JJ'),
 ('daha', 'NN'),
 ('uzun', 'JJ'),
 ('bir', 'NN'),
 ('metin', 'NN'),
 ('üzerinden', 'JJ'),
 ('göstereceğim', 'NN')]

In [57]:
metin["metinler"].apply(lambda x: TextBlob(x).tags)

1    [(Bu, NNP), (örneği, NNP), (anlaşılabilmesi, V...
2    [(N-gram'lar, JJ), (birlikte, NN), (kullanılan...
Name: metinler, dtype: object

## Chunking ( shallow parsing)
- Metin de bulunan kelimelerin sıfat, isim, zarf olma durumlarını diyagram ile gösterilmesi

In [79]:
pos_metin = metin["metinler"].apply(lambda x: TextBlob(x).tags)

In [80]:
pos_metin

1    [(Bu, NNP), (örneği, NNP), (anlaşılabilmesi, V...
2    [(N-gram'lar, JJ), (birlikte, NN), (kullanılan...
Name: metinler, dtype: object

In [81]:
cumle = "R and Python are useful data science tools for the new or old data scientists who eager to do efficent data science task"

In [82]:
pos = TextBlob(cumle).tags

In [83]:
pos

[('R', 'NNP'),
 ('and', 'CC'),
 ('Python', 'NNP'),
 ('are', 'VBP'),
 ('useful', 'JJ'),
 ('data', 'NNS'),
 ('science', 'NN'),
 ('tools', 'NNS'),
 ('for', 'IN'),
 ('the', 'DT'),
 ('new', 'JJ'),
 ('or', 'CC'),
 ('old', 'JJ'),
 ('data', 'NNS'),
 ('scientists', 'NNS'),
 ('who', 'WP'),
 ('eager', 'VBP'),
 ('to', 'TO'),
 ('do', 'VB'),
 ('efficent', 'JJ'),
 ('data', 'NNS'),
 ('science', 'NN'),
 ('task', 'NN')]

In [87]:
reg_exp = "NP: {<DT>?<JJ>*<NN>}"
rp = nltk.RegexpParser(reg_exp)
sonuclar = rp.parse(pos)

In [89]:
print(sonuclar)

(S
  R/NNP
  and/CC
  Python/NNP
  are/VBP
  useful/JJ
  data/NNS
  (NP science/NN)
  tools/NNS
  for/IN
  the/DT
  new/JJ
  or/CC
  old/JJ
  data/NNS
  scientists/NNS
  who/WP
  eager/VBP
  to/TO
  do/VB
  efficent/JJ
  data/NNS
  (NP science/NN)
  (NP task/NN))


In [90]:
sonuclar.draw()

## Named Entity Recognition
- Verilen metinlerin içerisindeki örneğin bir sıfatın ne olduğunu gösteren işlemdir.

In [91]:
from nltk import word_tokenize, pos_tag, ne_chunk
nltk.download("maxent_ne_chunker")
nltk.download("words")

[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     C:\Users\halil\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping chunkers\maxent_ne_chunker.zip.
[nltk_data] Downloading package words to
[nltk_data]     C:\Users\halil\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\words.zip.


True

In [92]:
cumle = "Hadley is creative people who work for R Studio AND he attented conference at Newyork last year"
print(ne_chunk(pos_tag(word_tokenize(cumle))))

(S
  (GPE Hadley/NNP)
  is/VBZ
  creative/JJ
  people/NNS
  who/WP
  work/VBP
  for/IN
  (ORGANIZATION R/NNP Studio/NNP)
  AND/CC
  he/PRP
  attented/VBD
  conference/NN
  at/IN
  (ORGANIZATION Newyork/NNP)
  last/JJ
  year/NN)
