# Basit NLP Uygulamaları


In [1]:
import nltk
import textblob
import pandas as pd
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from textblob import TextBlob, Word
from nltk import word_tokenize, pos_tag, ne_chunk

nltk.download("punkt", quiet=True)
nltk.download("wordnet", quiet=True)
nltk.download("stopwords", quiet=True)
nltk.download("averaged_perceptron_tagger", quiet=True)

True

Yukarıdaki kod bloğu, nltk, textblob, ve pandas gibi Python kütüphanelerini içe aktararak, doğal dil işleme (NLP) ile ilgili işlemler yapmak için gereken araçları hazırlamaktadır.

nltk kütüphanesi, doğal dil işleme için çok sayıda araç içerir. Bu kod bloğunda, corpus modülü içinden stopwords veri kümesi ve PorterStemmer stemmer sınıfı kullanılacaktır. Ayrıca, word_tokenize, pos_tag, ve ne_chunk fonksiyonları, metin analizi için sıklıkla kullanılan araçlardır.

textblob kütüphanesi de doğal dil işleme ile ilgili çeşitli araçlar sunmaktadır. Bu kod bloğunda, TextBlob ve Word sınıfları kullanılacak. TextBlob sınıfı, metinler üzerinde farklı işlemler yapabilmek için kullanılan bir araçtır. Word sınıfı ise, bir kelime üzerinde farklı işlemler yapmak için kullanılır.

pandas kütüphanesi ise, veri analizi ve işleme işleri için kullanılan bir kütüphanedir.

Son olarak, nltk.download() fonksiyonu kullanılarak, bazı nltk veri kümeleri indirilir. Bu veri kümeleri, bazı NLP işlemlerinin gerçekleştirilebilmesi için gereklidir. Bu kod bloğunda, "punkt", "wordnet", "stopwords", ve "averaged_perceptron_tagger" adlı veri kümeleri indirilmektedir.

In [2]:
string= "N-Gram uygulamasının nasıl çalıştığını görebilmek için buraya bir string metin ifadesi yazalım ve N-Gram nasıl kullanılıyor anlayalım."

In [3]:
string

'N-Gram uygulamasının nasıl çalıştığını görebilmek için buraya bir string metin ifadesi yazalım ve N-Gram nasıl kullanılıyor anlayalım.'

# N-GRAM

N-Gram Nedir?

N-gram, doğal dil işleme (NLP) alanında sıklıkla kullanılan bir yöntemdir. Metinlerin daha iyi anlaşılabilmesi için kullanılan bir tür dil modelidir.

N-gram, bir metin içindeki ardışık N kelime kombinasyonlarını ifade eder. Örneğin, 2-gram (bigram) bir metin içindeki ardışık iki kelime kombinasyonlarını ifade eder. Benzer şekilde, 3-gram (trigram) bir metin içindeki ardışık üç kelime kombinasyonlarını ifade eder.

N-gram modelleri, bir metnin anlamını çıkarmak, kelime sıklıklarını hesaplamak, kelime önerilerinde bulunmak, dil modelleri oluşturmak ve metin sınıflandırma işlemlerinde kullanmak gibi birçok farklı NLP görevinde kullanılabilir. Ayrıca, n-gram yöntemi dil öğrenme (language learning) ve karakter tanıma (character recognition) gibi alanlarda da kullanılır.

Özellikle, büyük veri kümeleri üzerinde çalışırken, n-gram yöntemi önemli bir işlem yapar. N-gram yöntemi, büyük veri kümelerindeki anlamlı kelimelerin tespit edilmesinde, sözcüklerin sıklığına dayalı olarak etkili bir şekilde filtreleme yapmak için kullanılabilir.

In [4]:
TextBlob(string).ngrams(1)

[WordList(['N-Gram']),
 WordList(['uygulamasının']),
 WordList(['nasıl']),
 WordList(['çalıştığını']),
 WordList(['görebilmek']),
 WordList(['için']),
 WordList(['buraya']),
 WordList(['bir']),
 WordList(['string']),
 WordList(['metin']),
 WordList(['ifadesi']),
 WordList(['yazalım']),
 WordList(['ve']),
 WordList(['N-Gram']),
 WordList(['nasıl']),
 WordList(['kullanılıyor']),
 WordList(['anlayalım'])]

In [5]:
TextBlob(string).ngrams(2)

[WordList(['N-Gram', 'uygulamasının']),
 WordList(['uygulamasının', 'nasıl']),
 WordList(['nasıl', 'çalıştığını']),
 WordList(['çalıştığını', 'görebilmek']),
 WordList(['görebilmek', 'için']),
 WordList(['için', 'buraya']),
 WordList(['buraya', 'bir']),
 WordList(['bir', 'string']),
 WordList(['string', 'metin']),
 WordList(['metin', 'ifadesi']),
 WordList(['ifadesi', 'yazalım']),
 WordList(['yazalım', 've']),
 WordList(['ve', 'N-Gram']),
 WordList(['N-Gram', 'nasıl']),
 WordList(['nasıl', 'kullanılıyor']),
 WordList(['kullanılıyor', 'anlayalım'])]

In [6]:
TextBlob(string).ngrams(3)

[WordList(['N-Gram', 'uygulamasının', 'nasıl']),
 WordList(['uygulamasının', 'nasıl', 'çalıştığını']),
 WordList(['nasıl', 'çalıştığını', 'görebilmek']),
 WordList(['çalıştığını', 'görebilmek', 'için']),
 WordList(['görebilmek', 'için', 'buraya']),
 WordList(['için', 'buraya', 'bir']),
 WordList(['buraya', 'bir', 'string']),
 WordList(['bir', 'string', 'metin']),
 WordList(['string', 'metin', 'ifadesi']),
 WordList(['metin', 'ifadesi', 'yazalım']),
 WordList(['ifadesi', 'yazalım', 've']),
 WordList(['yazalım', 've', 'N-Gram']),
 WordList(['ve', 'N-Gram', 'nasıl']),
 WordList(['N-Gram', 'nasıl', 'kullanılıyor']),
 WordList(['nasıl', 'kullanılıyor', 'anlayalım'])]

# Part of Speech Tagging (POS)


Part Of Speech Tagging Nedir?

Part-of-Speech (POS) tagging, bir metnin içindeki her kelimenin dilbilgisi özniteliklerinin (yani, ad, sıfat, fiil, zarf, edat, vb.) belirlenmesidir. POS tagging, doğal dil işleme (NLP) alanında sıklıkla kullanılan bir yöntemdir ve metinlerin otomatik olarak analiz edilmesinde ve anlamlandırılmasında önemli bir rol oynar.

POS tagging, bir metindeki kelime özelliklerini belirleyerek, metnin anlamını daha doğru bir şekilde anlamak ve anlamsal açıdan benzer kelimeleri gruplamak için kullanılır. Örneğin, "bank" kelimesi birçok farklı anlama gelebilir - bir finans kurumu, bir nehir kenarı veya bir oturma yeri. Ancak, POS etiketleme yöntemi kullanılarak, cümledeki "bank" kelimesinin "finans kurumu" anlamında olduğu belirlenebilir.

POS etiketleme, çeşitli NLP görevlerinde kullanılabilir, örneğin, kelime önerme, anlamsal analiz, cümle yapılandırma, kelime sıklığı hesaplama ve dil modelleri oluşturma gibi işlemlerde kullanılır. Ayrıca, makine öğrenmesi algoritmaları için önemli bir özellik öznitelikleri olarak da kullanılabilir.

In [7]:
metin = """
Hamlet
Romeo ve Juliet
Kral Lear
Othello
Macbeth
Jül Sezar
Antonius ve Kleopatra
Sıska Ayaklı Şövalye
Fırtına
Kış Masalı
Kuru Gürültü
Titus Andronicus
İkinci Kral Henry
Dört Mevsim"""


Aşağıdaki kod bloğu, öncelikle "metin" adlı bir değişkene atanmış çok satırlı bir metni satır bazında ayırarak bir liste oluşturuyor. Daha sonra, "pd.Series" yöntemi kullanılarak bu liste, pandas kütüphanesinin "Series" sınıfı nesnesine dönüştürülüyor. Böylece, veri daha sonra pandas kütüphanesi tarafından kolayca işlenebilir hale geliyor.

In [8]:
v_metin = metin.split("\n")
v_metin = pd.Series(v_metin)

Aşağıdaki kod bloğu, "v_metin" isimli pandas Series nesnesinden, 1. indis değerinden (yani metnin ilk satırından) başlayarak son indis değerine kadar olan kısmını alarak bir alt dizi (slice) oluşturuyor. Böylece, ilk satır (yani metnin başlığı) dışındaki tüm satırları içeren bir liste oluşturuluyor. Bu liste daha sonra başka işlemlerde kullanılabilir.

In [9]:
metin_vektoru = v_metin[1:len(v_metin)]


Aşağıdaki  kod bloğu, bir pandas DataFrame oluşturur ve "Hikayeler" sütununda metinlerin küçük harfle yazılmasını, noktalama işaretlerinin ve sayıların kaldırılmasını sağlar. Bu sayede metinlerin işlenmesi ve analizi daha kolay hale gelir.

In [10]:
mdf = pd.DataFrame(metin_vektoru, columns = ["Hikayeler"])
mdf["Hikayeler"] = mdf["Hikayeler"].apply(lambda x: " ".join(x.lower() for x in x.split()))
mdf["Hikayeler"] = mdf["Hikayeler"].str.replace("[^\w\s]","")
mdf["Hikayeler"] = mdf["Hikayeler"].str.replace("\d","")

  mdf["Hikayeler"] = mdf["Hikayeler"].str.replace("[^\w\s]","")
  mdf["Hikayeler"] = mdf["Hikayeler"].str.replace("\d","")


Aşağıdaki od bloğu, NLTK kütüphanesi içerisinde yer alan İngilizce stop word listesini yükler ve sw değişkenine atar. Stop words, dilbilgisi kurallarına göre işlevsel olan ancak bir metindeki anlamı taşımayan kelimelerdir. Bu kelimelerin metin işleme aşamasında çıkarılması, veri analizi ve makine öğrenmesi modellerinde daha doğru sonuçlar elde etmek için yaygın bir yöntemdir.

In [11]:
sw = stopwords.words("english")


Aşağıdaki kod bloğu, metin verilerindeki İngilizce stop words (anlamı olmayan, yaygın kullanılan kelimeler) olarak adlandırılan kelimeleri çıkarır. Daha sonra, bu işlem yapılmış metin verilerini içeren bir DataFrame oluşturur.

In [13]:
mdf["Hikayeler"] = mdf["Hikayeler"].apply(lambda x: " ".join(x for x in x.split() if x not in sw))
mdf

Unnamed: 0,Hikayeler
1,hamlet
2,romeo juliet
3,kral lear
4,othello
5,macbeth
6,jül sezar
7,antonius kleopatra
8,sıska ayaklı şövalye
9,fırtına
10,kış masalı


Aşağıdaki kod, TextBlob kütüphanesi kullanılarak oluşturulan bir TextBlob nesnesi üzerinde tags özelliği kullanılarak, her kelimenin yanında bir etiket olarak gösterilen dilbilgisi etiketlerinden oluşan bir demet (tuple) listesi döndürür. Bu işlem, her kelimenin türünü (örneğin isim, sıfat, fiil, zarf vb.) belirlemek için bir dilbilgisi analizi işlemidir.

In [14]:
TextBlob(mdf["Hikayeler"][2]).tags


[('romeo', 'NN'), ('juliet', 'NN')]

Ağaşıdaki kod satırı, her satırın metnini TextBlob'a vererek metnin her kelimesini etiketlemek için kullanılır. Etiketler, her kelimenin türünü belirtir (örn. isim, sıfat, fiil vb.). Bu, metnin daha ayrıntılı bir analizini yapmak için kullanılabilir.


In [15]:
mdf["Hikayeler"].apply(lambda x: TextBlob(x).tags)


1                                 [(hamlet, NN)]
2                    [(romeo, NN), (juliet, NN)]
3                       [(kral, JJ), (lear, NN)]
4                                [(othello, NN)]
5                               [(macbeth, NNS)]
6                       [(jül, NN), (sezar, NN)]
7              [(antonius, NN), (kleopatra, NN)]
8     [(sıska, NN), (ayaklı, NN), (şövalye, NN)]
9                                [(fırtına, NN)]
10                     [(kış, NN), (masalı, NN)]
11                   [(kuru, NN), (gürültü, NN)]
12               [(titus, NN), (andronicus, NN)]
13       [(ikinci, JJ), (kral, JJ), (henry, NN)]
14                    [(dört, NN), (mevsim, NN)]
Name: Hikayeler, dtype: object

# Chunking (Shallow Parsing)


Chunking (Shallow Parsing) Nedir?

Chunking, doğal dil işlemede kullanılan bir tekniktir ve cümlelerin gramer yapısına dayalı olarak belirli kelimelerin gruplandırılmasını içerir. Chunking, bir cümleyi parçalara ayırarak farklı kelime gruplarını tanımlamaya ve bu gruplara ait anahtar kelimeleri belirlemeye yarar. Bu sayede, bir cümle içindeki farklı öğelerin ne olduğu daha iyi anlaşılabilir. Shallow parsing olarak da adlandırılan Chunking, cümlelerin daha küçük parçalara ayrılmasına ve daha anlamlı bir yapıya sahip olmasına yardımcı olur.



In [18]:
sentence = "R and Python are useful data science tools for the new or old data scientists who eager to do efficent data science task"


In [19]:
sentence

'R and Python are useful data science tools for the new or old data scientists who eager to do efficent data science task'

Aşağıdaki kod bloğu, verilen cümledeki kelimelerin parçalarına ayrılmasını ve her kelime için etiketlenmiş parçaların listesini döndürür. Örneğin, "I am happy" cümlesi için çıktı aşağıdaki gibi olacaktır: Her kelimenin yanındaki etiket, o kelimenin dilbilgisel özelliğini belirtir. Yukarıdaki örnekte, "I" bir zamirdir ("PRP"), "am" bir fiil ("VBP") ve "happy" bir sıfat ("JJ") olarak etiketlenir.

In [21]:
pos = TextBlob(sentence).tags
pos

[('R', 'NNP'),
 ('and', 'CC'),
 ('Python', 'NNP'),
 ('are', 'VBP'),
 ('useful', 'JJ'),
 ('data', 'NNS'),
 ('science', 'NN'),
 ('tools', 'NNS'),
 ('for', 'IN'),
 ('the', 'DT'),
 ('new', 'JJ'),
 ('or', 'CC'),
 ('old', 'JJ'),
 ('data', 'NNS'),
 ('scientists', 'NNS'),
 ('who', 'WP'),
 ('eager', 'VBP'),
 ('to', 'TO'),
 ('do', 'VB'),
 ('efficent', 'JJ'),
 ('data', 'NNS'),
 ('science', 'NN'),
 ('task', 'NN')]

Aşağıdaki kod bloğu, önceden belirlenmiş bir dilbilgisi kalıbına (regular expression) göre yapılan kelime gruplamasının (chunking) sonuçlarını görselleştirir. Yukarıdaki örnekte, "NP" adlı bir kalıp tanımlanmıştır, bu da "determiner", "adjective" ve "noun" ögelerinden oluşan bir özne grubu (noun phrase) olarak kabul edilen kelime öbeklerini yakalar. "pos" değişkeni, metnin her kelimesinin kelimelerinin cümle içindeki özelliklerini (part of speech) belirlemek için TextBlob kütüphanesi tarafından işlenir. Sonuçlar, "rp.parse(pos)" yöntemiyle elde edilir ve ardından "draw()" yöntemi kullanılarak görselleştirilir.

In [None]:
reg_exp = "NP: {<DT>?<JJ>*<NN>}"
rp = nltk.RegexpParser(reg_exp)
sonuclar = rp.parse(pos)
sonuclar.draw()

# Named Entity Recognition


Named Entity Recognition Nedir?

Named Entity Recognition (NER), doğal dil işlemede kullanılan bir tekniktir. Amacı, verilen bir metin içindeki isimler, özel isimler, tarihler, yer adları gibi belirli türden kelimeleri tanımlamak ve bu kelimelerin anlamsal olarak birbirleriyle olan ilişkilerini tespit etmektir. Bu teknik sayesinde, metinlerde geçen önemli kelimelerin tanımlanması, sınıflandırılması ve anlamsal olarak bağlantı kurulması mümkün hale gelir. NER, genellikle bilgi çıkarma, metin sınıflandırma ve özetleme gibi doğal dil işleme uygulamalarında kullanılır.



Aşağıdaki kod bloğu, nltk kütüphanesindeki maxent_ne_chunker ve words modüllerinin indirilmesini sağlar. Bu modüller, isim öğelerinin tanınması için kullanılan ne_chunk() fonksiyonu tarafından kullanılır. maxent_ne_chunker modeli, maksimum entropi yöntemi kullanarak kelime özniteliklerini kullanarak öğelerin isim öğeleri olup olmadığını belirler. words modülü, dilin kelime dağarcığını içerir.

In [None]:
nltk.download("maxent_ne_chunker", quiet=True)
nltk.download("words", quiet=True)

Aşağıdaki kod bloğu, "cumle" değişkeninde tanımlanan metindeki kelimelerin parçalanmasını (tokenization), kelimelerin parçalanmasından sonra oluşan parçaların hangi dilbilgisi kategorisine (part of speech) ait olduğunu belirlemek için etiketleme (POS tagging) gerçekleştirir. Daha sonra, "ne_chunk" fonksiyonu ile bu etiketli parçaların isim öbekleri, tarihler, yerler vb. gibi öğeleri tanımak için adlandırılmış varlık tanıma (Named Entity Recognition) gerçekleştirir. Sonuç, her kelimenin etiketi ve her tanımlanmış varlığın türü ile birlikte bir ağaç yapısı olarak gösterilir.

In [None]:
sentence2 = "Hadley is creative people who work for R Studio AND he attented conference at Newyork last year"
print(ne_chunk(pos_tag(word_tokenize(sentence2))))