# Stemming & Lemmatization

Stemming ve Lemmatization, doğal dil işleme (NLP) alanında kelimeleri köklerine indirgeme işlemleridir. Her iki yöntem de, kelimelerin farklı biçimlerinden (çoğul, zaman kipi, vb.) daha temel bir formda kullanılması için uygulanır. Ancak aralarındaki farklar da vardır:

Stemming, genellikle kelimenin yalnızca takılarından arındırılmasına odaklanırken, lemmatization, anlam ve dilbilgisi kurallarına dayalı olarak kelimenin kök halini oluşturur. Stemming daha hızlıdır, ancak daha az doğru sonuçlar verebilir, lemmatization ise daha doğru ve anlamlıdır, ancak daha fazla işlem gücü gerektirir.

In [2]:
import nltk
from nltk.stem import PorterStemmer

In [3]:
stemmer = PorterStemmer()

In [4]:
stemmer.stem("running")

'run'

In [5]:
stemmer.stem("swimming")

'swim'

In [6]:
stemmer.stem("flies")

'fli'

In [7]:
from nltk.stem import WordNetLemmatizer

In [8]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\muhammet.aydinalp\AppData\Roaming\nltk_data..
[nltk_data]     .
[nltk_data]   Package wordnet is already up-to-date!


True

In [9]:
lemmatizer = WordNetLemmatizer()

In [17]:
lemmatizer.lemmatize("Running".lower(), pos = "v") # kelimenin küçük harfli olması gerekiyor.

'run'

In [18]:
lemmatizer.lemmatize("swimming", pos = "v")

'swim'

In [19]:
lemmatizer.lemmatize("flies", pos = "v")

'fly'

In [20]:
text = "The cats are running and jumping over the lazy dogs"

In [None]:
#text değişkeninde var olan metni kelime tokenlerine bölüp, 
#stemming ve lemmatization işlemleri uygulayınız.

In [21]:
from nltk.tokenize import word_tokenize

In [None]:
nltk.download("punkt")

In [22]:
tokens = word_tokenize(text)

In [23]:
tokens

['The',
 'cats',
 'are',
 'running',
 'and',
 'jumping',
 'over',
 'the',
 'lazy',
 'dogs']

In [24]:
stemmed_list = [stemmer.stem(i) for i in tokens]

In [25]:
stemmed_list

['the', 'cat', 'are', 'run', 'and', 'jump', 'over', 'the', 'lazi', 'dog']

In [27]:
lemmatized_list = [lemmatizer.lemmatize(i.lower(), pos = "v") for i in tokens]

In [28]:
lemmatized_list

['the', 'cat', 'be', 'run', 'and', 'jump', 'over', 'the', 'lazy', 'dog']

# Pos Tagging

POS Tagging (Part of Speech Tagging), Türkçe'de Kelime Türü Etiketleme olarak bilinir, bir dil işleme (NLP) işlemidir ve bir metindeki her kelimeye, dilbilgisel olarak uygun bir etiket (kategori) atamak anlamına gelir.

In [29]:
from nltk import pos_tag

In [30]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\muhammet.aydinalp\AppData\Roaming\nltk_data..
[nltk_data]     .
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [31]:
pos_tag(tokens)

[('The', 'DT'),
 ('cats', 'NNS'),
 ('are', 'VBP'),
 ('running', 'VBG'),
 ('and', 'CC'),
 ('jumping', 'NN'),
 ('over', 'IN'),
 ('the', 'DT'),
 ('lazy', 'JJ'),
 ('dogs', 'NNS')]

Bu Etiketlerin Anlamı: DT: Determiner (Belirleyici) NNS: Noun, plural (Çoğul İsim) VBP: Verb, present tense, non-3rd person singular (Şimdiki Zaman, 3. tekil olmayan fiil) VBG: Verb, gerund or present participle (İsimleşmiş Fiil ya da Şimdiki Zaman Fiili) CC: Coordinating conjunction (Bağlaç) NN: Noun, singular or mass (Tekil İsim ya da Soyut İsim) IN: Preposition or subordinating conjunction (Edat ya da Bağlaç) JJ: Adjective (Sıfat)