_Lütfen kaynak belirtmeden bu içeriği tamamen veya kısmen kopyalamayın. Görüş, öneri, şikayet ve işbirliği gibi konular için **kolaydilisleme@gmail.com**_

##  Lemmatization

Lemmatization'da stemming gibi kelimenin köküne ulaşmak için yapılan bir işlemdir. Stemming'den farkı olaya dilbilgisel olarak yaklaşmasıdır. Stemming gibi basitçe kelimenin sonundaki ekleri atmak yerine daha karmaşık işlemler gerçekleştirir. Bu nedenle, lemmatization genellikle daha doğru sonuçlar verir.

NLTK kütüphanesinin içerisinden kullanabileceğimiz WordNetLemmatizer maalesef ki Türkçe için iyi çalışmıyor. Dolaysıyla Türkçe desteği olan farklı bir kütüphane kullancağız. Bu bağlamda Türkçe Lemmatization yapmak için olan [Zeyrek](https://github.com/obulat/zeyrek/) kütüphanesinde faydalanabiliriz.

Ayrıca Türkçe NLP çalışmalarında çokça tercih edilen [Zemberek](https://github.com/ahmetaa/zemberek-nlp) ([python](https://github.com/loodos/zemberek-python)) kütüphanesi de kullanılabilir.

### Neden Lemmatization Yapılır?

- **Anlamın Korunması:**  Lemmatization, kelimeleri köklerine indirgerken anlamın korunmasını sağlar. Örneğin, "koşuyordum", "koşuyoruz" ve "koşacak" kelimelerinin lemması "koşmak"tır. Bu, farklı çekim ekleri taşıyan kelimelerin temel anlamını koruyarak işlenmesine olanak tanır.

- **Standarlaştırma:** Metinlerdeki kelime çeşitliliğini azaltarak, algoritmanın daha az ve daha anlamlı veri üzerinde çalışmasını sağlar. Bu, modelin eğitim süresini ve karmaşıklığını azaltabilir.

- **Dilbilgisel İlişkilerin Anlaşılması:**  Lemmatization, kelimelerin dilbilgisel ilişkilerini anlamada yardımcı olur. Örneğin, "yazdı" kelimesinin lemması "yaz" olduğundan, bu kelimenin fiil olduğu ve geçmiş zamanla ilişkili olduğu anlaşılır.


### Stemming vs Lemmatization

Stemming ve lemmatization arasındaki fark,

- Stemming bağlamı bilmeksizin kelimeleri kesmesi nedeniyle daha hızlıdır, lemmatization ise işleme başlamadan önce kelimeleri bağlamsal olarak işlediği için daha yavaştır.

- Stemming'de dönüştürülen temel kelimenin anlamlı olup olmaması değişkenlik gösterirken, lemmatization'da dönüştürülen temel kelimenin genelde düzgün bir anlamı vardır.

In [1]:
#!pip install zeyrek

In [2]:
import zeyrek

analyzer = zeyrek.MorphAnalyzer()

print(analyzer.lemmatize('koşuyor'))

APPENDING RESULT: <(koşmak_Verb)(-)(koş:verbRoot_S + uyor:vProgYor_S + vA3sg_ST)>


[('koşuyor', ['koşmak'])]


In [3]:
# İngilizce örnek
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet
nltk.download('wordnet')

lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('running', pos=wordnet.VERB)) 

[nltk_data] Downloading package wordnet to /home/enes/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


run


### Ön işleme sonrası lemmatization işlemi

In [4]:
import zeyrek
from nltk.corpus import stopwords
from string import punctuation
from nltk.tokenize import word_tokenize

def preprocess_text(text):
    mystopwords = set(stopwords.words("turkish"))
    
    def remove_stops_digits(tokens):
        return [token.lower() for token in tokens if token.lower() not in mystopwords and not token.isdigit() and token not in punctuation]
    
    return remove_stops_digits(word_tokenize(text))


def lemma_words(words):
    lemmatizer = zeyrek.MorphAnalyzer()
    return [lemmatizer.lemmatize(word)[0] for word in words]


text = "Sokrates, antik çağın ünlü filozoflarından biridir. En ünlü sözlerinden biri şöyledir: 'Bilgiğim bir şey var, o da hiçbir şey bilmediğimdir.'"
processed_text = preprocess_text(text)
stemmed_words = lemma_words(processed_text)

print("Ön işleme sonucu metin:", processed_text)
print("Stemming ile kelime kökleri:", stemmed_words)


APPENDING RESULT: <(Sokrates_Noun_Prop)(-)(sokrates:nounProper_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(antik_Adj)(-)(antik:adjectiveRoot_ST)>
APPENDING RESULT: <(çağmak_Verb)(-)(çağ:verbRoot_S + vImp_S + ın:vA2pl_ST)>
APPENDING RESULT: <(çağ_Noun)(-)(çağ:noun_S + a3sg_S + pnon_S + ın:gen_ST)>
APPENDING RESULT: <(çağ_Noun)(-)(çağ:noun_S + a3sg_S + ın:p2sg_S + nom_ST)>
APPENDING RESULT: <(Çağın_Noun_Prop)(-)(çağın:nounProper_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(ün_Noun)(-)(ün:noun_S + a3sg_S + pnon_S + nom_ST + lü:with_S + adjectiveRoot_ST)>
APPENDING RESULT: <(filozof_Noun)(-)(filozof:noun_S + lar:a3pl_S + ın:p2sg_S + dan:abl_ST)>
APPENDING RESULT: <(filozof_Noun)(-)(filozof:noun_S + lar:a3pl_S + ı:p3sg_S + ndan:abl_ST)>
APPENDING RESULT: <(filozof_Noun)(-)(filozof:noun_S + lar:a3pl_S + ı:p3pl_S + ndan:abl_ST)>
APPENDING RESULT: <(biri_Pron_Quant)(-)(biri:pronQuant_S + pQuantA3sg_S + pP3sg_S + pNom_ST + pronZeroDeriv_S + pvVerbRoot_S + pvPresent_S + nA3sg_S + di

Ön işleme sonucu metin: ['sokrates', 'antik', 'çağın', 'ünlü', 'filozoflarından', 'biridir', 'ünlü', 'sözlerinden', 'şöyledir', "'bilgiğim", 'bir', 'var', 'hiçbir', 'bilmediğimdir']
Stemming ile kelime kökleri: [('sokrates', ['Sokrates']), ('antik', ['antik']), ('çağın', ['çağmak', 'çağ', 'Çağın']), ('ünlü', ['ün']), ('filozoflarından', ['filozof']), ('biridir', ['bir', 'biri']), ('ünlü', ['ün']), ('sözlerinden', ['söz']), ('şöyledir', ['şöyle']), ('bilgiğim', ['bilgiğim']), ('bir', ['bir']), ('var', ['var', 'varmak']), ('hiçbir', ['hiçbir']), ('bilmediğimdir', ['bilmek'])]


In [5]:
from nltk.corpus import wordnet
from nltk.corpus import stopwords
from string import punctuation
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer


def preprocess_text(text):
    mystopwords = set(stopwords.words("turkish"))
    
    def remove_stops_digits(tokens):
        return [token.lower() for token in tokens if token.lower() not in mystopwords and not token.isdigit() and token not in punctuation]
    
    return remove_stops_digits(word_tokenize(text))


def lemma_words(words):
    lemmatizer = WordNetLemmatizer()
    return [lemmatizer.lemmatize(word, pos=wordnet.VERB) for word in words]


text = "Sokrates, antik çağın ünlü filozoflarından biridir. En ünlü sözlerinden biri şöyledir: 'Bilgiğim bir şey var, o da hiçbir şey bilmediğimdir.'"
processed_text = preprocess_text(text)
stemmed_words = lemma_words(processed_text)

print("Ön işleme sonucu metin:", processed_text)
print("Stemming ile kelime kökleri:", stemmed_words)


Ön işleme sonucu metin: ['sokrates', 'antik', 'çağın', 'ünlü', 'filozoflarından', 'biridir', 'ünlü', 'sözlerinden', 'şöyledir', "'bilgiğim", 'bir', 'var', 'hiçbir', 'bilmediğimdir']
Stemming ile kelime kökleri: ['sokrates', 'antik', 'çağın', 'ünlü', 'filozoflarından', 'biridir', 'ünlü', 'sözlerinden', 'şöyledir', "'bilgiğim", 'bir', 'var', 'hiçbir', 'bilmediğimdir']


### Kaynaklar
- Natural Language Processing with Python (O’Reilly) - Kitap
- Practical Natural Language Processing (O’Reilly) - Kitap

_Lütfen kaynak belirtmeden bu içeriği tamamen veya kısmen kopyalamayın. Görüş, öneri, şikayet ve işbirliği gibi konular için **kolaydilisleme@gmail.com**_