# Lemmatization: Kelime Köklerine İndirgeme

Lemmatization, doğal dil işleme (NLP) süreçlerinde kullanılan ve kelimelerin köklerine (lemma) indirgenmesini sağlayan bir tekniktir. Stemming'e benzer bir amaç taşır, ancak lemmatization, kelimeleri dilbilgisel kurallara uygun şekilde analiz ederek daha doğru ve anlamlı sonuçlar üretir. Bu yöntem, özellikle metin analizi, metin sınıflandırma ve bilgi çıkarımı gibi alanlarda sıkça kullanılır.

## Lemmatization ve Stemming Arasındaki Farklar
Dilbilgisel Analiz:

Stemming: Kelimelerin sonundaki ekleri keserek kök haline getirir. Ancak bu işlem dilbilgisel kuralları dikkate almaz, bu nedenle bazen anlamsız kökler ortaya çıkabilir.

Lemmatization: Kelimeleri dilbilgisel olarak analiz eder ve anlamlı kökler üretir. Örneğin, "koşuyordum" kelimesinin lemması "koşmak"tır.

Doğruluk:

Lemmatization, stemming'e göre daha doğru sonuçlar verir çünkü kelimelerin anlamını korur.

Stemming ise daha hızlıdır ancak bazen yanlış kökler üretebilir.

Karmaşıklık:

Lemmatization, stemming'e göre daha karmaşık bir süreçtir ve genellikle daha fazla hesaplama kaynağı gerektirir.

## Lemmatization'ın Avantajları
1 - Anlamın Korunması:
Lemmatization, kelimelerin köklerine indirgenirken anlamlarını korur. Örneğin, "koşuyordum", "koşuyoruz" ve "koşacak" kelimelerinin lemması "koşmak"tır. Bu, metin analizi sırasında kelimelerin temel anlamını koruyarak daha tutarlı sonuçlar elde etmeyi sağlar.

2 - Standartlaştırma:
Metinlerdeki kelime çeşitliliğini azaltarak, algoritmaların daha az ve daha anlamlı veri üzerinde çalışmasını sağlar. Bu, modelin eğitim süresini ve karmaşıklığını azaltır.

3 - Dilbilgisel İlişkilerin Anlaşılması:
Lemmatization, kelimelerin dilbilgisel ilişkilerini anlamada yardımcı olur. Örneğin, "yazdı" kelimesinin lemması "yaz" olduğundan, bu kelimenin fiil olduğu ve geçmiş zamanla ilişkili olduğu anlaşılır.

## Türkçe için Lemmatization
Türkçe, eklemeli bir dil olduğu için lemmatization işlemi büyük önem taşır. Ancak, NLTK kütüphanesindeki WordNetLemmatizer gibi araçlar Türkçe için iyi çalışmaz. Bu nedenle, Türkçe lemmatization için özel kütüphaneler kullanılır:

Zeyrek Kütüphanesi:
Türkçe için geliştirilmiş bir lemmatization aracıdır. Kelimeleri dilbilgisel kurallara uygun şekilde analiz eder ve doğru kökleri bulur.

```
#!pip install zeyrek
import zeyrek
analyzer = zeyrek.MorphAnalyzer()
print(analyzer.lemmatize('koşuyor'))  # Çıktı: [('koşuyor', ['koşmak'])]
```

Zemberek Kütüphanesi:
Türkçe NLP çalışmalarında sıkça kullanılan bir kütüphanedir. Hem stemming hem de lemmatization işlemlerini destekler.

## Lemmatization Örneği: Türkçe Metin İşleme

In [None]:
import zeyrek
from nltk.corpus import stopwords
from string import punctuation
from nltk.tokenize import word_tokenize

# metni ön işleme adımlarından geçirme
def preprocess_text(text):
    mystopwords = set(stopwords.words("turkish"))
    
    def remove_stops_digits(tokens):
        return [token.lower() for token in tokens if token.lower() not in mystopwords and not token.isdigit() and token not in punctuation]
    
    return remove_stops_digits(word_tokenize(text))

# lemmatization işlemi
def lemma_words(words):
    lemmatizer = zeyrek.MorphAnalyzer()
    return [lemmatizer.lemmatize(word)[0] for word in words]

# metin
text = "Nefretiniz elektriğe dönüştürülebilseydi bütün dünyayı aydınlatırdı."

# Metni ön işleme ve lemmatization
processed_text = preprocess_text(text)
lemmatized_words = lemma_words(processed_text)

print("Ön işleme sonucu metin:", processed_text)
print("Lemmatization ile kelime kökleri:", lemmatized_words)

## İngilizce için Lemmatization Örneği

In [None]:
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet

nltk.download('wordnet')

lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('running', pos=wordnet.VERB)) 

# ingilizce metinler için de NLTK kütüphanesindeki WordNetLemmatizer kullanılabilir.

## Sonuç:
Lemmatization, metin analizi süreçlerinde kelimelerin anlamını koruyarak daha doğru ve tutarlı sonuçlar elde etmeyi sağlar. Özellikle Türkçe gibi eklemeli dillerde, doğru lemmatization araçlarının kullanılması büyük önem taşır. Zeyrek ve Zemberek gibi kütüphaneler, Türkçe metinlerin etkili bir şekilde işlenmesine olanak tanır.