<h1 style='color:#2d6cdf;'>🧠 <b>Metin Ön İşleme: Stemming ve Lemmatization</b></h1>

Bu derste, doğal dil işleme (NLP) projelerinde sıkça kullanılan <span style='color:#e67e22;'><b>stemming</b></span> ve <span style='color:#27ae60;'><b>lemmatization</b></span> kavramlarını sıfırdan ileri seviyeye kadar örneklerle öğreneceğiz.

<div style='background:#f9f871;padding:10px;border-radius:8px;border-left:6px solid #f1c40f;'><b>⚡️ Hızlı Bakış:</b> <br> Stemming ve Lemmatization, metin verisini sadeleştirerek NLP modellerinin başarısını artırır.</div>

<hr>

<h3 style='color:#34495e;'>📚 <b>İçindekiler</b></h3>
- <b>Stemming Nedir?</b>
- <b>Lemmatization Nedir?</b>
- <b>Neden Kullanılırlar?</b>
- <b>Python ile Uygulama</b>
- <b>Karşılaştırma ve Sonuçlar</b>

<h2 style='color:#e67e22;'>🌱 <b>Stemming Nedir?</b></h2>

<b>Stemming</b>, kelimeleri köklerine indirgeme işlemidir. Amaç, kelimenin gövdesini (stem) bulmaktır. Bu işlem sırasında kelimenin anlamı her zaman korunmayabilir.

<b>Örnek:</b>
- <span style='color:#2980b9;'>running</span> → <b>run</b>
- <span style='color:#2980b9;'>better</span> → <b>better</b> (değişmez)
- <span style='color:#2980b9;'>went</span> → <b>went</b> (değişmez)

<div style='background:#fbeee6;padding:10px;border-radius:8px;border-left:6px solid #e67e22;'><b>Not:</b> Stemming algoritmaları genellikle hızlıdır ve kural tabanlı çalışır.</div>

<h2 style='color:#27ae60;'>🌳 <b>Lemmatization Nedir?</b></h2>

<b>Lemmatization</b>, kelimenin sözlükteki temel hali olan <b>lemma</b>'yı bulma işlemidir. Dilbilgisel olarak doğru kök bulunur ve kelimenin anlamı korunur.

<b>Örnek:</b>
- <span style='color:#2980b9;'>running</span> → <b>run</b>
- <span style='color:#2980b9;'>better</span> → <b>good</b>
- <span style='color:#2980b9;'>went</span> → <b>go</b>

<div style='background:#eafaf1;padding:10px;border-radius:8px;border-left:6px solid #27ae60;'><b>İpucu:</b> Lemmatization, stemming'e göre daha yavaştır ama daha doğrudur.</div>

<h2 style='color:#8e44ad;'>❓ <b>Neden Kullanılırlar?</b></h2>

- Metin verisindeki <b>benzer kelimeleri</b> tek bir forma indirgemek için kullanılır.
- <b>Arama motorları</b>, <b>metin sınıflandırma</b> ve <b>bilgi çıkarımı</b> gibi NLP uygulamalarında önemli rol oynar.
- <span style='color:#e67e22;'><b>Veri boyutunu azaltır</b></span> ve modelin genelleme yeteneğini artırır.

In [None]:
# Gerekli kütüphaneleri yükleyelim
import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')

<h2 style='color:#e67e22;'>🔎 <b>Stemming Uygulaması</b></h2>

NLTK kütüphanesindeki <b>PorterStemmer</b> ile örnek uygulama:

In [None]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
words = ['running', 'runner', 'ran', 'runs', 'better', 'go', 'went']
stems = [stemmer.stem(w) for w in words]
for w, s in zip(words, stems):
    print(f'{w:10} → {s}')

<h2 style='color:#27ae60;'>🟢 <b>Lemmatization Uygulaması</b></h2>

NLTK kütüphanesindeki <b>WordNetLemmatizer</b> ile örnek uygulama:

In [None]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
lemmas = [lemmatizer.lemmatize(w, pos='v') for w in words]
for w, l in zip(words, lemmas):
    print(f'{w:10} → {l}')

<h2 style='color:#34495e;'>⚖️ <b>Stemming ve Lemmatization Karşılaştırması</b></h2>

| <b>Kelime</b>    | <b>Stemming</b> | <b>Lemmatization</b> |
|-----------|----------|---------------|
| running   | run      | run           |
| runner    | runner   | run           |
| ran       | ran      | run           |
| runs      | run      | run           |
| better    | better   | good          |
| go        | go       | go            |
| went      | went     | go            |

<div style='background:#f9f871;padding:10px;border-radius:8px;border-left:6px solid #f1c40f;'><b>Önemli:</b> <br> <b>Stemming</b> hızlıdır, bazen anlamsız kökler üretebilir.<br><b>Lemmatization</b> daha doğrudur, anlamı korur.</div>

<h2 style='color:#2d6cdf;'>🎯 <b>Sonuç ve İpuçları</b></h2>

- <span style='color:#e67e22;'><b>Küçük ve hızlı projelerde stemming tercih edilebilir.</b></span>
- <span style='color:#27ae60;'><b>Anlam bütünlüğü önemliyse lemmatization kullanılmalıdır.</b></span>
- <b>Her iki yöntemi de uygulayarak sonuçları karşılaştırmak faydalı olabilir.</b>

<div style='background:#eafaf1;padding:10px;border-radius:8px;border-left:6px solid #27ae60;'>Artık metin ön işleme sürecinde <b>stemming</b> ve <b>lemmatization</b> tekniklerini profesyonelce uygulayabilirsiniz! 🚀</div>

<h1 style='color:#8e44ad;'>💼 <b>Profesyonel Kullanım Örnekleri</b></h1>

Aşağıda, stemming ve lemmatization tekniklerinin farklı profesyonel NLP senaryolarında nasıl kullanılabileceğine dair <b>5 örnek</b> bulabilirsiniz.

<h3 style='color:#2d6cdf;'>🔍 1. Arama Motoru: Sorgu ve Doküman Eşleştirme</h3>

Kullanıcı sorgularındaki kelimeleri köklerine indirgemek, farklı biçimlerdeki kelimelerin eşleşmesini sağlar.

In [4]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
query = 'retrieving documents'
document = 'The document retrieval system retrieves relevant docs.'

def stem_text(text):
    return ' '.join([stemmer.stem(word) for word in text.lower().split()])

print('Stemmed Query   :', stem_text(query))
print('Stemmed Document:', stem_text(document))

Stemmed Query   : retriev document
Stemmed Document: the document retriev system retriev relev docs.


<h3 style='color:#e67e22;'>😊 2. Duygu Analizi: Olumlu/Olumsuz Yorumların Normalizasyonu</h3>

Farklı çekimlerdeki kelimeleri normalize ederek modelin daha iyi genelleme yapmasını sağlayabilirsiniz.

In [5]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
reviews = ['I loved the movie', 'He loves movies', 'They are loving it']
lemmatized_reviews = [' '.join([lemmatizer.lemmatize(word, pos='v') for word in review.lower().split()]) for review in reviews]
for review, lemma in zip(reviews, lemmatized_reviews):
    print(f'{review:30} → {lemma}')

I loved the movie              → i love the movie
He loves movies                → he love movies
They are loving it             → they be love it


<h3 style='color:#27ae60;'>🏷️ 3. Anahtar Kelime Çıkarımı: Kök veya Lemma ile Sıklık Analizi</h3>

Metindeki anahtar kelimeleri bulmak için kelimeleri köklerine veya lemma'ya indirgemek faydalı olabilir.

In [6]:
from collections import Counter
text = 'Cats running, cat runs, and cats ran quickly.'
tokens = text.lower().replace('.', '').split()
stems = [stemmer.stem(token) for token in tokens]
lemmas = [lemmatizer.lemmatize(token, pos='v') for token in tokens]
print('Stem Sıklıkları:', Counter(stems))
print('Lemma Sıklıkları:', Counter(lemmas))

Stem Sıklıkları: Counter({'cat': 3, 'running,': 1, 'runs,': 1, 'and': 1, 'ran': 1, 'quickli': 1})
Lemma Sıklıkları: Counter({'cat': 3, 'running,': 1, 'runs,': 1, 'and': 1, 'run': 1, 'quickly': 1})


<h3 style='color:#8e44ad;'>🤖 4. Chatbot: Kullanıcı Girdisinin Standartlaştırılması</h3>

Kullanıcıdan gelen farklı biçimlerdeki kelimeleri standart hale getirerek daha doğru yanıtlar üretebilirsiniz.

In [7]:
user_inputs = ['booking', 'booked', 'books', 'booking a flight']
standardized = [' '.join([lemmatizer.lemmatize(word, pos='v') for word in inp.lower().split()]) for inp in user_inputs]
for inp, std in zip(user_inputs, standardized):
    print(f'{inp:20} → {std}')

booking              → book
booked               → book
books                → book
booking a flight     → book a flight


<h3 style='color:#34495e;'>🧩 5. Dil Modeli Eğitimi: Veri Boyutunun Azaltılması</h3>

Stemming veya lemmatization ile kelime çeşitliliğini azaltarak daha verimli dil modelleri eğitilebilir.

In [8]:
corpus = ['The children are playing', 'A child played yesterday', 'Children play every day']
tokens = [sentence.lower().split() for sentence in corpus]
flat_tokens = [word for sublist in tokens for word in sublist]
stems = set([stemmer.stem(word) for word in flat_tokens])
lemmas = set([lemmatizer.lemmatize(word, pos='v') for word in flat_tokens])
print('Farklı kelime sayısı (orijinal):', len(set(flat_tokens)))
print('Farklı kelime sayısı (stem):', len(stems))
print('Farklı kelime sayısı (lemma):', len(lemmas))

Farklı kelime sayısı (orijinal): 11
Farklı kelime sayısı (stem): 9
Farklı kelime sayısı (lemma): 9
