_Lütfen kaynak belirtmeden bu içeriği tamamen veya kısmen kopyalamayın. Görüş, öneri, şikayet ve işbirliği gibi konular için **kolaydilisleme@gmail.com**_

##  Stemming

Stemming, ekleri çıkararak ve bir kelimeyi bazı temel formlara indirgeyerek, o kelimenin tüm farklı varyantlarının aynı form ile temsil edilebilmesi sürecine denir (örneğin, "car" ve "cars" her ikisi de "car" olarak indirgenir). Sabit bir dizi kural ile kelimenin sonundaki ekler kaldırılır, bu sayade kelimenin köküne ulaşılmış olur. Stemming oldukça basit bir teknik olduğundan dolayı her zaman dilbilgisel açıdan doğru sonuçlar vermeyebilir.

NLTK kütüphanesinin içerisindeki stemmer'lar maalesef ki Türkçe için iyi çalışmıyor. Bu bağlamda Türkçe desteği olan farklı bir kütüphane kullancağız. Burada Türkçe desteği de bulunan ve oldukça popüler bir araç olan [SnowballStemmer](https://github.com/snowballstem/snowball) algoritmasını kullanabiliriz.

Ayrıca Türkçe NLP çalışmalarında çokça tercih edilen [Zemberek](https://github.com/ahmetaa/zemberek-nlp) kütüphanesi de kullanılabilir veya tamamen bu iş üzerine kurulmuş olan [TurkishStemmer](https://github.com/otuncelli/turkish-stemmer-python) kütüphanesi kullanılabilir.

### Neden Stemming Yapılır?

- **Standarlaştırma:** Stemming, farklı kelime formlarını (örneğin, "run", "running", "runner") temel köklerine indirger. Bu, kelime çeşitliliğini azaltarak ve aynı köke sahip kelimeleri standart bir forma getirerek veri setindeki kelime sayısını düşürür. 

- **Optimizasyon:** Arama motorları ve sorgulama sistemleri, kullanıcıların girdiği kelimelerin köklerini kullanarak daha geniş bir sonuç yelpazesi sunabilir. Böylece, “fish” kelimesini arayan bir kullanıcı “fishing” veya “fished” gibi terimleri içeren sonuçları da görebilir.

- **Hafıza ve Hız:** Stemming, kelime indekslerinin boyutunu azaltarak hem hafıza kullanımını hem de işleme hızını iyileştirir.

### Snowball kütüphanesi ile stemming

In [1]:
#!pip install snowballstemmer

In [2]:
from snowballstemmer import TurkishStemmer

stemmer = TurkishStemmer()

kelimeler = ['koşuyorum', 'koşacak', 'koştu']
for kelime in kelimeler:
    print(f"{kelime} -> {stemmer.stemWord(kelime)}")

koşuyorum -> koşuyor
koşacak -> koşacak
koştu -> koş


### TurkishStemmer kütüphanesi ile stemming

In [3]:
#!pip install TurkishStemmer

In [4]:
from TurkishStemmer import TurkishStemmer

stemmer = TurkishStemmer()

kelimeler = ['koşuyorum', 'koşacak', 'koştu']
for kelime in kelimeler:
    print(f"{kelime} -> {stemmer.stem(kelime)}")

koşuyorum -> koşuyor
koşacak -> koşacak
koştu -> koşt


In [5]:
# İngilizce örnek
import nltk
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

english_text = "running runs ran"
english_tokens = word_tokenize(english_text)

stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in english_tokens]
print(stemmed_words)

['run', 'run', 'ran']


### Ön işleme sonrası stemming işlemi

In [6]:
from nltk.corpus import stopwords
from string import punctuation
from nltk.tokenize import word_tokenize
from snowballstemmer import TurkishStemmer

def preprocess_text(text):
    mystopwords = set(stopwords.words("turkish"))
    
    def remove_stops_digits(tokens):
        return [token.lower() for token in tokens if token.lower() not in mystopwords and not token.isdigit() and token not in punctuation]
    
    return remove_stops_digits(word_tokenize(text))

def stem_words(words):
    stemmer = TurkishStemmer()
    return [stemmer.stemWord(word) for word in words]

text = "Sokrates, antik çağın ünlü filozoflarından biridir. En ünlü sözlerinden biri şöyledir: 'Bilgiğim bir şey var, o da hiçbir şey bilmediğimdir.'"
processed_text = preprocess_text(text)
stemmed_words = stem_words(processed_text)

print("Ön işleme sonucu metin:", processed_text)
print("Stemming ile kelime kökleri:", stemmed_words)


Ön işleme sonucu metin: ['sokrates', 'antik', 'çağın', 'ünlü', 'filozoflarından', 'biridir', 'ünlü', 'sözlerinden', 'şöyledir', "'bilgiğim", 'bir', 'var', 'hiçbir', 'bilmediğimdir']
Stemming ile kelime kökleri: ['sokrates', 'antik', 'çak', 'ünlü', 'filozof', 'bir', 'ünlü', 'söz', 'şö', "'bilgik", 'bir', 'var', 'hiçbir', 'bilmedik']


In [7]:
from nltk.corpus import stopwords
from string import punctuation
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer

def preprocess_text(text):
    mystopwords = set(stopwords.words("english"))
    
    def remove_stops_digits(tokens):
        return [token.lower() for token in tokens if token.lower() not in mystopwords and not token.isdigit() and token not in punctuation]
    
    return remove_stops_digits(word_tokenize(text))

def stem_words(words):
    stemmer = SnowballStemmer("english")
    return [stemmer.stem(word) for word in words]

text = "Socrates is one of the famous philosophers of the ancient era. One of his most famous quotes is: 'The only thing I know is that I know nothing.'"
processed_text = preprocess_text(text)
stemmed_words = stem_words(processed_text)

print("Processed text:", processed_text)
print("Stemmed words:", stemmed_words)

Processed text: ['socrates', 'one', 'famous', 'philosophers', 'ancient', 'era', 'one', 'famous', 'quotes', "'the", 'thing', 'know', 'know', 'nothing']
Stemmed words: ['socrat', 'one', 'famous', 'philosoph', 'ancient', 'era', 'one', 'famous', 'quot', 'the', 'thing', 'know', 'know', 'noth']


### Kaynaklar
- Natural Language Processing with Python (O’Reilly) - Kitap
- Practical Natural Language Processing (O’Reilly) - Kitap

_Lütfen kaynak belirtmeden bu içeriği tamamen veya kısmen kopyalamayın. Görüş, öneri, şikayet ve işbirliği gibi konular için **kolaydilisleme@gmail.com**_