# Kök Bulma (Stemming)

Kök bulma, bir kelimenin sonundaki eklerin kaldırılarak kök formuna indirgenmesi işlemidir. Bu işlem, kelimenin farklı varyasyonlarının aynı formda temsil edilmesini sağlar. Örneğin, "koşuyorum", "koşacak" ve "koştu" kelimeleri "koş" köküne indirgenebilir.

## Kullanılan Kütüphaneler :

- **SnowballStemmer**: Türkçe ve diğer dillerde kök bulma işlemleri için kullanılır.
- **TurkishStemmer**: Özellikle Türkçe kök bulma için tasarlanmış bir kütüphane.
- **NLTK**: Doğal dil işleme için temel araçlar sunar.

Gerekli kütüphaneleri yüklemek için aşağıdaki komutlar kullanılabilir:
```python
!pip install snowballstemmer
!pip install TurkishStemmer
!pip install nltk
```

### Örnek 1: SnowballStemmer ile Türkçe Kök Bulma

In [None]:
from snowballstemmer import TurkishStemmer

turkish_words = ['yürüyorum', 'yürüyüş', 'yürüdü']
stemmer = TurkishStemmer()
for word in turkish_words:
    print(f"{word} -> {stemmer.stemWord(word)}")

Bu örnekte, SnowballStemmer kullanılarak Türkçe kelimelerin kökleri bulunuyor. Örneğin, "yürüyorum" kelimesi kök haline indirgenir.

### Örnek 2: TurkishStemmer ile Türkçe Kök Bulma


In [None]:
from TurkishStemmer import TurkishStemmer

turkish_stemmer = TurkishStemmer()
for word in turkish_words:
    print(f"{word} -> {turkish_stemmer.stem(word)}")

TurkishStemmer kütüphanesi kullanılarak Türkçe kelimelerin kökleri elde edilir.

### Örnek 3: PorterStemmer ile İngilizce Kök Bulma


In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

english_text = "exploring explores explored"
english_tokens = word_tokenize(english_text)
porter_stemmer = PorterStemmer()
porter_stemmed = [porter_stemmer.stem(word) for word in english_tokens]
print(english_tokens)
print(porter_stemmed)

İngilizce metin üzerinde PorterStemmer kullanılarak kelimelerin kökleri bulunur.

## Türkçe Metin İşleme

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from string import punctuation

def preprocess_turkish(text):
    mystopwords = set(stopwords.words("turkish"))
    def clean_tokens(tokens):
        return [token.lower() for token in tokens if token.lower() not in mystopwords and token not in punctuation and not token.isdigit()]
    return clean_tokens(word_tokenize(text))

def stem_turkish_words(words):
    return [stemmer.stemWord(word) for word in words]

turkish_text = "Büyük veri analitiği, verilerden anlam çıkarmak ve iş kararlarını desteklemek için güçlü bir araçtır. Veriler üzerinde ön işleme adımları, doğru sonuçlar elde etmek için kritik öneme sahiptir."
preprocessed_turkish = preprocess_turkish(turkish_text)
stemmed_turkish = stem_turkish_words(preprocessed_turkish)
print("İşlenmiş Türkçe Metin:", preprocessed_turkish)
print("Köklerine Ayrılmış Türkçe Kelimeler:", stemmed_turkish)

1. Stopword'ler ve noktalama işaretleri kaldırılır.
2. Geriye kalan kelimelerin kökleri bulunur.

## İngilizce Metin İşleme

In [None]:
def preprocess_english(text):
    mystopwords = set(stopwords.words("english"))
    def clean_tokens(tokens):
        return [token.lower() for token in tokens if token.lower() not in mystopwords and token not in punctuation and not token.isdigit()]
    return clean_tokens(word_tokenize(text))

def stem_english_words(words):
    from nltk.stem import SnowballStemmer
    stemmer = SnowballStemmer("english")
    return [stemmer.stem(word) for word in words]

english_text = "Data is a valuable resource in today's world. Analyzing big data helps organizations make informed decisions."
preprocessed_english = preprocess_english(english_text)
stemmed_english = stem_english_words(preprocessed_english)
print("Processed English Text:", preprocessed_english)
print("Stemmed English Words:", stemmed_english)

# Kök Bulmanın Faydaları:

1. Standartlaştırma: Kök bulma işlemi, farklı çekimleri ve türevleri olan kelimeleri kök haline indirgeyerek metinlerdeki tutarlılığı artırır. Örneğin, "koşmak", "koşuyor" ve "koşan" gibi kelimeler "koş" köküne indirgenir. Bu, metin analizi sırasında kelime çeşitliliğini azaltır ve benzer anlamlı kelimelerin aynı şekilde işlenmesini sağlar.

2. Arama Optimizasyonu: Kök bulma, arama motorlarının daha geniş ve doğru sonuçlar döndürmesine yardımcı olur. Örneğin, "kitap" kelimesini arattığınızda "kitaplar", "kitabım" gibi farklı formlar da arama sonuçlarına dahil edilir. Bu, kullanıcıların aradıkları bilgiye daha kolay ulaşmasını sağlar.

3. Verimlilik Artışı: Kök bulma, metin işleme süreçlerinde hafıza kullanımını ve işlem süresini optimize eder. Kelime çeşitliliği azaldığı için, veri setleri daha küçük boyutlarda saklanabilir ve işlem hızı artar. Bu, özellikle büyük veri setleriyle çalışırken önemli bir avantaj sağlar.

4. Dil Modellerinin Geliştirilmesi: Kök bulma, doğal dil işleme (NLP) modellerinin eğitimi sırasında kullanılan verilerin daha tutarlı hale gelmesini sağlar. Bu, makine öğrenimi modellerinin daha doğru ve genellenebilir sonuçlar üretmesine yardımcı olur.

5. Metin Sınıflandırma ve Kümeleme: Kök bulma, metin sınıflandırma ve kümeleme gibi görevlerde performansı artırır. Benzer anlamlı kelimeler aynı köke indirgendiği için, metinler arasındaki benzerlikler daha net bir şekilde ortaya çıkar.

6. Türkçe Gibi Eklemeli Diller İçin Önem: Türkçe gibi eklemeli dillerde kelimeler çok fazla çekim ve türev içerebilir. Bu nedenle, kök bulma işlemi bu dillerde daha kritik bir öneme sahiptir. Doğru kök bulma, metin analizi süreçlerinin doğruluğunu büyük ölçüde artırır.

7. Hata Toleransı: Kök bulma, yazım hataları veya farklı yazım varyasyonlarına karşı daha toleranslıdır. Örneğin, "kitab" ve "kitap" gibi küçük yazım farklılıkları kök bulma ile aynı şekilde işlenebilir.

8. Çok Dilli Uygulamalar: Kök bulma, çok dilli uygulamalarda metinlerin tutarlı bir şekilde işlenmesini sağlar. Farklı dillerdeki metinlerin köklerine indirgenmesi, çok dilli arama ve analiz süreçlerini kolaylaştırır.

# Sonuç:

Kök bulma (stemming), doğal dil işleme projelerinde metinlerin daha etkili bir şekilde işlenmesini sağlayan temel tekniklerden biridir. Özellikle Türkçe gibi eklemeli dillerde, doğru kök bulma işlemi büyük bir öneme sahiptir. SnowballStemmer, TurkishStemmer ve NLTK gibi araçlar, bu işlemi kolaylaştırarak metin analizi süreçlerini optimize eder. Ancak, doğru sonuçlar elde etmek için dilin yapısına uygun kütüphanelerin seçilmesi ve bu kütüphanelerin doğru şekilde kullanılması gereklidir.

## Kaynaklar
Natural Language Processing with Python (O’Reilly)
Practical Natural Language Processing (O’Reilly)