# Stemming Ve Lemmatization

In [14]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
import string

# İngilizce stopwords'leri yükleyin
stop_words = set(stopwords.words('english'))

# Örnek cümle
sentence = "The cats are running in the garden and playing with each OTHER."

# Tokenization
words = word_tokenize(sentence)

# Küçük harfe dönüştürme ve noktalama işaretlerini kaldırma
words = [word.lower() for word in words if word.isalnum()]

# Stopwords'leri kaldırma
words = [word for word in words if word not in stop_words]

# Stemming (Kök çıkarma)
porter_stemmer = PorterStemmer()
stemmed_words = [porter_stemmer.stem(word) for word in words]

# Lemmatization (Lematizasyon)
wordnet_lemmatizer = WordNetLemmatizer()
lemmatized_words = [wordnet_lemmatizer.lemmatize(word) for word in words]

# Sonuçları yazdırma
print(f"Orjinal Cümle: {sentence}")
print(f"Tokenlar: {words}")
print(f"Stemmed Kelimeler: {stemmed_words}")
print(f"Lemmatized Kelimeler: {lemmatized_words}")


Orjinal Cümle: The cats are running in the garden and playing with each OTHER.
Tokenlar: ['cats', 'running', 'garden', 'playing']
Stemmed Kelimeler: ['cat', 'run', 'garden', 'play']
Lemmatized Kelimeler: ['cat', 'running', 'garden', 'playing']


In [17]:
from snowballstemmer import TurkishStemmer
# Örnek cümle
sentence = "Kediler bahçede koşuyor ve birbirleriyle oynuyorlar."

# Tokenization
words = word_tokenize(sentence)

# Küçük harfe dönüştürme ve noktalama işaretlerini kaldırma
words = [word.lower() for word in words if word.isalnum()]

turkishstem=TurkishStemmer()
stemmed_words = [turkishstem.stemWord(word) for word in words]

# Sonuçları yazdırma
print(f"Original Cümle: {sentence}")
print(f"Tokenized Words: {words}")
print(f"Stemmed Words: {stemmed_words}")




Original Cümle: Kediler bahçede koşuyor ve birbirleriyle oynuyorlar.
Tokenized Words: ['kediler', 'bahçede', 'koşuyor', 've', 'birbirleriyle', 'oynuyorlar']
Stemmed Words: ['kedi', 'bahçe', 'koşuyor', 've', 'birbir', 'oynuyor']


# StopWords

In [18]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# Tokenization ve stopwords'leri kaldırma fonksiyonu
def removeStopWords(documents):
    stop_words = set(stopwords.words('english'))
    result = []

    for document in documents:
        # Tokenization
        words = word_tokenize(document)
        
        # Stopwords'leri kaldırma
        filtered_words = [word for word in words if word.lower() not in stop_words]
        
        # Temizlenmiş cümleyi result listesine ekleme
        result.append(" ".join(filtered_words))
    
    return result

# Örnek cümleler
cumleler = [
    "an example of a short sentence",
    "a second short sentence"
]

# Tokenization ve stopwords'leri kaldırma işlemi
yeni = removeStopWords(cumleler)

# Sonuçları yazdırma
print("Original Sentences:")
for cumle in cumleler:
    print(f"- {cumle}")

print("\nProcessed Sentences (Stopwords Removed):")
for cumle in yeni:
    print(f"- {cumle}")


Original Sentences:
- an example of a short sentence
- a second short sentence

Processed Sentences (Stopwords Removed):
- example short sentence
- second short sentence


# Belirtilen Kelimelerin Atılması, Belli uzunluktaki keimelern Atılması

In [19]:
from nltk.tokenize import word_tokenize

# Tokenization fonksiyonu
def tokenizedDocument(documents):
    result = []
    for document in documents:
        words = word_tokenize(document)
        result.append(words)
    return result

# Uzun kelimeleri kaldıran fonksiyon
def removeLongWords(documents, max_length):
    result = []
    for document in documents:
        filtered_words = [word for word in document if len(word) <= max_length]
        result.append(filtered_words)
    return result

# Kısa kelimeleri kaldıran fonksiyon
def removeShortWords(documents, min_length):
    result = []
    for document in documents:
        filtered_words = [word for word in document if len(word) >= min_length]
        result.append(filtered_words)
    return result

# Belirli kelimeleri kaldıran fonksiyon
def removeWords(documents, words_to_remove):
    result = []
    for document in documents:
        filtered_words = [word for word in document if word not in words_to_remove]
        result.append(filtered_words)
    return result

# Örnek cümleler
cumleler = [
    "an example of a short sentence",
    "a second short sentence"
]

# Tokenization işlemi
dokuman = tokenizedDocument(cumleler)

# Uzun kelimeleri kaldırma işlemi
uzun = removeLongWords(dokuman, 7)

# Kısa kelimeleri kaldırma işlemi
kisa = removeShortWords(dokuman, 2)

# Belirli kelimeleri kaldırma işlemi
kelimeler = ["short", "second"]
istenilenkelimeatimi = removeWords(dokuman, kelimeler)

# Sonuçları yazdırma
print("Orjinal Cümleler :")
for cumle in cumleler:
    print(f"- {cumle}")

print("\nUzun Kelimelerin Atılması:")
for filtered_cumle in uzun:
    print(f"- {' '.join(filtered_cumle)}")

print("\nKısa Kelimelerin Atılması:")
for filtered_cumle in kisa:
    print(f"- {' '.join(filtered_cumle)}")

print("\nBelirtilen Keimelerin Atılması:")
for filtered_cumle in istenilenkelimeatimi:
    print(f"- {' '.join(filtered_cumle)}")


Orjinal Cümleler :
- an example of a short sentence
- a second short sentence

Uzun Kelimelerin Atılması:
- an example of a short
- a second short

Kısa Kelimelerin Atılması:
- an example of short sentence
- second short sentence

Belirtilen Keimelerin Atılması:
- an example of a sentence
- a sentence
