# DOĞAL DİL İŞLEME

### Stemming      
Stemming, bir kelimenin kök formunu bulmak için kullanılan basit bir tekniktir.
Kelimenin sonundaki ekleri keserek kelimenin köküne ulaşmayı hedefler. Örneğin, "playing", "played" ve "plays" kelimeleri "play" köküne indirgenir.
Bu yöntem, genellikle kurallara dayalı olarak çalışır ve dil bilgisi kurallarını dikkate almaz. Bu yüzden bazen kelimenin gerçek anlamını bozan köklere ulaşabilir.
Stemming sonucunda dil açısından mantıklı olmayan kökler elde edilebilir. Örneğin, "connect" ve "connected" kelimeleri "connect"e indirgenirken, "connections" kelimesi yanlış bir şekilde "connect" yerine "connect" köküne indirgenebilir.

### Lemmatization   
Lemmatization, kelimeleri sözlükte bulunan doğru biçimlerine (lemma) indirgemeyi amaçlayan daha gelişmiş bir tekniktir.
Bu yöntem, kelimenin anlamını ve dil bilgisi kurallarını dikkate alır. Yani, kelimenin temel anlamını bozmadan doğru kök formuna ulaşmayı hedefler.
Örneğin, "running", "ran" ve "runs" kelimeleri "run" lemmasına indirgenir. Ancak kelimenin bağlamını ve türünü dikkate alarak işlem yapar, bu nedenle kelimenin doğru kök halini sağlar.
Lemmatization için genellikle bir sözlük ve dil bilgisi analizine ihtiyaç duyulur, bu da süreci daha karmaşık hale getirir, fakat sonuçlar daha doğru olur.

Kısaca Farkları    
Stemming: Daha basit ve hızlı bir işlemdir, ancak doğruluk oranı düşüktür.
Lemmatization: Daha karmaşıktır ve daha doğru sonuçlar verir, çünkü dil bilgisi kurallarını ve kelimenin anlamını dikkate alır.

## Stemmer Çeşitleri

### Porter Stemmer   
1979'da Martin Porter tarafından geliştirilmiş ve NLP'de en yaygın kullanılan stemmer'lardan biridir.
İngilizce için oluşturulmuştur ve dil bilgisel kurallar kullanarak ekleri belirli kurallarla keser.
Oldukça etkili ve yaygındır, ancak bazı durumlarda biraz yavaş çalışabilir.
Porter Stemmer, kökleri doğru bir şekilde bulma konusunda oldukça başarılıdır, ancak bazen karmaşık kelimelerde hatalar yapabilir. Kelimenin sonundaki ekleri belirli bir sıraya göre keser ve kurallar içerir.
Örneğin, "caresses" kelimesini "caress"e, "ponies" kelimesini "poni"ye indirger.

### Snowball Stemmer   
Snowball Stemmer, Martin Porter tarafından geliştirilen bir diğer stemmer'dır ve bazen "Porter2" olarak da bilinir.
Daha esnek ve genişletilebilir bir yapıya sahiptir. Birçok dil için kullanılabilecek kurallar içerir ve bu nedenle farklı dillerde kullanılabilen bir çoklu dil desteği sunar.
Daha güncel bir stemmer olup, Porter Stemmer'e göre daha tutarlı ve hızlı çalışır.
Örneğin, İngilizce dışında Fransızca, Almanca, İspanyolca gibi diller için de destek sunar.
"Snowball" ismi, aslında bu stemmer'ın geliştirildiği programlama dilinden gelmektedir ve algoritmanın kendisi de oldukça esnek yapılıdır.

### Lancaster Stemmer  
Lancaster Stemmer, aynı zamanda Paice-Husk Stemmer olarak da bilinir ve Porter Stemmer'dan daha agresif bir algoritmadır.
Daha kısa ve hızlı sonuçlar verir, ancak bu da daha fazla hatalı sonuç anlamına gelebilir. Özellikle agresif yapısı nedeniyle, bazen kelimenin anlamını bozarak indirgeme yapabilir.
Lancaster Stemmer, ekleri keserken oldukça serttir ve bu nedenle daha kısa kökler elde eder. Genellikle doğruluk oranı Porter ve Snowball Stemmer'a göre daha düşüktür.
Örneğin, "connection" kelimesini "connect" yerine "con" olarak indirgemesi bu stemmer’ın agresif doğasını gösterir.

## Tokenization   
Tokenization, metin işleme ve doğal dil işleme (NLP) alanında, bir metni daha küçük parçalara ayırma işlemidir. Bu parçalar genellikle kelimeler veya cümleler olabilir. Tokenization, metinlerin analiz edilmesi ve işlenmesi için önemli bir ilk adımdır, çünkü doğal dildeki metinler genellikle uzun ve karmaşıktır. Bu sayede metinler, makine öğrenimi modelleri veya diğer NLP işlemleri için daha kolay bir şekilde işlenebilir hale gelir.

## Stopwords    
Durdurma kelimeleri, metin işleme ve doğal dil işleme (NLP) alanlarında, genellikle çok sık kullanılan ve anlam taşıma değeri düşük olan kelimelerdir. Bu kelimeler, metinlerin temel anlamına katkı sağlamazlar ve metin analizlerinde çoğunlukla göz ardı edilirler. Stopwords listesi dil bazında değişir, ancak örneğin Türkçe'de "ve", "bu", "bir", "ile", "ama", "gibi" gibi kelimeler stopwords olarak kabul edilir.

Stopwords'in Önemi ve Kullanımı  
Gereksiz Kelimeleri Çıkarma: Stopwords'leri kaldırarak metindeki anlamsız kelimelerden kurtulmak, metin analizini daha verimli hale getirir.  
İşlem Hızını Artırma: Anlamsız kelimelerin kaldırılması, veri boyutunu küçültür ve analiz sürecini hızlandırır.  
Doğru Anlam Çıkarma: Önemli kelimeleri öne çıkararak metnin anlamını daha iyi kavramaya yardımcı olur.  

In [10]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
import string

In [22]:
# ingilizce stopwordleri yükleme
stop_words = stopwords.words('english')

In [54]:
sentence = "The cats are RUNNING in the garden and playing with each other"

In [56]:
words = word_tokenize(sentence)

In [58]:
# küçük harfe dönüştürme ve noktalama işaretlerini kaldırma
words = [word.lower() for word in words if word.isalnum()]

In [60]:
# stopwordsleri kaldırma
words = [word for word in words if word not in stop_words]

In [62]:
# Stemming (kök çıkarma)
porter_stemmer = PorterStemmer()
stemmed_words = [porter_stemmer.stem(word) for word in words]

In [64]:
# Lemmatization (lematizasyon)
wordnet_lemmatizer = WordNetLemmatizer()
lemmatized_words = [wordnet_lemmatizer.lemmatize(word) for word in words]

In [66]:
print(f"Orjinal Cümle: {sentence}")
print(f"Tokenlar: {words}")
print(f"Stemmed Kelimeler: {stemmed_words}")
print(f"Lemmatized Cümle: {lemmatized_words}")

Orjinal Cümle: The cats are RUNNING in the garden and playing with each other
Tokenlar: ['cats', 'running', 'garden', 'playing']
Stemmed Kelimeler: ['cat', 'run', 'garden', 'play']
Lemmatized Cümle: ['cat', 'running', 'garden', 'playing']


In [71]:
from snowballstemmer import TurkishStemmer

stop_words = stopwords.words('turkish')

cumle = "Kediler bahçede koşuyor ve birbirleriyle oynuyorlar"

words = word_tokenize(cumle)

words = [word.lower() for word in words if word.isalnum()]

words = [word for word in words if word not in stop_words]

porter_stemmer = PorterStemmer()
stemmed_words = [porter_stemmer.stem(word) for word in words]

wordnet_lemmatizer = WordNetLemmatizer()
lemmatized_words = [wordnet_lemmatizer.lemmatize(word) for word in words]

print(f"Orjinal Cümle: {cumle}")
print(f"Tokenlar: {words}")
print(f"Stemmed Kelimeler: {stemmed_words}")
print(f"Lemmatized Cümle: {lemmatized_words}")

Orjinal Cümle: Kediler bahçede koşuyor ve birbirleriyle oynuyorlar
Tokenlar: ['kediler', 'bahçede', 'koşuyor', 'birbirleriyle', 'oynuyorlar']
Stemmed Kelimeler: ['kedil', 'bahçed', 'koşuyor', 'birbirleriyl', 'oynuyorlar']
Lemmatized Cümle: ['kediler', 'bahçede', 'koşuyor', 'birbirleriyle', 'oynuyorlar']


## Stopwords

In [15]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [20]:
# tokenizaiton ve stopwords'leri kaldırma fonksiyonu
def removeStopWords(documents):
    stop_words = set(stopwords.words("english"))
    result = []

    for document in documents:
        # Tokenization
        words = word_tokenize(document)
    
        # Stopwordsleri kaldırma
        filtered_words = [word for word in words if word.lower() not in stop_words]
    
        # Temizlenmiş cümleyi result listesine ekleme
        result.append(" ".join(filtered_words))
        
    return result

#örnek cümleler
cumleler = [
        "an example of a short sentence",
        "a second short sentence"
]

#tokenization ve stopwords'leri kaldırma işlemi
yeni = removeStopWords(cumleler)

#Sonucları yazdırma
print("Orjinal Sentences:")
for cumle in cumleler:
    print(f"- {cumle}")

print("\nProcessed Sentences (Stopwords Removed):")
for cumle in yeni:
    print(f"- {cumle}")

Orjinal Sentences:
- an example of a short ssentence
- a second short sentence

Processed Sentences (Stopwords Removed):
- example short ssentence
- second short sentence


In [None]:
# Belirtilen Kelimelerin Atılması, Belli Uzunluktaki Kelimelerin Atılması

In [22]:
from nltk.tokenize import word_tokenize

In [44]:
# Tokenization fonksiyonu
def tokenizedDocument(documents):
    result = []
    for document in documents:
        words = word_tokenize(document)
        result.append(words)
    return result

# Uzun kelimeleri kaldıran Fonksiyon
def removeLongWords(documents, max_length):
    result = []
    for document in documents:
        filtered_words = [word for word in document if len(word) <= max_length]
        result.append(filtered_words)
    return result

# Kısa kelimeleri kaldıran Fonksiyon
def removeShortWords(documents, min_length):
    result = []
    for document in documents:
        filtered_words = [word for word in document if len(word) >= min_length]
        result.append(filtered_words)
    return result

# Belirli kelimeleri kaldıran fonksiyon
def removeWords(documents, words_to_remove):
    result = []
    for document in documents:
        filtered_words = [word for word in document if word not in words_to_remove]
        result.append(filtered_words)
    return result

# Örnek cümleler
cumleler = [
    "an example of a short sentence",
        "a second short sentence"
]

# Tokenization işlemi
dokuman = tokenizedDocument(cumleler)

# Uzun kelimeleri kaldırma işlemi
uzun = removeLongWords(dokuman, 7)

# Kısa kelimeleri kaldırma işlemi
kisa = removeShortWords(dokuman, 2)

# Belirli kelimeleri kaldırma işlemi
kelimeler = ["short", "second"]
istenilenkelimeatimi = removeWords(dokuman, kelimeler)

#Sonucları yazdırma
print("Orjinal sentences:")
for cumle in cumleler:
    print(f"- {cumle}")

print("\nUzun kelimelerin atılması:")
for filtered_cumle in uzun:
    print(f"- {' '.join(filtered_cumle)}")

print("\nKısa kelimelerin atılması:")
for filtered_cumle in kisa:
    print(f"- {' '.join(filtered_cumle)}")

print("\nBelirtilen kelimelerin atılması:")
for filtered_cumle in istenilenkelimeatimi:
    print(f"- {' '.join(filtered_cumle)}")

Orjinal sentences:
- an example of a short sentence
- a second short sentence

Uzun kelimelerin atılması:
- an example of a short
- a second short

Kısa kelimelerin atılması:
- an example of short sentence
- second short sentence

Belirtilen kelimelerin atılması:
- an example of a sentence
- a sentence


## Tokenize

In [46]:
from nltk.tokenize import sent_tokenize

cumleler = ["This is an exampler document. It has two sentences",
           "This document has one sentence and an emotion. :)",
           "Here is another example document. :D"]

tokenlar = [sent_tokenize(cumle) for cumle in cumleler]

ifade = "This is an exampler document. It has two sentences. This document has one sentence and an emotion. :) Here is another example document. :D"
print(sent_tokenize(ifade))

['This is an exampler document.', 'It has two sentences.', 'This document has one sentence and an emotion.', ':) Here is another example document.', ':D']


In [67]:
import nltk
from nltk.tokenize import sent_tokenize,  word_tokenize
from tabulate import tabulate

In [69]:
# önce nlk için gerekli kaynaklar indirilir
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ranab\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [71]:
# Verilen metin
cumleler = ["This is an exampler document. It has two sentences",
           "This document has one sentence and an emotion. :)",
           "Here is another example document. :D"]

In [75]:
# Cumleleri tokenleştir
tokenlar = [word_tokenize(cumle) for cumle  in cumleler]

# Token detayları al
token_ayrinti = [(token, nltk.pos_tag(token)) for token in tokenlar]

#token detaylarını ttablo olark göster
print(tabulate(token_ayrinti[0], headers=['Token', 'POS Tag'], tablefmt='fancy_grid'))

╒════════════════╤═══════════════╤══════════════╤════════════════════╤════════════════════╤════════════╤═══════════════╤════════════════╤═══════════════╤══════════════════════╕
│                │               │              │                    │                    │            │               │                │ Token         │ POS Tag              │
╞════════════════╪═══════════════╪══════════════╪════════════════════╪════════════════════╪════════════╪═══════════════╪════════════════╪═══════════════╪══════════════════════╡
│ This           │ is            │ an           │ exampler           │ document           │ .          │ It            │ has            │ two           │ sentences            │
├────────────────┼───────────────┼──────────────┼────────────────────┼────────────────────┼────────────┼───────────────┼────────────────┼───────────────┼──────────────────────┤
│ ('This', 'DT') │ ('is', 'VBZ') │ ('an', 'DT') │ ('exampler', 'NN') │ ('document', 'NN') │ ('.', '.') │ ('It', 'PR

## Word Tokenize

In [80]:
import nltk
import pandas as pd
from nltk.tokenize import word_tokenize

dosya = "siir.txt"

with open(dosya, 'r', encoding='utf-8') as file:
    str_metin = file.read()

#Metni satırlara böl
textData = str_metin.split('\n')

# Cümleleri tokenleştir
tokenler = [word_tokenize(cumle)for cumle in textData]

print(tokenler)



[['Haydarpaşa', 'garında'], ['1941', 'baharında'], ['saat', 'on', 'beş', '.'], ['Merdivenlerin', 'üstünde', 'güneş'], ['yorgunluk', 've', 'telâş'], ['Bir', 'adam'], ['merdivenlerde', 'duruyor'], ['bir', 'şeyler', 'düşünerek', '.'], ['Zayıf', '.'], ['Korkak', '.'], ['Burnu', 'sivri', 've', 'uzun'], ['yanaklarının', 'üstü', 'çopur', '.'], ['Merdivenlerdeki', 'adam'], ['-', 'Galip', 'Usta', '-'], ['tuhaf', 'şeyler', 'düşünmekle'], ['meşhurdur', ':'], ['‘', '’', 'Kâat', 'helvası', 'yesem', 'her', 'gün', '‘', '’', 'diye', 'düşündü'], ['5', 'yaşında', '.'], ['‘', '’', 'Mektebe', 'gitsem', '‘', '’', 'diye', 'düşündü'], ['10', 'yaşında', '.'], ['‘', '’', 'Babamın', 'bıçakçı', 'dükkânından'], ['Akşam', 'ezanından', 'önce', 'çıksam', '‘', '’', 'diye', 'düşündü', '.']]


## POS Taging 

In [85]:
import nltk
from nltk.tokenize import sent_tokenize,  word_tokenize
from tabulate import tabulate

# Verilen metin
cumleler = ["This is an exampler document. It has two sentences",
           "This document has one sentence and an emotion. :)",
           "Here is another example document. :D"]

# Cümleleri tokenleştir
tokenler = [word_tokenize(cumle) for cumle in cumleler]

# Token detayları için
token_Ayrinti = [(token, nltk.pos_tag(token)) for token in tokenler]

# Token detaylarını tablo olarak göster
print(tabulate(token_ayrinti[1], headers=['Token', 'POS Tag'], tablefmt='fancy_grid'))

╒════════════════╤════════════════════╤════════════════╤═══════════════╤════════════════════╤═══════════════╤══════════════╤═══════════════════╤════════════╤════════════╤════════════╕
│                │                    │                │               │                    │               │              │                   │            │ Token      │ POS Tag    │
╞════════════════╪════════════════════╪════════════════╪═══════════════╪════════════════════╪═══════════════╪══════════════╪═══════════════════╪════════════╪════════════╪════════════╡
│ This           │ document           │ has            │ one           │ sentence           │ and           │ an           │ emotion           │ .          │ :          │ )          │
├────────────────┼────────────────────┼────────────────┼───────────────┼────────────────────┼───────────────┼──────────────┼───────────────────┼────────────┼────────────┼────────────┤
│ ('This', 'DT') │ ('document', 'NN') │ ('has', 'VBZ') │ ('one', 'CD') │ ('sente

## BAG OF WORDS (KELİME ÇANTASI)

Bag of Words (BoW), doğal dil işleme (NLP) ve metin madenciliği alanlarında kullanılan basit ve popüler bir metin temsil yöntemidir. Bu yöntem, bir metindeki kelimelerin sıklığını dikkate alarak metni bir vektör olarak temsil eder, ancak kelimelerin dizilişini veya bağlamını dikkate almaz.

Bag of Words Nasıl Çalışır?
Kelime Sıklığı Hesaplama:

İlk olarak, tüm metinlerde geçen benzersiz kelimelerden bir kelime listesi (sözlük) oluşturulur.
Her bir metin, bu kelimelerin bulunduğu bir vektöre dönüştürülür.
Vektör, her kelimenin kaç kez geçtiğini gösterir.

In [105]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from nltk.tokenize import word_tokenize
from  nltk.corpus import stopwords

# Verilen metin
documents = ["This is an exampler document. It has two sentences",
           "This document has one sentence and an emotion. ",
           "bugün hava çok yağışlı"]

#Tokenize ve Stopwords
def tokenize_and_remove_stopwords(documents):
    words = word_tokenize(documents)
    stop_words = set(stopwords.words('english'))
    words = [word.lower() for word in words if word.isalnum() and word.lower() not in stop_words]
    return words

tokenized_documents = [' '.join(tokenize_and_remove_stopwords(doc)) for doc in documents]

# CountVectorize ile kelime çantalarının oluşturulması
vectorizer = CountVectorizer()
bag_of_words = vectorizer.fit_transform(tokenized_documents)

# kelime çantası matrisi
bow_array = bag_of_words.toarray()

# matrisin gösterimş
print("Kelime Çantası Matrisi:")
print(bow_array)

#kelimeler
feature_names = vectorizer.get_feature_names_out()

# kelimelerin gösterilmesi
print("\nKelimeler:")
print(feature_names)

# Orjinal Dökümanlar
for doc in documents:
    print(f" - {doc}")

# kelimelerin gösterilmesi
print("\nTokenize Dökümanlr:")
for doc in tokenized_documents:
    print(f" - {doc}")

Kelime Çantası Matrisi:
[[0 1 0 1 0 0 0 1 1 0 0]
 [0 1 1 0 0 1 1 0 0 0 0]
 [1 0 0 0 1 0 0 0 0 1 1]]

Kelimeler:
['bugün' 'document' 'emotion' 'exampler' 'hava' 'one' 'sentence'
 'sentences' 'two' 'yağışlı' 'çok']
 - This is an exampler document. It has two sentences
 - This document has one sentence and an emotion. 
 - bugün hava çok yağışlı

Tokenize Dökümanlr:
 - exampler document two sentences
 - document one sentence emotion
 - bugün hava çok yağışlı


## Elenmiş Kelime Çantası

In [111]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import numpy

In [119]:
import numpy as np
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer

# Tokenize ve Stopwords
def tokenize_and_remove_stopwords(document):
    words = word_tokenize(document)
    stop_words = set(stopwords.words('english'))
    words = [word.lower() for word in words if word.isalnum() and word.lower() not in stop_words]
    return words

def tokenizeDocument(documents):
    result = []
    for document in documents:
        words = tokenize_and_remove_stopwords(document)
        result.append(' '.join(words))
    return result

def bagOfWords(documents):
    vectorizer = CountVectorizer()
    bag = vectorizer.fit_transform(documents)
    return bag, vectorizer.get_feature_names_out()

def removeInfrequentWords(bag, feature_names, count):
    word_frequencies = np.array(bag.sum(axis=0))[0]
    selected_word_indices = np.where(word_frequencies >= count)[0]
    selected_words = [feature_names[i] for i in selected_word_indices]
    filtered_bag = bag[:, selected_word_indices]
    return filtered_bag, selected_words

documents = [
    "kısa bir cümle örneği",
    "ikinci kısa cümle",
    "başka bir örnek",
    "kısa bir örnek"
]

# Tokenizasyon ve stopwords'leri kaldırma
tokenized_documents = tokenizeDocument(documents)

# Bag of words oluşturma
bag, feature_names = bagOfWords(tokenized_documents)

# Seyrek kelimeleri kaldırma
count = 2
newBag, selected_words = removeInfrequentWords(bag, feature_names, count)

# kelimelerin gösterilmesi
print("\nOrijinal Dökümanlar:")
for doc in documents:
    print(f" - {doc}")

print("\nTokenize Edilmiş Dökümanlar:")
for doc in tokenized_documents:
    print(f" - {doc}")

print("\nBag of Words Matrisi:")
print(bag.toarray())

print("\nÖzellik (kelime) İndeksleri:")
print(selected_words)

print("\nFiltrelenmiş Bag Of Words Matrisi:")
print(newBag.toarray())



Orijinal Dökümanlar:
 - kısa bir cümle örneği
 - ikinci kısa cümle
 - başka bir örnek
 - kısa bir örnek

Tokenize Edilmiş Dökümanlar:
 - kısa bir cümle örneği
 - ikinci kısa cümle
 - başka bir örnek
 - kısa bir örnek

Bag of Words Matrisi:
[[0 1 1 0 1 0 1]
 [0 0 1 1 1 0 0]
 [1 1 0 0 0 1 0]
 [0 1 0 0 1 1 0]]

Özellik (kelime) İndeksleri:
['bir', 'cümle', 'kısa', 'örnek']

Filtrelenmiş Bag Of Words Matrisi:
[[1 1 1 0]
 [0 1 1 0]
 [1 0 0 1]
 [1 0 1 1]]
