# BOW (Bag Of Words): Kelime Çantası
# Kelime çantası modeli doğal dil işleme ve enformasyon getiriminde kullanılan basitleştirici bir temsildir. Bu modelde bir metin (cümle ya da belge gibi bir metin) kelimelerinin çantası (çoklukümesi) halinde temsil edilir, çoksallık tutulurken gramer ve hatta kelime sırası gözardı edilir. Kelime çantası modeli bilgisayarla görmede de kullanılmıştır.


# Kelime çantası modeli belge sınıflandırma yöntemlerinde yaygınca kullanılır: her kelimenin oluşu (sıklığı) bir sınıflandırıcının eğitilmesinde özellik olarak kullanılır.


In [10]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# Örnek Cümleler
documents = [
    "an example of a short sentence",
    "a second short sentence",
    "bugün hava hava çok yağışlı"
]

# Tokenize ve Stopwords
def tokenize_and_remove_stopwords(document):
    words = word_tokenize(document)
    stop_words = set(stopwords.words('english'))
    words = [word.lower() for word in words if word.isalnum() and word.lower() not in stop_words]
    return words

# Tonenize ve stopword işlemlerin her dökümana uygulanması
tokenized_documents = [' '.join(tokenize_and_remove_stopwords(doc)) for doc in documents]

# CountVectorizer ile kelime çantalarının oluşturulması
vectorizer = CountVectorizer()
bag_of_words = vectorizer.fit_transform(tokenized_documents)

# Kelime çantası matrisi
bow_array = bag_of_words.toarray()

# Matrisin gösterimi
print("Kelime Çantası Matrisi:")
print(bow_array)

# Keliemler
feature_names = vectorizer.get_feature_names_out()

# Kelimelerin gözterilmesi kelime çantasından
print("\nKelimelers:")
print(feature_names)

#Orjinal dökümanlar
print("\nOrjinal Dökümanlar:")
for doc in documents:
    print(f"- {doc}")

# Tokenie edilmiş dökümanlar
print("\nTokenize Dökümanlr")
for doc in tokenized_documents:
    print(f"- {doc}")


Kelime Çantası Matrisi:
[[0 1 0 0 1 1 0 0]
 [0 0 0 1 1 1 0 0]
 [1 0 2 0 0 0 1 1]]

Kelimelers:
['bugün' 'example' 'hava' 'second' 'sentence' 'short' 'yağışlı' 'çok']

Orjinal Dökümanlar:
- an example of a short sentence
- a second short sentence
- bugün hava hava çok yağışlı

Tokenize Dökümanlr
- example short sentence
- second short sentence
- bugün hava hava çok yağışlı


# İkinci Örnek

In [15]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import numpy as np

# Tokenizasyon ve stopwords'leri kaldırma fonksiyonu
def tokenize_and_remove_stopwords(document):
    words = word_tokenize(document)
    stop_words = set(stopwords.words('english'))
    words = [word.lower() for word in words if word.isalnum() and word.lower() not in stop_words]
    return words

# Tokenize edilmiş doküman oluşturma fonksiyonu
def tokenizedDocument(documents):
    result = []
    for document in documents:
        words = tokenize_and_remove_stopwords(document)
        result.append(' '.join(words))
    return result

# Bag of Words oluşturma fonksiyonu
def bagOfWords(documents):
    vectorizer = CountVectorizer()
    bag = vectorizer.fit_transform(documents)
    return bag, vectorizer.get_feature_names_out()

# Seyrek kelimeleri kaldırma fonksiyonu
def removeInfrequentWords(bag, count):
    word_frequencies = np.array(bag.sum(axis=0))[0]
    selected_words_indices = np.where(word_frequencies >= count)[0]
    selected_words = [feature_names[i] for i in selected_words_indices]
    
    filtered_bag = bag[:, selected_words_indices]
    
    return filtered_bag, selected_words

# Örnek cümleler
documents = [
    "kısa bir cümle örneği",
    "ikinci kısa cümle",
    "başka bir örnek",
    "kısa bir örnek"
]

# Tokenizasyon ve stopwords'leri kaldırma
tokenized_documents = tokenizedDocument(documents)

# Bag of Words oluşturma
bag, feature_names = bagOfWords(tokenized_documents)

# Seyrek kelimeleri kaldırma
count = 3
newBag, selected_words = removeInfrequentWords(bag, count)

# Sonuçları görüntüleme
print("Orjinal Dokümanlar:")
for doc in documents:
    print(f"- {doc}")

print("\nTokenize Edilmiş Dokümanlar:")
for doc in tokenized_documents:
    print(f"- {doc}")

print("\nBag of Words Matrisi:")
print(bag.toarray())
print("\nÖzellik (Kelime) İndeksleri:")
print(feature_names)

print(f"\nFrekansı >= {count} olan Seçilmiş Kelimeler:")
print(selected_words)

print("\nFiltrelenmiş Bag of Words Matrisi:")
print(newBag.toarray())


Orjinal Dokümanlar:
- kısa bir cümle örneği
- ikinci kısa cümle
- başka bir örnek
- kısa bir örnek

Tokenize Edilmiş Dokümanlar:
- kısa bir cümle örneği
- ikinci kısa cümle
- başka bir örnek
- kısa bir örnek

Bag of Words Matrisi:
[[0 1 1 0 1 0 1]
 [0 0 1 1 1 0 0]
 [1 1 0 0 0 1 0]
 [0 1 0 0 1 1 0]]

Özellik (Kelime) İndeksleri:
['başka' 'bir' 'cümle' 'ikinci' 'kısa' 'örnek' 'örneği']

Frekansı >= 3 olan Seçilmiş Kelimeler:
['bir', 'kısa']

Filtrelenmiş Bag of Words Matrisi:
[[1 1]
 [0 1]
 [1 0]
 [1 1]]


# Noktalama İşaretlerin Silinmesi

In [16]:
import string

def erasePunctuation(input_str):
    # Translate fonksiyonu için çeviri tablosu oluşturma
    translator = str.maketrans("", "", string.punctuation)
    
    # Noktalama işaretlerini kaldırma
    result_str = input_str.translate(translator)
    
    return result_str

# Örnek cümle
str_example = "it's one and/or two."

# Noktalama işaretlerini kaldırma işlemi
new_str = erasePunctuation(str_example)

# Sonuçları yazdırma
print("Orjinal String:", str_example)
print("Noktalama Simgelerin Silinmesi:", new_str)


Orjinal String: it's one and/or two.
Noktalama Simgelerin Silinmesi: its one andor two
