
## Bag of Words (BoW) Nedir?

**Bag of Words**, bir metni (veya belgeyi) kelimelerinin sıklığına göre vektörleştiren en temel metin temsil yöntemidir.  
Kelime sırası ve gramer dikkate alınmaz, sadece hangi kelimenin kaç kez geçtiği önemlidir.

**Avantajları:**  
- Basit ve hızlıdır  
- Makine öğrenmesi algoritmalarıyla kolayca kullanılabilir  
- Küçük veri setlerinde iyi çalışır

**Dezavantajları:**  
- Kelime sırası ve bağlamı kaybeder  
- Çok büyük boyutlu vektörler oluşabilir  
- Anlamsal ilişkileri yakalayamaz


In [8]:
documents = [
    "Bugün hava çok güzel ve güneşli.",
    "Yarın hava yağmurlu olacak.",
    "Bugün parka gittik ve çok eğlendik.",
    "Yarın da parka gitmek istiyoruz."
]

1. Python (Manuel BoW)

In [9]:
import re
from collections import Counter

def bow_python(docs):
    # Tüm kelimeleri küçük harfe çevirip ayıkla
    all_words = []
    for doc in docs:
        words = re.findall(r'\w+', doc.lower(), re.UNICODE)
        all_words.extend(words)
    # Tüm kelimelerin kümesini al
    vocab = sorted(set(all_words))
    # Her doküman için kelime sıklıklarını hesapla
    bow_vectors = []
    for doc in docs:
        words = re.findall(r'\w+', doc.lower(), re.UNICODE)
        counts = Counter(words)
        vector = [counts.get(word, 0) for word in vocab]
        bow_vectors.append(vector)
    return vocab, bow_vectors

vocab, bow_vectors = bow_python(documents)
print("Kelimeler (Vocab):", vocab)
print("BoW Vektörleri:")
for i, vec in enumerate(bow_vectors):
    print(f"Doc {i+1}: {vec}")

Kelimeler (Vocab): ['bugün', 'da', 'eğlendik', 'gitmek', 'gittik', 'güneşli', 'güzel', 'hava', 'istiyoruz', 'olacak', 'parka', 've', 'yarın', 'yağmurlu', 'çok']
BoW Vektörleri:
Doc 1: [1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1]
Doc 2: [0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0]
Doc 3: [1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1]
Doc 4: [0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0]


2. scikit-learn ile Bag of Words
* Python’da en pratik ve yaygın yol, scikit-learn’ün CountVectorizer fonksiyonunu kullanmaktır.

In [10]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(lowercase=True)
X = vectorizer.fit_transform(documents)

print("Kelimeler (Vocab):", vectorizer.get_feature_names_out())
print("BoW Vektörleri (sparse):\n", X.toarray())

Kelimeler (Vocab): ['bugün' 'da' 'eğlendik' 'gitmek' 'gittik' 'güneşli' 'güzel' 'hava'
 'istiyoruz' 'olacak' 'parka' 've' 'yarın' 'yağmurlu' 'çok']
BoW Vektörleri (sparse):
 [[1 0 0 0 0 1 1 1 0 0 0 1 0 0 1]
 [0 0 0 0 0 0 0 1 0 1 0 0 1 1 0]
 [1 0 1 0 1 0 0 0 0 0 1 1 0 0 1]
 [0 1 0 1 0 0 0 0 1 0 1 0 1 0 0]]


3. NLTK ile Bag of Words

In [11]:
import nltk
from collections import Counter

# Her dokümanı tokenize et
tokenized_docs = [nltk.word_tokenize(doc.lower()) for doc in documents]
# Tüm kelimelerin kümesi
vocab = sorted(set(word for doc in tokenized_docs for word in doc if word.isalpha()))
# Her doküman için vektör
bow_vectors = []
for doc in tokenized_docs:
    counts = Counter([word for word in doc if word.isalpha()])
    vector = [counts.get(word, 0) for word in vocab]
    bow_vectors.append(vector)

print("Kelimeler (Vocab):", vocab)
print("BoW Vektörleri:")
for i, vec in enumerate(bow_vectors):
    print(f"Doc {i+1}: {vec}")

Kelimeler (Vocab): ['bugün', 'da', 'eğlendik', 'gitmek', 'gittik', 'güneşli', 'güzel', 'hava', 'istiyoruz', 'olacak', 'parka', 've', 'yarın', 'yağmurlu', 'çok']
BoW Vektörleri:
Doc 1: [1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1]
Doc 2: [0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0]
Doc 3: [1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1]
Doc 4: [0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0]


4. spaCy ile Bag of Words

In [12]:
import spacy

nlp = spacy.blank("tr")  # Türkçe için boş model
tokenized_docs = []
for doc in documents:
    tokens = [token.text.lower() for token in nlp(doc) if token.is_alpha]
    tokenized_docs.append(tokens)

vocab = sorted(set(word for doc in tokenized_docs for word in doc))
bow_vectors = []
for doc in tokenized_docs:
    counts = Counter(doc)
    vector = [counts.get(word, 0) for word in vocab]
    bow_vectors.append(vector)

print("Kelimeler (Vocab):", vocab)
print("BoW Vektörleri:")
for i, vec in enumerate(bow_vectors):
    print(f"Doc {i+1}: {vec}")

Kelimeler (Vocab): ['bugün', 'da', 'eğlendik', 'gitmek', 'gittik', 'güneşli', 'güzel', 'hava', 'istiyoruz', 'olacak', 'parka', 've', 'yarın', 'yağmurlu', 'çok']
BoW Vektörleri:
Doc 1: [1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1]
Doc 2: [0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0]
Doc 3: [1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1]
Doc 4: [0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0]


5. Zeyrek ve TRNLP ile BoW

In [13]:
import re

try:
    import zeyrek
    analyzer = zeyrek.MorphAnalyzer()
    zeyrek_available = True
except ImportError:
    print("Zeyrek kurulu değil.")
    zeyrek_available = False

def lemmatize_with_zeyrek(text):
    words = re.findall(r'\w+', text.lower(), re.UNICODE)
    lemmas = []
    for word in words:
        analyses = analyzer.analyze(word)
        if analyses and len(analyses) > 0 and len(analyses[0]) > 1 and analyses[0][1]:
            lemma = analyses[0][1][0]
        else:
            lemma = word
        lemmas.append(lemma)
    return lemmas

if zeyrek_available:
    lemmatized_docs = [' '.join(lemmatize_with_zeyrek(doc)) for doc in documents]
    from sklearn.feature_extraction.text import CountVectorizer
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(lemmatized_docs)
    print("Zeyrek ile lemmatize edilmiş kelimeler (her doküman):")
    for i, doc in enumerate(lemmatized_docs):
        print(f"Doc {i+1}: {doc}")
    print("BoW Vektörleri (Zeyrek lemmatize):\n", X.toarray())
    print("Kelimeler (Vocab):", vectorizer.get_feature_names_out())

APPENDING RESULT: <(bugün_Adv)(-)(bugün:advRoot_ST)>
APPENDING RESULT: <(bugün_Noun_Time)(-)(bugün:noun_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(hava_Adj)(-)(hava:adjectiveRoot_ST)>
APPENDING RESULT: <(hav_Noun)(-)(hav:noun_S + a3sg_S + pnon_S + a:dat_ST)>
APPENDING RESULT: <(hava_Noun)(-)(hava:noun_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(çok_Det)(-)(çok:detRoot_ST)>
APPENDING RESULT: <(çok_Postp_PCAbl)(-)(çok:postpRoot_ST)>
APPENDING RESULT: <(çok_Adv)(-)(çok:advRoot_ST)>
APPENDING RESULT: <(çok_Adj)(-)(çok:adjectiveRoot_ST)>
APPENDING RESULT: <(güzel_Adj)(-)(güzel:adjectiveRoot_ST)>
APPENDING RESULT: <(güzel_Adv)(-)(güzel:advRoot_ST)>
APPENDING RESULT: <(güzel_Noun)(-)(güzel:noun_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(ve_Conj)(-)(ve:conjRoot_ST)>
APPENDING RESULT: <(Güneş_Noun_Prop)(-)(güneş:nounProper_S + a3sg_S + pnon_S + nom_ST + li:with_S + adjectiveRoot_ST)>
APPENDING RESULT: <(güneş_Noun)(-)(güneş:noun_S + a3sg_S + pnon_S + nom_ST + li:with_S + 

Zeyrek ile lemmatize edilmiş kelimeler (her doküman):
Doc 1: bugün hava çok güzel ve güneşli
Doc 2: yarın hava yağmurlu olacak
Doc 3: bugün parka gittik ve çok eğlendik
Doc 4: yarın da parka gitmek istiyoruz
BoW Vektörleri (Zeyrek lemmatize):
 [[1 0 0 0 0 1 1 1 0 0 0 1 0 0 1]
 [0 0 0 0 0 0 0 1 0 1 0 0 1 1 0]
 [1 0 1 0 1 0 0 0 0 0 1 1 0 0 1]
 [0 1 0 1 0 0 0 0 1 0 1 0 1 0 0]]
Kelimeler (Vocab): ['bugün' 'da' 'eğlendik' 'gitmek' 'gittik' 'güneşli' 'güzel' 'hava'
 'istiyoruz' 'olacak' 'parka' 've' 'yarın' 'yağmurlu' 'çok']


5. TRNLP ile Lemmatize Edilmiş Bag of Words

In [14]:
import re

try:
    from trnlp import TrnlpWord
    trnlp_available = True
except ImportError:
    print("TRNLP kurulu değil.")
    trnlp_available = False

def lemmatize_with_trnlp(text):
    words = re.findall(r'\w+', text.lower(), re.UNICODE)
    lemmas = []
    for word in words:
        try:
            tr_word = TrnlpWord()
            tr_word.setword(word)
            lemma = getattr(tr_word, "lemma", None) or getattr(tr_word, "lemmas", None)
            if isinstance(lemma, list):
                lemma = lemma[0] if lemma else word
            elif not lemma:
                lemma = word
        except Exception:
            lemma = word
        lemmas.append(lemma)
    return lemmas

if trnlp_available:
    lemmatized_docs = [' '.join(lemmatize_with_trnlp(doc)) for doc in documents]
    from sklearn.feature_extraction.text import CountVectorizer
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(lemmatized_docs)
    print("TRNLP ile lemmatize edilmiş kelimeler (her doküman):")
    for i, doc in enumerate(lemmatized_docs):
        print(f"Doc {i+1}: {doc}")
    print("BoW Vektörleri (TRNLP lemmatize):\n", X.toarray())
    print("Kelimeler (Vocab):", vectorizer.get_feature_names_out())

TRNLP ile lemmatize edilmiş kelimeler (her doküman):
Doc 1: bugün hava çok güzel ve güneşli
Doc 2: yarın hava yağmurlu olacak
Doc 3: bugün parka gittik ve çok eğlendik
Doc 4: yarın da parka gitmek istiyoruz
BoW Vektörleri (TRNLP lemmatize):
 [[1 0 0 0 0 1 1 1 0 0 0 1 0 0 1]
 [0 0 0 0 0 0 0 1 0 1 0 0 1 1 0]
 [1 0 1 0 1 0 0 0 0 0 1 1 0 0 1]
 [0 1 0 1 0 0 0 0 1 0 1 0 1 0 0]]
Kelimeler (Vocab): ['bugün' 'da' 'eğlendik' 'gitmek' 'gittik' 'güneşli' 'güzel' 'hava'
 'istiyoruz' 'olacak' 'parka' 've' 'yarın' 'yağmurlu' 'çok']


Açıklama:

Her dokümandaki kelimeler önce lemmatize edilir.
Sonra, lemmatize edilmiş metinler ile klasik BoW vektörü oluşturulur.
Bu yöntem, Türkçe’de kök/ek farklılıklarından kaynaklanan BoW şişmesini azaltır.