In [1]:
dataset = [
    {"text": "Kendimi bu dünyada geliştirmeliyim", "label": "kişisel gelişim"},
    {"text": "Çok çalışmalı ve kendimi zorlamalıyım", "label": "kişisel gelişim"},
    {"text": "Bugün hava çok güzel", "label": "günlük yaşam"},
    {"text": "Yürüyüşe çıkıp biraz temiz hava almalıyım", "label": "günlük yaşam"}
]


In [2]:
import re

def tokenize(text):
    text = text.lower()  # Küçük harfe çevir
    text = re.sub(r"[^a-zçğıöşü\s]", "", text)  # Sadece harfleri bırak
    return text.split()  # Boşluktan ayır

# Uygula
documents = [tokenize(item["text"]) for item in dataset]
print(documents)


[['kendimi', 'bu', 'dünyada', 'geliştirmeliyim'], ['çok', 'çalışmalı', 've', 'kendimi', 'zorlamalıyım'], ['bugün', 'hava', 'çok', 'güzel'], ['yürüyüşe', 'çıkıp', 'biraz', 'temiz', 'hava', 'almalıyım']]


In [5]:
documents

[['kendimi', 'bu', 'dünyada', 'geliştirmeliyim'],
 ['çok', 'çalışmalı', 've', 'kendimi', 'zorlamalıyım'],
 ['bugün', 'hava', 'çok', 'güzel'],
 ['yürüyüşe', 'çıkıp', 'biraz', 'temiz', 'hava', 'almalıyım']]

In [3]:
from collections import Counter

def compute_tf(tokens):
    count = Counter(tokens)  # Kelime say
    total = len(tokens)      # Toplam kelime sayısı
    return {word: freq / total for word, freq in count.items()}  # Oranı al

# Her cümle için TF
tf_scores = [compute_tf(doc) for doc in documents]
print(tf_scores)


[{'kendimi': 0.25, 'bu': 0.25, 'dünyada': 0.25, 'geliştirmeliyim': 0.25}, {'çok': 0.2, 'çalışmalı': 0.2, 've': 0.2, 'kendimi': 0.2, 'zorlamalıyım': 0.2}, {'bugün': 0.25, 'hava': 0.25, 'çok': 0.25, 'güzel': 0.25}, {'yürüyüşe': 0.16666666666666666, 'çıkıp': 0.16666666666666666, 'biraz': 0.16666666666666666, 'temiz': 0.16666666666666666, 'hava': 0.16666666666666666, 'almalıyım': 0.16666666666666666}]


In [4]:
tf_scores

[{'kendimi': 0.25, 'bu': 0.25, 'dünyada': 0.25, 'geliştirmeliyim': 0.25},
 {'çok': 0.2,
  'çalışmalı': 0.2,
  've': 0.2,
  'kendimi': 0.2,
  'zorlamalıyım': 0.2},
 {'bugün': 0.25, 'hava': 0.25, 'çok': 0.25, 'güzel': 0.25},
 {'yürüyüşe': 0.16666666666666666,
  'çıkıp': 0.16666666666666666,
  'biraz': 0.16666666666666666,
  'temiz': 0.16666666666666666,
  'hava': 0.16666666666666666,
  'almalıyım': 0.16666666666666666}]

In [8]:
import math

def compute_idf(docs):
    N = len(docs)  # Kaç cümle var
    all_words = set(word for doc in docs for word in doc)
    idf = {}
    for word in all_words:
        doc_count = sum(1 for doc in docs if word in doc)
        idf[word] = math.log(N / (1 + doc_count))  # +1 bölünme hatasını önler
    return idf

idf_scores = compute_idf(documents)
print(idf_scores)


{'çalışmalı': 0.6931471805599453, 'temiz': 0.6931471805599453, 've': 0.6931471805599453, 'hava': 0.28768207245178085, 'zorlamalıyım': 0.6931471805599453, 'güzel': 0.6931471805599453, 'kendimi': 0.28768207245178085, 'bugün': 0.6931471805599453, 'çıkıp': 0.6931471805599453, 'almalıyım': 0.6931471805599453, 'biraz': 0.6931471805599453, 'çok': 0.28768207245178085, 'dünyada': 0.6931471805599453, 'geliştirmeliyim': 0.6931471805599453, 'yürüyüşe': 0.6931471805599453, 'bu': 0.6931471805599453}


In [9]:
idf_scores

{'çalışmalı': 0.6931471805599453,
 'temiz': 0.6931471805599453,
 've': 0.6931471805599453,
 'hava': 0.28768207245178085,
 'zorlamalıyım': 0.6931471805599453,
 'güzel': 0.6931471805599453,
 'kendimi': 0.28768207245178085,
 'bugün': 0.6931471805599453,
 'çıkıp': 0.6931471805599453,
 'almalıyım': 0.6931471805599453,
 'biraz': 0.6931471805599453,
 'çok': 0.28768207245178085,
 'dünyada': 0.6931471805599453,
 'geliştirmeliyim': 0.6931471805599453,
 'yürüyüşe': 0.6931471805599453,
 'bu': 0.6931471805599453}

In [14]:
def compute_tfidf(tf, idf):
    return {word: tf[word] * idf.get(word, 0.0) for word in tf}

tfidf_vectors = [compute_tfidf(tf, idf_scores) for tf in tf_scores]
print(tfidf_vectors)

[{'kendimi': 0.07192051811294521, 'bu': 0.17328679513998632, 'dünyada': 0.17328679513998632, 'geliştirmeliyim': 0.17328679513998632}, {'çok': 0.05753641449035617, 'çalışmalı': 0.13862943611198905, 've': 0.13862943611198905, 'kendimi': 0.05753641449035617, 'zorlamalıyım': 0.13862943611198905}, {'bugün': 0.17328679513998632, 'hava': 0.07192051811294521, 'çok': 0.07192051811294521, 'güzel': 0.17328679513998632}, {'yürüyüşe': 0.11552453009332421, 'çıkıp': 0.11552453009332421, 'biraz': 0.11552453009332421, 'temiz': 0.11552453009332421, 'hava': 0.04794701207529681, 'almalıyım': 0.11552453009332421}]


In [11]:
tfidf_vectors

[{'kendimi': 0.07192051811294521,
  'bu': 0.17328679513998632,
  'dünyada': 0.17328679513998632,
  'geliştirmeliyim': 0.17328679513998632},
 {'çok': 0.05753641449035617,
  'çalışmalı': 0.13862943611198905,
  've': 0.13862943611198905,
  'kendimi': 0.05753641449035617,
  'zorlamalıyım': 0.13862943611198905},
 {'bugün': 0.17328679513998632,
  'hava': 0.07192051811294521,
  'çok': 0.07192051811294521,
  'güzel': 0.17328679513998632},
 {'yürüyüşe': 0.11552453009332421,
  'çıkıp': 0.11552453009332421,
  'biraz': 0.11552453009332421,
  'temiz': 0.11552453009332421,
  'hava': 0.04794701207529681,
  'almalıyım': 0.11552453009332421}]

In [12]:
all_words = sorted(idf_scores.keys())

def vectorize(tfidf):
    return [tfidf.get(word, 0.0) for word in all_words]

X = [vectorize(vec) for vec in tfidf_vectors]
y = [item["label"] for item in dataset]

In [15]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
y_encoded = le.fit_transform(y)

model = MultinomialNB()
model.fit(X, y_encoded)

# Yeni bir cümle
test_sentence = "Kendimi daha çok geliştirmeliyim"
tokens = tokenize(test_sentence)
tf = compute_tf(tokens)
tfidf = compute_tfidf(tf, idf_scores)
vector = vectorize(tfidf)

pred = model.predict([vector])
print("Tahmin:", le.inverse_transform(pred)[0])

Tahmin: kişisel gelişim
