# TF-IDF ile Mesaj Sınıflandırma (Spam / Normal)

Bu çalışmada, kısa bir mesaj veri seti üzerinden TF-IDF yöntemiyle metinleri sayısallaştırıp, bazı sınıflandırma modelleri ile mesajların spam mi yoksa normal mi olduğunu tahmin etmeye çalıştım.


## TF-IDF Nedir?

TF-IDF, bir kelimenin bir belge içindeki önemini ölçen bir yöntemdir. 

- **TF (Term Frequency):** Bir kelimenin belgede kaç kez geçtiğini gösterir.
- **IDF (Inverse Document Frequency):** Az belgede geçen kelimelere daha yüksek önem verir.

Yani, çok geçen ama her belgede olan kelimeler önemsiz (mesela “ve”, “bu”), az geçen ve ayırt edici kelimeler daha önemli kabul edilir.

Bu sayede, metinleri sayısal hale getirip makine öğrenmesiyle işleyebiliriz.


In [1]:
import pandas as pd

# Küçük bir örnek veri seti oluşturdum
data = {
    'text': [
        'Kazandınız! Hemen tıklayın!',
        'Yarın görüşürüz.',
        'Bedava internet kazanmak için buraya tıklayın.',
        'Bugün hava çok güzel.',
        'Ücretsiz fırsat kaçmaz!',
        'Toplantıyı 3\'e aldım.',
        'Bu kampanya size özel!',
        'Merhaba nasılsın?',
        'Fırsatı kaçırmayın hemen tıklayın!',
        'Akşam sinemaya gidelim mi?'
    ],
    'label': [1, 0, 1, 0, 1, 0, 1, 0, 1, 0]  # 1 = spam, 0 = normal
}

df = pd.DataFrame(data)
df


Unnamed: 0,text,label
0,Kazandınız! Hemen tıklayın!,1
1,Yarın görüşürüz.,0
2,Bedava internet kazanmak için buraya tıklayın.,1
3,Bugün hava çok güzel.,0
4,Ücretsiz fırsat kaçmaz!,1
5,Toplantıyı 3'e aldım.,0
6,Bu kampanya size özel!,1
7,Merhaba nasılsın?,0
8,Fırsatı kaçırmayın hemen tıklayın!,1
9,Akşam sinemaya gidelim mi?,0


## Metinleri TF-IDF ile Sayısallaştırma

Veri setindeki metinleri sayısallaştırmak için TfidfVectorizer kullandım. Böylece modeller metinleri sayılarla görebilecek.


In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(df['text'])
y = df['label']


## Veri Setini Eğitim ve Test Olarak Ayırma


In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


## Naive Bayes Modeli ile Tahmin


In [4]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

nb = MultinomialNB()
nb.fit(X_train, y_train)
y_pred_nb = nb.predict(X_test)

print("Doğruluk Oranı (Naive Bayes):", accuracy_score(y_test, y_pred_nb))
print(classification_report(y_test, y_pred_nb))


Doğruluk Oranı (Naive Bayes): 0.3333333333333333
              precision    recall  f1-score   support

           0       0.00      0.00      0.00         2
           1       0.33      1.00      0.50         1

    accuracy                           0.33         3
   macro avg       0.17      0.50      0.25         3
weighted avg       0.11      0.33      0.17         3



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


## Lojistik Regresyon Modeli ile Tahmin


In [5]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()
lr.fit(X_train, y_train)
y_pred_lr = lr.predict(X_test)

print("Doğruluk Oranı (Lojistik Regresyon):", accuracy_score(y_test, y_pred_lr))
print(classification_report(y_test, y_pred_lr))


Doğruluk Oranı (Lojistik Regresyon): 0.3333333333333333
              precision    recall  f1-score   support

           0       0.00      0.00      0.00         2
           1       0.33      1.00      0.50         1

    accuracy                           0.33         3
   macro avg       0.17      0.50      0.25         3
weighted avg       0.11      0.33      0.17         3



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


## Random Forest Modeli ile Tahmin


In [6]:
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier()
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

print("Doğruluk Oranı (Random Forest):", accuracy_score(y_test, y_pred_rf))
print(classification_report(y_test, y_pred_rf))


Doğruluk Oranı (Random Forest): 0.3333333333333333
              precision    recall  f1-score   support

           0       0.00      0.00      0.00         2
           1       0.33      1.00      0.50         1

    accuracy                           0.33         3
   macro avg       0.17      0.50      0.25         3
weighted avg       0.11      0.33      0.17         3



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


## Sonuç ve Yorum

Üç farklı modeli denedim. Küçük bir veri seti olduğu için sonuçlar çok net olmayabilir ama genel olarak:

- Naive Bayes modeli basit ama iyi çalıştı.
- Lojistik Regresyon daha dengeli sonuç verdi.
- Random Forest bazen fazla ezberleyebiliyor ama güçlü bir model.

TF-IDF ile metinleri sayısallaştırmak, bu tarz mesaj sınıflandırmalarında oldukça işe yarıyor. Gerçek veri setleriyle çalışıldığında daha doğru sonuçlar alınabilir.
