In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
#TfidfVectorizer, metin verilerini sayısal vektör temsiline dönüştürmek için kullanılan bir metin temsil yöntemidir.
#TF-IDF (Term Frequency-Inverse Document Frequency), metinlerdeki kelimelerin önemini değerlendiren bir istatistiksel yöntemdir.
#Metinlerdeki kelimelerin frekanslarını ve belge frekanslarını kullanarak metinlerin sayısal bir matrisle temsil edilmesini sağlar.
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [None]:
df =pd.read_csv('SMSSpamCollection.csv', sep='\t', names=['Category','Message'])
df

In [None]:
#Bu işlem, veri setinizde eksik değerlerin bulunduğu durumda, bu eksik değerleri doldurmak için kullanışlıdır.
#Eksik değerleri belirli bir değerle doldurarak, veri setinizdeki eksik değerlerin neden olduğu potansiyel hataları önleyebilirsiniz.
data = df.where((pd.notnull(df)),'')

In [None]:
data.head()

In [None]:
data.info()

In [None]:
data.shape

In [None]:
# "spam" etiketli satırların "Category" sütunundaki değeri "0" olacaktır.
data.loc[data["Category"] == "spam", "Category",] = 0
# "ham" etiketli satırların "Category" sütunundaki değeri "1" olacaktır.
data.loc[data["Category"] == "ham", "Category",] = 1

In [None]:
X = data["Message"]

Y = data["Category"]

In [None]:
print(X)

In [None]:
print(Y)

In [None]:
X_train , X_test , Y_train , Y_test = train_test_split(X,Y,test_size=0.2, random_state=3)

In [None]:
print(X.shape)
print(X_train.shape)
print(X_test.shape)

In [None]:
print(Y.shape)
print(Y_train.shape)
print(Y_test.shape)

TF (Terim Sıklığı)
İlgili kelimenin dökümandaki frekansıdır. Kelimenin dökümanda geçme sayısını, dökümandaki toplam kelime sayısına bölerek elde edilir.

DF (Döküman Sıklığı)
TF ile benzemektedir ama bu kez diğer dökümanlara odaklanır. Döküman sayısının ilgili kelimenin geçtiği döküman sayısına bölünmesi ile hesaplanır.


TfidfVectorizer, metin verilerini TF-IDF matrisine dönüştüren bir vektörleştirici işlevidir. TF-IDF, bir metindeki her kelimenin önemini hesaplamak için kullanılır. Bu yöntem, belirli bir belgedeki bir kelimenin sıklığını belirlerken, tüm belgelerdeki yaygınlığını da hesaba katarak kelimelerin önemini belirler.



In [None]:

#TfidfVectorizer kullanarak metin verilerini sayısal özelliklere dönüştürüyor ve ardından veri kümesini eğitim ve test setleri olarak ayırıyor.

feature_extraction = TfidfVectorizer(min_df = 1 , stop_words='english',lowercase=True)
#min_df=1, en az bir belgede geçen kelimelerin dikkate alınacağı anlamına gelir.
#stop_words='english', İngilizce durak kelimelerini (örneğin, "the", "and", "in" gibi yaygın ve anlamsız kelimeleri) kaldırmak için kullanılır.
#lowercase=True, tüm metin verilerini küçük harfe dönüştürür.

X_train_features = feature_extraction.fit_transform(X_train)
X_test_features = feature_extraction.transform(X_test)

Y_train = Y_train.astype("int")
#Eğitim etiketlerini tamsayı türüne dönüştürür. Bu genellikle makine öğrenimi modelleri için gereklidir çünkü etiketlerin tamsayı türünde olması beklenir.


Y_test = Y_test.astype("int")
#Test etiketlerini tamsayı türüne dönüştürür. Bu da benzer şekilde makine öğrenimi modelleri için gereklidir.



In [None]:
print(X_train)

In [None]:
print(X_train_features)

In [None]:
model = LogisticRegression()

In [None]:
model.fit(X_train_features,Y_train)

In [None]:
prediction_on_training_data = model.predict(X_train_features)
accuracy_on_training_data = accuracy_score(Y_train,prediction_on_training_data)

In [None]:
print('Acc on training data: ',accuracy_on_training_data)

Acc on training data:  0.9679156383217411


In [None]:
prediction_on_test_data = model.predict(X_test_features)
accuracy_on_test_data = accuracy_score(Y_test,prediction_on_test_data)

In [None]:
print('Acc on test data: ',accuracy_on_test_data)

Acc on test data:  0.9659192825112107


In [None]:
input_your_mail = ["Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's"]

input_data_features = feature_extraction.transform(input_your_mail)

prediction = model.predict(input_data_features)

In [None]:
print(prediction)

if(prediction[0] == 1):
  print("Ham mail")

else:
  print("Spam mail")

[0]
Spam mail
