In [1]:
# import libraries
import pandas as pd
data = pd.read_csv("spam.csv", encoding ="Latin-1")
data.drop([ 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], axis=1, inplace = True) 
data.columns = ["Label", "text"] 
# EDA: Kesifsel veri analizi: missing value(Kayıp değer var mı)
print(data.isna().sum())

Label    0
text     0
dtype: int64


In [4]:
# veri setini yuklemek icin nltk kutuphanesi kullaniliyor
import nltk

# "stopwords": "the", "is", "in" gibi metnin anlamina dogrudan katkisi olmayan, sik gecen kelimeleri barindiran listeyi indirir
nltk.download("stopwords")  # cok kullanilan ve anlam tasimayan kelimeleri metinden cikarmak icin

# "wordnet": Ingilizce kelimelerin koklerine (lemma) ulasmak icin kullanilan bir sozluk/veritabani
nltk.download("wordnet")    # lemmatization islemi icin gerekli veriseti

# "omw-1.4": Open Multilingual Wordnet; WordNet'in cok dilli versiyonudur
nltk.download("omw-1.4")     # wordnete ait farkli dillerin kelime anlamlarini iceren veriseti

# Gerekli kutuphaneler import ediliyor
import re  # duzenli ifadeler icin
from nltk.corpus import stopwords  # stopwords listesine erismek icin
from nltk.stem import WordNetLemmatizer  # lemmatization yapmak icin

# ornek veri: "data" adli bir DataFrame'den metinleri aliyoruz
text = list(data.text)  # data.text kolonundaki metinleri listeye ceviriyoruz
lemmatizer = WordNetLemmatizer()  # lemmatizer nesnesi olusturuluyor

corpus = []  # islenmis ve temizlenmis metinlerin tutulacagi bos bir liste

# Tum metinleri tek tek islemek icin dongu
for i in range(len(text)):
    # Harf olmayan tum karakterleri sil (ornegin noktalama isaretleri, rakamlar vs.)
    r = re.sub("[^a-zA-Z]", " ", text[i])

    # Tum harfleri kucuk harfe cevir (case normalization)
    r = r.lower()

    # Metni kelimelere ayir
    r = r.split()

    # Stopwords (anlamsiz kelimeler) listesine gore filtrele
    r = [word for word in r if word not in stopwords.words("english")]

    # Her bir kelimeyi lemmatizer kullanarak kok haline getir
    r = [lemmatizer.lemmatize(word) for word in r]

    # Liste halindeki kelimeleri tekrar boslukla birlestirerek tek string haline getir
    r = " ".join(r)

    # Sonuclari corpus listesine ekle
    corpus.append(r)
data["text2"]  = corpus

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\UMUT\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\UMUT\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\UMUT\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [5]:
# DataFrame kolonlarini yazdir (kontrol icin)
print(data.columns)

Index(['Label', 'text', 'text2'], dtype='object')


In [7]:
# Model egitimi ve degerlendirmesi
x = data["text2"]  # ozellik olarak 'text2' kolonu seciliyor
y = data["Label"]  # hedef degisken 'Label'

from sklearn.model_selection import train_test_split
# Veriyi egitim ve test olarak ayir (80% egitim, 20% test)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)


In [13]:
# Ozellik cikarma: Bag of Words yaklasimi
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
x_train_cv = cv.fit_transform(x_train)  # egitim verisi icin kelime sayimi


In [14]:
# Sınıflandırıcı egitimi: Decision Tree
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier()
dt.fit(x_train_cv, y_train)  # modeli egit

# Test verisini de sayisal vektorlere cevir
x_test_cv = cv.transform(x_test)

In [21]:
# Tahmin yap
prediction = dt.predict(x_test_cv)

# Karisiklik matrisini hesapla
from sklearn.metrics import confusion_matrix
c_matrix = confusion_matrix(y_test, prediction)
print(c_matrix)

# Dogruluk (accuracy) hesapla
accuracy = 100 * (sum(sum(c_matrix)) - c_matrix[1,0] - c_matrix[0,1]) / sum(sum(c_matrix))
print(accuracy)

[[956   9]
 [ 24 126]]
109099.19282511211
