In [10]:
# Gerekli kütüphaneleri içe aktarıyoruz
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer  # Metinleri sayısal verilere dönüştürmek için
from sklearn.model_selection import train_test_split          # Veri setini eğitim ve test olarak ayırmak için
from sklearn.naive_bayes import BernoulliNB                  # Bernoulli Naive Bayes sınıflandırıcısı

# Veri setini okuma
data = pd.read_csv(r"C:\Users\sulen\OneDrive\Masaüstü\Python ile Veri Analizi Atölyesi\Youtube01-Psy.csv")

# Veri setinden rastgele 5 örnek satır yazdırma
print(data.sample(5))

                                COMMENT_ID             AUTHOR  \
47     z125zbmwryjwxzx4504cfjzwbtztuvkif3c  Leonardo Baptista   
349  z13vhvu54u3ewpp5h04ccb4zuoardrmjlyk0k         Ray Benich   
123  z13pdjsgqkjjtnlqz04cgtxafxqtylmixxg0k         xMasterGGx   
32     z12wvpxppxz3ifk3j224cbsgqraherzrg04        ElepticRage   
140  z12kcx2ahwmpupnw004cdt3rwqfes3xgbns0k     Mehmet Demirel   

                    DATE                                            CONTENT  \
47   2014-01-20T15:10:27  http://www.avaaz.org/po/petition/Youtube_Corpo...   
349  2015-06-05T18:05:16  The first billion viewed this because they tho...   
123  2014-11-05T15:25:34                          2,124923004 wiews... wow﻿   
32   2014-01-19T08:55:53                  sub my channel for no reason -_-﻿   
140  2014-11-05T21:25:27  http://www.gcmforex.com/partners/aw.aspx?Task=...   

     CLASS  
47       1  
349      0  
123      0  
32       1  
140      1  


YouTube yorumlarından oluşan bir veri seti okunmuş ve sample(5) fonksiyonu kullanılarak rastgele beş satır görüntülenmiştir. Veri setinde her yorumun benzersiz kimliği (COMMENT_ID), yazarı (AUTHOR), tarihi (DATE), içeriği (CONTENT) ve sınıf etiketi (CLASS) yer almaktadır. Bu yapı, yorumların hem içeriksel hem de etiket bilgisiyle analiz edilmesine olanak sağlar.

Çıktıda görülen CONTENT sütunu, yorumların asıl metin bilgisini içermektedir. Örneğin, "subscribe to me :)" ifadesi tipik bir spam içeriği olarak dikkat çekerken, "The girl in the train who was dancing, her out..." gibi ifadeler normal (spam olmayan) yorumlara örnek teşkil etmektedir. Bu durum, spam ve normal yorumların birbirinden ayrılabilmesi için içeriklerin taşıdığı dilsel farklılıkların modelleme sürecinde önemli olacağını gösterir.

Son sütun olan CLASS, yorumun spam olup olmadığını belirtmektedir. Burada 1 etiketi spam yorumları, 0 etiketi ise normal yorumları temsil etmektedir. Örneğin, 211. satırdaki "subscribe to me :)" yorumu spam olarak (CLASS=1) etiketlenmiştir, ancak 332. satırdaki yorum normal (CLASS=0) olarak işaretlenmiştir.

In [11]:
# Sadece analiz için gerekli sütunları seçiyoruz
data=data[["CONTENT","CLASS"]]
print(data.sample(5))

                                               CONTENT  CLASS
302  https://www.facebook.com/nicushorbboy add mee ...      1
211                               subscribe to me :) ﻿      1
160  CHECK MY CHANNEL FOR MY NEW SONG 'STATIC'!! YO...      1
61     The first comment is chuck norrus ovbiously :D﻿      0
193  How are there 2 billion views and theres only ...      0


In [12]:
# CLASS sütunundaki sayısal etiketleri anlaşılır metin etiketlerine dönüştürüyoruz
data["CLASS"]=data["CLASS"].map({0:"Not Spam",1:"Spam"})
print(data.sample(5))

                                               CONTENT     CLASS
90   https://www.indiegogo.com/projects/cleaning-th...      Spam
39   The projects After Effects, Music, Foto, Web s...      Spam
146            Get free gift cards and pay pal money!﻿      Spam
160  CHECK MY CHANNEL FOR MY NEW SONG 'STATIC'!! YO...      Spam
229                      We pray for you Little Psy ♡﻿  Not Spam


In [4]:
# Yorumları ve sınıf etiketlerini sayısal vektörlere dönüştürüp, Bernoulli Naive Bayes modeli ile eğitiyoruz ve test doğruluğunu hesaplıyoruz
x=np.array(data["CONTENT"])
y=np.array(data["CLASS"])
cv=CountVectorizer()
x=cv.fit_transform(x)
xtrain,xtest,ytrain,ytest=train_test_split(x,y,random_state=42)
model=BernoulliNB()
model.fit(xtrain,ytrain)
print(model.score(xtest,ytest))

0.9659090909090909


Bernoulli Naive Bayes modeli test verisinde yaklaşık %96.6 doğruluk gösteriyor, yorumları spam olup olmadıklarını büyük ölçüde doğru sınıflandırabiliyor ve basit bir metin sınıflandırma senaryosu için yeterli performans sunuyor.

In [5]:
# Modelin çalışmasını kontrol ederek test işlemini gerçekleştirelim
sample = "Lack of information!" 
data = cv.transform([sample]).toarray()
print(model.predict(data))

['Not Spam']


In [8]:
sample = "https://twitter.com/GBphotographyGB" 
data = cv.transform([sample]).toarray()
print(model.predict(data))

['Spam']


In [13]:
sample = "Get free gift cards and pay pal money!" 
data = cv.transform([sample]).toarray()
print(model.predict(data))

['Spam']


In [14]:
sample = "The first comment is chuck norrus ovbiously :D" 
data = cv.transform([sample]).toarray()
print(model.predict(data))

['Not Spam']
