Spam Detection on YouTube Comments(by raka arrayan)

# Pendahuluan ( Mempelajari cara kerja )

In [31]:
# Contoh YouTube comments

daftar_kalimat = ["watch this amazing video",
                  "subscribe to my channel",
                  "check out my new vlog"]

In [32]:
# Inisiasi CountVectorizer

from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()#Inisialisasi objek CountVectorizer.

In [33]:
# Mempelajari kata apa saja yang ada pada `daftar_kalimat`

vect.fit(daftar_kalimat)
#.fit digunakan untuk mempelajari kata-kata yang ada pada daftar kalimat dan membangun vocabulary dari kata-kata unik.

In [34]:
# Lihat semua kata

vect.get_feature_names_out()
# Mengambil semua kata unik (vocabulary) yang ditemukan pada daftar kalimat.

array(['amazing', 'channel', 'check', 'my', 'new', 'out', 'subscribe',
       'this', 'to', 'video', 'vlog', 'watch'], dtype=object)

In [35]:
# Mengubah kata menjadi vektor berdasarkan frekuensi kemunculannya

corpus_mat = vect.transform(daftar_kalimat)
corpus_mat.toarray()
# transform digunakan untuk mengubah kalimat-kalimat menjadi vektor berdasarkan frekuensi kemunculan kata dari vocabulary yang telah dipelajari.
# corpus_mat.toarray(): Mengubah sparse matrix menjadi dense matrix untuk memudahkan tampilan dan analisis lebih lanjut

array([[1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1],
       [0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0],
       [0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0]])

In [36]:
# Melihat vektor yang dibuat

import pandas as pd
pd.DataFrame(corpus_mat.toarray(), columns=vect.get_feature_names_out())
# Mengubah sparse matrix menjadi array untuk memudahkan analisis dan visualisasi.
# pd.DataFrame(corpus_mat.toarray(), columns=vect.get_feature_names_out()): Membuat DataFrame dari dense matrix, dengan kolom yang diberi label sesuai dengan kosakata yang dipelajari oleh CountVectorizer.
#get_feature_names_out() mengembalikan daftar kata dari kosakata dalam urutan yang sesuai dengan kolom dalam matriks fitur.

Unnamed: 0,amazing,channel,check,my,new,out,subscribe,this,to,video,vlog,watch
0,1,0,0,0,0,0,0,1,0,1,0,1
1,0,1,0,1,0,0,1,0,1,0,0,0
2,0,0,1,1,1,1,0,0,0,0,1,0


In [37]:
# Contoh komentar baru

new_comment = ["i love this music video"]

In [38]:
# Transformasikan komentar baru ke dalam matriks

new_comment_mat = vect.transform(new_comment)
# transform dari objek CountVectorizer digunakan untuk mengubah komentar baru menjadi vektor frekuensi kata berdasarkan vocabulary yang telah dipelajari dari data sebelumnya.
# new_comment_mat sebuah sparse matrix yang berisi frekuensi kemunculan kata dari new_comment

In [39]:
# Melihat vektor yang dibuat

pd.DataFrame(new_comment_mat.toarray(), columns=vect.get_feature_names_out())
#  Fungsi toarray() digunakan untuk mengubah sparse matrix menjadi dense matrix (array penuh)
# Membuat DataFrame dari array yang dihasilkan dan menambahkan nama kolom yang sesuai dengan vocabulary menggunakan vect.get_feature_names_out().

Unnamed: 0,amazing,channel,check,my,new,out,subscribe,this,to,video,vlog,watch
0,0,0,0,0,0,0,0,1,0,1,0,0


# Modelling

## Background

YouTube merupakan platform video terbesar dan paling banyak digunakan di dunia, menjadikannya sebagai alat pemasaran yang sangat berharga bagi perusahaan. Dengan miliaran pengguna aktif yang menonton dan berinteraksi dengan konten setiap hari, YouTube menawarkan peluang besar untuk menjangkau audiens yang luas melalui iklan dan promosi. Namun, tantangan utama dalam memanfaatkan platform ini adalah memastikan bahwa iklan dan konten perusahaan tidak terganggu oleh komentar spam.

Komentar spam, yang dapat berupa promosi tidak relevan, tautan berbahaya, atau kritik yang merusak, sering kali mengganggu pengalaman pengguna dan dapat menurunkan kualitas diskusi di bawah video. Selain itu, komentar spam dapat menciptakan citra negatif bagi merek yang diiklankan, mempengaruhi persepsi audiens terhadap perusahaan. Oleh karena itu, deteksi dan penghapusan komentar spam menjadi krusial untuk menjaga integritas interaksi di platform. Dengan menggunakan teknik pembelajaran mesin dan pemrosesan bahasa alami, perusahaan dapat secara efektif mengidentifikasi dan memfilter spam, memastikan bahwa iklan mereka tampil dalam konteks yang positif dan relevan

## Metadata

- COMMENT_ID:ID unik untuk setiap komentar.
- AUTHOR: Nama pengguna atau penulis komentar.
- DATE: Tanggal dan waktu saat komentar diposting. Formatnya bisa beragam, misalnya ada yang berupa tanggal saja dan ada yang berupa timestamp lengkap.
- CONTENT:Isi atau teks dari komentar yang diposting.
- CLASS:Label yang menunjukkan apakah komentar tersebut adalah spam (1) atau non-spam (0).

## Data Loading

In [1]:
from google.colab import files
upload=files.upload()

Saving Youtube05-Shakira.csv to Youtube05-Shakira.csv


In [2]:
import pandas as pd

df = pd.read_csv('Youtube05-Shakira.csv')
df.head(7)

Unnamed: 0,COMMENT_ID,AUTHOR,DATE,CONTENT,CLASS
0,z13lgffb5w3ddx1ul22qy1wxspy5cpkz504,dharma pal,2015-05-29T02:30:18.971000,Nice song﻿,0
1,z123dbgb0mqjfxbtz22ucjc5jvzcv3ykj,Tiza Arellano,2015-05-29T00:14:48.748000,I love song ﻿,0
2,z12quxxp2vutflkxv04cihggzt2azl34pms0k,Prìñçeśś Âliś Łøvê Dømíñø Mâđiś™ ﻿,2015-05-28T21:00:08.607000,I love song ﻿,0
3,z12icv3ysqvlwth2c23eddlykyqut5z1h,Eric Gonzalez,2015-05-28T20:47:12.193000,"860,000,000 lets make it first female to reach...",0
4,z133stly3kete3tly22petvwdpmghrlli,Analena López,2015-05-28T17:08:29.827000,shakira is best for worldcup﻿,0
5,z12myn4rltf4ejddv23mwr3piuapcbl0r,jehoiada wellington,2015-05-28T17:06:37.288000,The best world cup song ever!!!!﻿,0
6,z135vzqy1yrjhluew23kibopnrmqsplux,Kara Cuthbertson,2015-05-28T15:46:42.482000,I love﻿,0


In [3]:
# Cek ukuran dataset

df.CLASS.value_counts()

CLASS
0    196
1    174
Name: count, dtype: int64

In [5]:
# Split data menjadi data train dan data test

from sklearn.model_selection import train_test_split

train_comment, test_comment, train_class, test_class = train_test_split(df.CONTENT, df.CLASS, test_size=0.3, random_state=12)


- from sklearn.model_selection import train_test_split:

Ini adalah baris impor yang mengambil fungsi train_test_split dari modul model_selection dalam pustaka scikit-learn dan train_test_split digunakan untuk membagi dataset menjadi subset pelatihan dan pengujian.

- df.CONTENT:

Ini adalah kolom dari DataFrame df yang berisi konten ). Kolom ini merupakan fitur yang akan digunakan dalam model machine learning.

- df.CLASS:

Ini adalah kolom dari DataFrame df yang berisi kelas atau label dari konten tersebut.0 yang berati bukan spam dan 1 yang berati spam

- train_test_split:

Fungsi ini digunakan untuk membagi dataset menjadi subset pelatihan dan pengujian. Argumen-argumen yang diberikan ke fungsi ini adalah fitur dan label, serta parameter untuk menentukan ukuran subset pengujian dan seed untuk pengacakan.

- test_size=0.3:

Parameter ini menentukan proporsi dataset yang akan dialokasikan untuk subset pengujian. Dalam contoh ini, 30% dari dataset akan digunakan sebagai data pengujian, dan sisanya 70% akan digunakan sebagai data pelatihan.

- random_state=12:

Parameter ini menetapkan seed untuk pengacakan sehingga hasil pemisahan data akan konsisten setiap kali kode dijalankan. Ini berguna untuk reproduksibilitas hasil.

- train_comment:

Ini adalah subset dari df.CONTENT yang berisi 70% dari data awal, yang akan digunakan untuk melatih model.

- test_comment:

Ini adalah subset dari df.CONTENT yang berisi 30% dari data awal, yang akan digunakan untuk menguji model.

- train_class:

Ini adalah subset dari df.CLASS yang sesuai dengan train_comment, yang berisi 70% dari label awal, yang akan digunakan untuk melatih model.

- test_class:

Ini adalah subset dari df.CLASS yang sesuai dengan test_comment, yang berisi 30% dari label awal, yang akan digunakan untuk menguji model.

In [6]:
# Cek jumlah train_comment dan test_comment

print('Jumlah Train-Set : ', len(train_comment))
print('Jumlah Test-Set  : ', len(test_comment))

Jumlah Train-Set :  259
Jumlah Test-Set  :  111


Jumlah data ada 371 sehingga jumlah train-set 70% dikali 371=259.7 dan test-set 30% dikali 371=111.3

## Vektorisasi

In [7]:
# Inisiasi CountVectorizer

from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer()

In [8]:
# Mempelajari kata apa saja yang ada pada `train_comment`
vect.fit(train_comment)

# Mengubah kata menjadi vektor berdasarkan frekuensi kemunculannya
train_comment_mat = vect.transform(train_comment)
test_comment_mat = vect.transform(test_comment)

- vect = CountVectorizer():  

membuat objek CountVectorizer yang akan digunakan untuk menghitung frekuensi kata.

- vect.fit(train_comment):

Proses ini membuat kosakata dari semua kata unik yang muncul di train_comment. Kosakata ini digunakan sebagai basis untuk transformasi teks menjadi fitur vektor.

- train_comment_mat = vect.transform(train_comment):

Mengubah setiap teks di train_comment menjadi vektor frekuensi kata berdasarkan kosakata yang dipelajari. Hasilnya adalah matriks fitur (sparse matrix) yang mewakili frekuensi kemunculan kata di setiap teks

- test_comment_mat = vect.transform(test_comment):

Mengubah setiap teks di test_comment menjadi vektor frekuensi kata menggunakan kosakata yang sama yang dipelajari dari train_comment. Ini memastikan bahwa data uji diwakili dalam ruang fitur yang sama dengan data latih.

In [10]:
print("Kosakata yang dipelajari:")
print(vect.vocabulary_)
# digunakan untuk menampilkan kosakata yang dipelajari oleh objek CountVectorizer setelah metode fit dipanggil pada data pelatihan (train_comment).

Kosakata yang dipelajari:
{'check': 194, 'out': 647, 'my': 599, 'new': 609, 'mixtape': 581, 'could': 231, 'you': 1036, 'please': 682, 'covers': 237, 'on': 634, 'channel': 189, 'do': 271, 'like': 520, 'adele': 51, 'kodaline': 506, 'imagine': 462, 'dragons': 281, 'and': 89, 'more': 587, 'if': 456, 'spare': 829, 'few': 337, 'minutes': 576, 'have': 418, 'listen': 528, 'to': 908, 'one': 636, 'or': 639, 'two': 926, 'of': 627, 'feel': 335, 'free': 360, 'comment': 214, 'subscribe': 851, 'thank': 882, 'always': 75, 'goose': 395, 'bumps': 167, 'at': 113, 'that': 885, 'part': 654, 'wery': 987, 'good': 393, 'perhaps': 669, 'seen': 769, 'the': 886, 'newest': 610, 'miley': 573, 'cyrus': 245, 'secret': 764, 'video': 948, 'she': 782, '39': 23, 'sucking': 862, 'an': 87, 'old': 631, 'man': 552, 'cock': 205, 'wish': 1005, 'see': 767, 'her': 426, 'celebrity': 183, 'website': 982, 'beneath': 138, 'co': 203, 'uk': 928, 'your': 1037, 'fucking': 370, 'bitch': 147, 'amp': 86, 'watch': 975, '5tu9gn1l310': 35, '

## Klasifikasi

In [12]:
# Inisiasi K-Nearest Neighbors (KNN) dengan jumlah tetangga = 5

from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=5)
# KNeighborsClassifier: Membuat instance dari klasifier KNN.
# Jumlah tetangga yang sering digunakan dalam praktik adalah 3, 5, atau 7. Angka 5 adalah nilai yang sering digunakan karena memberikan keseimbangan yang baik antara model yang sensitif dan model yang terlalu umum

In [13]:
# Membuat model

knn.fit(train_comment_mat, train_class)
#train_comment_mat menyediakan fitur numerik dari data pelatihan, sementara train_class menyediakan label target yang digunakan oleh model KNN

In [14]:
# Menguji pada test_comment

from sklearn.metrics import accuracy_score

hasil_prediksi = knn.predict(test_comment_mat)
print('Akurasi : ', accuracy_score(test_class, hasil_prediksi))

# knn.predict(test_comment_mat)
#Menggunakan model KNN yang telah dilatih untuk memprediksi kelas dari data pengujian (test_comment_mat).
#Menghasilkan prediksi kelas untuk setiap komentar dalam test_comment_mat

# accuracy_score(test_class, hasil_prediksi)
# Fungsi: Menghitung akurasi model dengan membandingkan label kelas sebenarnya (test_class) dengan prediksi yang dihasilkan (hasil_prediksi).
# Mengembalikan nilai akurasi yang menunjukkan proporsi prediksi yang benar dari total prediksi.

Akurasi :  0.8108108108108109


## Tes Komentar Baru

In [None]:
# Test komentar baru
komentar_baru = ["Your voice is very good and makes me inspired to always practice",
                 "Hey guys, subscribe to another channel that has a better voice and is also soothing"]

# Mengubah teks ke dalam bentuk vector
komentar_baru = vect.transform(komentar_baru)

# Memprediksi komentar baru
hasil_prediksi_komentar_baru = knn.predict(komentar_baru)
print('Hasil Prediksi : ', hasil_prediksi_komentar_baru)

Hasil Prediksi :  [0 1]


# Kesimpulan

- Bagi konten Kreator

Analisis deteksi spam pada komentar YouTube adalah langkah penting bagi kreator konten yang ingin menjaga kualitas interaksi di kanal mereka. Komentar spam dapat mengganggu diskusi yang sehat, menurunkan kualitas pengalaman penonton, dan merusak komunitas yang telah dibangun dengan susah payah. Dengan menggunakan teknik pembelajaran mesin dan pemrosesan bahasa alami, kreator dapat secara efektif mengidentifikasi dan menghapus komentar spam, memastikan bahwa interaksi di kanal mereka tetap positif dan konstruktif. Ini tidak hanya membantu dalam mempertahankan audiens yang setia tetapi juga meningkatkan motivasi kreator untuk terus menghasilkan konten berkualitas.

- Bagi sebuah Perusahaan

Analisis deteksi spam pada komentar YouTube merupakan langkah penting bagi perusahaan yang ingin beriklan di platform ini, karena komentar spam dapat merusak pengalaman pengguna dan menciptakan citra negatif bagi merek. Dengan menggunakan teknik pembelajaran mesin dan pemrosesan bahasa alami, perusahaan dapat secara efektif mengidentifikasi dan memfilter spam, menjaga kualitas interaksi pada saluran yang dipilih untuk periklanan. Hal ini memastikan bahwa iklan perusahaan tampil secara positif dan dalam konteks yang relevan, meningkatkan kepercayaan dan keterlibatan audiens, serta mengoptimalkan efektivitas kampanye pemasaran.