<a href="https://colab.research.google.com/github/lukmandev/NBC-Twitter/blob/master/Naive_Bayes_Text_Classification_Tweet_Prostitute_Classification.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Pada notebook ini menampilkan metode klasifikasi dokumen teks menggunakan metode Naive Bayes untuk melakukan prediksi data twitter yang termasuk dalam kategori prostitusi atau bukan prostitusi.

Dataset diambil dari twitter sebanyak 40000 data termasuk dalam kategori true (prostitusi) sebanyak 20000 dan false (bukan prostitusi) sebanyak 20000 data.


Pertama, import modul python yang digunakan untuk proses preprocessing dan pembuatan model untuk dilakukan klasifikasi.

In [1]:
import pandas as pd
import string
import numpy as np
import re
import random
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score,confusion_matrix,classification_report
from sklearn.naive_bayes import MultinomialNB

from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
factory = StemmerFactory()
stemmer = factory.create_stemmer()

Import semua dataset yang akan dilakukan klasifikasi


In [2]:
data_train_true = pd.read_excel('/content/twitter-prostitute.xlsx')
data_train_false = pd.read_excel('/content/twitter-not-prostitute.xlsx')

FileNotFoundError: [Errno 2] No such file or directory: '/content/twitter-prostitute.xlsx'

Gabungkan data true (prostitute) dan data false (not prostitute)

In [None]:
dataset = pd.concat([data_train_true, data_train_false], ignore_index = True)

In [None]:
print(dataset[:5])

In [None]:
print(dataset['tweet'][:5])

In [None]:
print(len(dataset))

Setelah data berhasil dibuka, saatnya melakukan preprocessing pada teks. Yang akan dilakukan preprocessing yaitu data pada kolom **tweet** dimana data ini berisi tweet yang diambil dari twitter.

Ada beberapa process preprocessing yaitu cleaning text atau membersihkan text dari noise dan tokenizing yaitu memecah semua text menjadi per kata.

In [None]:
stopwords_file = open("/content/stopwords-id.txt", 'r')
stopwords = [x.strip() for x in stopwords_file.readlines()]
stopwords.extend(['by', 'rt', 'via'])

def cleaning(text):
	text = re.sub(r'<[^>]+>', '', text) #delete html tags
	text = re.sub(r'\S*twitter.com\S*', '', text)   #delete twitter image
	text = re.sub(r'https?://[A-Za-z0-9./]+','',text) #delete url
	text = re.sub(r'@[A-Za-z0-9]+','',text) #delete user mention
	text = re.sub(r'#[A-Za-z0-9]+','',text) #delete twitter hashtag
	text = re.sub(r'(?:(?:\d+,?)+(?:\.?\d+)?)','', text) #delete number
	text = re.sub(r"[^a-zA-Z]", " ", text) #only accept alphabet char
	text = re.sub(r"(\w)(\1{2,})", r'\1', text) #delete repeated char
	text = re.sub(r"\b[a-zA-Z]\b", "", text) #remove single character
	text = text.lower() #change to lowercase
	return text

def tokenize(text):
	#disini diisi dengan stop words
	words = text.split();
	words = [stemmer.stem(w) for w in words if w not in stopwords]
	return words

Cleaning text pada data tweet

In [None]:
dataset['tweet'] = dataset.tweet.map(lambda x: cleaning(x))

In [None]:
print(dataset['tweet'][:5])

Tokenizing text pada data tweet

In [None]:
dataset['tweet'] = dataset.tweet.apply(lambda x: tokenize(x))

In [None]:
print(dataset['tweet'][:5])

Menggabungkan semua tweet menggunakan spasi untuk dilakukan tahap selanjutnya yaitu pembuatan vektor

In [None]:
dataset['tweet'] = dataset.tweet.apply(lambda x: ' '.join(x))

Memasukkan label ke array

In [None]:
dataset['label'] = dataset.status.map(lambda x: x)

In [None]:
count_vect = CountVectorizer()
counts = count_vect.fit_transform(dataset['tweet'])

In [None]:
print(counts[:5])

Disini mentransformasikan semua feature kata menggunakan TF IDF

In [None]:
transformer = TfidfTransformer().fit(counts)
counts = transformer.transform(counts)

In [None]:
print(counts[:5])

Kemudian setelah semua kata memiliki bobot tersendiri sesuai dengan transformasi vektor TF IDF, disini pembagian data training dan data testing dengan alokasi 80% train:20% test

In [None]:
feature_train, feature_test, target_train, target_test = train_test_split(counts, dataset['label'], train_size=0.8, test_size=0.2, random_state=52)

In [None]:
model = MultinomialNB()
model.fit(feature_train, target_train)
predicted = model.predict(feature_test)

Untuk menghitung akurasi model yang sudah dibuat, dapat menggunakan accuracy_score dari scikitlearn

In [None]:
accuracy = accuracy_score(target_test, predicted)

In [None]:
print(accuracy)

Untuk pengujian, menggunakan confusion matrix sebagai berikut ini:

In [None]:
c_matrix = confusion_matrix(target_test, predicted)

In [None]:
print(c_matrix)

Untuk melihat laporan klasifikasi, menggunakan classification_report 

In [None]:
c_report = classification_report(target_test, predicted)

In [None]:
print(c_report)

Kemudian kita lakukan prediksi data untuk data baru

In [None]:
def pred_text(score):
  if score == 0:
    return 'False (Not Prostitute)'
  else:
    return 'True (Prostitute)'

input_text = 'Semoga covid-19 ini segera berakhir dan semua kegiatan dapat kembali seperti sedia kala'
input_text = tokenize(cleaning(input_text))
new_counts = count_vect.transform(input_text)
pred = model.predict(new_counts)
print(pred_text(pred[0]))


In [None]:
input_text = 'area #Jogja cod no dp free cancel include room'
input_text = tokenize(cleaning(input_text))
new_counts = count_vect.transform(input_text)
pred = model.predict(new_counts)
print(pred_text(pred[0]))