#   Sarcasm Detecion With Machine Learning

Sarkasme secara harfiah berarti majas kata-kata yang dapat menyakiti orang lain dalam bentuk sindiran maupun ejekan. Project ini merupakan salah satu pemrosesan bahasa alami atau yang dikenal dengan NLP dan merupakan sebuah task untuk binary classification\.

Jadi kita akan membuat sebuah machine learning model (hasil belajar) untuk dapat mendeteki apakah sebuah kalimat mengandung sarkasme atau tidak.

## 1. Import

Import beberapa library yang dibutuuhkan untuk menyelesaikan tugas deteksi sarkasme dengan machine learning menggunakan python

In [1]:
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import numpy as np # Berfungi untuk mengolah data numerik
from sklearn.feature_extraction.text import CountVectorizer # Berfungsi untuk menghitung jumlah kemunculan kata
from sklearn.model_selection import train_test_split # Berfungsi untuk membagi data menjadi data latih dan data uji
from sklearn.naive_bayes import BernoulliNB # Berfungi untuk mengklasifikasikan data (khusus untuk data yang bernilai boolean)

## 2. Membaca data

Disini kita memiliki sebuah dataset dengan nama file sarcasm.json. jadi, kita perlu membaca file dot json dengan bantuan pandas sebagai I/O

In [3]:
data = pd.read_json('sarcasm.json', lines=True) # Membaca data dari file json
data.head(10)

Unnamed: 0,article_link,headline,is_sarcastic
0,https://www.huffingtonpost.com/entry/versace-b...,former versace store clerk sues over secret 'b...,0
1,https://www.huffingtonpost.com/entry/roseanne-...,the 'roseanne' revival catches up to our thorn...,0
2,https://local.theonion.com/mom-starting-to-fea...,mom starting to fear son's web series closest ...,1
3,https://politics.theonion.com/boehner-just-wan...,"boehner just wants wife to listen, not come up...",1
4,https://www.huffingtonpost.com/entry/jk-rowlin...,j.k. rowling wishes snape happy birthday in th...,0
5,https://www.huffingtonpost.com/entry/advancing...,advancing the world's women,0
6,https://www.huffingtonpost.com/entry/how-meat-...,the fascinating case for eating lab-grown meat,0
7,https://www.huffingtonpost.com/entry/boxed-col...,"this ceo will send your kids to school, if you...",0
8,https://politics.theonion.com/top-snake-handle...,top snake handler leaves sinking huckabee camp...,1
9,https://www.huffingtonpost.com/entry/fridays-m...,friday's morning email: inside trump's presser...,0


In [10]:
print(f'Jumlah Data dalam Dataset Ini : {len(data)}' )

Jumlah Data dalam Dataset Ini : 26709


*Catatan*
1. Dataset ini memiliki 3 atribut antara lain (article_link, headline, is_sarcastic)
2. article_link dan headline sebagai predictor atau feature
3. is_sarcastic sebagai class atau outcome

atribut **is_sarcastic** memiliki kelas yang digunakan untuk mendeteksi apakah sebuah kalimat mengandung sarkasme atau tidak. Dalam atribut ini mengandung nilai 1 berarti mengandung sarkasme atau 0 sebaliknya.

## 3. Simple Preprocessing

Kita akan melakukan perubahan value label yang semula 1 menjadi **sarkasme** dan 0 menjadi **bukan sarkasme**

In [4]:
data['is_sarcastic'] = data['is_sarcastic'].map({0: 'Bukan Sarkasme', 1: 'Sarkasme'}) # Mengubah nilai 0 menjadi 'Bukan Sarkasme' dan nilai 1 menjadi 'Sarkasme'
data.head(10)

Unnamed: 0,article_link,headline,is_sarcastic
0,https://www.huffingtonpost.com/entry/versace-b...,former versace store clerk sues over secret 'b...,Bukan Sarkasme
1,https://www.huffingtonpost.com/entry/roseanne-...,the 'roseanne' revival catches up to our thorn...,Bukan Sarkasme
2,https://local.theonion.com/mom-starting-to-fea...,mom starting to fear son's web series closest ...,Sarkasme
3,https://politics.theonion.com/boehner-just-wan...,"boehner just wants wife to listen, not come up...",Sarkasme
4,https://www.huffingtonpost.com/entry/jk-rowlin...,j.k. rowling wishes snape happy birthday in th...,Bukan Sarkasme
5,https://www.huffingtonpost.com/entry/advancing...,advancing the world's women,Bukan Sarkasme
6,https://www.huffingtonpost.com/entry/how-meat-...,the fascinating case for eating lab-grown meat,Bukan Sarkasme
7,https://www.huffingtonpost.com/entry/boxed-col...,"this ceo will send your kids to school, if you...",Bukan Sarkasme
8,https://politics.theonion.com/top-snake-handle...,top snake handler leaves sinking huckabee camp...,Sarkasme
9,https://www.huffingtonpost.com/entry/fridays-m...,friday's morning email: inside trump's presser...,Bukan Sarkasme


## 4. Melatih Model Machine Laerning

Dalam dataset ini memiliki 3 atribut yang sudah dijelaskan sebelumnya, kita hanya perlu menggunakan 2 kolom dalam kasus NLP yakni **headline** sebagai variabel X dan **is_sarcastic** sebagai variabel y, lalu kita akan membagi set data untuk uji sebesar 20% dan set data latih sebesar 80%

In [13]:
data = data[['headline', 'is_sarcastic']] # Mengambil data yang hanya berisi kolom 'headline' dan 'is_sarcastic'
X = np.array(data['headline']) # Mengambil data dari kolom 'headline' dan menyimpannya ke dalam variabel X
y = np.array(data['is_sarcastic']) # Mengambil data dari kolom 'is_sarcastic' dan menyimpannya ke dalam variabel y


cv = CountVectorizer() # Membuat objek CountVectorizer
X = cv.fit_transform(X) # Mengubah data menjadi vektor

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0) # Memisahkan data menjadi data latih dan data uji masing-masing 80% dan 20%

print(X_train.shape) # Menampilkan X jumlah data latih
print(X_test.shape) # Menampilkan X jumlah data uji
print(y_train.shape) # Menampilkan y jumlah data latih
print(y_test.shape) # Menampilkan y jumlah data uji


(21367, 25292)
(5342, 25292)
(21367,)
(5342,)


**Catatan**
Dalam melatih model machine learning, disini kita menggunakan salah satu varian dalam algoritma naive bayes yakni **Bernoulli Naive Bayes** untuk mendeteksi kalimat sarkasme atau tidak.

In [14]:
print(X)

  (0, 8921)	1
  (0, 24096)	1
  (0, 21583)	1
  (0, 4379)	1
  (0, 21848)	1
  (0, 15951)	1
  (0, 19883)	1
  (0, 2530)	1
  (0, 4514)	1
  (0, 8863)	1
  (0, 14378)	1
  (0, 20307)	1
  (1, 8863)	1
  (1, 22582)	1
  (1, 19265)	1
  (1, 18943)	1
  (1, 3752)	1
  (1, 23843)	1
  (1, 22827)	1
  (1, 15869)	1
  (1, 22661)	1
  (1, 17016)	1
  (1, 14633)	1
  (1, 2371)	1
  (1, 1117)	1
  :	:
  (26704, 9026)	1
  (26704, 8234)	1
  (26704, 17022)	1
  (26704, 14644)	1
  (26705, 1054)	1
  (26705, 2351)	1
  (26705, 128)	1
  (26705, 10599)	1
  (26706, 1117)	1
  (26706, 15510)	1
  (26706, 18657)	1
  (26707, 1947)	1
  (26707, 21977)	1
  (26707, 11882)	1
  (26707, 18028)	1
  (26707, 857)	1
  (26707, 2902)	1
  (26707, 22327)	1
  (26707, 440)	1
  (26708, 8863)	1
  (26708, 22582)	1
  (26708, 147)	1
  (26708, 9495)	1
  (26708, 9730)	1
  (26708, 8842)	1


Ketika kita melatih menggunakan **Count Vectorizer** secara otomatis akan menghasilkan sebuah matrix sparse, kita ambil salah satu contoh data point/document/baris.

In [16]:
data['headline'][0]

"former versace store clerk sues over secret 'black code' for minority shoppers"

Diatas merupakan document pada baris pertama dengan teks headline **former versace store clerk sues over secret 'black code' for minority shoppers**. Kalimat ini akan diubah secara otomatis menggunakan count vetorizer dengan memisahkan setiap kata kedalam atribut yang secara otomatis sudah ditentukan seperti dibawah ini


|8921  |24096   |21583  |4379   |21848  |15951  |19883  |2530   |4514   |8863   |14378   |20307   |
| :--- | :----: |:----: |:----: |:----: |:----: |:----: |:----: |:----: |:----: |:----:  |   ---: |
|former|versace |store  |clerk  |sues   |over   |secret |black  |code   |for    |minority|shoppers|

Bisa kita lihat disini bahwa atribut kolom 8921 itu berisi kata **former**

**Catatan : Perhatikan Output Variabel X**

In [17]:
model = BernoulliNB() # Membuat objek BernoulliNB
model.fit(X_train, y_train) # Melatih model dengan data latih
print(model.score(X_test, y_test)) # Menampilkan akurasi model

0.8440658929239985


Diatas bisa kita lihat bahwa akurasi yang dihasilkan pada model adlah 0.8440658929239985 atau **84%** dan dengan kata lain model machine learning ini hanya mampu mendeteksi bahasa mengandung sarkasme atau tidak sebesar **84%** 

## 5. Pengujian Model

In [19]:
user = input("Masukkan Teks : ")
data = cv.transform([user]).toarray() # Mengubah data teks diatas menjadi vektor
output = model.predict(data) # Memprediksi data teks diatas
print("Hasil Prediksi : ", output)

Hasil Prediksi :  ['Bukan Sarkasme']


Pada pengujian model dengan memprediksi teks antara lain
1. You bastard (Hasil : Mengandunug Sarkasme)
2. You are very diligent (Hasil : Bukan Sarksme)

Thanks 😊😊😊