<a href="https://colab.research.google.com/github/arivval123/kuis_mesinpencari/blob/master/js08_uts.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Deteksi Emosi Pengguna Twitter

Deteksi emosi merupakan salah satu permasalahan yang dihadapi pada ***Natural Language Processing*** (NLP). Alasanya diantaranya adalah kurangnya dataset berlabel untuk mengklasifikasikan emosi berdasarkan data twitter. Selain itu, sifat dari data twitter yang dapat memiliki banyak label emosi (***multi-class***). Manusia memiliki berbagai emosi dan sulit untuk mengumpulkan data yang cukup untuk setiap emosi. Oleh karena itu, masalah ketidakseimbangan kelas akan muncul (***class imbalance***). Pada Ujian Tengah Semester (UTS) kali ini, Anda telah disediakan dataset teks twitter yang sudah memiliki label untuk beberapa kelas emosi. Tugas utama Anda adalah membuat model yang mumpuni untuk kebutuhan klasifikasi emosi berdasarkan teks.

### Informasi Data

Dataset yang akan digunakan adalah ****tweet_emotion.csv***. Berikut merupakan informasi tentang dataset yang dapat membantu Anda.

- Total data: 40000 data
- Label emosi: anger, boredom, empty, enthusiasm, fun, happiness, hate, love, neutral, relief, sadness, surprise, worry
- Jumlah data untuk setiap label tidak sama (***class imbalance***)
- Terdapat 3 kolom = 'tweet_id', 'sentiment', 'content'

### Penilaian UTS

UTS akan dinilai berdasaarkan 4 proses yang akan Anda lakukan, yaitu pra pengolahan data, ektraksi fitur, pembuatan model machine learning, dan evaluasi.

#### Pra Pengolahan Data

> **Perhatian**
> 
> Sebelum Anda melakukan sesuatu terhadap data Anda, pastikan data yang Anda miliki sudah "baik", bebas dari data yang hilang, menggunakan tipe data yang sesuai, dan sebagainya.
>

Data tweeter yang ada dapatkan merupakan sebuah data mentah, maka beberapa hal dapat Anda lakukan (namun tidak terbatas pada) yaitu,

1. Case Folding
2. Tokenizing
3. Filtering
4. Stemming

*CATATAN: PADA DATA TWITTER TERDAPAT *MENTION* (@something) YANG ANDA HARUS TANGANI SEBELUM MASUK KE TAHAP EKSTRAKSI FITUR*

#### Ekstrasi Fitur

Anda dapat menggunakan beberapa metode, diantaranya

1. Bag of Words (Count / TF-IDF)
2. N-gram
3. dan sebagainya

#### Pembuatan Model

Anda dibebaskan dalam memilih algoritma klasifikasi. Anda dapat menggunakan algoritma yang telah diajarkan didalam kelas atau yang lain, namun dengan catatan. Berdasarkan asas akuntabilitas pada pengembangan model machine learning, Anda harus dapat menjelaskan bagaimana model Anda dapat menghasilkan nilai tertentu.

#### Evaluasi

Pada proses evaluasi, minimal Anda harus menggunakan metric akurasi. Akan tetapi Anda juga dapat menambahkan metric lain seperti Recall, Precision, F1-Score, detail Confussion Metric, ataupun Area Under Curve (AUC).

UTS Machine Learning
Nama :Muhammad Abdul Aziz
Kelas:TI-4J
NIM  :2241727023

### Lembar Pengerjaan
Lembar pengerjaan dimulai dari cell dibawah ini

In [5]:
import numpy as np
import pandas as pd

In [6]:
df = pd.read_csv('tweet_emotions.csv')

df.head()

Unnamed: 0,tweet_id,sentiment,content
0,1956967341,empty,@tiffanylue i know i was listenin to bad habi...
1,1956967666,sadness,Layin n bed with a headache ughhhh...waitin o...
2,1956967696,sadness,Funeral ceremony...gloomy friday...
3,1956967789,enthusiasm,wants to hang out with friends SOON!
4,1956968416,neutral,@dannycastillo We want to trade with someone w...


In [7]:
df.shape

(40000, 3)

In [8]:
df.isnull().sum()

tweet_id     0
sentiment    0
content      0
dtype: int64

In [9]:
df.duplicated().sum()

0

In [11]:
df.drop(columns= "tweet_id",inplace = True)

In [10]:
df["sentiment"].value_counts()

neutral       8638
worry         8459
happiness     5209
sadness       5165
love          3842
surprise      2187
fun           1776
relief        1526
hate          1323
empty          827
enthusiasm     759
boredom        179
anger          110
Name: sentiment, dtype: int64

In [12]:
df["content"][1:10]

1    Layin n bed with a headache  ughhhh...waitin o...
2                  Funeral ceremony...gloomy friday...
3                 wants to hang out with friends SOON!
4    @dannycastillo We want to trade with someone w...
5    Re-pinging @ghostridah14: why didn't you go to...
6    I should be sleep, but im not! thinking about ...
7                 Hmmm. http://www.djhero.com/ is down
8              @charviray Charlene my love. I miss you
9           @kelcouch I'm sorry  at least it's Friday?
Name: content, dtype: object

Preprocessing

In [13]:
import re
def remove_tags(raw_text):
    cleaned_text = re.sub(re.compile('<.*?>@'),"",raw_text)
    return cleaned_text

In [14]:
df["content"] = df["content"].apply(remove_tags)

In [15]:
df.head(5)

Unnamed: 0,sentiment,content
0,empty,@tiffanylue i know i was listenin to bad habi...
1,sadness,Layin n bed with a headache ughhhh...waitin o...
2,sadness,Funeral ceremony...gloomy friday...
3,enthusiasm,wants to hang out with friends SOON!
4,neutral,@dannycastillo We want to trade with someone w...


In [16]:
#lower casing
df["content"] = df["content"].apply(lambda x: x.lower())

In [17]:
df["content"][2]

'funeral ceremony...gloomy friday...'

In [18]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [19]:
from nltk.corpus import stopwords


sw_list = stopwords.words("english")

df['content'] = df['content'].apply(lambda x: [item for item in x.split() if item not in sw_list]).apply(lambda x:" ".join(x))

In [20]:
df

Unnamed: 0,sentiment,content
0,empty,@tiffanylue know listenin bad habit earlier st...
1,sadness,layin n bed headache ughhhh...waitin call...
2,sadness,funeral ceremony...gloomy friday...
3,enthusiasm,wants hang friends soon!
4,neutral,@dannycastillo want trade someone houston tick...
...,...,...
39995,neutral,@johnlloydtaylor
39996,love,happy mothers day love
39997,love,"happy mother's day mommies there, woman man lo..."
39998,happiness,@niariley wassup beautiful!!! follow me!! peep...


In [21]:
X = df.iloc[:,1:2]
y = df["sentiment"]

In [22]:
X.head()

Unnamed: 0,content
0,@tiffanylue know listenin bad habit earlier st...
1,layin n bed headache ughhhh...waitin call...
2,funeral ceremony...gloomy friday...
3,wants hang friends soon!
4,@dannycastillo want trade someone houston tick...


In [23]:
y.head()

0         empty
1       sadness
2       sadness
3    enthusiasm
4       neutral
Name: sentiment, dtype: object

In [24]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

y = le.fit_transform(y)

In [25]:
y

array([ 2, 10, 10, ...,  7,  5,  7])

In [26]:
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=1)

In [27]:
X_train.shape

(32000, 1)

In [28]:
y_test.shape

(8000,)

Text Vectorization

In [29]:
#Applying bag of words
from sklearn.feature_extraction.text import CountVectorizer

In [30]:
cv = CountVectorizer()

In [31]:
X_train_bow = cv.fit_transform(X_train['content']).toarray()


In [32]:
X_train_bow.shape

(32000, 41219)

Modelling