In [14]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt



In [4]:
# Import dataset
df_sentiment = pd.read_csv('./data/emotion1_1.csv')

df_sentiment = df_sentiment[df_sentiment['sentiment'] != 'unclassifiable']
df_sentiment


Unnamed: 0,text,sentiment
1,ที่ ส.ส แบบนี้มันยังอยู่ได้ เพราะมันก็มีคนยังเ...,anger
4,แล้วโกรธอะไรเสี่ยวถิงน้องทำไรให้? มาบอกว่าน้อง...,anger
5,ไม่เอาลูกมันก็โกรธ พาลโกรธเพื่อนเราที่เข้ามาช่...,anger
7,กุโทรหาแม่ แต่แม่รับแล้วเอาโทรศัพท์ให้พ่อคุย ก...,anger
9,รีล่าคือ ไอ้เหี้ย กุเห้นแล้วโกรธ่ะโกรธ มึงนี่ม...,anger
...,...,...
1793,"""อุ้ย แบบเย็นชอบเหมือนกันเลยค่ะ..."" ดูประหลาดใ...",surprise
1795,ประหลาดใจนักที่ได้รับข้อความตอบกลับมา เผยรอยยิ...,surprise
1796,หนูไม่คิดว่าพี่จะเล่นมุกนี้ ประหลาดใจ….,surprise
1797,"""นี่นาย.!!"" ู้สึกประหลาดใจอย่างบอกไม่ถูก พอเห็...",surprise


# Labelling

In [7]:
encoding = {
    'anger': 0,
    'disgust': 1,
    'fear': 2,
    'joy': 3,
    'sadness': 4,
    'surprise': 5,
}

y_sentiment_encoded = [encoding[sentiment] for sentiment in df_sentiment['sentiment'].values if sentiment != 'unclassifiable']

In [8]:
X = df_sentiment['text'].values
y = np.array(y_sentiment_encoded)
print(X)
print(y)
print(X.shape)
print(y.shape)


['ที่ ส.ส แบบนี้มันยังอยู่ได้ เพราะมันก็มีคนยังเลือก ประเภทด่าตอนเขาหายหัว แล้วดีใจตอนเขาให้เงิน ลืมสิ้นความโกรธทุกอย่าง ต้องหยุดวงจรอุบาทว์นี่ คือเจ็บแล้วต้องจำ ไม่รับเงิน ไม่ใช่อ้างว่าคนเราต้องกินต้องใช้ มันถึงวนเป็นลูปงี้ไม่จบสิ้น'
 'แล้วโกรธอะไรเสี่ยวถิงน้องทำไรให้? มาบอกว่าน้องเป็นเด็กล็อก พูดงี้มันทำให้น้องเสียหาย ถ้าโกรธเพราะได้ซีนเยอะ ทำไมไม่โกรธคนตัดต่อเอ็มเน็ต ถ้าอีพีถัดๆไปก็รอดูว่าถ้าได้ซีนแกง ยังจะมาพูดว่าล็อกอีก ไหม อย่างน้อยก็น่าจะเห็นความสามารถน้องบ้าง แต่คงไม่เห็นหรอก อคติบังตา'
 'ไม่เอาลูกมันก็โกรธ พาลโกรธเพื่อนเราที่เข้ามาช่วยอีกูกน้องระยำรังควานชาวบ้านไปทั่วก็ไม่รู้จักจัดการ พอเขาดำเนินการตามกฎหมายกับลูกน้องมันจนมันซัดทอด มันก็พาลโกรธพวกเขาอีกุป ปัญหามันอยู่ที่ใครก็เห็นๆกันอยู่่ยอมรับความจริงแล้วยังออกแผนระยำรังควานเข่นฆ่าคนอื่นไม่หยุดอีก'
 ... 'หนูไม่คิดว่าพี่จะเล่นมุกนี้ ประหลาดใจ….'
 '"นี่นาย.!!" ู้สึกประหลาดใจอย่างบอกไม่ถูก พอเห็นของที่ชอบก็ทำให้หายเหนื่อยขึ้นมาทันที ังไม่เคยบอกเลย ไปรู้มาจากไหนเนี่ย? \\ "อะแฮ่ม!! ฉันไม่ได้บอกว่าอยากได้สักหน่อย" "แต่นายซื้อมาแล้ว

# Train test splitting

In [9]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

In [13]:
from collections import Counter
print(Counter(y_train))
print(Counter(y_test))

Counter({3: 193, 5: 183, 2: 171, 0: 149, 4: 145, 1: 128})
Counter({3: 48, 5: 46, 2: 43, 0: 37, 4: 37, 1: 32})


# Thai word tokenizer

In [15]:
from pythainlp.tokenize import word_tokenize

test = X_train[1]
print(word_tokenize(test))

['เห็น', 'แล้ว', 'โกรธ', 'นะ']


# Extracting Features from train and test dataset

## Create TF-IDF Vector

In [23]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer(tokenizer=word_tokenize, ngram_range=(1, 1))
text_train = tfidf_vectorizer.fit_transform(X_train.astype('U'))
text_test = tfidf_vectorizer.transform(X_test)

# Logistic Regression

In [24]:
import time
from sklearn.linear_model import LogisticRegression

# Run classfifier
logistic_regressor = LogisticRegression(solver="liblinear", random_state=42)
## Set timer
# t0 = time.time()
logistic_regressor.fit(text_train, y_train)
# print("Training time: {} sec".format(round(time.time()-t0, 3)))

LogisticRegression(random_state=42, solver='liblinear')

# Save model to local

In [25]:
from joblib import load, dump

dump(logistic_regressor, "model.joblib")
dump(tfidf_vectorizer, "tfidf.joblib")

['tfidf.joblib']

In [26]:
load_model = load("model.joblib")
load_transformer = load("tfidf.joblib")

In [28]:
tweet2 = "มันน่ากลัวอะคุน เรานอนต่อไม่ได้"

test_feature = load_transformer.transform([tweet2])
load_model.predict(test_feature)


array([2])