In [152]:
import pandas as pd
import sklearn
from sklearn.svm import SVC
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
# from sklearn.feature_extraction.text import CountVectorizer

In [118]:
file_name = 'sentimentVN.csv'
df = pd.read_csv(file_name)

In [119]:
df.head(10)

Unnamed: 0,content,label,start
0,Áo bao đẹp ạ!,POS,5
1,Tuyệt vời,POS,5
2,2day ao khong giong trong,NEG,1
3,"Mùi thơm,bôi lên da mềm da",POS,5
4,"Vải đẹp, dày dặn",POS,5
5,"Hàng rất đẹp, rất chi là ưng ý",POS,5
6,"Chất lượng sản phẩm tốt, date dài",POS,5
7,Ăn nói và thái độ phục vụ tốt,POS,4
8,Đóng gói sản phẩm chắc chắn,POS,5
9,tất sờn hết ca chưa dùng mà vay r,NEG,2


In [120]:
# Check for missing values
df.isnull().sum()
# Check for duplicate rows
df.duplicated().sum()
# Make all text lowercase
df['content'] = df['content'].str.lower()
# Remove common words in each sentence
common_words = ['tôi', 'là', 'của', 'và', 'có', 'cho', 'cái', 'một', 'những', 'ạ']
for word in common_words:
    df['content'] = df['content'].str.replace(word, '')

df.head(10)

Unnamed: 0,content,label,start
0,áo bao đẹp !,POS,5
1,tuyệt vời,POS,5
2,2day ao khong giong trong,NEG,1
3,"mùi thơm,bôi lên da mềm da",POS,5
4,"vải đẹp, dày dặn",POS,5
5,"hàng rất đẹp, rất chi ưng ý",POS,5
6,"chất lượng sản phẩm tốt, date dài",POS,5
7,ăn nói thái độ phục vụ tốt,POS,4
8,đóng gói sản phẩm chắc chắn,POS,5
9,tất sờn hết ca chưa dùng mà vay r,NEG,2


In [149]:
# Data splitting

# X contains content and start, and y contains label
X = df['content']
y = df['label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

X_train.shape, X_test.shape, y_train.shape, y_test.shape

((28314,), (3146,), (28314,), (3146,))

In [139]:
# # Vectorization using Binary Vectorizer
# vectorizer = CountVectorizer(binary=True)
# X_train = vectorizer.fit_transform(X_train.values.astype('U'))
# X_test = vectorizer.transform(X_test.values.astype('U'))
# X_train.shape, X_test.shape

In [140]:
# Vectorization using TF-IDF with 1000 features
vectorizer = TfidfVectorizer(max_features=1000)
X_train = vectorizer.fit_transform(X_train.values.astype('U'))
X_test = vectorizer.transform(X_test.values.astype('U'))
X_train.shape, X_test.shape

((28314, 1000), (3146, 1000))

In [141]:
model = SVC(kernel='linear')
model.fit(X_train, y_train)

0,1,2
,C,1.0
,kernel,'linear'
,degree,3
,gamma,'scale'
,coef0,0.0
,shrinking,True
,probability,False
,tol,0.001
,cache_size,200
,class_weight,


In [142]:
def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f'Accuracy: {accuracy:.4f}')

def predict_sentiment(model, vectorizer, text):
    text_vectorized = vectorizer.transform([text])
    prediction = model.predict(text_vectorized)
    return prediction[0]

In [143]:
evaluate_model(model, X_test, y_test)

Accuracy: 0.7730


In [144]:
text = "Có những chi tiết khiến sản phẩm này khó có thể dùng được"
sentiment = predict_sentiment(model, vectorizer, text)

In [145]:
sentiment

'POS'

In [146]:
model_01 = LogisticRegression()
model_01.fit(X_train, y_train)
evaluate_model(model_01, X_test, y_test)

Accuracy: 0.7750


In [154]:
# Data splitting

# X contains content and start, and y contains label
X_bayes = df['content']
y_bayes = df['label']

X_train_bayes, X_test_bayes, y_train_bayes, y_test_bayes = train_test_split(X_bayes, y_bayes, test_size=0.1)

X_train_bayes = vectorizer.fit_transform(X_train_bayes.values.astype('U'))
X_test_bayes = vectorizer.transform(X_test_bayes.values.astype('U'))

In [155]:
model_02 = MultinomialNB()
model_02.fit(X_train_bayes, y_train_bayes)
evaluate_model(model_02, X_test_bayes, y    _test_bayes)

Accuracy: 0.7457
