In [1]:
from lazypredict.Supervised import LazyClassifier
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
import import_ipynb
from Lib_Evaluation_Classification_Model import *



importing Jupyter notebook from Lib_Evaluation_Classification_Model.ipynb


### Load data

In [3]:
data = pd.read_csv("data_Foody_pre.csv")

In [4]:
data = data[['restaurant', 'review_score', 'review_text_t1']]
data.head()

Unnamed: 0,restaurant,review_score,review_text_t1
0,Good Morning Restaurant,8.2,hải_sản ghé rẻ đẹp
1,Hạt Dẻ Trùng Khánh,8.0,đông đối_diện thích hạt_dẻ hẳn chuyên_nghiệp l...
2,Bột - Healthy & Weight Loss Food - Shop Online,8.2,khuyến_mãi đọc thử đồ_ăn đa_số hơi khô thử
3,Bánh Giò Chợ Nguyễn Công Trứ,8.2,nguyễn_công_trứ thẳng đông lộn ngải_cứu kèm tu...
4,Quán Quảng - Bún Quảng,9.0,ngãi thơm kế sò ốc mềm không_thích dầu_mỡ chả_...


In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38676 entries, 0 to 38675
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   restaurant      38676 non-null  object 
 1   review_score    38676 non-null  float64
 2   review_text_t1  38676 non-null  object 
dtypes: float64(1), object(2)
memory usage: 906.6+ KB


### Data preparation

In [6]:
# Process target data
# data['target'] = 'neutral'
# data['target'][data['review_score']>7] = 'positive'
# data['target'][(data['review_score']>5)&(data['review_score']<7)] = 'negative'
data['target'] = 0 # negative
data['target'][data['review_score']>7] = 2 # positive
data['target'][(data['review_score']>=5)&(data['review_score']<=7)] = 1 # neutral

In [7]:
data.head()

Unnamed: 0,restaurant,review_score,review_text_t1,target
0,Good Morning Restaurant,8.2,hải_sản ghé rẻ đẹp,2
1,Hạt Dẻ Trùng Khánh,8.0,đông đối_diện thích hạt_dẻ hẳn chuyên_nghiệp l...,2
2,Bột - Healthy & Weight Loss Food - Shop Online,8.2,khuyến_mãi đọc thử đồ_ăn đa_số hơi khô thử,2
3,Bánh Giò Chợ Nguyễn Công Trứ,8.2,nguyễn_công_trứ thẳng đông lộn ngải_cứu kèm tu...,2
4,Quán Quảng - Bún Quảng,9.0,ngãi thơm kế sò ốc mềm không_thích dầu_mỡ chả_...,2


In [8]:
# Process text data
source = data['review_text_t1']
type(source)

pandas.core.series.Series

In [9]:
source[:5]

0                                   hải_sản ghé rẻ đẹp
1    đông đối_diện thích hạt_dẻ hẳn chuyên_nghiệp l...
2           khuyến_mãi đọc thử đồ_ăn đa_số hơi khô thử
3    nguyễn_công_trứ thẳng đông lộn ngải_cứu kèm tu...
4    ngãi thơm kế sò ốc mềm không_thích dầu_mỡ chả_...
Name: review_text_t1, dtype: object

In [10]:
text_data = np.array(source)
text_data

array(['hải_sản ghé rẻ đẹp',
       'đông đối_diện thích hạt_dẻ hẳn chuyên_nghiệp lắm bự hư thơm_nức lành thử',
       'khuyến_mãi đọc thử đồ_ăn đa_số hơi khô thử', ...,
       'thoáng mát nhiệt_tình xuất', 'chừ đầy_đặn',
       'bạch công_việc ghé vô uống chờ rước lý_tưởng mát_mẻ tệ không_chuyên_nghiệp phục_vụ đợi uống kêu toán uống bình_thường tạm mắc hơi'],
      dtype=object)

In [11]:
count = CountVectorizer(max_features=1000) 
count.fit(text_data)
bag_of_words = count.transform(text_data)
bag_of_words

<38676x1000 sparse matrix of type '<class 'numpy.int64'>'
	with 342627 stored elements in Compressed Sparse Row format>

In [12]:
X = bag_of_words.toarray()
X

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

In [13]:
X.shape

(38676, 1000)

In [14]:
data.groupby('target').review_text_t1.count()

target
0     5742
1     4465
2    28469
Name: review_text_t1, dtype: int64

In [15]:
y = np.array(data['target'])

In [16]:
y.shape

(38676,)

In [17]:
# Split dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [18]:
type(y_train)

numpy.ndarray

### Apply Lazy Predict

In [19]:
clf = LazyClassifier(verbose=0, ignore_warnings=True, custom_metric=None)
models, prediction = clf.fit(X_train, X_test, y_train, y_test)

100%|███████████████████████████████████████████████████████████████████████████████| 29/29 [1:49:24<00:00, 226.35s/it]


In [20]:
models

Unnamed: 0_level_0,Accuracy,Balanced Accuracy,ROC AUC,F1 Score,Time Taken
Model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
NearestCentroid,0.73,0.66,,0.75,2.29
BernoulliNB,0.77,0.64,,0.77,2.6
LogisticRegression,0.81,0.59,,0.78,9.64
Perceptron,0.77,0.59,,0.76,3.31
SGDClassifier,0.8,0.58,,0.77,38.89
LinearSVC,0.8,0.57,,0.77,248.3
LGBMClassifier,0.81,0.56,,0.77,17.29
ExtraTreesClassifier,0.8,0.55,,0.75,184.56
PassiveAggressiveClassifier,0.76,0.55,,0.74,6.12
BaggingClassifier,0.75,0.55,,0.73,214.27


Nhận xét:
* 5 thuật toán cho kết quả tốt nhất là: NearestCentroid, BernoulliNB, Logistic Regression, Perceptron, SGDClassifier.
* Theo như bảng trên, Logistic Regression là thuật toán cho kết quả tốt nhất và thời gian tương đối ngắn
* Thử lần lượt các thuật toán để tìm ra thuật toán tối ưu