In [1]:
import pandas as pd
from sklearn.externals import joblib
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction import DictVectorizer
from sklearn.linear_model import SGDClassifier
from sklearn.multiclass import OneVsRestClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn import svm
import xml.etree.ElementTree as ET
# from lxml import etree
from scipy.sparse import hstack
import numpy as np
import warnings
from nltk.tag.stanford import StanfordPOSTagger as POS_Tag
from nltk import word_tokenize


In [2]:
#xml parser
def get_list(path):
    tree=ET.parse(path)
    root = tree.getroot()
    text_list = []
    opinion_list = []
    for review in root.findall('Review'):
        text_string=""
        opinion_inner_list=[]
        for sent in review.findall('./sentences/sentence'):
            if type(sent.find('text').text) is str:
                text_string= text_string+ " "+ sent.find('text').text
        text_list.append(text_string)
        for opinion in review.findall('./sentences/sentence/Opinions/Opinion'):
            opinion_dict = {
                opinion.get('category').replace('#','_'): opinion.get('polarity')
            }
            opinion_inner_list.append(opinion_dict)
        opinion_list.append(opinion_inner_list)
    return text_list,opinion_list

In [4]:
text_list = get_list('reviews.xml')

In [5]:
#Selecting only 20 most common aspect.
def get_most_common_aspect(opinion_list):
    import nltk
    opinion= []
    for inner_list in opinion_list:
        for _dict in inner_list:
            for key in _dict:
                opinion.append(key)
    most_common_aspect = [k for k,v in nltk.FreqDist(opinion).most_common(6)]
    value = [v for k,v in nltk.FreqDist(opinion).most_common(6)]
    print(value)
        
    return most_common_aspect

In [6]:
most_common_aspect= get_most_common_aspect(get_list('reviews.xml')[1])
print(most_common_aspect)

[175, 105, 77, 53, 52, 49]
['FOOD_QUALITY', 'SERVICE_GENERAL', 'RESTAURANT_GENERAL', 'FOOD_PRICE', 'FOOD_STYLE_OPTIONS', 'AMBIENCE_GENERAL']


In [7]:
text_list[1]

[[{'RESTAURANT_GENERAL': 'negative'},
  {'SERVICE_GENERAL': 'negative'},
  {'SERVICE_GENERAL': 'negative'},
  {'FOOD_QUALITY': 'negative'},
  {'FOOD_STYLE_OPTIONS': 'negative'},
  {'SERVICE_GENERAL': 'negative'},
  {'RESTAURANT_GENERAL': 'negative'}],
 [{'FOOD_QUALITY': 'positive'},
  {'RESTAURANT_GENERAL': 'positive'},
  {'FOOD_STYLE_OPTIONS': 'positive'},
  {'FOOD_PRICE': 'positive'},
  {'FOOD_PRICE': 'positive'},
  {'FOOD_QUALITY': 'positive'}],
 [{'RESTAURANT_GENERAL': 'negative'},
  {'SERVICE_GENERAL': 'negative'},
  {'SERVICE_GENERAL': 'negative'},
  {'FOOD_QUALITY': 'negative'},
  {'FOOD_QUALITY': 'negative'},
  {'FOOD_QUALITY': 'negative'},
  {'RESTAURANT_GENERAL': 'negative'},
  {'RESTAURANT_GENERAL': 'negative'}],
 [{'RESTAURANT_GENERAL': 'positive'},
  {'SERVICE_GENERAL': 'positive'},
  {'FOOD_QUALITY': 'positive'},
  {'FOOD_PRICE': 'positive'},
  {'RESTAURANT_GENERAL': 'positive'}],
 [{'RESTAURANT_GENERAL': 'positive'},
  {'FOOD_QUALITY': 'positive'},
  {'SERVICE_GENERAL': 

In [8]:
#generate data frame
def get_data_frame(text_list,opinion_list,most_common_aspect):
    data={'Review':text_list}
    f = pd.DataFrame(data)
    if opinion_list:
        for inner_list in opinion_list:
            for _dict in inner_list:
                for key in _dict:
                    if key in most_common_aspect:
                        f.loc[opinion_list.index(inner_list),key]=_dict[key]
    return f

In [9]:
root = get_data_frame(text_list[0], text_list[1], most_common_aspect)
root

Unnamed: 0,Review,RESTAURANT_GENERAL,SERVICE_GENERAL,FOOD_QUALITY,FOOD_STYLE_OPTIONS,FOOD_PRICE,AMBIENCE_GENERAL
0,"Đánh giá từ bài trước, chỗ này từng là một ch...",negative,negative,negative,negative,,
1,"Tôi đã ăn ở Saul nhiều lần, thức ăn luôn tuyệ...",positive,,positive,positive,positive,
2,Tôi rất thất vọng về nhà hàng này. Tôi yêu cầ...,negative,negative,negative,,,
3,"Đi 3 ngày, tôi rất tự hào vì đây là chuyến đi...",positive,positive,positive,,positive,
4,"Mọi lần tôi đến New York, tôi đều phải đến nh...",positive,positive,positive,,,positive
5,"Khi nhìn thấy chỗ này, tôi tự hứa sẽ đến thử ...",negative,,positive,positive,,negative
6,"Danh sách của họ rất phong phú, nhưng chúng t...",,positive,positive,positive,,
7,"Tôi đã ăn ở đây một vài lần, không có lý do g...",negative,negative,positive,,,
8,Nhà hàng nên đóng cửa từ lâu. Chúng tôi đến v...,negative,negative,negative,negative,,
9,Đó là một món pizza ngon. Lớp vỏ pizza được n...,,,positive,positive,,


In [10]:
#generate data frame for aspect extraction task
def get_aspect_data_frame(df,most_common_aspect):
    for common_aspect in most_common_aspect:
#         print(df[common_aspect])
        df[common_aspect]=df[common_aspect].replace(['positive','negative'],[1,1])
    df = df.fillna(0)
    return df

In [11]:
# get_data_frame(text_list[0], text_list[1], most_common_aspect)
df_aspect = get_aspect_data_frame(get_data_frame(text_list[0], text_list[1], most_common_aspect), most_common_aspect)
df_aspect

Unnamed: 0,Review,RESTAURANT_GENERAL,SERVICE_GENERAL,FOOD_QUALITY,FOOD_STYLE_OPTIONS,FOOD_PRICE,AMBIENCE_GENERAL
0,"Đánh giá từ bài trước, chỗ này từng là một ch...",1.0,1.0,1.0,1.0,0.0,0.0
1,"Tôi đã ăn ở Saul nhiều lần, thức ăn luôn tuyệ...",1.0,0.0,1.0,1.0,1.0,0.0
2,Tôi rất thất vọng về nhà hàng này. Tôi yêu cầ...,1.0,1.0,1.0,0.0,0.0,0.0
3,"Đi 3 ngày, tôi rất tự hào vì đây là chuyến đi...",1.0,1.0,1.0,0.0,1.0,0.0
4,"Mọi lần tôi đến New York, tôi đều phải đến nh...",1.0,1.0,1.0,0.0,0.0,1.0
5,"Khi nhìn thấy chỗ này, tôi tự hứa sẽ đến thử ...",1.0,0.0,1.0,1.0,0.0,1.0
6,"Danh sách của họ rất phong phú, nhưng chúng t...",0.0,1.0,1.0,1.0,0.0,0.0
7,"Tôi đã ăn ở đây một vài lần, không có lý do g...",1.0,1.0,1.0,0.0,0.0,0.0
8,Nhà hàng nên đóng cửa từ lâu. Chúng tôi đến v...,1.0,1.0,1.0,1.0,0.0,0.0
9,Đó là một món pizza ngon. Lớp vỏ pizza được n...,0.0,0.0,1.0,1.0,0.0,0.0


In [12]:
df_aspect.reindex(sorted(df_aspect.columns), axis=1)

Unnamed: 0,AMBIENCE_GENERAL,FOOD_PRICE,FOOD_QUALITY,FOOD_STYLE_OPTIONS,RESTAURANT_GENERAL,Review,SERVICE_GENERAL
0,0.0,0.0,1.0,1.0,1.0,"Đánh giá từ bài trước, chỗ này từng là một ch...",1.0
1,0.0,1.0,1.0,1.0,1.0,"Tôi đã ăn ở Saul nhiều lần, thức ăn luôn tuyệ...",0.0
2,0.0,0.0,1.0,0.0,1.0,Tôi rất thất vọng về nhà hàng này. Tôi yêu cầ...,1.0
3,0.0,1.0,1.0,0.0,1.0,"Đi 3 ngày, tôi rất tự hào vì đây là chuyến đi...",1.0
4,1.0,0.0,1.0,0.0,1.0,"Mọi lần tôi đến New York, tôi đều phải đến nh...",1.0
5,1.0,0.0,1.0,1.0,1.0,"Khi nhìn thấy chỗ này, tôi tự hứa sẽ đến thử ...",0.0
6,0.0,0.0,1.0,1.0,0.0,"Danh sách của họ rất phong phú, nhưng chúng t...",1.0
7,0.0,0.0,1.0,0.0,1.0,"Tôi đã ăn ở đây một vài lần, không có lý do g...",1.0
8,0.0,0.0,1.0,1.0,1.0,Nhà hàng nên đóng cửa từ lâu. Chúng tôi đến v...,1.0
9,0.0,0.0,1.0,1.0,0.0,Đó là một món pizza ngon. Lớp vỏ pizza được n...,0.0


In [13]:
df_aspect

Unnamed: 0,Review,RESTAURANT_GENERAL,SERVICE_GENERAL,FOOD_QUALITY,FOOD_STYLE_OPTIONS,FOOD_PRICE,AMBIENCE_GENERAL
0,"Đánh giá từ bài trước, chỗ này từng là một ch...",1.0,1.0,1.0,1.0,0.0,0.0
1,"Tôi đã ăn ở Saul nhiều lần, thức ăn luôn tuyệ...",1.0,0.0,1.0,1.0,1.0,0.0
2,Tôi rất thất vọng về nhà hàng này. Tôi yêu cầ...,1.0,1.0,1.0,0.0,0.0,0.0
3,"Đi 3 ngày, tôi rất tự hào vì đây là chuyến đi...",1.0,1.0,1.0,0.0,1.0,0.0
4,"Mọi lần tôi đến New York, tôi đều phải đến nh...",1.0,1.0,1.0,0.0,0.0,1.0
5,"Khi nhìn thấy chỗ này, tôi tự hứa sẽ đến thử ...",1.0,0.0,1.0,1.0,0.0,1.0
6,"Danh sách của họ rất phong phú, nhưng chúng t...",0.0,1.0,1.0,1.0,0.0,0.0
7,"Tôi đã ăn ở đây một vài lần, không có lý do g...",1.0,1.0,1.0,0.0,0.0,0.0
8,Nhà hàng nên đóng cửa từ lâu. Chúng tôi đến v...,1.0,1.0,1.0,1.0,0.0,0.0
9,Đó là một món pizza ngon. Lớp vỏ pizza được n...,0.0,0.0,1.0,1.0,0.0,0.0


In [14]:
def get_positive_data_frame(df1,most_common_aspect):
    for common_aspect in most_common_aspect:
        print(df1[common_aspect])
        df1[common_aspect]=df1[common_aspect].replace(['positive','negative','neutral'],[1,0,0])
        print(df1[common_aspect])
    df1 = df1.fillna(0)
    return df1

In [15]:
root.head()
df_positive = get_positive_data_frame(get_data_frame(text_list[0], text_list[1], most_common_aspect), most_common_aspect)
df_positive

0      negative
1      positive
2      negative
3      positive
4      positive
5      positive
6      positive
7      positive
8      negative
9      positive
10     positive
11     positive
12     positive
13     positive
14     positive
15     positive
16     positive
17     positive
18     positive
19     positive
20     positive
21     positive
22     positive
23     negative
24     positive
25     negative
26     negative
27     negative
28     positive
29     positive
         ...   
77     positive
78     positive
79     positive
80          NaN
81          NaN
82     negative
83          NaN
84     negative
85          NaN
86          NaN
87     positive
88     positive
89     positive
90          NaN
91     negative
92     positive
93          NaN
94          NaN
95     negative
96     negative
97          NaN
98     negative
99     positive
100    negative
101    positive
102         NaN
103    positive
104         NaN
105    positive
106    positive
Name: FOOD_QUALITY, Leng

Unnamed: 0,Review,RESTAURANT_GENERAL,SERVICE_GENERAL,FOOD_QUALITY,FOOD_STYLE_OPTIONS,FOOD_PRICE,AMBIENCE_GENERAL
0,"Đánh giá từ bài trước, chỗ này từng là một ch...",0.0,0.0,0.0,0.0,0.0,0.0
1,"Tôi đã ăn ở Saul nhiều lần, thức ăn luôn tuyệ...",1.0,0.0,1.0,1.0,1.0,0.0
2,Tôi rất thất vọng về nhà hàng này. Tôi yêu cầ...,0.0,0.0,0.0,0.0,0.0,0.0
3,"Đi 3 ngày, tôi rất tự hào vì đây là chuyến đi...",1.0,1.0,1.0,0.0,1.0,0.0
4,"Mọi lần tôi đến New York, tôi đều phải đến nh...",1.0,1.0,1.0,0.0,0.0,1.0
5,"Khi nhìn thấy chỗ này, tôi tự hứa sẽ đến thử ...",0.0,0.0,1.0,1.0,0.0,0.0
6,"Danh sách của họ rất phong phú, nhưng chúng t...",0.0,1.0,1.0,1.0,0.0,0.0
7,"Tôi đã ăn ở đây một vài lần, không có lý do g...",0.0,0.0,1.0,0.0,0.0,0.0
8,Nhà hàng nên đóng cửa từ lâu. Chúng tôi đến v...,0.0,0.0,0.0,0.0,0.0,0.0
9,Đó là một món pizza ngon. Lớp vỏ pizza được n...,0.0,0.0,1.0,1.0,0.0,0.0


In [16]:
def get_negative_data_frame(df,most_common_aspect):
    for common_aspect in most_common_aspect:
        df[common_aspect]=df[common_aspect].replace(['negative','positive'],[1,0])
    df = df.fillna(0)
    return df

In [17]:
def get_neutral_data_frame(df,most_common_aspect):
    for common_aspect in most_common_aspect:
        df[common_aspect]=df[common_aspect].replace(['neutral','negative','positive'],[1,0,0])
    df = df.fillna(0)
    return df

In [18]:
get_negative_data_frame(get_data_frame(text_list[0], text_list[1], most_common_aspect), most_common_aspect)

Unnamed: 0,Review,RESTAURANT_GENERAL,SERVICE_GENERAL,FOOD_QUALITY,FOOD_STYLE_OPTIONS,FOOD_PRICE,AMBIENCE_GENERAL
0,"Đánh giá từ bài trước, chỗ này từng là một ch...",1.0,1.0,1.0,1.0,0.0,0.0
1,"Tôi đã ăn ở Saul nhiều lần, thức ăn luôn tuyệ...",0.0,0.0,0.0,0.0,0.0,0.0
2,Tôi rất thất vọng về nhà hàng này. Tôi yêu cầ...,1.0,1.0,1.0,0.0,0.0,0.0
3,"Đi 3 ngày, tôi rất tự hào vì đây là chuyến đi...",0.0,0.0,0.0,0.0,0.0,0.0
4,"Mọi lần tôi đến New York, tôi đều phải đến nh...",0.0,0.0,0.0,0.0,0.0,0.0
5,"Khi nhìn thấy chỗ này, tôi tự hứa sẽ đến thử ...",1.0,0.0,0.0,0.0,0.0,1.0
6,"Danh sách của họ rất phong phú, nhưng chúng t...",0.0,0.0,0.0,0.0,0.0,0.0
7,"Tôi đã ăn ở đây một vài lần, không có lý do g...",1.0,1.0,0.0,0.0,0.0,0.0
8,Nhà hàng nên đóng cửa từ lâu. Chúng tôi đến v...,1.0,1.0,1.0,1.0,0.0,0.0
9,Đó là một món pizza ngon. Lớp vỏ pizza được n...,0.0,0.0,0.0,0.0,0.0,0.0


In [19]:
#To tag using stanford pos tagger
# input: array(review)
# output: array({"word":"tag"})
from pyvi import ViTokenizer, ViPosTagger
def posTag(review):
    tagged_text_list=[]
    for text in review:
        print(tagging(tag_text(text)))
        tagged_text_list.append(tagging(tag_text(text)))
    return tagged_text_list
#posTag("this is random text")

In [20]:
#Filter the word with tag- noun,adjective,verb,adverb
def filterTag(tagged_review):
    final_text_list=[]
    for text_list in tagged_review:
        final_text=[]
#         print(text_list)
        for t in text_list:
            if t[1] not in ['F','X','Nu', 'P', 'C', 'R', 'E', 'I']: 
                final_text.append(t[0])
        final_text_list.append(' '.join(final_text))
    print(final_text_list)
    return final_text_list

In [21]:
def get_dict_aspect(y,most_common_aspect):
    position=[]
    for innerlist in y:
        position.append([i for i, j in enumerate(innerlist) if j == 1])
    sorted_common=sorted(most_common_aspect)
    dict_aspect=[]
    for innerlist in position:
        inner_dict={}
        for word in sorted_common:
            if sorted_common.index(word) in innerlist:
                inner_dict[word]= 5
            else:
                inner_dict[word]=0
        dict_aspect.append(inner_dict)
    return dict_aspect

In [22]:
#Stage 1:
#Making list to train
train_text_list,train_opinion_list = get_list('reviews.xml')
most_common_aspect = get_most_common_aspect(train_opinion_list)

[175, 105, 77, 53, 52, 49]


In [23]:
# tagged_text_list_train=posTag(train_text_list)
# joblib.dump(tagged_text_list_train, 'tagged_text_list_train.pkl')
tagged_text_list_train=joblib.load('tagged_text_list_train.pkl')

In [24]:
#train list after filter
final_train_text_list=filterTag(tagged_text_list_train)

['Đánh_giá bài trước chỗ là một chỗ tốt giờ còn đến chiều chỗ trống_trơn nhân_viên thể_hiện là phá bực_mình đưa mì tử_tế bỏ_qua các yêu_cầu thả đĩa lên bài Thức_ăn_tệ ngọt mặn ít kêu tiền tip ít Tránh xa chỗ', 'ăn_ở Saul nhiều lần thức_ăn tuyệt_vời Saul là nhà_hàng tốt Smith_Street and Brooklyn Danh_sách rượu ấn_tượng có nhiều giá_trị tốt giá bạn ăn tốt Manhattan', 'thất_vọng nhà_hàng yêu_cầu nhân_viên cơm gói lá_sen nhận cơm cô đi khỏi yêu_cầu 3 lần khi cô mang món yêu_cầu Đồ ăn tạm ổn có đặc_biệt Mì khô thịt lợn nhiều dầu hơn bình_thường phải ngồi cùng 1 gia_đình ồn_ào lịch_sự trở chỗ', 'Đi 3 ngày tự_hào là chuyến đi kết_thúc bỏi tuyệt_vời Dịch_vụ tuyệt_vời giá đánh_bại Bạn có sự lựa_chọn sai_lầm', 'Mọi lần đến New_York phải đến nhà_hàng Saul đường Smith Mọi người nấu mức hoàn_hảo dịch_vụ tuyệt_vời trang_trí đặc_sắc thử món gan ngỗng chuyến đi mới nhất tuyệt_vời chờ lần tiếp_theo', 'Khi nhìn thấy chỗ hứa đến thử một lần ghét phải nói nghi_ngờ việc trở_lại Thức_ăn bình_thường đồ Thái 

In [28]:
#Aspect Based Sentiment analyis of user's input.
# Thái độ nhân viên dở ẹc, thức ăn thì chán nhưng được cái view đẹp
# 'C', 'R', 'F', 'X', 'E', 'I', 
user_input=input("Enter a laptop review:\n\n")
#Preprocessing and vectorizing
tagged_user_input = posTag([user_input])
filter_tagged_user_input = filterTag(tagged_user_input)

print(filter_tagged_user_input)

Enter a laptop review:

tuyệt vời
[('tuyệt_vời', 'A')]
['tuyệt_vời']
['tuyệt_vời']


In [27]:
def tag_text(text):
    from pyvi import ViTokenizer, ViPosTagger
    a = ViPosTagger.postagging(ViTokenizer.tokenize(text))
    return a 

In [26]:
# [('Truong','N'),('dai hoc', 'N')]
def tagging(tuple_tag):
    dict_tag = []
    for i in range(len(tuple_tag[0])):
        t = (tuple_tag[0][i], tuple_tag[1][i])
        dict_tag.append(t)
    return dict_tag

In [41]:
tagging(tag_text('Trường đại học Bách Khoa Hà Nội'))

['Trường', 'đại_học', 'Bách_Khoa', 'Hà_Nội']
[('Trường', 'N'), ('đại_học', 'N'), ('Bách_Khoa', 'Np'), ('Hà_Nội', 'Np')]


[('Trường', 'N'), ('đại_học', 'N'), ('Bách_Khoa', 'Np'), ('Hà_Nội', 'Np')]

In [36]:
print(tag_text('Trường đại học Bách Khoa Hà Nội'))

(['Trường', 'đại_học', 'Bách_Khoa', 'Hà_Nội'], ['N', 'N', 'Np', 'Np'])


In [29]:
#get data frame
df_train = get_data_frame(final_train_text_list,train_opinion_list,most_common_aspect)
df_train_aspect = get_aspect_data_frame(df_train,most_common_aspect)
df_train_aspect = df_train_aspect.reindex(sorted(df_train_aspect.columns), axis=1)

In [30]:
#Similar for test list
test_text_list,test_opinion_list = get_list('test.xml')

In [31]:
tagged_text_list_test=posTag(test_text_list)
joblib.dump(tagged_text_list_test, 'tagged_text_list_test.pkl')
tagged_text_list_test=joblib.load('tagged_text_list_test.pkl')

[('Không_khí', 'N'), ('tuyệt_vời', 'A'), ('.', 'F'), ('Tôi', 'P'), ('đánh_giá', 'V'), ('cao', 'A'), ('món', 'Nc'), ('tacos', 'N'), ('cá', 'N'), (',', 'F'), ('những', 'L'), ('món', 'N'), ('khác', 'A'), ('ổn', 'A'), ('.', 'F'), ('Không_khí', 'N'), ('mát_mẻ', 'A'), (',', 'F'), ('khu', 'N'), ('lò_sưởi', 'N'), ('phía', 'N'), ('sau', 'N'), ('tốt', 'A'), ('nhưng', 'C'), ('cần', 'V'), ('nóng', 'A'), ('hơn', 'A'), ('chút', 'L'), ('cho', 'E'), ('một', 'M'), ('buổi', 'N'), ('tối', 'N'), ('lạnh', 'A'), ('.', 'F')]
[('Dịch_vụ', 'N'), ('và', 'C'), ('quản_lý', 'V'), ('tệ', 'A'), ('.', 'F'), ('Đừng', 'Np'), ('đến', 'V'), ('địa_điểm', 'N'), ('này', 'P'), ('!', 'F'), ('Một_trải', 'V'), ('nghiệm', 'N'), ('kinh_khủng', 'V'), ('tại', 'E'), ('Casa_la', 'N'), ('Femme', 'Np'), ('cho', 'E'), ('bữa', 'N'), ('tối_ngày', 'N'), ('thứ', 'N'), ('bảy', 'M'), ('.', 'F'), ('Món', 'Np'), ('khai_vị', 'V'), ('mất', 'V'), ('gần', 'A'), ('một', 'M'), ('tiếng', 'N'), ('.', 'F'), ('Khi', 'N'), ('món', 'V'), ('chính', 'T'), ('

In [32]:
final_test_text_list=filterTag(tagged_text_list_test)


['Không_khí tuyệt_vời đánh_giá cao món tacos cá những món khác ổn Không_khí mát_mẻ khu lò_sưởi phía sau tốt cần nóng hơn chút một buổi tối lạnh', 'Dịch_vụ quản_lý tệ Đừng đến địa_điểm Một_trải nghiệm kinh_khủng Casa_la Femme bữa tối_ngày thứ bảy Món khai_vị mất gần một tiếng Khi món chính cuối_cùng được dọn thêm 45 nửa số món gọi thiếu nhận lời giải_thích những vấn_đề xảy ra Quản_lý thô_lỗ xử_lý các tình_huống tệ Khi đề_nghị dời đi được đề_nghị giảm_giá tí_tẹo đồ gọi bị thiếu hơn nửa nghe những khách_hàng khách phàn_nàn vấn_đề tương_tự tin một nhà_hàng NYC đắt_đỏ thiếu tôn_trọng khách_hàng', 'rắc_rối Thực_ăn được Lần cuối đến bỏ sót tên danh_sách đợi thêm một tiếng có bàn Sự_cố xảy ra lời xin_lỗi một ly rượu_vang là tiếng lẩm_bẩm khó_chịu nhân_viên', 'Đắt Bánh_mì thiu salad đắt có Pasta nấu chín đủ nước sốt', 'Thật thô_lỗ là một những người đến có trải nghiệm kinh_dị Người chủ thô_lỗ cảm_giác muốn phục_vụ Bạn bỏ khi ngồi quầy rượu người pha_chế_biến mất hỏi thực_đơn cô phục_vụ nhìn bị 

In [33]:
df_test = get_data_frame(final_test_text_list,test_opinion_list,most_common_aspect)
df_test_aspect = get_aspect_data_frame(df_test,most_common_aspect)
df_test_aspect = df_test_aspect.reindex(sorted(df_test_aspect.columns), axis=1)


In [34]:
#Sort the data frame according to aspect's name and separate data(X) and target(y)
#df_train_aspect = df_train_aspect.sample(frac=1).reset_index(drop=True) #For randoming
X_train= df_train_aspect.Review
y_train = df_train_aspect.drop('Review',1)

#df_test_aspect = df_test_aspect.sample(frac=1).reset_index(drop=True) #For randoming
X_test = df_test_aspect.Review
y_test = df_test_aspect.drop('Review',1)

In [35]:
#Change y_train to numpy array
import numpy as np
y_train = np.asarray(y_train, dtype=np.int64)
y_test = np.asarray(y_test, dtype=np.int64)

In [36]:
#Generate word vecotors using CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from nltk import word_tokenize          
from nltk.stem import WordNetLemmatizer 
vect = CountVectorizer(max_df=1.0)  
X_train_dtm = vect.fit_transform(X_train)
X_test_dtm = vect.transform(X_test)

AttributeError: 'int' object has no attribute 'lower'

In [58]:
#Create various models. These are multi-label models.
nb_classif = OneVsRestClassifier(MultinomialNB()).fit(X_train_dtm, y_train)
C = 1.0 #SVregularization parameter
svc = OneVsRestClassifier(svm.SVC(kernel='linear', C=C)).fit(X_train_dtm, y_train)
lin_svc = OneVsRestClassifier(svm.LinearSVC(C=C)).fit(X_train_dtm, y_train)
sgd = OneVsRestClassifier(SGDClassifier()).fit(X_train_dtm,y_train)




In [59]:
#Predict the test data using classifiers
y_pred_class = nb_classif.predict(X_test_dtm)
y_pred_class_svc = svc.predict(X_test_dtm)
y_pred_class_lin_svc = lin_svc.predict(X_test_dtm)
y_pred_class_sgd = sgd.predict(X_test_dtm)

In [60]:
#Following code to test metrics of all aspect extraction classifiers
from sklearn import metrics

In [61]:
print(metrics.accuracy_score(y_test,y_pred_class))
print(metrics.accuracy_score(y_test,y_pred_class_svc))
print(metrics.accuracy_score(y_test,y_pred_class_lin_svc))
print(metrics.accuracy_score(y_test,y_pred_class_sgd))

1.0
1.0
1.0
1.0


In [62]:
print(metrics.accuracy_score(y_test,y_pred_class))
print(metrics.accuracy_score(y_test,y_pred_class_svc))
print(metrics.accuracy_score(y_test,y_pred_class_lin_svc))
print(metrics.accuracy_score(y_test,y_pred_class_sgd))

1.0
1.0
1.0
1.0


In [63]:
print(metrics.recall_score(y_test,y_pred_class,average='micro'))
print(metrics.recall_score(y_test,y_pred_class_svc,average='micro'))
print(metrics.recall_score(y_test,y_pred_class_lin_svc,average='micro'))
print(metrics.recall_score(y_test,y_pred_class_sgd,average='micro'))


1.0
1.0
1.0
1.0


In [64]:
print(metrics.f1_score(y_test,y_pred_class,average='micro'))
print(metrics.f1_score(y_test,y_pred_class_svc,average='micro'))
print(metrics.f1_score(y_test,y_pred_class_lin_svc,average='micro'))
print(metrics.f1_score(y_test,y_pred_class_sgd,average='micro'))


1.0
1.0
1.0
1.0


In [65]:
with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    print(metrics.classification_report(y_test, y_pred_class))
    print(metrics.classification_report(y_test, y_pred_class_svc))
    print(metrics.classification_report(y_test, y_pred_class_lin_svc))
    print(metrics.classification_report(y_test, y_pred_class_sgd))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         1
           1       1.00      1.00      1.00         2
           2       1.00      1.00      1.00         3
           3       1.00      1.00      1.00         1
           4       1.00      1.00      1.00         3
           5       1.00      1.00      1.00         3

   micro avg       1.00      1.00      1.00        13
   macro avg       1.00      1.00      1.00        13
weighted avg       1.00      1.00      1.00        13
 samples avg       1.00      1.00      1.00        13

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         1
           1       1.00      1.00      1.00         2
           2       1.00      1.00      1.00         3
           3       1.00      1.00      1.00         1
           4       1.00      1.00      1.00         3
           5       1.00      1.00      1.00         3

   micro avg       1.00

In [67]:
def get_dict_aspect(y,most_common_aspect):
    position=[]
    for innerlist in y:
        position.append([i for i, j in enumerate(innerlist) if j == 1])
    sorted_common=sorted(most_common_aspect)
    dict_aspect=[]
    for innerlist in position:
        inner_dict={}
        for word in sorted_common:
            if sorted_common.index(word) in innerlist:
                inner_dict[word]= 5
            else:
                inner_dict[word]=0
        dict_aspect.append(inner_dict)
    return dict_aspect

In [68]:
#Stage 2:
#Generating extra feature that indicates which aspect category is present in the review
train_dict_aspect=get_dict_aspect(y_train, most_common_aspect)
d_train=DictVectorizer() 
X_train_aspect_dtm = d_train.fit_transform(train_dict_aspect)

#y_test is used to generated extra feature in order to test the performance of 2nd classifer.
#Use y_pred_class_svc(Highest performer for aspect classification) as input for extra feature to test the overall performace.
test_dict_aspect=get_dict_aspect(y_test,most_common_aspect)
d_test=DictVectorizer() 
X_test_aspect_dtm = d_test.fit_transform(test_dict_aspect)

In [69]:
#Function for classiflying positive,negative or neutral sentiment of all the aspects
def classify_sentiment(df_train,df_test,X_train_aspect_dtm,X_test_aspect_dtm):
    
    df_train = df_train.reindex_axis(sorted(df_train_positive.columns), axis=1)
    df_test = df_test.reindex_axis(sorted(df_test_positive.columns), axis=1)

    import numpy as np
    X_train = df_train.Review
    y_train = df_train.drop('Review',1)
    y_train = np.asarray(y_train, dtype=np.int64)

    X_test = df_test.Review
    y_test = df_test.drop('Review',1)
    y_test = np.asarray(y_test, dtype=np.int64)

    vect_sen = CountVectorizer(stop_words='english',ngram_range=(1,2))  
    X_train_dtm = vect_sen.fit_transform(X_train)
    X_test_dtm = vect_sen.transform(X_test)

    #ombining word vector with extra feature.
    from scipy.sparse import hstack
    X_train_dtm=hstack((X_train_dtm, X_train_aspect_dtm))
    X_test_dtm=hstack((X_test_dtm, X_test_aspect_dtm))

    C = 1.0 #SVregularization parameter
    nb_classif = OneVsRestClassifier(MultinomialNB()).fit(X_train_dtm, y_train)
    svc = OneVsRestClassifier(svm.SVC(kernel='linear', C=C)).fit(X_train_dtm, y_train)
    lin_svc = OneVsRestClassifier(svm.LinearSVC(C=C)).fit(X_train_dtm, y_train)
    sgd = OneVsRestClassifier(SGDClassifier()).fit(X_train_dtm,y_train)

    y_pred_class= nb_classif.predict(X_test_dtm)
    y_pred_class_svc = svc.predict(X_test_dtm)
    y_pred_class_lin_svc = lin_svc.predict(X_test_dtm)
    y_pred_class_sgd = sgd.predict(X_test_dtm)
    return (y_test,y_pred_class,y_pred_class_svc,y_pred_class_lin_svc,y_pred_class_sgd)

In [70]:
def print_metrices(y_test,y_pred_class,y_pred_class_svc,y_pred_class_lin_svc,y_pred_class_sgd):
    print("Accuracy:")
    print(metrics.accuracy_score(y_test,y_pred_class))
    print(metrics.accuracy_score(y_test,y_pred_class_svc))
    print(metrics.accuracy_score(y_test,y_pred_class_lin_svc))
    print(metrics.accuracy_score(y_test,y_pred_class_sgd))

    print("\nAverage precision:")
    print(metrics.precision_score(y_test,y_pred_class,average='micro'))
    print(metrics.precision_score(y_test,y_pred_class_svc,average='micro'))
    print(metrics.precision_score(y_test,y_pred_class_lin_svc,average='micro'))
    print(metrics.precision_score(y_test,y_pred_class_sgd,average='micro'))

    print("\nAverage recall:")
    print(metrics.recall_score(y_test,y_pred_class,average='micro'))
    print(metrics.recall_score(y_test,y_pred_class_svc,average='micro'))
    print(metrics.recall_score(y_test,y_pred_class_lin_svc,average='micro'))
    print(metrics.recall_score(y_test,y_pred_class_sgd,average='micro'))
    
    print("\nAverage f1:")
    print(metrics.f1_score(y_test,y_pred_class,average='micro'))
    print(metrics.f1_score(y_test,y_pred_class_svc,average='micro'))
    print(metrics.f1_score(y_test,y_pred_class_lin_svc,average='micro'))
    print(metrics.f1_score(y_test,y_pred_class_sgd,average='micro'))

    print("\nClassification report:")
    print(metrics.classification_report(y_test, y_pred_class))
    print(metrics.classification_report(y_test, y_pred_class_svc))
    print(metrics.classification_report(y_test, y_pred_class_lin_svc))
    print(metrics.classification_report(y_test, y_pred_class_sgd))

In [71]:
#For positive sentiment classifier
df_train = get_data_frame(final_train_text_list,train_opinion_list,most_common_aspect)
df_test = get_data_frame(final_test_text_list,test_opinion_list,most_common_aspect)

df_train_positive = get_positive_data_frame(df_train,most_common_aspect)
df_test_positive = get_positive_data_frame(df_test,most_common_aspect)
y_test_pos,y_pred_class_pos,y_pred_class_svc_pos,y_pred_class_lin_svc_pos,y_pred_class_sgd_pos=classify_sentiment(df_train_positive,df_test_positive,X_train_aspect_dtm,X_test_aspect_dtm)
with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    print_metrices(y_test_pos,y_pred_class_pos,y_pred_class_svc_pos,y_pred_class_lin_svc_pos,y_pred_class_sgd_pos)

0     negative
1     positive
2     negative
3     positive
4     positive
5     positive
6     positive
7     positive
8     negative
9     positive
10    positive
11    positive
12    positive
13    positive
14    positive
15    positive
16    positive
17    positive
18    positive
19         NaN
20    positive
21    negative
22         NaN
23    positive
24    positive
25    positive
26    positive
27    positive
28    negative
29    positive
        ...   
65    positive
66    positive
67    negative
68    positive
69    positive
70    positive
71    positive
72    positive
73         NaN
74    positive
75    positive
76    positive
77    positive
78    positive
79         NaN
80    positive
81    positive
82    positive
83    positive
84    positive
85         NaN
86         NaN
87    negative
88         NaN
89    negative
90         NaN
91         NaN
92    positive
93    positive
94    positive
Name: FOOD_QUALITY, Length: 95, dtype: object
0     0.0
1     1.0
2     0.0
3     1.0

  after removing the cwd from sys.path.
  """




Average f1:
1.0
1.0
1.0
1.0

Classification report:
              precision    recall  f1-score   support

           0       0.00      0.00      0.00         0
           1       0.00      0.00      0.00         0
           2       1.00      1.00      1.00         2
           3       0.00      0.00      0.00         0
           4       0.00      0.00      0.00         0
           5       0.00      0.00      0.00         0

   micro avg       1.00      1.00      1.00         2
   macro avg       0.17      0.17      0.17         2
weighted avg       1.00      1.00      1.00         2
 samples avg       0.40      0.40      0.40         2

              precision    recall  f1-score   support

           0       0.00      0.00      0.00         0
           1       0.00      0.00      0.00         0
           2       1.00      1.00      1.00         2
           3       0.00      0.00      0.00         0
           4       0.00      0.00      0.00         0
           5       0.00 

In [76]:
#For negative sentiment classifier
df_train = get_data_frame(final_train_text_list,train_opinion_list,most_common_aspect)
df_test = get_data_frame(final_test_text_list,test_opinion_list,most_common_aspect)

df_train_neg = get_negative_data_frame(df_train,most_common_aspect)
df_test_neg = get_negative_data_frame(df_test,most_common_aspect)

y_test_neg,y_pred_class_neg,y_pred_class_svc_neg,y_pred_class_lin_svc_neg,y_pred_class_sgd_neg=classify_sentiment(df_train_neg,df_test_neg,X_train_aspect_dtm,X_test_aspect_dtm)
with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    print_metrices(y_test_neg,y_pred_class_neg,y_pred_class_svc_neg,y_pred_class_lin_svc_neg,y_pred_class_sgd_neg)

Accuracy:
1.0
1.0
1.0
0.8

Average precision:
1.0
1.0
1.0
1.0

Average recall:
1.0
1.0
1.0
0.9090909090909091

Average f1:
1.0
1.0
1.0
0.9523809523809523

Classification report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         1
           1       1.00      1.00      1.00         2
           2       1.00      1.00      1.00         1
           3       1.00      1.00      1.00         1
           4       1.00      1.00      1.00         3
           5       1.00      1.00      1.00         3

   micro avg       1.00      1.00      1.00        11
   macro avg       1.00      1.00      1.00        11
weighted avg       1.00      1.00      1.00        11
 samples avg       1.00      1.00      1.00        11

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         1
           1       1.00      1.00      1.00         2
           2       1.00      1.00      1.00         1
        

  after removing the cwd from sys.path.
  """


In [162]:
#Aspect Based Sentiment analyis of user's input.
user_input=input("Enter a laptop review:\n\n")
#Preprocessing and vectorizing
tagged_user_input = posTag([user_input])
filter_tagged_user_input = filterTag(tagged_user_input)

user_input_series=pd.Series(filter_tagged_user_input)
user_input_series_dtm=vect.transform(user_input_series)

predict_aspect= svc.predict(user_input_series_dtm)
print(predict_aspect)
extra_feature=get_dict_aspect(predict_aspect, most_common_aspect)
print(extra_feature)
extra_feature_dtm=DictVectorizer().fit_transform(extra_feature)
print(extra_feature_dtm)
predict_aspect

Enter a laptop review:

Mình đi ăn trưa 1 mình gọi 3 món: cuộn cali, maki phomai tem, bụng cá hồi. Món ăn bát mắt, sashimi bụng cá hồi tươi ngon do mình thích ăn sashimi lạnh để trên đá kiểu ntn, cơm cuộn cơm rất ngon sốt tạm được bột phủ giòn. Giá cả rất oke, nhà hàng văn nhạc hợp với thị hiếu của mình. Phục vụ nhiệt tình nhanh nhạy chu đáo. Sẽ quay lại
[('Mình', 'P'), ('đi', 'V'), ('ăn', 'V'), ('trưa', 'N'), ('1', 'M'), ('mình', 'N'), ('gọi', 'V'), ('3', 'M'), ('món', 'N'), (':', 'F'), ('cuộn', 'V'), ('cali', 'N'), (',', 'F'), ('maki', 'N'), ('phomai', 'V'), ('tem', 'N'), (',', 'F'), ('bụng', 'N'), ('cá_hồi', 'A'), ('.', 'F'), ('Món', 'Np'), ('ăn', 'V'), ('bát', 'N'), ('mắt', 'N'), (',', 'F'), ('sashimi', 'V'), ('bụng', 'N'), ('cá_hồi', 'N'), ('tươi', 'A'), ('ngon', 'A'), ('do', 'E'), ('mình', 'P'), ('thích', 'V'), ('ăn', 'V'), ('sashimi', 'N'), ('lạnh', 'A'), ('để', 'E'), ('trên', 'E'), ('đá', 'N'), ('kiểu', 'N'), ('ntn', 'N'), (',', 'F'), ('cơm', 'N'), ('cuộn', 'V'), ('cơm', 'N'), 

array([[0, 0, 1, 0, 1, 0]])

In [163]:
#predicting weather the dectected aspect is positive or not
test_opinion_list=[]
df_test = get_data_frame(filter_tagged_user_input,test_opinion_list,most_common_aspect)
df_train = get_data_frame(final_train_text_list,train_opinion_list,most_common_aspect)

df_train_positive = get_positive_data_frame(df_train,most_common_aspect)
y_test_pos,y_pred_class_pos,y_pred_class_svc_pos,y_pred_class_lin_svc_pos,y_pred_class_sgd_pos=classify_sentiment(df_train_positive,df_test,X_train_aspect_dtm,extra_feature_dtm)

y_pred_class_svc_pos

0     negative
1     positive
2     negative
3     positive
4     positive
5     positive
6     positive
7     positive
8     negative
9     positive
10    positive
11    positive
12    positive
13    positive
14    positive
15    positive
16    positive
17    positive
18    positive
19         NaN
20    positive
21    negative
22         NaN
23    positive
24    positive
25    positive
26    positive
27    positive
28    negative
29    positive
        ...   
65    positive
66    positive
67    negative
68    positive
69    positive
70    positive
71    positive
72    positive
73         NaN
74    positive
75    positive
76    positive
77    positive
78    positive
79         NaN
80    positive
81    positive
82    positive
83    positive
84    positive
85         NaN
86         NaN
87    negative
88         NaN
89    negative
90         NaN
91         NaN
92    positive
93    positive
94    positive
Name: FOOD_QUALITY, Length: 95, dtype: object
0     0.0
1     1.0
2     0.0
3     1.0

  after removing the cwd from sys.path.
  """


array([[0, 0, 1, 0, 0, 0]])

In [164]:
#predicting weather the dectected aspect is negative or not
test_opinion_list=[]
df_test = get_data_frame(filter_tagged_user_input,test_opinion_list,most_common_aspect)
df_train = get_data_frame(final_train_text_list,train_opinion_list,most_common_aspect)

df_train_negative = get_negative_data_frame(df_train,most_common_aspect)
y_test_neg,y_pred_class_neg,y_pred_class_svc_neg,y_pred_class_lin_svc_neg,y_pred_class_sgd_neg=classify_sentiment(df_train_negative,df_test,X_train_aspect_dtm,extra_feature_dtm)

y_pred_class_svc_neg

  after removing the cwd from sys.path.
  """


array([[0, 0, 0, 0, 1, 0]])

In [165]:
#Finding the aspect that is positive
index_positive=[]
for i, (a, b) in enumerate(zip(predict_aspect.tolist()[0], y_pred_class_svc_pos.tolist()[0])):
    if a ==1 and b==1:
        index_positive.append(i)
index_positive

[2]

In [166]:
#Finding the aspect that is negative
index_negative=[]
for i, (a, b) in enumerate(zip(predict_aspect.tolist()[0], y_pred_class_svc_neg.tolist()[0])):
    if a ==1 and b==1:
        index_negative.append(i)
index_negative

[4]

In [167]:
output=[]

In [168]:
if index_positive:
    for index in index_positive:
        output.append(sorted(most_common_aspect)[index]+": positive")


In [169]:
if index_negative:
    for index in index_negative:
        output.append(sorted(most_common_aspect)[index]+": negative")

In [170]:
#Prediction of Aspect Based Sentiment Analaysis for user's input
output

['FOOD_QUALITY: positive', 'RESTAURANT_GENERAL: negative']

In [None]:
# convert lower_case
# stop words
# rm ki tu dac biet
