In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn import svm
from sklearn.metrics import accuracy_score, classification_report
from sklearn.ensemble import RandomForestClassifier, VotingClassifier, BaggingClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import LinearSVC
import glob
import re


  from numpy.core.umath_tests import inner1d


In [3]:
def clean_doc(doc):
    doc = re.sub(r'[.,?,:,\,=,^/,\-,(,),+,;,|,!,*,#,<,>,\',\n]', ' ', doc)
    doc = re.sub(r"\d+.{0,1}\d+", " number ", doc)
    doc = re.sub(r"\d+", " number ", doc)
    doc = re.sub(' +',' ', doc)
    return doc.strip().lower()

In [5]:
def load_data(path='data/sentiment/train'):
    pos_paths = glob.glob(path+'//pos//*.txt')
    neg_paths = glob.glob(path+'//neg//*.txt')
    
    pos_text = []
    for path in pos_paths:
        with open(path, 'r', encoding='utf8') as f:
            text = f.read()
            pos_text.append(text)
    neg_text = []
    for path in neg_paths:
        with open(path, 'r', encoding='utf8') as f:
            text = f.read()
            neg_text.append(text)
    samples = pos_text + neg_text
    labels = [1 for _ in range(len(pos_text))] +  [-1 for _ in range(len(neg_text))]
    return samples, labels

In [6]:
samples, labels = load_data('D://Learn Python//data//sentiment//train')

In [7]:
samples = [clean_doc(doc) for doc in samples]

In [8]:
tv = TfidfVectorizer(min_df = 5, max_df = 0.5, max_features=5000)

In [9]:
X = tv.fit_transform(samples)

In [10]:
X.shape

(30000, 5000)

In [11]:
samples[0]

'xe_đẩy bán cơm_chiên nằm ngay đầu đường vào khu dân_cư metro chạy từ ngoài vô là xe thứ_hai nhé mình hay mua cơm của chị này lắm cơm_chiên mềm nóng_ăn chung với trứng chiên lạp_xưởng thịt heo và chà bông nên vừa ăn lắm mà có thêm dưa_leo và cà_chua nên ăn_không ngán ăn xong hợp cơm là bao no đến trưa giá chủ có number hộp à buổi_sáng rất đông người ghé mua vì bán vừa ngon vừa rẻ lại ăn rất no tuy đông nhưng chị làm nhanh lắm mà nói_chuyện với khách cũng vui_vẻ lịch_sự nữa nên lần nào đi ngang buổi_sáng là ghé mua hoài à'

In [12]:
sample_test, label_test = load_data('D://Learn Python//data//sentiment//test')

In [13]:
sample_test = [clean_doc(doc) for doc in sample_test]

In [14]:
X_test = tv.transform(sample_test)

In [15]:
X_test.shape

(10000, 5000)

In [17]:
sample_test[0]

'đây là nhà_thờ được cho là lớn nhất huế lại nằm gần_như ở trung_tâm thành_phố với lối kiến_trúc của người pháp nhà_thờ mang nét cổ_kính pha lẫn với hiện_đại rất châu âu nên bản_thân mình thấy kiến_trúc nhà_thờ rất đẹp toát lên cái cao_quý của nhà_thờ không_gian ở đây khá yên_bình và mỗi dịp giáng_sinh về nơi đây luôn là nơi rực_rỡ và đẹp nhất'

In [18]:
log_clf = LogisticRegression(C=1.5)

In [19]:
mlp_clf = MLPClassifier(hidden_layer_sizes=(100,100,100,))

In [20]:
rf_clf = RandomForestClassifier(max_depth=30)

In [21]:
mb_clf = MultinomialNB()

In [22]:
svm_clf = LinearSVC(C=0.1)

In [23]:
estimators=[('lr', log_clf),
                ('mlp', mlp_clf), 
                ('rf', rf_clf),
                ('mb', mb_clf),
                ('svm', svm_clf)]

In [24]:
voting_clf = VotingClassifier(
            estimators=estimators,
            voting='hard')

In [None]:
for clf in (log_clf,mlp_clf,rf_clf,mb_clf,svm_clf,voting_clf):
        clf.fit(X, labels)
        y_pred = clf.predict(X_test)
        print(clf.__class__.__name__, accuracy_score(label_test, y_pred))

LogisticRegression 0.8847
MLPClassifier 0.8619
RandomForestClassifier 0.8016
MultinomialNB 0.8531
LinearSVC 0.8853
