# Sentiment Analysis for IMDB reviews

In [41]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer, HashingVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression

from sklearn import metrics
seed = 42
%matplotlib inline

Имеются 25000 рецензий пользователей imdb с бинарными метками, посчитанными по оценкам: 0 при оценке < 5 и 1 при оценке >=7.

Загрузим выборку:

In [42]:
imdb = pd.read_csv('data/imdb/labeledTrainData.tsv', delimiter='\t')
imdb.shape

(25000, 3)

In [43]:
imdb.head()

Unnamed: 0,id,sentiment,review
0,5814_8,1,With all this stuff going down at the moment w...
1,2381_9,1,"\The Classic War of the Worlds\"" by Timothy Hi..."
2,7759_3,0,The film starts with a manager (Nicholas Bell)...
3,3630_4,0,It must be assumed that those who praised this...
4,9495_8,1,Superbly trashy and wondrously unpretentious 8...


Классы сбалансированы:

In [44]:
imdb.sentiment.value_counts()

1    12500
0    12500
Name: sentiment, dtype: int64

Разобъём выборку на обучение и контроль:

In [45]:
texts_train, texts_test, y_train, y_test = train_test_split(imdb.review.values, imdb.sentiment.values, random_state=seed)

Векторизуем тексты рецензий:

In [46]:
vect = TfidfVectorizer(sublinear_tf=True, use_idf=True)

X_train = vect.fit_transform(texts_train,)
X_test = vect.transform(texts_test)

1) Попробуйте выставить ngram_range = (1,3) в TfidfVectorizer. Сравните, как меняется качество классификации, время векторизации, обучения алгоритма и количества признаков

2) Попробуйте применить HashingVectorizer. Сравните, как изменяется качество классификации, время обучения алгоритма

### Попробуем Наивного Байеса

In [47]:
clf = MultinomialNB()
clf.fit(X_train, y_train)
print ('Accuracy: ', metrics.accuracy_score(y_test, clf.predict(X_test)))
print ('ROC-AUC: ', metrics.roc_auc_score(y_test, clf.predict_proba(X_test)[:, 1]))

Accuracy:  0.86416
ROC-AUC:  0.9386419385416778


Не так уж и плохо

## Логистическая регрессия

Обучим на векторизованных данных логистическую регрессию и посчитаем точность и AUC:

In [49]:
clf = LogisticRegression(solver='lbfgs', random_state=seed)
clf.fit(X_train, y_train)
print ('Accuracy: ', metrics.accuracy_score(y_test, clf.predict(X_test)))
print ('ROC-AUC: ', metrics.roc_auc_score(y_test, clf.predict_proba(X_test)[:, 1]))

Accuracy:  0.8896
ROC-AUC:  0.9603728226307936


Признаков получилось очень много:

In [50]:
X_train.shape[1]

66639

### Проверим интерпретируемость полученных результатов:

#### Посмотрим топ-20 признаков с максимальными по модулю весами 

In [51]:
for idx in np.argsort(np.abs(clf.coef_))[0,:-20:-1]:
    # np.argsort сортирует clf.coef_ и возвращает сразу индексы соответствующих элементов в несортированном массиве 
    # (сортирует по возрастанию)
    # np.abs - потому что хотим и положительные и отрицательные посмотреть
    
    # clf.coef_ - те самые веса для слов
    print (vect.get_feature_names()[idx], clf.coef_[0, idx])

worst -8.474879349682553
bad -7.701620112098334
great 7.230739970406239
waste -5.75955034257617
awful -5.563767379777922
boring -5.489841365272624
excellent 5.346736487756867
best 4.751501510146608
nothing -4.584306831142129
poor -4.477863060482898
terrible -4.420911700884977
perfect 4.392495829725138
worse -4.213536494042815
wonderful 4.072026890216903
love 3.9903977138367828
no -3.967628756351888
poorly -3.814419097999933
amazing 3.790842662100928
well 3.7857926701070235


Ну что ж  - вполне нормальные интерпретируемые токены

### Попробуем отбирать признаки с помощью l1 регуляризации:

In [55]:
clf = LogisticRegression(C=1, penalty='l1', solver="liblinear")
clf.fit(X_train, y_train)
print ("Number of features:", np.sum(np.abs(clf.coef_) != 0))
print ('Accuracy: ', metrics.accuracy_score(y_test, clf.predict(X_test)))
print ('ROC-AUC: ', metrics.roc_auc_score(y_test, clf.predict_proba(X_test)[:, 1]))

Number of features: 754
Accuracy:  0.88256
ROC-AUC:  0.9511075590278945


#### Попробуем выбрать 100 наиболее информативных признаков по критерию Хи-квадрат

In [56]:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

In [57]:
selector = SelectKBest(chi2, k=100)
X_train_chi = selector.fit_transform(X_train, y_train)
X_test_chi = selector.transform(X_test)

In [58]:
clf = LogisticRegression(solver="lbfgs", random_state=seed)
clf.fit(X_train_chi, y_train)
print ('Accuracy: ', metrics.accuracy_score(y_test, clf.predict(X_test_chi)))
print ('ROC-AUC: ', metrics.roc_auc_score(y_test, clf.predict_proba(X_test_chi)[:, 1]))

Accuracy:  0.82624
ROC-AUC:  0.9083672280997275


## Метод главных компонент

Сделаем 100 синтетических признаков с помощью метода t-SVD:

In [59]:
%%time
from sklearn.decomposition import TruncatedSVD
tsvd = TruncatedSVD(n_components=100, random_state=seed)
X_train_svd = tsvd.fit_transform(X_train)
X_test_svd = tsvd.transform(X_test)

CPU times: user 5.92 s, sys: 731 ms, total: 6.65 s
Wall time: 5.96 s


Обучим на них логистическую регрессию:

In [60]:
clf = LogisticRegression(solver="lbfgs")
clf.fit(X_train_svd, y_train)
print ('Accuracy: ', metrics.accuracy_score(y_test, clf.predict(X_test_svd)))
print ('ROC-AUC: ', metrics.roc_auc_score(y_test, clf.predict_proba(X_test_svd)[:, 1]))

Accuracy:  0.86016
ROC-AUC:  0.9404743860845001


По 100 полученных таким способом признакам качество получается не намного хуже

Попробуем обучить на них обучить случайный лес:

In [61]:
%%time
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators=100)
clf.fit(X_train_svd, y_train)
print ('Accuracy: ', metrics.accuracy_score(y_test, clf.predict(X_test_svd)))
print ('ROC-AUC: ', metrics.roc_auc_score(y_test, clf.predict_proba(X_test_svd)[:, 1]))

Accuracy:  0.83232
ROC-AUC:  0.9092803283228205
CPU times: user 14.3 s, sys: 92.5 ms, total: 14.4 s
Wall time: 14.6 s


Сравните качество и скорость обучения алгоритма

## Подготовьте выборку для vowpal wabbit и обучите его. 
Сравните итоговые метрики, скорость работы. Поиграйтесь с гиперпараметрами, обучите логистическую регрессию и SVM (logloss и hinge loss), сравните качество работы