In [17]:
import requests
import bs4
import pickle
import numpy as np
import scipy as sp
import pandas as pd
import os

In [95]:
import nltk
nltk.download("stopwords")

[nltk_data] Downloading package stopwords to /home/alexey/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

__ Я выгрузил все отзывы о смарфонах с сайта DNS __

In [2]:
with open('all_dns.txt', 'rb') as f:
    reviews = pickle.load(f)

In [3]:
df = pd.DataFrame.from_records(reviews)

In [5]:
df.columns = ['text', 'rate']

In [6]:
df.head()

Unnamed: 0,text,rate
0,"батарея ,громкий кривая реализация с кнопками ...",3
1,Кнопочный телефон на Андроиде:) Самый главный ...,5
2,Купил по акции за 2500р и к нему накладку Acel...,5
3,"нет не проработал и неделю, пропал звук, связь...",1
4,"Удобно держать в руке, его не жалко, на него н...",5


__ Давайте сделам поставим, что отзыв является позитивным, если он хотя бы 4 и выше __

In [11]:
df['if_pos'] = df['rate'] > 3
df['label'] = 0
df.loc[df.if_pos, 'label'] = 1
df.drop('if_pos', axis=1, inplace=True)

In [12]:
df.head()

Unnamed: 0,text,rate,label
0,"батарея ,громкий кривая реализация с кнопками ...",3,0
1,Кнопочный телефон на Андроиде:) Самый главный ...,5,1
2,Купил по акции за 2500р и к нему накладку Acel...,5,1
3,"нет не проработал и неделю, пропал звук, связь...",1,0
4,"Удобно держать в руке, его не жалко, на него н...",5,1


In [62]:
df.label.value_counts()

1    2334
0     570
Name: label, dtype: int64

__ Давайте еще загрузим данные теста __

In [30]:
PATH_TO_DATA = 'product-reviews-sentiment-analysis'
with open(os.path.join(PATH_TO_DATA, 'test.csv'), 'r') as f:
    parser = bs4.BeautifulSoup(f.read())
    reviews_test = parser.findAll('review')
    
    df_test = pd.DataFrame()
    df_test['text'] = [review.text for review in  reviews_test]
df_sub = pd.read_csv(os.path.join(PATH_TO_DATA, 'sample_submission.csv'), index_col=0)

In [31]:
df_test.head()

Unnamed: 0,text
0,"Ужасно слабый аккумулятор, это основной минус ..."
1,ценанадежность-неубиваемостьдолго держит батар...
2,"подробнее в комментариях\nК сожалению, факт по..."
3,я любительница громкой музыки. Тише телефона у...
4,"Дата выпуска - 2011 г, емкость - 1430 mAh, тех..."


In [32]:
df_sub.head()

Unnamed: 0_level_0,y
Id,Unnamed: 1_level_1
0,neg
1,neg
2,neg
3,neg
4,neg


In [51]:
df_sub.y.value_counts()

neg    100
Name: y, dtype: int64

__ Так как на прошлом контесте Tf-Idf вместе с SVM побили бенчмарк даже со стандартными параметрами, то можно сделать то же самое __

In [99]:
from sklearn.svm import SVC
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import cross_val_score, GridSearchCV
from sklearn.pipeline import Pipeline
from nltk.corpus import stopwords

__ В этот раз хотелся попробовать поиграться с параметрами. Запустим на первых 700 примерах, чтобы быстрее обучалось __

In [64]:
df.label[:700].value_counts()

1    516
0    184
Name: label, dtype: int64

In [55]:
pipe = Pipeline([
    ('vec', TfidfVectorizer()),
    ('est', SVC(random_state=42))
])
grid = {'vec__ngram_range':[(1,1), (1,2), (1,3)],
       'vec__max_df': [0.8, 0.9, 1],
       'vec__use_idf': [True, False],
       'est__kernel': ['linear', 'poly', 'rbf', 'sigmoid'],
       'est__C': [0.5, 1., 1.5, 4.]}

from tqdm import tqdm_notebook
clf = GridSearchCV(pipe, grid, cv=3, n_jobs=-1, verbose=1)
clf.fit(df.text[:700], df.label[:700])

Fitting 3 folds for each of 288 candidates, totalling 864 fits


[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed:   16.9s
[Parallel(n_jobs=-1)]: Done 192 tasks      | elapsed:  1.1min
[Parallel(n_jobs=-1)]: Done 442 tasks      | elapsed:  2.6min
[Parallel(n_jobs=-1)]: Done 792 tasks      | elapsed:  5.0min
[Parallel(n_jobs=-1)]: Done 864 out of 864 | elapsed:  5.5min finished


GridSearchCV(cv=3, error_score='raise',
       estimator=Pipeline(memory=None,
     steps=[('vec', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2', preprocessor=None, smooth_idf=True,
   ...f',
  max_iter=-1, probability=False, random_state=42, shrinking=True,
  tol=0.001, verbose=False))]),
       fit_params=None, iid=True, n_jobs=-1,
       param_grid={'vec__ngram_range': [(1, 1), (1, 2), (1, 3)], 'vec__max_df': [0.8, 0.9, 1], 'vec__use_idf': [True, False], 'est__kernel': ['linear', 'poly', 'rbf', 'sigmoid'], 'est__C': [0.5, 1.0, 1.5, 4.0]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=None, verbose=1)

In [57]:
clf.best_params_

{'est__C': 1.5,
 'est__kernel': 'linear',
 'vec__max_df': 0.8,
 'vec__ngram_range': (1, 1),
 'vec__use_idf': True}

__ Сделаем первый сабмит __

In [131]:
vec = TfidfVectorizer(ngram_range=(1,1), max_df=0.8)
vec.fit(df.text)
X_transformed = vec.transform(df.text)

est = SVC(C=1.5, kernel='linear', probability=True)
est.fit(X_transformed, df.label)
X_test = vec.transform(df_test.text)
y = est.predict(X_test)

df_sub['y'] = 'neg'
df_sub.loc[y == 1, 'y'] = 'pos'
df_sub.to_csv('sub1.csv')
df_sub.y.value_counts()

pos    61
neg    39
Name: y, dtype: int64

__ Получилось 84%. Давайте добавим стоп-слова __

In [132]:
vec = TfidfVectorizer(ngram_range=(1,1), max_df=0.8, 
                      stop_words=stopwords.words('russian'))
vec.fit(df.text)
X_transformed = vec.transform(df.text)

est = SVC(C=1.5, kernel='linear', probability=True)
est.fit(X_transformed, df.label)
X_test = vec.transform(df_test.text)
y = est.predict(X_test)

df_sub['y'] = 'neg'
df_sub.loc[y == 1, 'y'] = 'pos'
df_sub.to_csv('sub2.csv')
df_sub.y.value_counts()

pos    63
neg    37
Name: y, dtype: int64

__ Стоп-слова улучшили рейтинг до 86% точности, этого достаточно. Сохраним лучшие модели __

In [135]:
with open('./simple_demo/BigramUnprocessedVectorizer.pkl', 'wb') as f:
    pickle.dump(vec, f)

In [136]:
with open('./simple_demo/DefaultLogisticBigramUnprocessedTextSentiment.pkl', 'wb') as f:
    pickle.dump(est, f)