# Peer-graded Assignment: Соревнование по сентимент-анализу
## Instructions

В этом задании вам нужно воспользоваться опытом предыдущих недель, чтобы побить бейзлайн в соревновании по сентимент-анализу отзывов на товары на Kaggle Inclass:

https://inclass.kaggle.com/c/product-reviews-sentiment-analysis-light

## Классифицируйте отзывы по тональности
* В этом соревновании вам предстоит прогнозировать по тексту отзыва его тональность: 1 - позитивная, 0 - негативная. В отличие от усложненной версии задачи, здесь вам не требуется самостоятельно собирать обучающую выборку - она есть в предоставляемых вам данных.
* **Evaluation**: В качестве метрики качества используется accuracy. При валидации качества не забывайте, что ваш результат точно должен быть лучше, чем тривиальные ответы (всегда 0, всегда 1, случайный выбор класса).
* В обучающей выборке на каждой строчке дано по одному тексту с классом (0 или 1), записанным через символ табуляции после текста.


In [32]:
 # отключим предупреждения
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.metrics import classification_report

from nltk import word_tokenize  
from nltk.stem.snowball import PorterStemmer

In [16]:
# Загружаем данные
train = pd.read_csv('products_sentiment_train.tsv', sep = '\t', header = None, names = ['text', 'y'])
test = pd.read_csv('products_sentiment_test.tsv', sep = '\t')

print "Количество размеченных отзывов: %d" % (train.shape[0])
print "Количество позитивных отзывов: %d (%0.1f%%)" % (train.y.sum(), 100.*train.y.mean())
print "Количество тестовых отзывов: %d" % (test.shape[0])

# Пример нескольких отзывов
pd.set_option('max_colwidth', 300)
train.head()

Количество размеченных отзывов: 2000
Количество позитивных отзывов: 1274 (63.7%)
Количество тестовых отзывов: 500


Unnamed: 0,text,y
0,"2 . take around 10,000 640x480 pictures .",1
1,i downloaded a trial version of computer associates ez firewall and antivirus and fell in love with a computer security system all over again .,1
2,the wrt54g plus the hga7t is a perfect solution if you need wireless coverage in a wider area or for a hard-walled house as was my case .,1
3,"i dont especially like how music files are unstructured ; basically they are just dumped into one folder with no organization , like you might have in windows explorer folders and subfolders .",0
4,i was using the cheapie pail ... and it worked ok until the opening device fell apart .,1


In [56]:
# Создадим вспомогательных аналайзер на основе стеммера Портера
stemmer = PorterStemmer()
analyzer = TfidfVectorizer().build_analyzer()

def stemmed(text):
    return (stemmer.stem(word) for word in analyzer(proprocess(text))

In [99]:
# Заменим 't на not
def preprocess(text):
    return text.replace(" 't", " not")

train['x'] = train.text.apply(preprocess)
test['x'] = test.text.apply(preprocess)

In [101]:
# Объединим векторизованные фичи разных типов токенов
union = FeatureUnion([("word11", TfidfVectorizer(ngram_range=(1,1), analyzer='word')),
                      ("stem11", TfidfVectorizer(ngram_range=(1,1), analyzer=stemmed)),
                      ("word23", TfidfVectorizer(ngram_range=(2,3), analyzer='word')),
                      ("stem23", TfidfVectorizer(ngram_range=(2,3), analyzer=stemmed)),
                      ("char14", TfidfVectorizer(ngram_range=(1,4), analyzer='char'))])

# Объединим в Pipeline с линейной регрессией в качестве классификатора
pipe = Pipeline([("vectorizer", union),
                 ("classifier", LogisticRegression(penalty = 'l2'))])

# Расчитаем точность по кроссвалидации
scores = cross_val_score(pipe, train.x, train.y, cv = 5)

print "Средняя точность: %0.2f%%" % (100.*scores.mean())
print "Среднеквадратичное отклонение: %0.4f" % scores.std()


Средняя точность: 79.25%
Среднеквадратичное отклонение: 0.0078


In [102]:
# Посмотрим на ошибки
X_train, X_test, y_train, y_test = train_test_split(train.x, train.y, test_size=0.2, random_state=0)
pipe.fit(X_train, y_train)

y_pred = pipe.predict(X_test)
p_test = pipe.predict_proba(X_test)
check = pd.DataFrame(X_test)
check['y'] = y_test
check['y_pred'] = y_pred
check['p0'] = p_test[:,0]
check['p1'] = p_test[:,1]

#check.head()
print(classification_report(y_test, y_pred))

             precision    recall  f1-score   support

          0       0.76      0.59      0.66       149
          1       0.79      0.89      0.83       251

avg / total       0.78      0.78      0.77       400



In [104]:
# Обучим классификатор на всех размененных данных
pipe.fit(train.x, train.y)
test['y'] = pipe.predict(test.x)

# Запишем в файл решение для загрузки на Kaggle
test[['Id','y']].to_csv('product-reviews-sentiment-analysis-light.csv', index = False)

# Проверим, что записалось корректно
! head -5 product-reviews-sentiment-analysis-light.csv

Id,y
0,1
1,0
2,1
3,1


# Результат:
После загрузки на Kaggle этот классификатор дает точность: 82.75%