In [149]:
import numpy as np
import scipy as sp
import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer, TfidfTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import SGDClassifier
from sklearn import metrics, model_selection
from sklearn.model_selection import train_test_split
from sklearn.grid_search import GridSearchCV

from lxml import etree
import pickle

### Парсинг

Для парсинга воспользуемся фреймворком scrapy. Парсить будем всего один сайт. Выбран был именно этот поскольку соответствует тематике и довольно прост.

In [None]:
import scrapy

# run it in scrapy project with
# scrapy crawl deal64 -o deal64.json
# do not forget to add `FEED_EXPORT_ENCODING = 'utf-8'` for russian letters
class QuotesSpider(scrapy.Spider):
    name = "deal64"
    start_urls = [
        'http://deal64.ga/',
        'http://deal64.ga/mobile/',
    ]

    def parse(self, response):
        # follow review
        for href in response.css('ul.ilink a::attr(href)'):
            yield response.follow(href, callback=self.parse_review)

        # follow phones
        for href in response.css('div.products div.entry div.text a::attr(href)'):
            yield response.follow(href, callback=self.parse)

        # follow pagination links
        for href in response.css('div.paging a::attr(href)'):
            yield response.follow(href, callback=self.parse)

    def parse_review(self, response):
        for entry in response.css('div.reviews div.entry div.text'):
            text_list = entry.css('*::text').extract()
            data = [] # текущий элемент, в нем может быть либо отзыв За или Против, оценка, или отзыв без оценки
            for item in text_list:
                if item != ' ': # в блоке с Оценкой избавляемся от пустого элемента
                    data.append(item)
            if len(data) == 2: # здесь будут либо отзывы с оценками (+/-), либо числовой рейтинг.
                if data[0] == 'Оценка:': # если число, сохраним, чтобы использовать там, где нет оценки к отзыву.
                    current_rate = data
                else:
                    yield {
                        data[0]: data[1] # просто пишем в json За/Против: текст отзыва.
                    }
            elif len(data) == 1: # это общий отзыв пользователя, которой он разметил после "Против", без метки оценки
                if int(current_rate[1]) > 3: # добавим оценку на основе числового рейтинга
                    review = 'За:'
                else:
                    review = 'Против:'
                yield {
                    review: data[0] # просто пишем в json За/Против: текст отзыва.
                }


Приведенный выше код не работает в данном ноутбуке, для его запуска нужно добавить данный парсер в проект scrapy и запустить передав в качестве параметра файл в который будет сохранен результат. Выглядеть результат будет довольно просто(это json файл):

```
{"За:": " Маленькая глубина посадки. Реально глубиной с лодошку. Это очень радует. Все провода свободно лежат и ни куда не упераются. Комплектация."},
{"Против:": " Все таки нет пульта. Он есть (на сколько я понял) в USA комплекте (но там нет чехла)). Гнездо антенны - для европейских машин нужен переходник (купил за 20 рублей). При отключении аккумулятора происходит сброс всех настроек (кроме БТ) Медленная перемотка дорожки (не удобно при прослушивании длинных сетов)"},
```

Файл словаря получившийся в результате приведен в архиве сабмишена к заданию. Всего получилось 12350 отзывов.

### Строим модель

Для начала нужно считать полученные отзывы и преобразовать их к удобному виду.

In [129]:
data = pd.read_json('data/deal64.json')
pos = data['За:']
neg = data['Против:']
pos.dropna(inplace=True)
neg.dropna(inplace=True)

In [131]:
data_pos = pd.DataFrame(data=dict(text=pos, rate=1))
data_neg = pd.DataFrame(data=dict(text=neg, rate=0))

In [132]:
train = pd.concat([data_pos, data_neg])

In [133]:
print(train.rate.value_counts())

1    7243
0    5105
Name: rate, dtype: int64


In [134]:
from sklearn.utils import shuffle

train = shuffle(train)
train.reset_index(inplace=True, drop=True)

In [141]:
print(train.head())
print('\n------\n')
print(train.info())
print('\n------\n')
print(train.rate.value_counts())

   rate                                               text
0     0   Сенсор, горилла глас, глючит андроид, мало па...
1     0   Недостатков два камеру хотелось бы 1,3 пиксел...
2     0   возникла проблема с зарядным устройством на п...
3     1                                    большой дисплей
4     1   Меньше месяца пользуюсь,а уже сломался (морга...

------

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12348 entries, 0 to 12347
Data columns (total 2 columns):
rate    12348 non-null int64
text    12348 non-null object
dtypes: int64(1), object(1)
memory usage: 193.0+ KB
None

------

1    7243
0    5105
Name: rate, dtype: int64


То же самое сделаем для тестовых данных, приведем к более понятному виду.

In [24]:
def add_outer_tags(filename):
    with open(filename, 'r+') as f:        
        content = f.read()        
        f.seek(0, 0)
        firstline = f.readline()
        if '<data>' not in firstline:            
            f.seek(0, 0)
            f.write('<data>' + '\n' + content + '\n</data>')

def iter_tree(etree):
    n = -1
    for review in etree.iter('review'):
        n += 1
        yield (n, review.text)
        
add_outer_tags('data/test.csv')

In [144]:
tree = etree.parse('data/test.csv')
test = pd.DataFrame(list(iter_tree(tree)), columns=['id', 'text'])

In [146]:
test.drop('id', axis=1, inplace=True)

In [148]:
test.head()

Unnamed: 0,text
0,"Ужасно слабый аккумулятор, это основной минус ..."
1,ценанадежность-неубиваемостьдолго держит батар...
2,"подробнее в комментариях\nК сожалению, факт по..."
3,я любительница громкой музыки. Тише телефона у...
4,"Дата выпуска - 2011 г, емкость - 1430 mAh, тех..."


### Обучение модели

Для начала используем уже имеющуюся модель с прошлого соревнования (3 неделя курса), которая показала хороший результат.

In [150]:
%%time
tv, clf = TfidfVectorizer(sublinear_tf=True), SGDClassifier(random_state=113)
trf = TfidfTransformer()

pipe = Pipeline(steps = [
        ('vct', tv),
        ('tr', trf),
        ('clf', clf)
    ])
# расчет занимает время, потому просто оставил оптимальные параметры
parameters = {
        'vct__max_df': (0.5,),
        'vct__ngram_range': ((1, 3),),
        'tr__norm': ('l2',),
        'clf__alpha': (1e-05,),
        'clf__penalty': ('l2',),
        'clf__n_iter': (80, )
}

gs = GridSearchCV(pipe, parameters, scoring='accuracy', refit=True, n_jobs=-1, iid=False, cv=10)
gs.fit(train.text, train.rate)

best_params = gs.best_estimator_.get_params()
for param_name in sorted(parameters.keys()):
        print("\t%s: %r" % (param_name, best_params[param_name]))
        
print("Best score: {}".format(gs.best_score_))

	clf__alpha: 1e-05
	clf__n_iter: 80
	clf__penalty: 'l2'
	tr__norm: 'l2'
	vct__max_df: 0.5
	vct__ngram_range: (1, 3)
Best score: 0.8775507898052741
CPU times: user 10.3 s, sys: 364 ms, total: 10.6 s
Wall time: 1min 17s


 Что интересно, на представленных данных модель показывает куда лучший результат, 0.87, против 0.79 на тестовой выборке из прошлого задания.

In [151]:
predct = gs.predict(test.text.values)

In [157]:
%cat data/sample_submission.csv | head -3 # submission format

Id,y
0,neg
1,neg


In [158]:
result = {}
for indx, elm in enumerate(predct):
    result[indx] = elm

In [160]:
subm = pd.Series(result, name='y')
subm.index.name = 'Id'
subm = subm.reset_index()

In [161]:
subm.head()

Unnamed: 0,Id,y
0,0,0
1,1,1
2,2,0
3,3,0
4,4,1


In [163]:
subm.loc[subm['y'] == 0, 'y'] = 'neg'
subm.loc[subm['y'] == 1, 'y'] = 'pos'

In [164]:
subm.head()

Unnamed: 0,Id,y
0,0,neg
1,1,pos
2,2,neg
3,3,neg
4,4,pos


In [165]:
subm.to_csv('sentiment_result.csv', sep=',', encoding='utf-8', index=False) # запишем модель в файл

In [167]:
%cat sentiment_result.csv | head -3 # result

Id,y
0,neg
1,pos


В результате имеем довольно хорошую модель.

![title](img/result.png)

Но в данном соревновании она не обеспечивает лидирующих мест, поскольку людям удалось добиться 100% точности.

In [168]:
%%time
from sklearn.preprocessing import Normalizer
from sklearn.svm import LinearSVC

pipe = Pipeline(steps = [
        ('vct', TfidfVectorizer()),
        ('nrm', Normalizer(copy=False)),
        ('clf', LinearSVC(class_weight='balanced', penalty='l2')),
    ])

parameters = {
        'vct__max_df': (.5,),
        'vct__ngram_range': ((1, 3),),
        'nrm__norm': ('l2',),
        'clf__C': (1,),
}

gs = GridSearchCV(pipe, parameters, scoring='accuracy', cv=10)
gs.fit(train.text, train.rate)

best_params = gs.best_estimator_.get_params()
for param_name in sorted(parameters.keys()):
        print("\t%s: %r" % (param_name, best_params[param_name]))
        
print("Best score: {}".format(gs.best_score_))

	clf__C: 1
	nrm__norm: 'l2'
	vct__max_df: 0.5
	vct__ngram_range: (1, 3)
Best score: 0.8784418529316489
CPU times: user 1min 36s, sys: 1.89 s, total: 1min 38s
Wall time: 1min 45s


In [171]:
predct = gs.predict(test.text.values)

result = {}
for indx, elm in enumerate(predct):
    result[indx] = elm
    
subm = pd.Series(result, name='y')
subm.index.name = 'Id'
subm = subm.reset_index()

subm.loc[subm['y'] == 0, 'y'] = 'neg'
subm.loc[subm['y'] == 1, 'y'] = 'pos'

subm.to_csv('sentiment_result_SVC.csv', sep=',', encoding='utf-8', index=False)

Использование метода опорных векторов дало только ухудшение результата до 96% на чем и остановимся.

# Вывод

Baseline модель, которую мы строили на третьей неделе курса с подбором параметров показала лучший результат.