# 1. Загрузка и подготовка данных

Отзывы для обучения уже загружены скриптом в SQLite3 бд.

In [11]:
import pandas as pd
import numpy as np
import sqlite3
import html
%matplotlib inline

In [3]:
conn = sqlite3.connect('reviews_395.db')
c = conn.cursor()

In [4]:
train_data = list(c.execute("SELECT * FROM reviews;"))
conn.close()

In [12]:
data_raw = pd.read_csv("./train_data.csv")

In [17]:
data_asessed_1 = pd.read_csv("./train_data_results_1.csv", header=None).drop(columns=[0]).rename(columns={1:"text", 2: "label"})
data_asessed_2 = pd.read_csv("./train_data_results_2.csv", header=None).drop(columns=[0]).rename(columns={1:"text", 2: "label"})

In [14]:
data_assessed = data_asessed_1.append(data_asessed_2)

In [19]:
data_raw.text[1] in data_assessed["text"].unique()

True

In [27]:
len(data_assessed)

1591

In [24]:
uqs = data_assessed.text.unique()
data_raw["duplicate"] = data_raw["text"].apply(lambda x: x in uqs)

In [31]:
data_assessed.columns

Index(['text', 'label'], dtype='object')

In [33]:
data.drop(columns=["Unnamed: 0","duplicate"], inplace=True)

In [32]:
data = data_assessed.append(data_raw[data_raw.duplicate == False])

## 1.1 Очистка.

В данные попало много лишних тегов и прочего мусора. Для начала я уберу его, а также нормализую пунктуацию.

In [7]:
def normalize_text(text):
    _t = html.unescape(text)
    _t = _t.replace("<p>"," ")
    _t = _t.replace("</p>", " ")
    _t = _t.replace("\n", " ")
    _t = _t.replace("\r", " ")
    _t = _t.replace("\t", " ")
    _t = _t.replace('"', "")
    return _t.strip()

In [8]:
def normalize_text_re(text):
    _t = text
    _t = _t.replace("   "," ")
    _t = _t.replace("  "," ")
    return _t

In [108]:
data["text"] = data["text"].apply(lambda x: normalize_text(x))
data["text"] = data["text"].apply(lambda x: normalize_text_re(x))

In [71]:
len(data["text"].unique())

1584

In [72]:
data["text"].tail(30)

418    Плюсы: Быстрый. Минусы: Очень часто срабатывае...
419    Плюсы: Дизайн, камера, автономность. . Минусы:...
420    Плюсы: Их много. Минусы: Нету. Впечатления: Су...
421    Плюсы: Камера огонь) все приложения играю на м...
422    Плюсы: Доступная цена, профессиональная камера...
423    Плюсы: Жирный плюс. Минусы: Нету. Впечатления:...
424    Плюсы: Камера, батарея. Минусы: беспроводная з...
425    Плюсы: Камера аккумулятор процессор экран удоб...
426    Плюсы: Слабых мест не обнаружил. Были до этого...
427    Плюсы: камера, экран, аккумулятор , функция бы...
428    Плюсы: Очень приятный шустрый смартфон. Минусы...
429    Плюсы: Камера делает потрясающие фотографии. Д...
430    Плюсы: Камера, быстродействие. Минусы: Заряда ...
431    Плюсы: Отличная камера, особенно ночной режим....
432    Плюсы: Одни плюсы. Минусы: Не обнаружил. Впеча...
433    Плюсы: Все отлично. Минусы: Аккумулятор можно ...
434    Плюсы: Камера . Минусы: Нет. Впечатления: Можн...
435    Плюсы: Всё . Минусы: Нет

In [73]:
data.to_csv("./train_data2.csv")

## 2. Векторизация

Я хочу воспользоваться библиотекой gensim, потому что я уже использовал их эмбеддинги, и они отлично показали себя в классификации, даже на плохо обработанном датасете.

Чтобы потом удобно запаковать это в sklearn pipeline, я реализую свой класс по образу `TfIdfVectorizer` из `sklearn.feature_extraction`

In [13]:
import gensim
from gensim.utils import simple_preprocess
from gensim.models import doc2vec
from tqdm import tqdm
from sklearn.base import TransformerMixin, BaseEstimator
from sklearn.feature_extraction.text import _VectorizerMixin
import numpy as np

class VectorizerTransformer(_VectorizerMixin, BaseEstimator):
    def __init__(self):
        pass

    def fit(self, raw_documents, y=None):
        X = self.preprocess(raw_documents)
        # print("Creating model...")
        model = gensim.models.doc2vec.Doc2Vec(
            vector_size=60, 
            min_count=10,
            epochs=40
        )
        # print("Building vocab...")
        model.build_vocab(X)
        # print("Training doc2vec...")
        model.train(X, total_examples=model.corpus_count, epochs=model.epochs)
        self.model = model
        return self

    def transform(self, raw_documents):
        X = self.preprocess(raw_documents)
        # print("Iinferring vectors...")
        vectorized_texts = []
        for doc_id, _ in enumerate(tqdm(X, desc="Inferring vectors: ")):
            inferred_vector = self.model.infer_vector(X[doc_id].words)
            vectorized_texts.append(inferred_vector)

        return vectorized_texts

    def preprocess(self, raw_documents):
        # print("Tokenization...")
        processed_texts = []
        for idx, text in enumerate(tqdm(raw_documents, desc="Tokenization: ")):
            text = normalize_text(text)
            text = normalize_text_re(text)
            processed_texts.append(doc2vec.TaggedDocument(simple_preprocess(text), [idx]))
        return processed_texts


    def fit_transform(self, texts, y=None) -> np.ndarray:
        self.fit(texts)
        X = self.transform(texts)
        
        return np.array(X)

## 3. Обучение модели 

In [109]:
X = data["text"]
y = data.label.map({"pos": 1, "neg": 0})
# y = data.label

In [89]:
from sklearn.pipeline import make_pipeline
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import roc_auc_score, accuracy_score, make_scorer
from sklearn.model_selection import cross_val_score, cross_validate

_model = make_pipeline(VectorizerTransformer(), GradientBoostingClassifier())



In [75]:
cross_val_score(_model, X, y, n_jobs=6)

array([0.85266458, 0.83018868, 0.86477987, 0.8081761 , 0.84591195])

In [76]:
_model.fit(X, y)

Tokenization: 100%|██████████| 1591/1591 [00:00<00:00, 18641.09it/s]
Tokenization: 100%|██████████| 1591/1591 [00:00<00:00, 19806.00it/s]
Inferring vectors: 100%|██████████| 1591/1591 [00:02<00:00, 581.03it/s]


Pipeline(steps=[('vectorizertransformer', VectorizerTransformer()),
                ('gradientboostingclassifier', GradientBoostingClassifier())])

В принципе, качество уже не такое гадкое, можно попробовать сделать сабмит.

## 4. Улучшение модели

Улучшить модель можно несколькими путями:
+ 1. Улучшить препроцессинг текста
+ 2. Подобрать параметры модели векторизации
+ 3. Подобрать параметры классификатора
+ 4. Попробовать другие классификаторы
+ 5. Сбалансировать классы для обучения

Я сделаю только п.3 и 5

In [28]:
from sklearn.model_selection import GridSearchCV, ParameterGrid
_acc = make_scorer(accuracy_score)
_roc = make_scorer(roc_auc_score)
param_grid = {
    "n_estimators":[100,200,500,1000],
    "criterion": ("friedman_mse", "mse", "mae"),
    "max_depth": [3,5,7]
}


In [19]:
# так как я не подбираю параметры для векторизатора, 
# я сразу обучу его на полной выборке, потому что именно в таком виде он пойдёт в прод
_vectorizer = VectorizerTransformer()
vecs = _vectorizer.fit_transform(X)


Tokenization: 100%|██████████| 10152/10152 [00:00<00:00, 18281.08it/s]
Tokenization: 100%|██████████| 10152/10152 [00:00<00:00, 18681.84it/s]
Inferring vectors: 100%|██████████| 10152/10152 [00:21<00:00, 481.01it/s]


In [110]:
vecs = _vectorizer.transform(X)

Tokenization: 100%|██████████| 10152/10152 [00:00<00:00, 18575.85it/s]
Inferring vectors: 100%|██████████| 10152/10152 [00:21<00:00, 475.87it/s]


In [114]:
sum(y == 0)

720

In [115]:
from imblearn.under_sampling import NearMiss
from imblearn.over_sampling import ADASYN
# vecs_us, y_us = NearMiss(version=1).fit_resample(vecs, y)
vecs_us, y_us = ADASYN(n_jobs=6).fit_resample(vecs, y)

In [79]:
gscv_ = GridSearchCV(
    estimator=GradientBoostingClassifier(n_iter_no_change=20),
    param_grid=param_grid, 
    scoring={"accuracy":_acc,"roc_auc": _roc}, 
    n_jobs=6, refit=False)
res = gscv_.fit(vecs_us, y_us)

In [80]:
pd.DataFrame(res.cv_results_)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_criterion,param_max_depth,param_n_estimators,params,split0_test_accuracy,split1_test_accuracy,...,std_test_accuracy,rank_test_accuracy,split0_test_roc_auc,split1_test_roc_auc,split2_test_roc_auc,split3_test_roc_auc,split4_test_roc_auc,mean_test_roc_auc,std_test_roc_auc,rank_test_roc_auc
0,0.352534,0.155106,0.001471,4.1e-05,friedman_mse,3,100,"{'criterion': 'friedman_mse', 'max_depth': 3, ...",0.956989,0.935484,...,0.040651,3,0.957447,0.935014,0.923913,0.858696,0.858696,0.906753,0.040699,3
1,0.519085,0.253067,0.001598,0.00029,friedman_mse,3,200,"{'criterion': 'friedman_mse', 'max_depth': 3, ...",0.946237,0.946237,...,0.043916,4,0.946809,0.945883,0.923913,0.869565,0.836957,0.904625,0.043959,4
2,0.637028,0.299767,0.001446,0.000102,friedman_mse,3,500,"{'criterion': 'friedman_mse', 'max_depth': 3, ...",0.956989,0.903226,...,0.032404,6,0.957447,0.902405,0.913043,0.869565,0.869565,0.902405,0.032557,6
3,0.333132,0.101,0.001404,3.6e-05,friedman_mse,3,1000,"{'criterion': 'friedman_mse', 'max_depth': 3, ...",0.946237,0.946237,...,0.030514,2,0.946809,0.945883,0.923913,0.891304,0.869565,0.915495,0.03056,2
4,0.572629,0.093534,0.001654,0.000281,friedman_mse,5,100,"{'criterion': 'friedman_mse', 'max_depth': 5, ...",0.956989,0.946237,...,0.069145,14,0.957447,0.945883,0.913043,0.847826,0.771739,0.887188,0.069178,14
5,0.556648,0.096708,0.001512,6.2e-05,friedman_mse,5,200,"{'criterion': 'friedman_mse', 'max_depth': 5, ...",0.956989,0.946237,...,0.05008,9,0.957447,0.945883,0.902174,0.858696,0.826087,0.898057,0.050121,8
6,0.987797,0.576777,0.001629,0.000232,friedman_mse,5,500,"{'criterion': 'friedman_mse', 'max_depth': 5, ...",0.956989,0.924731,...,0.059101,12,0.957447,0.924144,0.902174,0.880435,0.782609,0.889362,0.059136,12
7,0.650693,0.215789,0.002683,0.002398,friedman_mse,5,1000,"{'criterion': 'friedman_mse', 'max_depth': 5, ...",0.956989,0.924731,...,0.048129,8,0.957447,0.924144,0.923913,0.858696,0.826087,0.898057,0.048177,8
8,0.449203,0.089226,0.001475,7.2e-05,friedman_mse,7,100,"{'criterion': 'friedman_mse', 'max_depth': 7, ...",0.924731,0.860215,...,0.067907,22,0.925532,0.859621,0.869565,0.771739,0.73913,0.833117,0.068077,22
9,0.423066,0.083767,0.001484,5.9e-05,friedman_mse,7,200,"{'criterion': 'friedman_mse', 'max_depth': 7, ...",0.935484,0.88172,...,0.050959,18,0.93617,0.880897,0.891304,0.847826,0.782609,0.867761,0.051098,18


Лучший набор параметров:


In [39]:
{'criterion': 'friedman_mse', 'max_depth': 3, 'n_estimators':200}
# Дефолтные, кроме количества estimators.

{'criterion': 'friedman_mse', 'max_depth': 3, 'n_estimators': 200}

In [81]:
model_final = make_pipeline(VectorizerTransformer(), GradientBoostingClassifier(criterion="mse", n_estimators=500, n_iter_no_change=20))
model_final.fit(X, y)

Tokenization: 100%|██████████| 1591/1591 [00:00<00:00, 19013.03it/s]
Tokenization: 100%|██████████| 1591/1591 [00:00<00:00, 20054.99it/s]
Inferring vectors: 100%|██████████| 1591/1591 [00:02<00:00, 594.93it/s]


Pipeline(steps=[('vectorizertransformer', VectorizerTransformer()),
                ('gradientboostingclassifier',
                 GradientBoostingClassifier(criterion='mse', n_estimators=500,
                                            n_iter_no_change=20))])

In [118]:
from sklearn.svm import SVC
model_final = make_pipeline(SVC())

print(cross_validate(model_final, vecs_us, y_us, n_jobs=6, scoring=("accuracy", "roc_auc")))
# model_final.fit(X, y)

{'fit_time': array([10.39857578, 10.66596317,  9.84782743,  9.85521483,  9.94393635]), 'score_time': array([3.1359973 , 2.90479326, 2.97952461, 2.94967985, 2.92286539]), 'test_accuracy': array([0.77895574, 0.79697853, 0.80917042, 0.76252319, 0.79135737]), 'test_roc_auc': array([0.85465407, 0.87532995, 0.89729443, 0.86122383, 0.88122365])}


In [102]:
# from sklearn.svm import Gradi
model_final = make_pipeline(GradientBoostingClassifier(criterion="mse", n_estimators=500, n_iter_no_change=20))

print(cross_validate(model_final, vecs_us, y_us, n_jobs=6, scoring=("accuracy", "roc_auc")))

{'fit_time': array([2.48437405, 1.53911757, 3.34544635, 3.88991356, 1.66111064]), 'score_time': array([0.0044291 , 0.00442195, 0.00508523, 0.00530338, 0.00433159]), 'test_accuracy': array([0.57720588, 0.98897059, 0.98345588, 0.95404412, 0.99448529]), 'test_roc_auc': array([0.57625973, 1.        , 1.        , 1.        , 1.        ])}


In [103]:
model_final.fit(vecs_us, y_us)

Pipeline(steps=[('gradientboostingclassifier',
                 GradientBoostingClassifier(criterion='mse', n_estimators=500,
                                            n_iter_no_change=20))])

## 5. Инференс и подготовка сабмита

In [2]:
import bs4
test = []
with open("test.csv") as tfile:
    sp = bs4.BeautifulSoup(tfile)
    revs = sp.findAll("review")
    for r in revs:
        test.append(r.text)

# pd.read_csv("test.csv")

In [9]:
test

Unnamed: 0,Id,text,y
0,0,"Ужасно слабый аккумулятор, это основной минус ...",0
1,1,ценанадежность-неубиваемостьдолго держит батар...,1
2,2,"подробнее в комментариях\nК сожалению, факт по...",0
3,3,я любительница громкой музыки. Тише телефона у...,0
4,4,"Дата выпуска - 2011 г, емкость - 1430 mAh, тех...",1
...,...,...,...
95,95,"Нет передней камеры, внутренняя память очень м...",0
96,96,"Звук при прослушивание музыки хороший,не глючи...",1
97,97,Очень маленькая память забита вшитыми и соверш...,0
98,98,"Удобный корпус,стандартное меню нокиа,камера д...",1


In [8]:
test = pd.read_csv("./test_.csv")

In [3]:
submission = pd.DataFrame({"text": test})

In [45]:
submission.head()

Unnamed: 0,text
0,"Ужасно слабый аккумулятор, это основной минус ..."
1,ценанадежность-неубиваемостьдолго держит батар...
2,"подробнее в комментариях\nК сожалению, факт по..."
3,я любительница громкой музыки. Тише телефона у...
4,"Дата выпуска - 2011 г, емкость - 1430 mAh, тех..."


In [104]:
submission["label"] = model_final.predict(_vectorizer.transform(submission.text))

Tokenization: 100%|██████████| 100/100 [00:00<00:00, 6965.55it/s]
Inferring vectors: 100%|██████████| 100/100 [00:00<00:00, 262.00it/s]


In [105]:
submission["y"] = submission.label.map({1: "pos", 0: "neg"})
submission["y"].value_counts()

pos    82
neg    18
Name: y, dtype: int64

In [None]:
ac

In [84]:
submission

Unnamed: 0,text,label,y
0,"Ужасно слабый аккумулятор, это основной минус ...",1,pos
1,ценанадежность-неубиваемостьдолго держит батар...,0,neg
2,"подробнее в комментариях\nК сожалению, факт по...",1,pos
3,я любительница громкой музыки. Тише телефона у...,0,neg
4,"Дата выпуска - 2011 г, емкость - 1430 mAh, тех...",1,pos
...,...,...,...
95,"Нет передней камеры, внутренняя память очень м...",1,pos
96,"Звук при прослушивание музыки хороший,не глючи...",1,pos
97,Очень маленькая память забита вшитыми и соверш...,1,pos
98,"Удобный корпус,стандартное меню нокиа,камера д...",1,pos


In [106]:
submission.to_csv("./submission.csv", columns=["y"], index_label="Id")

In [7]:
submission.to_csv("./test_.csv", index_label="Id", columns=["text"],quoting=csv.QUOTE_NONNUMERIC )

In [None]:
from csv import 

In [4]:
import csv

## 6. Упаковка модели

In [None]:
import pickle as pkl

In [120]:
csv.

<module 'csv' from '/home/master/.local/share/miniconda3/lib/python3.8/csv.py'>