# <center>Подготовка модели для использования
#### Подготовка будет включать в себя:
- обучение **"векторизатора"** текста и его запись на диск для последующего импорта и использования
- обучение **классификатора** текста и его запись на диск для последующего импорта и использования

### Данные
Будем использовать стандартный датасет из **nltk**. Импортируем необходимый модуль

In [1]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
#from sklearn.pipeline import Pipeline
#from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression, SGDClassifier
#from sklearn.svm import LinearSVC
import pickle

In [2]:
from nltk.corpus import movie_reviews, stopwords

получим id-шники негативных и позитивных отзывов:

In [3]:
negids = movie_reviews.fileids('neg')
posids = movie_reviews.fileids('pos')

получим список негативных отзывов:

In [4]:
negfeats = [movie_reviews.words(fileids=[f]) for f in negids]

получим список позитивных отзывов:

In [5]:
posfeats = [movie_reviews.words(fileids=[f]) for f in posids]

Создадим список из текстов всех имеющихся отзывов, а также список с классами, которые будет использовать наш классификатор:    
    
    0 - для негативных отзывов и   
    1 - для позитивных.

In [6]:
allfeats = negfeats + posfeats # список из текстов всех имеющихся отзывов

In [7]:
class_list = [0] * len(negfeats) + [1] * len(posfeats) # список с классами

In [8]:
from nltk.corpus import stopwords

### Итоги предыдущей работы

**На неделях 1 и 2 наилучшие результаты получены для:**

1. **vectorizer**: CountVectorizer() / TfidfVectorizer(): 0.841 / 0.821 --> **CountVectorizer()**
2. **min_df** у CountVectorizer: 1 (default) / 10 / 50: 0.841/0.839/0.813 --> **1 (default)**
3. **классификатор**: LogisticRegression / LinearSVC / SGDClassifier: 0.841 / 0.833 / 0.784 --> **LogisticRegression**
4. **стоп-слова**: nltk.corpus.stopwords.words('english') / 'english': 0.8415 / 0,839 --> **nltk.corpus.stopwords.words('english')**
5. **ngramm**: (1, 2), analyzer='word' (default) / (3, 5), analyzer='char_wb': 0.853 / 0.82 --> **(1, 2), analyzer='word'** (default)

#### На этих же параметрах создадим и запишем модель для использования в приложении 4-й недели

**CountVectorizer** принимает на вход список из текстов, а не список из списков отдельных токенов, поэтому преобразуем списки токенов в "как-бы текст", **соединив их через пробел**.

In [9]:
allfeats_join = [' '.join(row) for row in allfeats]

In [10]:
%%time
vectorizer = CountVectorizer(stop_words=stopwords.words('english'), ngram_range=(1, 2))
train = vectorizer.fit_transform(allfeats_join)
model = LogisticRegression()
model.fit(train, class_list)

Wall time: 10.3 s


Сохраним обученные модели:

    with open('../data/BigramUnprocessedVectorizer.pkl', 'wb') as file1, \
         open('../data/DefaultLogisticBigramUnprocessedTextSentiment.pkl', 'wb') as file2:
            pickle.dump(vectorizer, file1), pickle.dump(model, file2)

In [11]:
from sklearn.externals import joblib
joblib.dump(vectorizer, '../data/vectorizer.jbl') 
joblib.dump(model, '../data/model.jbl') 

['../data/model.jbl']