## 20 news groups
Задача: определить по тексту поста, к какой теме (из 20 возможных) он относится 

In [0]:
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_20newsgroups
from sklearn.metrics import classification_report

In [0]:
newsgroups = fetch_20newsgroups()

In [144]:
# не знаем, что за объект возвраащет fetch_20newsgroups() и какие у него атрибуты
# смотрим
dir(newsgroups)

['DESCR', 'data', 'filenames', 'target', 'target_names']

In [145]:
print(newsgroups.DESCR)

.. _20newsgroups_dataset:

The 20 newsgroups text dataset
------------------------------

The 20 newsgroups dataset comprises around 18000 newsgroups posts on
20 topics split in two subsets: one for training (or development)
and the other one for testing (or for performance evaluation). The split
between the train and test set is based upon a messages posted before
and after a specific date.

This module contains two loaders. The first one,
:func:`sklearn.datasets.fetch_20newsgroups`,
returns a list of the raw texts that can be fed to text feature
extractors such as :class:`sklearn.feature_extraction.text.CountVectorizer`
with custom parameters so as to extract feature vectors.
The second one, :func:`sklearn.datasets.fetch_20newsgroups_vectorized`,
returns ready-to-use features, i.e., it is not necessary to use a feature
extractor.

**Data Set Characteristics:**

    Classes                     20
    Samples total            18846
    Dimensionality               1
    Features       

Посмотрим на названия тем:

In [146]:
newsgroups.target_names

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

Посмотрим на сами тексты:

In [7]:
newsgroups.data[:10]

["From: lerxst@wam.umd.edu (where's my thing)\nSubject: WHAT car is this!?\nNntp-Posting-Host: rac3.wam.umd.edu\nOrganization: University of Maryland, College Park\nLines: 15\n\n I was wondering if anyone out there could enlighten me on this car I saw\nthe other day. It was a 2-door sports car, looked to be from the late 60s/\nearly 70s. It was called a Bricklin. The doors were really small. In addition,\nthe front bumper was separate from the rest of the body. This is \nall I know. If anyone can tellme a model name, engine specs, years\nof production, where this car is made, history, or whatever info you\nhave on this funky looking car, please e-mail.\n\nThanks,\n- IL\n   ---- brought to you by your neighborhood Lerxst ----\n\n\n\n\n",
 "From: guykuo@carson.u.washington.edu (Guy Kuo)\nSubject: SI Clock Poll - Final Call\nSummary: Final call for SI clock reports\nKeywords: SI,acceleration,clock,upgrade\nArticle-I.D.: shelley.1qvfo9INNc3s\nOrganization: University of Washington\nLines: 

In [0]:
df = pd.DataFrame()
df['text'] = newsgroups.data
df['target'] = newsgroups.target

In [148]:
df.head(10)

Unnamed: 0,text,target
0,From: lerxst@wam.umd.edu (where's my thing)\nS...,7
1,From: guykuo@carson.u.washington.edu (Guy Kuo)...,4
2,From: twillis@ec.ecn.purdue.edu (Thomas E Will...,4
3,From: jgreen@amber (Joe Green)\nSubject: Re: W...,1
4,From: jcm@head-cfa.harvard.edu (Jonathan McDow...,14
5,From: dfo@vttoulu.tko.vtt.fi (Foxvog Douglas)\...,16
6,From: bmdelane@quads.uchicago.edu (brian manni...,13
7,From: bgrubb@dante.nmsu.edu (GRUBB)\nSubject: ...,3
8,From: holmes7000@iscsvax.uni.edu\nSubject: WIn...,2
9,From: kerr@ux1.cso.uiuc.edu (Stan Kerr)\nSubje...,4


In [0]:
from sklearn.model_selection import train_test_split

In [0]:
SEED = 123
np.random.seed(123)
df_train, df_test = train_test_split(df, train_size=0.5, test_size=0.3, stratify=df.target)

In [151]:
df_train.shape

(5657, 2)

# Преобразовать текстовые данные в признаки 

## 1. Bag of words

Каждый документ - мешок слов. Не важно в каком они порядке, не важно как они связаны между собой, вообще ничего не важно кроме того, какие именно слова есть в документе и в каком количестве. 

------------------------------------
![bow](http://uc-r.github.io/public/images/analytics/feature-engineering/bow-image.png)
--------------------------------------

Процесс преобразования:
1. Токенизация 
2. (Предобработка)
3. Построение словаря по всем документам коллекции
4. Вектор признаков для кажого документа - количество вхождений каждого слова из словаря в документ

----------------------------------------
![bow2](https://raw.githubusercontent.com/Yorko/mlcourse.ai/3380f07cebee0b44a6cc9e1d4e36eb4675ae37fd/img/bag_of_words.png)

---------------------------------
Итоговая матрица признаков получается 
+ очень большой (***Кол-во объектов*** х ***Размер словаря***) 
+ очень разреженной (много 0). 

In [0]:
from sklearn.feature_extraction.text import CountVectorizer

`sklearn.feature_extraction.text.CountVectorizer`
+ ***fit*** - строит словарь по коллекции текстов
+ ***transform*** - преобразует коллекцию текстов в матрицу признаков по полученному после ***fit*** словарю 
+ по умолчанию в качестве элемента словаря выступают отдельные слова

In [0]:
vectorizer = CountVectorizer()

In [154]:
%%time
X_train = vectorizer.fit_transform(df_train.text) # постоить словарь по обучающей выборке и преобразовать ее в матрицу
X_test = vectorizer.transform(df_test.text) # преобразовать тестовую выборку в матрицу

CPU times: user 2.18 s, sys: 940 µs, total: 2.18 s
Wall time: 2.18 s


In [155]:
print('Размер словаря: %s элементов' % X_train.shape[1])

Размер словаря: 85615 элементов


In [156]:
# посмотреть на получившийся словарь
vectorizer.vocabulary_

{'from': 36822,
 'nrmendel': 57333,
 'unix': 78596,
 'amherst': 16431,
 'edu': 32315,
 'nathaniel': 56003,
 'mendell': 52699,
 'subject': 73314,
 're': 65114,
 'opinions': 58624,
 'wanted': 81347,
 'help': 40656,
 'nntp': 56952,
 'posting': 62063,
 'host': 41582,
 'amhux3': 16433,
 'organization': 58817,
 'college': 25539,
 'newsreader': 56532,
 'tin': 76035,
 'version': 80071,
 'pl7': 61377,
 'lines': 49392,
 'what': 81899,
 'size': 70733,
 'dirtbikes': 30181,
 'did': 29962,
 'you': 84600,
 'ride': 66777,
 'and': 16647,
 'for': 36322,
 'how': 41650,
 'long': 49844,
 'might': 53289,
 'be': 19547,
 'able': 14687,
 'to': 76196,
 'slip': 71013,
 'into': 44229,
 '500cc': 8545,
 'bike': 20283,
 'like': 49295,
 'keep': 46838,
 'telling': 75175,
 'people': 60521,
 'though': 75765,
 'buy': 22077,
 'an': 16557,
 'older': 58337,
 'cheaper': 24182,
 'that': 75513,
 'while': 81951,
 'first': 35815,
 '500': 8534,
 'interceptor': 44055,
 'as': 17697,
 'example': 34160,
 'zx': 85566,
 '10': 1208,
 'd

In [157]:
# по умолчанию вся пунктуция удаляется
'.' in vectorizer.vocabulary_

False

### scipy.sparse 

Результатом метода ***transform*** будет разреженная матрица - объект  `csr_matrix`.    
Такие объекты оптимизируют работу с разреженными данными (в памяти хранятся **только ненулевые значения**). 
+ (+) занимает маньше места в памяти, чем те же данные в другом формате (например `pd.DataFrame` или `numpy.ndarray`)
+ (+) модели учатся быстрее, чем на тех же данных в другом формате 
+ (-) не все модели из `sklearn` работают с разреженными данными
+ (-) нельзя так же быстро и легко посмотреть названия признаков как в `pd.DataFrame`

In [158]:
type(X_train)

scipy.sparse.csr.csr_matrix

In [159]:
%%time
# можно преобразовать в неразреженный вид например так (может занять довольно много времени для большой матрицы)
X_train_array = X_train.toarray()

CPU times: user 448 ms, sys: 2.46 s, total: 2.91 s
Wall time: 2.92 s


In [160]:
type(X_train_array)

numpy.ndarray

In [0]:
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(n_estimators=50, random_state=SEED)

In [162]:
%%time
rf.fit(X_train, df_train.target) # быстро

CPU times: user 8.01 s, sys: 34.9 ms, total: 8.05 s
Wall time: 8.06 s


RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=50,
                       n_jobs=None, oob_score=False, random_state=123,
                       verbose=0, warm_start=False)

In [163]:
y_pred = rf.predict(X_test)
print(classification_report(df_test.target, y_pred, digits=3))

              precision    recall  f1-score   support

           0      0.782     0.771     0.776       144
           1      0.648     0.726     0.685       175
           2      0.639     0.819     0.718       177
           3      0.565     0.661     0.609       177
           4      0.772     0.741     0.757       174
           5      0.828     0.809     0.818       178
           6      0.690     0.847     0.760       176
           7      0.844     0.792     0.817       178
           8      0.866     0.933     0.898       180
           9      0.863     0.878     0.871       180
          10      0.913     0.933     0.923       180
          11      0.877     0.961     0.917       178
          12      0.777     0.492     0.602       177
          13      0.908     0.719     0.803       178
          14      0.893     0.888     0.890       178
          15      0.702     0.917     0.795       180
          16      0.921     0.921     0.921       164
          17      0.936    

In [164]:
%%time 
rf.fit(X_train_array, df_train.target) # ~ в 10 раз дольше

CPU times: user 1min 22s, sys: 1.51 s, total: 1min 23s
Wall time: 1min 23s


RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=50,
                       n_jobs=None, oob_score=False, random_state=123,
                       verbose=0, warm_start=False)

In [165]:
# качество абсолютно одинаковое, т.к. данные одни и те же 
y_pred = rf.predict(X_test.toarray())
print(classification_report(df_test.target, y_pred, digits=3))

              precision    recall  f1-score   support

           0      0.782     0.771     0.776       144
           1      0.648     0.726     0.685       175
           2      0.639     0.819     0.718       177
           3      0.565     0.661     0.609       177
           4      0.772     0.741     0.757       174
           5      0.828     0.809     0.818       178
           6      0.690     0.847     0.760       176
           7      0.844     0.792     0.817       178
           8      0.866     0.933     0.898       180
           9      0.863     0.878     0.871       180
          10      0.913     0.933     0.923       180
          11      0.877     0.961     0.917       178
          12      0.777     0.492     0.602       177
          13      0.908     0.719     0.803       178
          14      0.893     0.888     0.890       178
          15      0.702     0.917     0.795       180
          16      0.921     0.921     0.921       164
          17      0.936    

### N-grams

Помимо отдельных слов при векторизации можно использовать н-граммы. 
+ (+) возможно качество модели будет лучше, тк информации больше
+ (-) словарь, а с ним и матрица признаков становится сильно больше 

In [0]:
# отдельные слова, биграммы, триграммы
ngram_vectorizer = CountVectorizer(ngram_range=(1, 3))

In [167]:
%%time
X_train_ngram = ngram_vectorizer.fit_transform(df_train.text) 
X_test_ngram = ngram_vectorizer.transform(df_test.text)

CPU times: user 16.3 s, sys: 880 ms, total: 17.1 s
Wall time: 17.2 s


In [168]:
print('Размер словаря: %s элементов' % X_train_ngram.shape[1])

Размер словаря: 1816567 элементов


In [169]:
%%time
rf.fit(X_train_ngram, df_train.target)

CPU times: user 1min 6s, sys: 27.6 ms, total: 1min 6s
Wall time: 1min 6s


RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=50,
                       n_jobs=None, oob_score=False, random_state=123,
                       verbose=0, warm_start=False)

In [170]:
# действительно, качество стало получше
y_pred = rf.predict(X_test_ngram)
print(classification_report(df_test.target, y_pred, digits=3))

              precision    recall  f1-score   support

           0      0.949     0.771     0.851       144
           1      0.534     0.754     0.626       175
           2      0.623     0.729     0.672       177
           3      0.595     0.621     0.608       177
           4      0.809     0.730     0.767       174
           5      0.819     0.736     0.775       178
           6      0.594     0.881     0.709       176
           7      0.841     0.831     0.836       178
           8      0.827     0.906     0.865       180
           9      0.825     0.839     0.832       180
          10      0.897     0.917     0.907       180
          11      0.933     0.938     0.936       178
          12      0.778     0.554     0.647       177
          13      0.913     0.708     0.797       178
          14      0.968     0.860     0.911       178
          15      0.688     0.906     0.782       180
          16      0.933     0.939     0.936       164
          17      0.993    

### Уменьшить размер словаря

Параметры
+ **min_df: *float in range [0.0, 1.0] or int, default=1*** - при построении словаря не учитывать элементы, которые встречаются в количестве документов меньше заданного порога.     
Полезно, если мы не хотим учитывать в словаре всякие странные слова (с опечатками, имена собственные,и т.д.), которые встречаются в очень малом количестве документов и из-за этого неинформативны для модели (почти константный признак, состоящий в основном из 0.) 
+ **max_df: *float in range [0.0, 1.0] or int, default=1.0*** - при построении словаря не учитывать элементы, которые встречаются в количестве документов больше заданного порога.     
Полезно, если мы не хотим учитывать в словаре очень частотные слова (союзы, местоимения), которые встречаются во всех или почти во всех документах и из-за этого неинформативны для модели (почти константный признак). 
+ **max_features: *int, default=None*** - эксплицитно ограничить размер словаря заданным числом, в словарь войдет заданное число самых частотных элементов. 

#### min_df & max_df

In [0]:
ngram_vectorizer = CountVectorizer(ngram_range=(1, 3), min_df=5, max_df=0.7)

In [0]:
X_train_ngram_trunc = ngram_vectorizer.fit_transform(df_train.text)
X_test_ngram_trunc = ngram_vectorizer.transform(df_test.text)

In [173]:
print('Размер словаря до: %s элементов' % X_train_ngram.shape[1])
print('Размер словаря с ограничениями min_df и max_df: %s элементов' % X_train_ngram_trunc.shape[1])

Размер словаря до: 1816567 элементов
Размер словаря с ограничениями min_df и max_df: 80469 элементов


In [174]:
%%time
rf.fit(X_train_ngram_trunc, df_train.target) 

CPU times: user 8.3 s, sys: 9.91 ms, total: 8.31 s
Wall time: 8.31 s


RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=50,
                       n_jobs=None, oob_score=False, random_state=123,
                       verbose=0, warm_start=False)

In [175]:
# качество не пострадало, даже улучшилось 
# обучается намного быстрее
y_pred = rf.predict(X_test_ngram_trunc)
print(classification_report(df_test.target, y_pred, digits=3))

              precision    recall  f1-score   support

           0      0.931     0.847     0.887       144
           1      0.702     0.714     0.708       175
           2      0.603     0.842     0.703       177
           3      0.559     0.593     0.575       177
           4      0.764     0.764     0.764       174
           5      0.812     0.803     0.808       178
           6      0.748     0.858     0.799       176
           7      0.817     0.826     0.821       178
           8      0.885     0.894     0.890       180
           9      0.817     0.867     0.841       180
          10      0.874     0.883     0.878       180
          11      0.919     0.955     0.937       178
          12      0.723     0.559     0.631       177
          13      0.895     0.719     0.798       178
          14      0.910     0.910     0.910       178
          15      0.744     0.922     0.824       180
          16      0.928     0.939     0.933       164
          17      0.964    

#### max_features

In [0]:
ngram_vectorizer = CountVectorizer(ngram_range=(1, 3), max_features=10000)

In [0]:
X_train_ngram_trunc = ngram_vectorizer.fit_transform(df_train.text)
X_test_ngram_trunc = ngram_vectorizer.transform(df_test.text)

In [178]:
print('Размер словаря до: %s элементов' % X_train_ngram.shape[1])
print('Размер словаря с ограничениями max_features: %s элементов' % X_train_ngram_trunc.shape[1])

Размер словаря до: 1816567 элементов
Размер словаря с ограничениями max_features: 10000 элементов


In [179]:
%%time
rf.fit(X_train_ngram_trunc, df_train.target)

CPU times: user 6.27 s, sys: 5.97 ms, total: 6.27 s
Wall time: 6.28 s


RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=50,
                       n_jobs=None, oob_score=False, random_state=123,
                       verbose=0, warm_start=False)

In [180]:
# обучилось быстро, но качество пострадало
y_pred = rf.predict(X_test_ngram_trunc)
print(classification_report(df_test.target, y_pred, digits=3)) 

              precision    recall  f1-score   support

           0      0.869     0.785     0.825       144
           1      0.638     0.646     0.642       175
           2      0.652     0.751     0.698       177
           3      0.522     0.605     0.560       177
           4      0.721     0.713     0.717       174
           5      0.802     0.775     0.789       178
           6      0.717     0.835     0.772       176
           7      0.787     0.770     0.778       178
           8      0.886     0.906     0.896       180
           9      0.727     0.872     0.793       180
          10      0.915     0.839     0.875       180
          11      0.902     0.933     0.917       178
          12      0.611     0.514     0.558       177
          13      0.840     0.736     0.784       178
          14      0.875     0.865     0.870       178
          15      0.736     0.900     0.810       180
          16      0.890     0.933     0.911       164
          17      0.934    

#### Предобработка
+ Лемматизация или стемминг (меньше разных слов = меньше словарь)
+ Стоп-слова 
+ И то, и друое можно сделать сразу в объекте векторизатора, ередав нужные параметры
    + **preprocessor: *callable, default=None*** - вызываемый объект, который будет делать предобработку, должен принимать на вход слвоо и возвращать его же  в обработанном виде 
    + **stop_words: *list, default=None*** - список стоп-слов

In [0]:
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer 


In [182]:
eng_stop_words = stopwords.words('english')
print(eng_stop_words)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [0]:
lemmatizer = WordNetLemmatizer() 

In [0]:
vectorizer_preproc = CountVectorizer(ngram_range=(1, 3), stop_words=eng_stop_words, preprocessor=lemmatizer.lemmatize)

In [185]:
%%time
X_train_preproc = vectorizer_preproc.fit_transform(df_train.text)
X_test_preproc = vectorizer_preproc.transform(df_test.text)

  'stop_words.' % sorted(inconsistent))


CPU times: user 12.8 s, sys: 78 ms, total: 12.9 s
Wall time: 12.9 s


In [186]:
print('Размер словаря до: %s элементов' % X_train_ngram.shape[1])
print('Размер словаря после предобрабоки: %s элементов' % X_train_preproc.shape[1])

Размер словаря до: 1816567 элементов
Размер словаря после предобрабоки: 1607473 элементов


In [187]:
%%time
rf.fit(X_train_preproc, df_train.target)

CPU times: user 1min 1s, sys: 24.4 ms, total: 1min 1s
Wall time: 1min 2s


RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=50,
                       n_jobs=None, oob_score=False, random_state=123,
                       verbose=0, warm_start=False)

In [188]:
y_pred = rf.predict(X_test_preproc)
print(classification_report(df_test.target, y_pred, digits=3))

              precision    recall  f1-score   support

           0      0.898     0.854     0.875       144
           1      0.525     0.783     0.628       175
           2      0.648     0.802     0.717       177
           3      0.645     0.718     0.679       177
           4      0.831     0.678     0.747       174
           5      0.856     0.770     0.811       178
           6      0.592     0.875     0.706       176
           7      0.891     0.826     0.857       178
           8      0.908     0.928     0.918       180
           9      0.824     0.856     0.839       180
          10      0.856     0.894     0.875       180
          11      0.965     0.927     0.946       178
          12      0.827     0.514     0.634       177
          13      0.927     0.713     0.806       178
          14      0.940     0.876     0.907       178
          15      0.753     0.900     0.820       180
          16      0.956     0.927     0.941       164
          17      0.969    

### Char 

+ В качестве элемента словаря можно взять не целые слова, а символы/символьные н-граммы, за это отвечает параметр **analyzer**
+ **analyzer: *{‘word’, ‘char’, ‘char_wb’} or callable, default=’word’***
    + word - слова
    + char - символы
    + char_wb -  символы, но н-граммы создаются только в пределах границ слова

In [0]:
char_vectorizer = CountVectorizer(analyzer='char', ngram_range=(2, 5))

In [218]:
%%time
X_train_char = char_vectorizer.fit_transform(df_train.text)
X_test_char = char_vectorizer.transform(df_test.text)

CPU times: user 58.6 s, sys: 449 ms, total: 59.1 s
Wall time: 59.1 s


In [219]:
print('Размер словаря: %s элементов' % X_train_char.shape[1])

Размер словаря: 1686613 элементов


In [220]:
%%time
rf.fit(X_train_char, df_train.target)

CPU times: user 55.3 s, sys: 40.8 ms, total: 55.3 s
Wall time: 55.3 s


RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=50,
                       n_jobs=None, oob_score=False, random_state=123,
                       verbose=0, warm_start=False)

In [221]:
y_pred = rf.predict(X_test_char)
print(classification_report(df_test.target, y_pred, digits=3))

              precision    recall  f1-score   support

           0      0.874     0.771     0.819       144
           1      0.620     0.634     0.627       175
           2      0.586     0.791     0.673       177
           3      0.521     0.571     0.544       177
           4      0.693     0.701     0.697       174
           5      0.825     0.792     0.808       178
           6      0.700     0.824     0.757       176
           7      0.736     0.753     0.744       178
           8      0.870     0.894     0.882       180
           9      0.770     0.856     0.811       180
          10      0.894     0.889     0.891       180
          11      0.884     0.938     0.910       178
          12      0.649     0.480     0.552       177
          13      0.853     0.685     0.760       178
          14      0.846     0.865     0.856       178
          15      0.706     0.867     0.778       180
          16      0.887     0.909     0.898       164
          17      0.940    

## 2. Tf-idf

**Term frequency - inverted document frequency**     
Формула:

![](https://miro.medium.com/max/1200/1*V9ac4hLVyms79jl65Ym_Bw.jpeg)

+ **TF** - оценивает важность слова для конкретного документа, (чем чаще встречается это слово в документе, тем больше значение)
+ **IDF** - инверсия частоты, с которой некоторое слово встречается в документах коллекции. Чем чаще слово встречается во всей коллекции, тем меньше значение IDF. 
+ В итоге большой вес получают специфичные для конкретного документа слова (часто встречаются в документе, редко встречаются в остальной коллекции). 
+ В отличие от CountVectorizer учиывает не только информацию о конкретном документе, но и о всей коллеции в целом. 
+ Можно делать все те же вещи, что и c CountVectorizer (параметры одинаковые). 

In [0]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [0]:
tfidf_vectorizer = TfidfVectorizer(ngram_range=(1, 4), min_df=5, max_df=0.7)

In [191]:
%%time
X_train_tfidf = tfidf_vectorizer.fit_transform(df_train.text)
X_test_tfidf = tfidf_vectorizer.transform(df_test.text)

CPU times: user 25.9 s, sys: 462 ms, total: 26.3 s
Wall time: 26.3 s


In [192]:
%%time
rf.fit(X_train_tfidf, df_train.target)

CPU times: user 9.46 s, sys: 12.9 ms, total: 9.48 s
Wall time: 9.49 s


RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=50,
                       n_jobs=None, oob_score=False, random_state=123,
                       verbose=0, warm_start=False)

In [193]:
y_pred = rf.predict(X_test_tfidf)
print(classification_report(df_test.target, y_pred, digits=3))

              precision    recall  f1-score   support

           0      0.944     0.819     0.877       144
           1      0.688     0.669     0.678       175
           2      0.637     0.814     0.715       177
           3      0.551     0.644     0.594       177
           4      0.808     0.724     0.764       174
           5      0.763     0.798     0.780       178
           6      0.733     0.875     0.798       176
           7      0.835     0.826     0.831       178
           8      0.878     0.917     0.897       180
           9      0.827     0.850     0.838       180
          10      0.878     0.917     0.897       180
          11      0.938     0.938     0.938       178
          12      0.653     0.542     0.593       177
          13      0.896     0.775     0.831       178
          14      0.873     0.888     0.880       178
          15      0.729     0.911     0.810       180
          16      0.905     0.933     0.919       164
          17      0.963    

## Best Features

In [0]:
# вытащить названия признаков из векторизатора
feature_names = tfidf_vectorizer.get_feature_names()

In [225]:
feature_names[-10:]

['zurich',
 'zurich ch',
 'zurich ch lines',
 'zv',
 'zx',
 'zx 10',
 'zx 11',
 'zx 11 needs',
 'zx 11 needs name',
 'zz']

In [0]:
sorted_features = sorted(zip(feature_names, rf.feature_importances_), reverse=True, key=lambda x: x[1])

In [233]:
sorted_features[:30]

[('to convince you', 0.0011523099558869829),
 ('to convince', 0.001021915483592786),
 ('to you if you', 0.0006353750685443431),
 ('who fled', 0.0005633017530330256),
 ('in bosnia', 0.00045975963770404475),
 ('try something', 0.00045783278099319),
 ('vax2 winona msus edu', 0.0004098137964457366),
 ('we are talking', 0.000350556213973507),
 ('worry about it', 0.00033842076932229237),
 ('would be the best', 0.0003136096781982108),
 ('other factors', 0.0003053102655309554),
 ('who came', 0.00028616224774834117),
 ('this can', 0.00028447286981950264),
 ('tri university meson facility', 0.0002791345825931791),
 ('you are interested in', 0.00027454950140595524),
 ('they repress', 0.0002741098797272048),
 ('williams', 0.0002723954724529015),
 ('they don believe', 0.0002678227006612262),
 ('situations like', 0.00025992336079841736),
 ('they certainly', 0.00025937649824552575),
 ('if am', 0.00024976056608331707),
 ('to 25', 0.00024608005201786633),
 ('today are', 0.00024470030723171325),
 ('with

## PoS

+ векторизировать имеет смысл не только сами слова, но и разную другую информацию о них
+ например части речи

In [0]:
from nltk.tokenize import word_tokenize
from nltk import pos_tag

In [195]:
pos_tag(word_tokenize('I love cats!!!'))

[('I', 'PRP'),
 ('love', 'VBP'),
 ('cats', 'NNS'),
 ('!', '.'),
 ('!', '.'),
 ('!', '.')]

In [0]:
def get_pos_str(text):
    pos = ' '.join([an[1] for an in pos_tag(word_tokenize(text)) if an[1] != '.'])
    return pos


In [197]:
get_pos_str('I love cats!!!')

'PRP VBP NNS'

In [198]:
%%time
df_train['pos'] = [get_pos_str(text) for text in df_train.text]
df_test['pos'] = [get_pos_str(text) for text in df_test.text]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


CPU times: user 2min 42s, sys: 164 ms, total: 2min 42s
Wall time: 2min 42s


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [0]:
vectorizer = CountVectorizer()

In [200]:
%%time
X_train_pos = vectorizer.fit_transform(df_train.pos)
X_test_pos = vectorizer.transform(df_test.pos)

CPU times: user 1.35 s, sys: 4.98 ms, total: 1.36 s
Wall time: 1.36 s


In [203]:
vectorizer.vocabulary_

{'cc': 0,
 'cd': 1,
 'dt': 2,
 'ex': 3,
 'fw': 4,
 'in': 5,
 'jj': 6,
 'jjr': 7,
 'jjs': 8,
 'ls': 9,
 'md': 10,
 'nn': 11,
 'nnp': 12,
 'nnps': 13,
 'nns': 14,
 'pdt': 15,
 'pos': 16,
 'prp': 17,
 'rb': 18,
 'rbr': 19,
 'rbs': 20,
 'rp': 21,
 'sym': 22,
 'to': 23,
 'uh': 24,
 'vb': 25,
 'vbd': 26,
 'vbg': 27,
 'vbn': 28,
 'vbp': 29,
 'vbz': 30,
 'wdt': 31,
 'wp': 32,
 'wrb': 33}

Обучаться только на векторах частей речи скорее всего будет неэффективно, поэтому давайте присоединим векторы частей речи к векторам слов, полученным ранее. 

In [0]:
from scipy.sparse import hstack

In [0]:
X_train = hstack((X_train_pos, X_train_tfidf))
X_test = hstack((X_test_pos, X_test_tfidf))

In [215]:
%%time
rf.fit(X_train, df_train.target)

CPU times: user 9.5 s, sys: 5.99 ms, total: 9.51 s
Wall time: 9.51 s


RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=50,
                       n_jobs=None, oob_score=False, random_state=123,
                       verbose=0, warm_start=False)

In [216]:
y_pred = rf.predict(X_test)
print(classification_report(df_test.target, y_pred, digits=3))

              precision    recall  f1-score   support

           0      0.930     0.826     0.875       144
           1      0.636     0.760     0.693       175
           2      0.695     0.785     0.737       177
           3      0.599     0.667     0.631       177
           4      0.805     0.713     0.756       174
           5      0.841     0.775     0.807       178
           6      0.699     0.869     0.775       176
           7      0.814     0.837     0.825       178
           8      0.864     0.883     0.874       180
           9      0.790     0.856     0.821       180
          10      0.894     0.889     0.891       180
          11      0.918     0.944     0.931       178
          12      0.680     0.588     0.630       177
          13      0.917     0.747     0.824       178
          14      0.872     0.876     0.874       178
          15      0.716     0.911     0.802       180
          16      0.942     0.896     0.919       164
          17      0.969    

**Задание**
+ вывести наиболее важные признаки этой модели 