# Классификация текстов

Сегодня мы будем делать бинарную классификацию текстов, используя kNN или наивный Байесовский классификатор и мешок слов.

### Задача

Мы будем учить классификатор отличать тексты из учебников программирования от библейских текстов. 

### Данные

Скачайте данные по [ссылке](https://drive.google.com/file/d/10vgOvk10yMelNlFAOdGt3YZG0icqp2TI/view?usp=sharing).

In [2]:
import pandas as pd

Загрузим данные в датасет:

In [4]:
df = pd.read_csv('bible_vs_coding.csv')

In [5]:
df.head()

Unnamed: 0,labels,sentences
0,testament,И к кому из святых обратишься ты?
1,testament,"И Зелфа, служанка Лиина, [зачала и] родила Иак..."
2,testament,"И когда умрет какой-либо скот, который употреб..."
3,coding,"(Не забывайте, что два сигнала,\nSIGKILL и SI..."
4,testament,"В седьмой день встали рано, при появлении зари..."


### Векторизация

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

In [88]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [20]:
from nltk.tokenize import word_tokenize

In [26]:
vec = CountVectorizer(tokenizer=word_tokenize)

In [82]:
vec.fit(['я люблю физтех', 'физтех физтех навсегда', 'я люблю котов'])

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
        tokenizer=<function word_tokenize at 0x7fe68751b9d8>,
        vocabulary=None)

In [28]:
bow = vec.fit_transform(['я люблю физтех', 'физтех физтех навсегда', 'я люблю котов'])

In [86]:
my_text = vec.transform(['физтех физтех ктулху'])

In [87]:
my_text.todense()

matrix([[0, 0, 0, 2, 0]])

In [29]:
bow

<3x5 sparse matrix of type '<class 'numpy.int64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [30]:
bow.todense()

matrix([[0, 1, 0, 1, 1],
        [0, 0, 1, 2, 0],
        [1, 1, 0, 0, 1]], dtype=int64)

In [38]:
bow_bible = vec.fit_transform(df['sentences'])

In [39]:
bow_bible

<24902x48267 sparse matrix of type '<class 'numpy.int64'>'
	with 500114 stored elements in Compressed Sparse Row format>

### Обучение

In [31]:
from sklearn.naive_bayes import MultinomialNB

In [32]:
from sklearn.model_selection import train_test_split

In [74]:
train_test_split?

In [75]:
X_train, X_test, y_train, y_test = train_test_split(bow_bible, df['labels'], random_state=42)

In [76]:
model = MultinomialNB()

In [77]:
model.fit(X_train, y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [83]:
my_text = vec.transform(['господь повелевает алгоритмами ктулху'])

In [66]:
model.predict(my_text)

array(['testament'], dtype='<U9')

In [67]:
model.predict_proba(my_text)

array([[0.27361533, 0.72638467]])

In [63]:
6.5 * 10**-4

0.0006500000000000001

### Оценка

In [79]:
from sklearn.metrics import classification_report

In [80]:
predicted = model.predict(X_test)

In [81]:
print(classification_report(y_test, predicted))

             precision    recall  f1-score   support

     coding       1.00      0.99      1.00      2907
  testament       0.99      1.00      1.00      3319

avg / total       1.00      1.00      1.00      6226



### Как создать датасет

In [105]:
a = 'some words are here in my string'.split(' ')
a

['some', 'words', 'are', 'here', 'in', 'my', 'string']

In [101]:
labels = [1, 1, 1, 1, 0, 0, 0]

In [106]:
my_new_df = pd.DataFrame({'words': a, 'labels': labels})

In [107]:
my_new_df

Unnamed: 0,labels,words
0,1,some
1,1,words
2,1,are
3,1,here
4,0,in
5,0,my
6,0,string


## Домашнее задание 

1. (2 балла) закончить то, что мы делали на сегодняшнем семинаре (модель на библии)
2. (3 балла) сделать то же самое, но для текстов, на которых вы обучали генератор предложений
3. (2 балла *) использовать классификатор из п.2, чтобы отлавливать смешанные из разных источников предложения

In [108]:
from docx import Document

ImportError: No module named 'docx'

In [109]:
!pip install docx

Traceback (most recent call last):
  File "/usr/local/bin/pip", line 7, in <module>
    from pip._internal import main
ImportError: No module named 'pip._internal'
