
### Часть 3. Классификация текстов
Сформулируем для простоты задачу бинарной классификации: будем классифицировать на два класса, то есть, различать резко отрицательные отзывы (с оценкой 1) и положительные отзывы (с оценкой 5).

Составьте обучающее и тестовое множество: выберите из всего набора данных N1 отзывов с оценкой 1 и N2 отзывов с оценкой 5 (значение N1 и N2 – на ваше усмотрение). Используйте sklearn.model_selection.train_test_split для разделения множества отобранных документов на обучающее и тестовое.
Используйте любой известный вам алгоритм классификации текстов для решения задачи и получите baseline. Сравните разные варианты векторизации текста: использование только униграм, пар или троек слов или с использованием символьных $n$-грам.
Сравните, как изменяется качество решения задачи при использовании скрытых тем в качестве признаков:
1-ый вариант: $tf-idf$ преобразование (sklearn.feature_extraction.text.TfidfTransformer) и сингулярное разложение (оно же – латентый семантический анализ) (sklearn.decomposition.TruncatedSVD),
2-ой вариант: тематические модели LDA (sklearn.decomposition.LatentDirichletAllocation). Используйте accuracy и F-measure для оценки качества классификации.
В ноутбуке, размещенном в папке репозитория. написан примерный Pipeline для классификации текстов.

Эта часть задания может быть сделана с использованием sklearn.

In [1]:
import json

import bz2
import regex
from tqdm import tqdm
from scipy import sparse
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
import pandas as pd
import numpy as np
import nltk
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
%pylab inline

Populating the interactive namespace from numpy and matplotlib


In [13]:
from sklearn.metrics import *
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline

In [4]:
responses = []
with bz2.BZ2File('banki_responses.json.bz2', 'r') as thefile:
    for row in tqdm(thefile):
        resp = json.loads(row)
        if not resp['rating_not_checked'] and (len(resp['text'].split()) > 0):
            responses.append(resp)

201030it [01:14, 2681.62it/s]


In [5]:
df = pd.DataFrame()
for row in responses:
    if row["rating_grade"] == 5:
        df = df.append({'text':row['text'], 'label':row["rating_grade"]}, ignore_index=True)
    if row["rating_grade"] == 1:
        df = df.append({'text':row['text'], 'label':row["rating_grade"]}, ignore_index=True)


In [6]:
df

Unnamed: 0,label,text
0,1.0,Открыт вклад и счет в USD. Плюс к этому есть з...
1,1.0,Доброго времени! Вчера мне поступило смс-уведо...
2,1.0,"05.06.2015г. около 15 часов, пришел в указанны..."
3,1.0,Для оплаты коммунальных платежей пользуюсь пла...
4,1.0,В апреле этого года пришла в отделение сбербан...
...,...,...
62095,1.0,Оформил в банке кредитную карту в январе 2004 ...
62096,5.0,"Слишком большой банк, не всегда учитывает нашу..."
62097,1.0,Уважаемое руководство банка «ОВК»! Я проживаю ...
62098,1.0,Пробовала 10.04.05 оформить товар в кредит в А...


In [7]:
df.value_counts(df.label)

label
1.0    47387
5.0    14713
dtype: int64

In [14]:
x_train, x_test, y_train, y_test = train_test_split(df.text, df.label)

In [15]:
print(df.shape)
print(x_train.shape)
print(x_test.shape)

(62100, 2)
(46575,)
(15525,)


In [16]:
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer

In [17]:
vec = CountVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(x_train) # bow -- bag of words (мешок слов)

In [18]:
clf = LogisticRegression(random_state=42, solver='liblinear')
clf.fit(bow, y_train)

LogisticRegression(random_state=42, solver='liblinear')

In [19]:
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

         1.0       0.98      0.97      0.98     12030
         5.0       0.91      0.94      0.93      3495

    accuracy                           0.97     15525
   macro avg       0.95      0.96      0.95     15525
weighted avg       0.97      0.97      0.97     15525



In [22]:
vec = CountVectorizer(ngram_range=(2, 2))
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

         1.0       0.99      0.95      0.97     12363
         5.0       0.84      0.96      0.90      3162

    accuracy                           0.96     15525
   macro avg       0.92      0.96      0.93     15525
weighted avg       0.96      0.96      0.96     15525



In [23]:
vec = CountVectorizer(ngram_range=(3, 3))
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

         1.0       0.99      0.88      0.93     13485
         5.0       0.55      0.96      0.70      2040

    accuracy                           0.89     15525
   macro avg       0.77      0.92      0.81     15525
weighted avg       0.93      0.89      0.90     15525



In [25]:
#Вывод:Использование униграмм дает лучший результат

In [26]:
from sklearn.manifold import TSNE
from sklearn.decomposition import TruncatedSVD
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import Normalizer
from sklearn.feature_extraction.text import TfidfVectorizer

In [67]:
vectors3 = TfidfVectorizer().fit_transform(df.text) # строим тф-идф матрицу документ-слово
X_reduced3 = TruncatedSVD(n_components=5, random_state=0).fit_transform(vectors3) # оставляем n главных компонент

In [68]:
x_train1, x_test1, y_train1, y_tes1t = train_test_split(X_reduced3, df.label)

In [69]:
clf1 = LogisticRegression(random_state=42)
clf1.fit(x_train1, y_train1)


LogisticRegression(random_state=42)

In [70]:
pred = clf1.predict(x_test1)
print(classification_report(pred, y_test1))

              precision    recall  f1-score   support

         1.0       0.81      0.76      0.79     12637
         5.0       0.19      0.24      0.21      2888

    accuracy                           0.67     15525
   macro avg       0.50      0.50      0.50     15525
weighted avg       0.70      0.67      0.68     15525



In [71]:
#Вывод : качество ухудшилось при использовании скрытых тем в качестве признаков(TruncatedSVD)