## Данные

Данные в [архиве](https://drive.google.com/file/d/15o7fdxTgndoy6K-e7g8g1M2-bOOwqZPl/view?usp=sharing). В нём два файла:
- `news_train.txt` тренировочное множество
- `news_test.txt` тренировочное множество

С некоторых новостных сайтов были загружены тексты новостей за период  несколько лет, причем каждая новость принаделжит к какой-то рубрике: `science`, `style`, `culture`, `life`, `economics`, `business`, `travel`, `forces`, `media`, `sport`.

В каждой строке файла содержится метка рубрики, заголовок новостной статьи и сам текст статьи, например:

>    **sport**&nbsp;&lt;tab&gt;&nbsp;**Сборная Канады по хоккею разгромила чехов**&nbsp;&lt;tab&gt;&nbsp;**Сборная Канады по хоккею крупно об...**

# Задача

1. Обработать данные, получив для каждого текста набор токенов
Обработать токены с помощью (один вариант из трех):
    - pymorphy2
    - русского [snowball стеммера](https://www.nltk.org/howto/stem.html)
    - [SentencePiece](https://github.com/google/sentencepiece) или [Huggingface Tokenizers](https://github.com/huggingface/tokenizers)
    
    
2. Обучить word embeddings (fastText, word2vec, gloVe) на тренировочных данных. Можно использовать [gensim](https://radimrehurek.com/gensim/models/word2vec.html) . Продемонстрировать семантические ассоциации. 

3. Реализовать алгоритм классификации, посчитать точноть на тестовых данных, подобрать гиперпараметры. Метод векторизации выбрать произвольно - можно использовать $tf-idf$ с понижением размерности (см. scikit-learn), можно использовать обученные на предыдущем шаге векторные представления, можно использовать [предобученные модели](https://rusvectores.org/ru/models/). Имейте ввиду, что простое "усреднение" токенов в тексте скорее всего не даст положительных результатов. Нужно реализовать два алгоритмов из трех:
     - SVM
     - наивный байесовский классификатор
     - логистическая регрессия
    

4.* Реализуйте классификацию с помощью нейросетевых моделей. Например [RuBERT](http://docs.deeppavlov.ai/en/master/features/models/bert.html) или [ELMo](https://rusvectores.org/ru/models/).

In [1]:
def read_data(path='../data/news_train.txt'):
    with open(path, 'r', encoding='utf-8') as f:
        for line in f:
            category, title, text = line.strip().split('\t')
            yield category, title, text

In [15]:
import re
import os

newses = []
lines = list(open('../data/news_train.txt', 'r', encoding='utf-8'))

for category, title, text in read_data():
    news = []
    matches = re.findall(r'\b\w+\b', (title + ' ' + text).lower())

    for match in matches:
        news.append(match)
    newses.append(news)
    

In [18]:
import pymorphy2

morph = pymorphy2.MorphAnalyzer()
for news in newses:
    for i, new in enumerate(news):
        news[i] = morph.parse(new)[0].normal_form


In [19]:
from gensim.models import Word2Vec
import numpy as np

w2v = Word2Vec(newses, workers=8)
w2v.wv.save_word2vec_format('../data/w2v_vectors.bin')

In [20]:
w2v.wv.most_similar(positive=["июнь"])


[('июль', 0.975144624710083),
 ('август', 0.9665762186050415),
 ('май', 0.9662623405456543),
 ('март', 0.9645189046859741),
 ('февраль', 0.9633722305297852),
 ('апрель', 0.9630542397499084),
 ('сентябрь', 0.9596349000930786),
 ('декабрь', 0.9557486772537231),
 ('ноябрь', 0.9546229839324951),
 ('октябрь', 0.9520280957221985)]

In [23]:
w2v.wv.most_similar(positive=["евро"])

[('рубль', 0.8163387775421143),
 ('гривна', 0.7825718522071838),
 ('доллар', 0.7811011075973511),
 ('фунт', 0.7006552815437317),
 ('баррель', 0.6948028802871704),
 ('кубометр', 0.6932436227798462),
 ('риал', 0.6629272103309631),
 ('юань', 0.6621546149253845),
 ('427', 0.6494289636611938),
 ('375', 0.6409498453140259)]

In [2]:
import numpy as np

def prepare_data(path):
    lines = list(open(path, 'r', encoding='utf-8'))

    categories = { category for (category, _, _) in read_data(path)}
    categories = { category:i for (i, category) in enumerate(categories) }

    X = []
    y = []

    for category, title, text in read_data(path):
        X.append(title + ' ' + text)
        y.append(categories[category])
    return np.array(X), np.array(y)

In [3]:
path_train = '../data/news_train.txt'
path_test = '../data/news_test.txt'

X_train, y_train = prepare_data(path_train)
X_test, y_test = prepare_data(path_test)


In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression(n_jobs=-1)
tfidf = TfidfVectorizer()
text_clf = Pipeline([
                     ('tfidf', tfidf),
                     ('clf', clf)
                     ])


text_clf.fit(X_train, y_train)
X_test_idf = tfidf.transform(X_test)
preds = clf.predict(X_test_idf)

print('Точность', (y_test == preds).mean())

Точность 0.8743333333333333


In [10]:
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB

clf = MultinomialNB()
tfidf = TfidfVectorizer()

text_clf = Pipeline([
                     ('tfidf', tfidf),
                     ('clf', clf)
                     ])


text_clf.fit(X_train, y_train)
X_test_idf = tfidf.transform(X_test)
preds = clf.predict(X_test_idf)

print('Точность', (y_test == preds).mean())

Точность 0.808
