# Embeddings  [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/PragmaticsLab/NLP-course-FinTech/blob/master/seminars/2/2_embeddings.ipynb)

## Word2Vec

Векторные модели, которые мы рассматривали до этого (tf-idf, BOW), условно называются *счётными*. Они основываются на том, что так или иначе "считают" слова и их соседей, и на основе этого строят вектора для слов. 

Другой класс моделей, который более повсевмёстно распространён на сегодняшний день, называется *предсказательными* (или *нейронными*) моделями. Идея этих моделей заключается в использовании нейросетевых архитектур, которые "предсказывают" (а не считают) соседей слов. Одной из самых известных таких моделей является word2vec. Технология основана на нейронной сети, предсказывающей вероятность встретить слово в заданном контексте. Этот инструмент был разработан группой исследователей Google в 2013 году, руководителем проекта был Томаш Миколов (сейчас работает в Facebook). Вот две самые главные статьи:

* [Efficient Estimation of Word Representations in Vector Space](https://arxiv.org/pdf/1301.3781.pdf)
* [Distributed Representations of Words and Phrases and their Compositionality](https://arxiv.org/abs/1310.4546)


Полученные таким образом вектора называются *распределенными представлениями слов*, или **эмбеддингами**.


### Как это обучается?
Мы задаём вектор для каждого слова с помощью матрицы $w$ и вектор контекста с помощью матрицы $W$. По сути, word2vec является обобщающим названием для двух архитектур Skip-Gram и Continuous Bag-Of-Words (CBOW).  

**CBOW** предсказывает текущее слово, исходя из окружающего его контекста. 

**Skip-gram**, наоборот, использует текущее слово, чтобы предугадывать окружающие его слова. 

### Как это работает?
Word2vec принимает большой текстовый корпус в качестве входных данных и сопоставляет каждому слову вектор, выдавая координаты слов на выходе. Сначала он создает словарь, «обучаясь» на входных текстовых данных, а затем вычисляет векторное представление слов. Векторное представление основывается на контекстной близости: слова, встречающиеся в тексте рядом с одинаковыми словами (а следовательно, согласно дистрибутивной гипотезе, имеющие схожий смысл), в векторном представлении будут иметь близкие координаты векторов-слов. Для вычисления близости слов используется косинусное расстояние между их векторами.


С помощью дистрибутивных векторных моделей можно строить семантические пропорции (они же аналогии) и решать примеры:

* *король: мужчина = королева: женщина* 
 $\Rightarrow$ 
* *король - мужчина + женщина = королева*

![w2v](https://cdn-images-1.medium.com/max/2600/1*sXNXYfAqfLUeiDXPCo130w.png)

### Проблемы
Невозможно установить тип семантических отношений между словами: синонимы, антонимы и т.д. будут одинаково близки, потому что обычно употребляются в схожих контекстах. Поэтому близкие в векторном пространстве слова называют *семантическими ассоциатами*. Это значит, что они семантически связаны, но как именно — непонятно.


### RusVectōrēs


На сайте [RusVectōrēs](https://rusvectores.org/ru/) собраны предобученные на различных данных модели для русского языка, а также можно поискать наиболее близкие слова к заданному, посчитать семантическую близость нескольких слов и порешать примеры с помощью «калькулятором семантической близости».


Для других языков также можно найти предобученные модели — например, модели [fastText](https://fasttext.cc/docs/en/english-vectors.html) и [GloVe](https://nlp.stanford.edu/projects/glove/) (о них чуть дальше).

### Визуализация
А [вот тут](https://projector.tensorflow.org/) есть хорошая визуализация для английского.

## Gensim

Использовать предобученную модель эмбеддингов или обучить свою можно с помощью библиотеки `gensim`. Вот [ее документация](https://radimrehurek.com/gensim/models/word2vec.html).

### Как использовать готовую модель

Модели word2vec бывают разных форматов:

* .vec.gz — обычный файл
* .bin.gz — бинарник

Загружаются они с помощью одного и того же класса `KeyedVectors`, меняется только параметр `binary` у функции `load_word2vec_format`. 

Если же эмбеддинги обучены **не** с помощью word2vec, то для загрузки нужно использовать функцию `load`. Т.е. для загрузки предобученных эмбеддингов *glove, fasttext, bpe* и любых других нужна именно она.

Скачаем с RusVectōrēs модель для русского языка, обученную на НКРЯ образца 2019 г. 

In [None]:
import re
import gensim
import logging
import nltk.data 
import pandas as pd
import urllib.request
from bs4 import BeautifulSoup
from nltk.corpus import stopwords
from gensim.models import word2vec
from nltk.tokenize import sent_tokenize, RegexpTokenizer
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
!pip install wget

Collecting wget
  Downloading wget-3.2.zip (10 kB)
Building wheels for collected packages: wget
  Building wheel for wget (setup.py) ... [?25l[?25hdone
  Created wheel for wget: filename=wget-3.2-py3-none-any.whl size=9672 sha256=453aaca4b415e71d8973ad7445c401a9d1900adac3a4d8c64c64c9edb11fcefb
  Stored in directory: /root/.cache/pip/wheels/a1/b6/7c/0e63e34eb06634181c63adacca38b79ff8f35c37e3c13e3c02
Successfully built wget
Installing collected packages: wget
Successfully installed wget-3.2


In [None]:
import wget
import zipfile

# model -- ruscorpora_upos_cbow_300_20_2019
model_url = 'http://vectors.nlpl.eu/repository/20/180.zip'
m = wget.download(model_url)
model_file = model_url.split('/')[-1]
with zipfile.ZipFile(model_file, 'r') as archive:
    stream = archive.open('model.bin')
    model_ru = gensim.models.KeyedVectors.load_word2vec_format(stream, binary=True)

Возьмем несколько слов для примера:

In [None]:
# words = ['день_S', 'ночь_S', 'человек_S', 'семантика_S', 'биткоин_S']
words = ['день_NOUN', 'ночь_NOUN', 'человек_NOUN', 'семантика_NOUN', 'биткоин_NOUN']

Частеречные тэги нужны, поскольку это специфика скачанной модели - она была натренирована на словах, аннотированных их частями речи (и лемматизированных). **NB!** В названиях моделей на `rusvectores` указано, какой тегсет они используют (mystem, upos и т.д.). В этой модели используются теги  Universal PoS Tags.

Попросим у модели 10 ближайших соседей для каждого слова и коэффициент косинусной близости для каждого:

In [None]:
for word in words:
    # есть ли слово в модели? 
    if word in model_ru:
        print(word)
        # смотрим на вектор слова (его размерность 300, смотрим на первые 10 чисел)
        print(model_ru[word][:10])
        # выдаем 10 ближайших соседей слова:
        for word, sim in model_ru.most_similar(positive=[word], topn=10):
            # слово + коэффициент косинусной близости
            print(word, ': ', sim)
        print('\n')
    else:
        # Увы!
        print('Увы, слова "%s" нет в модели!' % word)

день_NOUN
[ 1.805067   -0.877623   -1.0102742   2.8518744  -0.43311968 -3.7207692
 -3.4317713  -0.7634762  -4.9961104  -1.1313324 ]
неделя_NOUN :  0.7375995516777039
день_PROPN :  0.7067667245864868
месяц_NOUN :  0.7037326693534851
час_NOUN :  0.6643949747085571
утро_NOUN :  0.6526744961738586
вечер_NOUN :  0.6038411855697632
сутки_NOUN :  0.5923081040382385
воскресенье_NOUN :  0.5842781066894531
полдень_NOUN :  0.5743687152862549
суббота_NOUN :  0.5345946550369263


ночь_NOUN
[-0.10776415  0.32673436  0.52870405  2.1667976   0.7689093  -2.4214501
 -1.4222336  -2.972895    0.18769576 -0.05231643]
ночь_PROPN :  0.8310786485671997
вечер_NOUN :  0.7183678150177002
рассвет_NOUN :  0.696594774723053
ночи_NOUN :  0.6920218467712402
полночь_NOUN :  0.6704976558685303
ночь_VERB :  0.6615264415740967
утро_NOUN :  0.6263935565948486
ночной_ADJ :  0.6024709343910217
полдень_NOUN :  0.5835086107254028
сумерки_NOUN :  0.5671443343162537


человек_NOUN
[ 0.02881786 -0.7942778   2.4604542   2.2049303

Находим косинусную близость пары слов:

In [None]:
print(model_ru.similarity('человек_NOUN', 'обезьяна_NOUN'))

0.22025342


Что получится, если вычесть из пиццы Италию и прибавить Америку?

* positive — вектора, которые мы складываем
* negative — вектора, которые вычитаем

In [None]:
print(model_ru.most_similar(positive=['пицца_NOUN', 'америка_NOUN'], negative=['италия_NOUN'])[0][0])

гамбургер_NOUN


In [None]:
model_ru.doesnt_match('пицца_NOUN пельмень_NOUN хот-дог_NOUN ананас_NOUN'.split())

  vectors = vstack(self.word_vec(word, use_norm=True) for word in used_words).astype(REAL)


'ананас_NOUN'

**Упражнения для разминки**

Найдите пример многозначного слова, для которого в топ-10 (метод `most_similar`) похожих на него слов входят слова связанные с разными значениями:

По аналогии с Италия -- пицца, Америка -- гамбургер, придумайте похожую связку слов для проверки: 

Приведите пример трех слов w1, w2, w3, таких, что w1 и w2 являются синонимами, w1 и w3 являются антонимами, но при этом, similarity(w1, w2) < similarity(w1, w3).

### Задание

Напишите функцию, которая принимает на вход предложение, и заменяет случайное существительное в нём на "ассоциат" -- ближайшее к нему слово из модели word2vec.

NB: для этого вам понадобится морфологический анализатор. Советуем использовать pymorphy (мы кратко говорили про него на прошлом семинаре).

Как пользоваться pymorphy:

In [None]:
!pip install pymorphy2

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[K     |████████████████████████████████| 55 kB 1.9 MB/s 
[?25hCollecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[K     |████████████████████████████████| 8.2 MB 5.6 MB/s 
Collecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Installing collected packages: pymorphy2-dicts-ru, dawg-python, pymorphy2
Successfully installed dawg-python-0.7.2 pymorphy2-0.9.1 pymorphy2-dicts-ru-2.4.417127.4579844


In [None]:
from pymorphy2 import MorphAnalyzer

In [None]:
analyser = MorphAnalyzer()

In [None]:
# разобрать слово (в данном случае возможно два разбора, поэтому получаем список из двух элементов)
result = analyser.parse('слово')
result

[Parse(word='слово', tag=OpencorporaTag('NOUN,inan,neut sing,nomn'), normal_form='слово', score=0.59813, methods_stack=((DictionaryAnalyzer(), 'слово', 54, 0),)),
 Parse(word='слово', tag=OpencorporaTag('NOUN,inan,neut sing,accs'), normal_form='слово', score=0.401869, methods_stack=((DictionaryAnalyzer(), 'слово', 54, 3),))]

In [None]:
# достать часть речи
result[0].tag.POS

'NOUN'

In [None]:
# поставить в дательный падеж
result[0].inflect(frozenset(['datv'])).word

'слову'

Ваша функция (для простоты можно не пытаться поставить слово в "нужную" форму и ограничиться именительным падежом):

In [None]:
def change_random_noun(sentence):
  pass

* Близость векторов для ассоциированных друг с другом слов может быть полезна для аугментации данных с помощью замены слов на синонимы.

## Обучение модели


### Как обучить свою модель

В качестве обучающих данных возьмем размеченные и неразмеченные отзывы о фильмах (датасет взят с Kaggle).

In [None]:
 wget.download('https://raw.githubusercontent.com/ancatmara/data-science-nlp/master/data/w2v/train/unlabeledTrainData.tsv')

'unlabeledTrainData.tsv'

In [None]:
data = pd.read_csv("unlabeledTrainData.tsv", header=0, delimiter="\t", quoting=3)

len(data)

50000

In [None]:
data.head()

Unnamed: 0,id,review
0,"""9999_0""","""Watching Time Chasers, it obvious that it was..."
1,"""45057_0""","""I saw this film about 20 years ago and rememb..."
2,"""15561_0""","""Minor Spoilers<br /><br />In New York, Joan B..."
3,"""7161_0""","""I went to see this film with a great deal of ..."
4,"""43971_0""","""Yes, I agree with everyone on this site this ..."


Убираем из данных ссылки, html-разметку и небуквенные символы, а затем приводим все к нижнему регистру и токенизируем. На выходе получается массив из предложений, каждое из которых представляет собой массив слов. Здесь используется токенизатор из библиотеки `nltk`. 

In [None]:
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

In [None]:
def review_to_wordlist(review, remove_stopwords=False ):
    # убираем ссылки
    review = re.sub(r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", " ", review)
    # достаем сам текст
    review_text = BeautifulSoup(review, "lxml").get_text()
    # оставляем только буквенные символы
    review_text = re.sub("[^a-zA-Z]"," ", review_text)
    # приводим к нижнему регистру и разбиваем на слова по символу пробела
    words = review_text.lower().split()
    if remove_stopwords: # убираем стоп-слова
        stops = stopwords.words("english")
        words = [w for w in words if not w in stops]
    return(words)

def review_to_sentences(review, tokenizer, remove_stopwords=False):
    # разбиваем обзор на предложения
    raw_sentences = tokenizer.tokenize(review.strip())
    sentences = []
    # применяем предыдущую функцию к каждому предложению
    for raw_sentence in raw_sentences:
        if len(raw_sentence) > 0:
            sentences.append(review_to_wordlist(raw_sentence, remove_stopwords))
    return sentences

In [None]:
#logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

sentences = []  

print("Parsing sentences from training set...")
for review in data["review"]:
    sentences += review_to_sentences(review, tokenizer)

Parsing sentences from training set...


  ' Beautiful Soup.' % markup)
  ' Beautiful Soup.' % markup)


In [None]:
print(len(sentences))
print(sentences[0])

528987
['watching', 'time', 'chasers', 'it', 'obvious', 'that', 'it', 'was', 'made', 'by', 'a', 'bunch', 'of', 'friends']


In [None]:
# это понадобится нам позже

with open('clean_text.txt', 'w') as f:
    for s in sentences[:5000]:
        f.write(' '.join(s))
        f.write('\n')

Обучаем и сохраняем модель. 


Основные параметры:
* данные должны быть итерируемым объектом 
* size — размер вектора, 
* window — размер окна наблюдения,
* min_count — мин. частотность слова в корпусе,
* sg — используемый алгоритм обучения (0 — CBOW, 1 — Skip-gram),
* sample — порог для downsampling'a высокочастотных слов,
* workers — количество потоков,
* alpha — learning rate,
* iter — количество итераций,
* max_vocab_size — позволяет выставить ограничение по памяти при создании словаря (т.е. если ограничение превышается, то низкочастотные слова будут выбрасываться). Для сравнения: 10 млн слов = 1Гб RAM.

**NB!** Обратите внимание, что тренировка модели не включает препроцессинг! Это значит, что избавляться от пунктуации, приводить слова к нижнему регистру, лемматизировать их, проставлять частеречные теги придется до тренировки модели (если, конечно, это необходимо для вашей задачи). Т.е. в каком виде слова будут в исходном тексте, в таком они будут и в модели.

In [None]:
print("Training model...")

%time model_en = word2vec.Word2Vec(sentences, workers=4, size=300, min_count=10, window=10, sample=1e-3)

Training model...
CPU times: user 4min 23s, sys: 1.15 s, total: 4min 24s
Wall time: 2min 20s


Смотрим, сколько в модели слов.

In [None]:
print(len(model_en.wv.vocab))

28308


Попробуем оценить модель вручную, порешав примеры. Несколько дано ниже, попробуйте придумать свои.

In [None]:
print(model_en.wv.most_similar(positive=["woman", "actor"], negative=["man"], topn=1))
print(model_en.wv.most_similar(positive=["dogs", "man"], negative=["dog"], topn=1))

print(model_en.wv.most_similar("usa", topn=3))

print(model_en.wv.doesnt_match("comedy thriller western novel".split()))

[('actress', 0.7733169794082642)]
[('men', 0.652249813079834)]
[('europe', 0.7555485963821411), ('germany', 0.7204687595367432), ('australia', 0.7092244625091553)]
novel


  vectors = vstack(self.word_vec(word, use_norm=True) for word in used_words).astype(REAL)


### Как дообучить существующую модель

При тренировке модели "с нуля" веса инициализируются случайно, однако можно использовать для инициализации векторов веса из предобученной модели, таким образом как бы дообучая ее.

Сначала посмотрим близость какой-нибудь пары слов в имеющейся модели, чтобы потом сравнить результат с дообученной.

In [None]:
model_en.wv.similarity('lion', 'rabbit')

0.24829

В качестве дополнительных данных для обучения возьмем английский текст «Алисы в Зазеркалье».

In [None]:
wget.download('https://raw.githubusercontent.com/ancatmara/data-science-nlp/master/data/w2v/train/alice.txt')

'alice.txt'

In [None]:
with open("alice.txt", 'r', encoding='utf-8') as f:
    text = f.read()

# убираем переносы строк, токенизируем текст
text = re.sub('\n', ' ', text)
sents = sent_tokenize(text)

# убираем всю пунктуацию и делим текст на слова по пробелу
punct = '!"#$%&()*+,-./:;<=>?@[\]^_`{|}~„“«»†*—/\-‘’'
clean_sents = []
for sent in sents:
    s = [w.lower().strip(punct) for w in sent.split()]
    clean_sents.append(s)
    
print(clean_sents[:2])

[['through', 'the', 'looking-glass', 'by', 'lewis', 'carroll', 'chapter', 'i', 'looking-glass', 'house', 'one', 'thing', 'was', 'certain', 'that', 'the', 'white', 'kitten', 'had', 'had', 'nothing', 'to', 'do', 'with', 'it', '', 'it', 'was', 'the', 'black', 'kitten’s', 'fault', 'entirely'], ['for', 'the', 'white', 'kitten', 'had', 'been', 'having', 'its', 'face', 'washed', 'by', 'the', 'old', 'cat', 'for', 'the', 'last', 'quarter', 'of', 'an', 'hour', 'and', 'bearing', 'it', 'pretty', 'well', 'considering', 'so', 'you', 'see', 'that', 'it', 'couldn’t', 'have', 'had', 'any', 'hand', 'in', 'the', 'mischief']]


Чтобы дообучить модель, надо сначала ее сохранить, а потом загрузить. Все параметры тренировки (размер вектора, мин. частота слова и т.п.) будут взяты из загруженной модели, т.е. задать их заново нельзя.

**NB!** Дообучить можно только полную модель, а `KeyedVectors` — нельзя. Поэтому сохранять модель нужно в соотвествующем формате. Подробнее о разнице [вот тут](https://radimrehurek.com/gensim/models/keyedvectors.html).

In [None]:
model_path = "movie_reviews.model"

print("Saving model...")
model_en.save(model_path)

Saving model...


In [None]:
model = word2vec.Word2Vec.load(model_path)

model.build_vocab(clean_sents, update=True)
model.train(clean_sents, total_examples=model.corpus_count, epochs=5)

(96966, 150225)

Лев и кролик стали ближе друг к другу!

In [None]:
model.wv.similarity('lion', 'rabbit')

0.27764016

Можно нормализовать вектора, тогда модель будет занимать меньше RAM. Однако после этого её нельзя дотренировывать. Здесь используется L2-нормализация: вектора нормализуются так, что если сложить квадраты всех элементов вектора, в сумме получится 1. 

Кроме того, сохраним не полные вектора, а `KeyedVectors`.

In [None]:
model.init_sims(replace=True)
model_path = "movies_alice.bin"

print("Saving model...")
model.wv.save_word2vec_format(model_path, binary=True)

Saving model...


## Оценка

Это, конечно, хорошо, но как понять, какая модель лучше? Или, например, мы обучили модель, а как понять, насколько она хорошая?

Для этого существуют специальные датасеты для оценки качества дистрибутивных моделей. Основных два: один измеряет точность решения задач на аналогии (про Россию и пельмени), а второй используется для оценки коэффициента семантической близости. 


### Word Similarity

Этот метод заключается в том, чтобы оценить, насколько представления о семантической близости слов в модели соотносятся с "представлениями" людей.

| слово 1    | слово 2    | близость | 
|------------|------------|----------|
| кошка      | собака     | 0.7      |  
| чашка      | кружка     | 0.9      |       

Для каждой пары слов из заранее заданного датасета мы можем посчитать косинусное расстояние, и получить список таких значений близости. При этом у нас уже есть список значений близостей, сделанный людьми. Мы можем сравнить эти два списка и понять, насколько они похожи (например, посчитав корреляцию). Эта мера схожести должна говорить о том, насколько модель хорошо моделирует расстояния до слова.

Для оценки модели по word similarity существует два известных датасета: SimLex и WordSim-353. SimLex отличается тем, что представленные в нем значения характеризуют именно степень близости слов в паре, а в WordSim-353 значения отражают некоторую связь или ассоциированность слов друг с другом. 

Пример (взят [отсюда](https://fh295.github.io/simlex.html), здесь же можно посмотреть более подробную информацию про датасет): 

| Words    | Simlex-999    | WordSim-353 | 
|------------|------------|----------|
| coast - shore      | 9.00     | 9.10      |  
| clothes - closet      | 1.96     | 9.00      |



Датасеты для русского языка можно скачать на странице с моделями на RusVectores. 

In [None]:
wget.download('https://rusvectores.org/static/testsets/ru_simlex999_tagged.tsv')

'ru_simlex999_tagged.tsv'

In [None]:
ru_simlex = pd.read_csv('ru_simlex999_tagged.tsv', sep='\t')

In [None]:
ru_simlex.head()

Unnamed: 0,# Word1,Word2,Average Score
0,старый_ADJ,новый_ADJ,0.0
1,сообразительный_ADJ,интеллектуальный_ADJ,8.31
2,тяжелый_ADJ,трудный_ADJ,8.62
3,счастливый_ADJ,радостный_ADJ,8.46
4,тяжелый_ADJ,легкий_ADJ,0.0


In [None]:
res = model_ru.evaluate_word_pairs('ru_simlex999_tagged.tsv')

In [None]:
res

((0.3703688946199363, 1.2095602671770964e-33),
 SpearmanrResult(correlation=0.35928427387075423, pvalue=1.2688217804616558e-31),
 0.6006006006006006)

### Аналогии

Другая популярная задача для "внутренней" оценки называется задачей поиска аналогий. Как мы уже разбирали выше, с помощью простых арифметических операций мы можем модифицировать значение слова. Если заранее собрать набор слов-модификаторов, а также слов, которые мы хотим получить в результаты модификации, то на основе подсчёта количества "попаданий" в желаемое слово мы можем оценить, насколько хорошо работает модель.

В качестве слов-модификаторов мы можем использовать семантические аналогии. Скажем, если у нас есть некоторое отношение "страна-столица", то для оценки модели мы можем использовать пары наподобие "Россия-Москва", "Норвегия-Осло", и т.д. Датасет будет выглядеть следующм образом:

| слово 1    | слово 2    | отношение     | 
|------------|------------|---------------|
| Россия     | Москва     | страна-столица|  
| Норвегия   | Осло       | страна-столица|

Рассматривая случайные две пары из этого набора, мы хотим, имея триплет (Россия, Москва, Норвегия) хотим получить слово "Осло", т.е. найти такое слово, которое будет находиться в том же отношении со словом "Норвегия", как "Россия" находится с Москвой. 

Посчитаем качество нашей модели НКРЯ на датасете про аналогии:

In [None]:
wget.download('https://rusvectores.org/static/testsets/ru_analogy_tagged.txt')

'ru_analogy_tagged.txt'

In [None]:
res = model_ru.evaluate_word_analogies('ru_analogy_tagged.txt')

In [None]:
# accuracy score
res[0]

0.33603066439523

In [None]:
len(res[1])

9

In [None]:
[r['section'] for r in res[1]]

['capital-common-countries',
 'capital-world',
 'currency',
 'city-in-state',
 'family',
 'gram1-adjective-to-adverb',
 'gram2-opposite',
 'gram6-nationality-adjective',
 'Total accuracy']

In [None]:
res[1][0]['incorrect']

[('ЛОНДОН_NOUN', 'АНГЛИЯ_NOUN', 'МОСКВА_NOUN', 'РОССИЯ_NOUN'),
 ('ЛОНДОН_NOUN', 'АНГЛИЯ_NOUN', 'ПАРИЖ_NOUN', 'ФРАНЦИЯ_NOUN'),
 ('ЛОНДОН_NOUN', 'АНГЛИЯ_NOUN', 'РИМ_NOUN', 'ИТАЛИЯ_NOUN'),
 ('МОСКВА_NOUN', 'РОССИЯ_NOUN', 'ПАРИЖ_NOUN', 'ФРАНЦИЯ_NOUN'),
 ('МОСКВА_NOUN', 'РОССИЯ_NOUN', 'РИМ_NOUN', 'ИТАЛИЯ_NOUN'),
 ('МОСКВА_NOUN', 'РОССИЯ_NOUN', 'ЛОНДОН_NOUN', 'АНГЛИЯ_NOUN'),
 ('ПАРИЖ_NOUN', 'ФРАНЦИЯ_NOUN', 'РИМ_NOUN', 'ИТАЛИЯ_NOUN'),
 ('ПАРИЖ_NOUN', 'ФРАНЦИЯ_NOUN', 'ЛОНДОН_NOUN', 'АНГЛИЯ_NOUN'),
 ('ПАРИЖ_NOUN', 'ФРАНЦИЯ_NOUN', 'МОСКВА_NOUN', 'РОССИЯ_NOUN'),
 ('РИМ_NOUN', 'ИТАЛИЯ_NOUN', 'ЛОНДОН_NOUN', 'АНГЛИЯ_NOUN'),
 ('РИМ_NOUN', 'ИТАЛИЯ_NOUN', 'МОСКВА_NOUN', 'РОССИЯ_NOUN'),
 ('РИМ_NOUN', 'ИТАЛИЯ_NOUN', 'ПАРИЖ_NOUN', 'ФРАНЦИЯ_NOUN')]

In [None]:
res[1][4]['incorrect'][:10]

[('МАЛЬЧИК_NOUN', 'ДЕВОЧКА_NOUN', 'ПАПА_NOUN', 'МАМА_NOUN'),
 ('МАЛЬЧИК_NOUN', 'ДЕВОЧКА_NOUN', 'ТЕСТЬ_NOUN', 'ТЕЩА_NOUN'),
 ('МАЛЬЧИК_NOUN', 'ДЕВОЧКА_NOUN', 'ОТЧИМ_NOUN', 'МАЧЕХА_NOUN'),
 ('МАЛЬЧИК_NOUN', 'ДЕВОЧКА_NOUN', 'ДЯДЯ_NOUN', 'ТЕТЯ_NOUN'),
 ('БРАТ_NOUN', 'СЕСТРА_NOUN', 'ДЕД_NOUN', 'БАБКА_NOUN'),
 ('БРАТ_NOUN', 'СЕСТРА_NOUN', 'ОТЧИМ_NOUN', 'МАЧЕХА_NOUN'),
 ('ПАПА_NOUN', 'МАМА_NOUN', 'ПЛЕМЯННИК_NOUN', 'ПЛЕМЯННИЦА_NOUN'),
 ('ПАПА_NOUN', 'МАМА_NOUN', 'ОТЧИМ_NOUN', 'МАЧЕХА_NOUN'),
 ('ПАПА_NOUN', 'МАМА_NOUN', 'ПАСЫНОК_NOUN', 'ПАДЧЕРИЦА_NOUN'),
 ('ПАПА_NOUN', 'МАМА_NOUN', 'ДЯДЯ_NOUN', 'ТЕТЯ_NOUN')]

In [None]:
res[1][5]['incorrect'][:10]

[('УДИВИТЕЛЬНЫЙ_ADJ', 'УДИВИТЕЛЬНО_ADV', 'ОЧЕВИДНЫЙ_ADJ', 'ОЧЕВИДНО_ADV'),
 ('УДИВИТЕЛЬНЫЙ_ADJ', 'УДИВИТЕЛЬНО_ADV', 'СПОКОЙНЫЙ_ADJ', 'СПОКОЙНО_ADV'),
 ('УДИВИТЕЛЬНЫЙ_ADJ', 'УДИВИТЕЛЬНО_ADV', 'ВЕСЕЛЫЙ_ADJ', 'ВЕСЕЛО_ADV'),
 ('УДИВИТЕЛЬНЫЙ_ADJ', 'УДИВИТЕЛЬНО_ADV', 'ЭФФЕКТИВНЫЙ_ADJ', 'ЭФФЕКТИВНО_ADV'),
 ('УДИВИТЕЛЬНЫЙ_ADJ', 'УДИВИТЕЛЬНО_ADV', 'КРАСИВЫЙ_ADJ', 'КРАСИВО_ADV'),
 ('УДИВИТЕЛЬНЫЙ_ADJ', 'УДИВИТЕЛЬНО_ADV', 'ЯРОСТНЫЙ_ADJ', 'ЯРОСТНО_ADV'),
 ('УДИВИТЕЛЬНЫЙ_ADJ', 'УДИВИТЕЛЬНО_ADV', 'СЧАСТЛИВЫЙ_ADJ', 'СЧАСТЛИВО_ADV'),
 ('УДИВИТЕЛЬНЫЙ_ADJ',
  'УДИВИТЕЛЬНО_ADV',
  'НЕПОСРЕДСТВЕННЫЙ_ADJ',
  'НЕПОСРЕДСТВЕННО_ADV'),
 ('УДИВИТЕЛЬНЫЙ_ADJ', 'УДИВИТЕЛЬНО_ADV', 'НЕЧАСТЫЙ_ADJ', 'НЕЧАСТО_ADV'),
 ('УДИВИТЕЛЬНЫЙ_ADJ', 'УДИВИТЕЛЬНО_ADV', 'ОЧЕВИДНЫЙ_ADJ', 'ОЧЕВИДНО_ADV')]

## Визуализация

На полученную модель можно посмотреть, визуализировав ее, например, на плоскости.
### t-SNE

**t-SNE**  (*t-distributed Stochastic Neighbor Embedding*) — техника нелинейного снижения размерности и визуализации многомерных переменных. Она разработана специально для данных высокой размерности Л. ван дер Маатеном и Д. Хинтоном, [вот их статья](http://jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf). t-SNE — это итеративный алгоритм, основанный на вычислении попарных расстояний между всеми объектами (в том числе поэтому он довольно медленный).


Изобразим на плоскости 1000 самых частотных слов из коллекции текстов про кино:

In [None]:
from nltk import FreqDist
from tqdm import tqdm_notebook as tqdm
from sklearn.manifold import TSNE

top_words = []


fd = FreqDist()
for s in tqdm(sentences):
    fd.update(s)

for w in fd.most_common(1000):
    top_words.append(w[0])
    
print(top_words[:50:])
top_words_vec = model[top_words]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  if __name__ == '__main__':


  0%|          | 0/528987 [00:00<?, ?it/s]

['the', 'and', 'a', 'of', 'to', 'is', 'it', 'in', 'i', 'this', 'that', 's', 'was', 'as', 'with', 'for', 'movie', 'but', 'film', 'you', 't', 'on', 'not', 'he', 'are', 'his', 'have', 'be', 'one', 'all', 'they', 'at', 'by', 'who', 'an', 'from', 'so', 'like', 'there', 'or', 'her', 'just', 'about', 'out', 'has', 'if', 'what', 'some', 'good', 'can']


  app.launch_new_instance()


In [None]:
top_words_vec = model[top_words]

  """Entry point for launching an IPython kernel.


In [None]:
%%time
tsne = TSNE(n_components=2, random_state=0)
top_words_tsne = tsne.fit_transform(top_words_vec)

CPU times: user 15.5 s, sys: 59.6 ms, total: 15.5 s
Wall time: 8.32 s


In [None]:
!pip install bokeh



In [None]:
from bokeh.models import ColumnDataSource, LabelSet
from bokeh.plotting import figure, show, output_file
from bokeh.io import output_notebook
output_notebook()

p = figure(tools="pan,wheel_zoom,reset,save",
           toolbar_location="above",
           title="word2vec T-SNE (eng model, top1000 words)")

source = ColumnDataSource(data=dict(x1=top_words_tsne[:,0],
                                    x2=top_words_tsne[:,1],
                                    names=top_words))

p.scatter(x="x1", y="x2", size=8, source=source)

labels = LabelSet(x="x1", y="x2", text="names", y_offset=6,
                  text_font_size="8pt", text_color="#555555",
                  source=source, text_align='center')
p.add_layout(labels)

show(p)

Чтобы вычислить преобразование t-SNE быстрее (и иногда еще и эффективнее), можно сперва снизить размерность исходных данных с помощью, например, SVD, и потом применять t-SNE:

In [None]:
from sklearn.decomposition import TruncatedSVD

svd_50 = TruncatedSVD(n_components=50)
top_words_vec_50 = svd_50.fit_transform(top_words_vec)
top_words_tsne2 = TSNE(n_components=2, random_state=0).fit_transform(top_words_vec_50)

In [None]:
output_notebook()

p = figure(tools="pan,wheel_zoom,reset,save",
           toolbar_location="above",
           title="word2vec T-SNE (eng model, top1000 words, +SVD)")

source = ColumnDataSource(data=dict(x1=top_words_tsne2[:,0],
                                    x2=top_words_tsne2[:,1],
                                    names=top_words))

p.scatter(x="x1", y="x2", size=8, source=source)

labels = LabelSet(x="x1", y="x2", text="names", y_offset=6,
                  text_font_size="8pt", text_color="#555555",
                  source=source, text_align='center')
p.add_layout(labels)

show(p)

## FastText

FastText использует не только эмбеддинги слов, но и эмбеддинги n-грам. В корпусе каждое слово автоматически представляется в виде набора символьных n-грамм. Скажем, если мы установим n=3, то вектор для слова "where" будет представлен суммой векторов следующих триграм: "<wh", "whe", "her", "ere", "re>" (где "<" и ">" символы, обозначающие начало и конец слова). Благодаря этому мы можем также получать вектора для слов, отсутствуюших в словаре, а также эффективно работать с текстами, содержащими ошибки и опечатки.

* [Статья](https://aclweb.org/anthology/Q17-1010)
* [Сайт](https://fasttext.cc/)
* [Тьюториал](https://fasttext.cc/docs/en/support.html)
* [Вектора для 157 языков](https://fasttext.cc/docs/en/crawl-vectors.html)
* [Вектора, обученные на википедии](https://fasttext.cc/docs/en/pretrained-vectors.html) (отдельно для 294 разных языков)
* [Репозиторий](https://github.com/facebookresearch/fasttext)

Есть библиотека `fasttext` для питона (с готовыми моделями можно работать и через `gensim`).

In [None]:
! git clone https://github.com/facebookresearch/fastText.git
! pip3 install fastText/.

Cloning into 'fastText'...
remote: Enumerating objects: 3854, done.[K
remote: Total 3854 (delta 0), reused 0 (delta 0), pack-reused 3854[K
Receiving objects: 100% (3854/3854), 8.22 MiB | 8.13 MiB/s, done.
Resolving deltas: 100% (2417/2417), done.
Processing ./fastText
[33m  DEPRECATION: A future pip version will change local packages to be built in-place without first copying to a temporary directory. We recommend you use --use-feature=in-tree-build to test your packages with this new behavior before it becomes the default.
   pip 21.3 will remove support for this functionality. You can find discussion regarding this at https://github.com/pypa/pip/issues/7555.[0m
Collecting pybind11>=2.2
  Using cached pybind11-2.7.1-py2.py3-none-any.whl (200 kB)
Building wheels for collected packages: fasttext
  Building wheel for fasttext (setup.py) ... [?25l[?25hdone
  Created wheel for fasttext: filename=fasttext-0.9.2-cp37-cp37m-linux_x86_64.whl size=3089440 sha256=50cefa7c5b93819649dc3f614f

In [None]:
import fasttext

# так можно обучить свою модель 
ft_model = fasttext.train_unsupervised('clean_text.txt', minn=3, maxn=4, dim=300)

In [None]:
ft_model.get_word_vector("movie")[:20]

array([-3.5724349e-02,  1.5806392e-01, -1.3197571e-01, -4.5851242e-02,
        1.0756073e-01,  2.1744418e-01, -1.3233766e-01,  2.3656288e-02,
        2.3574886e-04,  2.4302509e-01,  3.1672448e-02,  1.3429575e-01,
       -3.9285820e-02, -1.5303555e-02,  3.5048094e-02,  5.0537534e-02,
        3.0989463e-02, -2.9735494e-01, -1.1168097e-03,  1.6018635e-01],
      dtype=float32)

In [None]:
ft_model.get_nearest_neighbors('actor')

[(0.9999606013298035, 'actors'),
 (0.9999364018440247, 'attractive'),
 (0.9999338984489441, 'fact'),
 (0.9999316334724426, 'actual'),
 (0.9999226331710815, 'display'),
 (0.9999191761016846, 'terrific'),
 (0.9999188780784607, 'battle'),
 (0.9999170899391174, 'israel'),
 (0.9999163746833801, 'british'),
 (0.9999160170555115, 'predator')]

In [None]:
ft_model.get_analogies("woman", "man", "actor")

[(0.999938428401947, 'act'),
 (0.9998956918716431, 'exactly'),
 (0.9998955726623535, 'actress'),
 (0.999885082244873, 'seemingly'),
 (0.9998830556869507, 'terrible'),
 (0.9998824596405029, 'surprisingly'),
 (0.9998821020126343, 'believable'),
 (0.9998811483383179, 'double'),
 (0.9998807907104492, 'written'),
 (0.9998795986175537, 'cable')]

In [None]:
# проблема с опечатками решена

ft_model.get_nearest_neighbors('actr')

[(0.9999391436576843, 'act'),
 (0.9998903274536133, 'actors'),
 (0.9998863339424133, 'actor'),
 (0.9998792409896851, 'actress'),
 (0.9998623728752136, 'single'),
 (0.9998517632484436, 'actual'),
 (0.9998226761817932, 'terrible'),
 (0.9998196363449097, 'exact'),
 (0.9998190402984619, 'plot'),
 (0.9998172521591187, 'wrong')]

In [None]:
# проблема с out of vocabulary словами - тоже

ft_model.get_nearest_neighbors('moviegeek')

[(0.9999324679374695, 'reviews'),
 (0.9999246597290039, 'review'),
 (0.9999151825904846, 'recommended'),
 (0.9999132752418518, 'rented'),
 (0.9998916387557983, 'waste'),
 (0.999889075756073, 'movie'),
 (0.9998835921287537, 'thank'),
 (0.9998812079429626, 'not'),
 (0.9998751878738403, 'watchable'),
 (0.9998645782470703, 'only')]

In [None]:
wget.download('https://docs.google.com/uc?export=download&id=1arbctWfWZR4X2N7RSEPbkQmBfcN1MYne')

'positive.csv'

In [None]:
wget.download('https://docs.google.com/uc?export=download&id=1deB7ELfkEQdWzRVZwfMsgqrYdSwN2BK5')

'negative.csv'

In [None]:
positive = pd.read_csv('positive.csv', sep=';', usecols=[3], names=['text'])
positive['label'] = ['positive'] * len(positive)
negative = pd.read_csv('negative.csv', sep=';', usecols=[3], names=['text'])
negative['label'] = ['negative'] * len(negative)
df = positive.append(negative)
df.head()

Unnamed: 0,text,label
0,"@first_timee хоть я и школота, но поверь, у на...",positive
1,"Да, все-таки он немного похож на него. Но мой ...",positive
2,RT @KatiaCheh: Ну ты идиотка) я испугалась за ...,positive
3,"RT @digger2912: ""Кто то в углу сидит и погибае...",positive
4,@irina_dyshkant Вот что значит страшилка :D\nН...,positive


In [None]:
len(df)

226834

Проведем стандартный препроцессинг:

In [None]:
! pip install pymorphy2



In [None]:
import pymorphy2
from functools import lru_cache
from multiprocessing import Pool
import numpy as np
from sklearn.model_selection import train_test_split
from tqdm import tqdm_notebook as tqdm
import re

m = pymorphy2.MorphAnalyzer()

regex = re.compile("[А-Яа-я:=!\)\()A-z\_\%/|]+")

def words_only(text, regex=regex):
    try:
        return regex.findall(text)
    except:
        return []

In [None]:
#@lru_cache(maxsize=128)
# если вы работаете не колабе, можно заменить pymorphy на mystem и раскомментирвать первую строку про lru_cache
def lemmatize(text, pymorphy=m):
    try:
        return " ".join([pymorphy.parse(w)[0].normal_form for w in text])
    except:
        return " "    

In [None]:
def clean_text(text):
    return lemmatize(words_only(text))

In [None]:
with Pool(8) as p:
    lemmas = list(tqdm(p.imap(clean_text, df['text']), total=len(df)))

    
df['lemmas'] = lemmas
df.head()

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  


  0%|          | 0/226834 [00:00<?, ?it/s]

Unnamed: 0,text,label,lemmas
0,"@first_timee хоть я и школота, но поверь, у на...",positive,first_timee хоть я и школотый но поверь у мы т...
1,"Да, все-таки он немного похож на него. Но мой ...",positive,да всё таки он немного похожий на он но мой ма...
2,RT @KatiaCheh: Ну ты идиотка) я испугалась за ...,positive,rt katiacheh: ну ты идиотка) я испугаться за т...
3,"RT @digger2912: ""Кто то в углу сидит и погибае...",positive,rt digger : кто то в угол сидеть и погибать от...
4,@irina_dyshkant Вот что значит страшилка :D\nН...,positive,irina_dyshkant вот что значит страшилка :d но ...


Запишем полученные данные в формате для обучения классификатора:

In [None]:
X = df.lemmas.tolist()
y = df.label.tolist()

X, y = np.array(X), np.array(y)

X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.33)
print ("total train examples %s" % len(y_train))
print ("total test examples %s" % len(y_test))

total train examples 151978
total test examples 74856


In [None]:
with open('data.train.txt', 'w+') as outfile:
    for i in range(len(X_train)):
        outfile.write('__label__' + y_train[i] + ' '+ X_train[i] + '\n')
    

with open('test.txt', 'w+') as outfile:
    for i in range(len(X_test)):
        outfile.write('__label__' + y_test[i] + ' ' + X_test[i] + '\n')

In [None]:
classifier = fasttext.train_supervised('data.train.txt')
result = classifier.test('test.txt')

print('P@1:', result[1])
print('R@1:', result[2])
print('Number of examples:', result[0])

P@1: 0.8971491931174522
R@1: 0.8971491931174522
Number of examples: 74856


## Поиск

Близость векторных представлений текстов может использоваться для поиска по запросу в коллекции текстов. 

Библиотека [faiss](https://github.com/facebookresearch/faiss) позволяет реализовать быстрый поиск ближайших векторов коллекции по заданной метрике для вектора запроса.

In [None]:
!pip install faiss-cpu

Collecting faiss-cpu
  Downloading faiss_cpu-1.7.1.post2-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (8.4 MB)
[K     |████████████████████████████████| 8.4 MB 8.2 MB/s 
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.7.1.post2


In [None]:
import numpy as np 
import faiss

В качестве эмбеддинга для всего текста запроса возьмем усреднение эмбеддингов всех входящих в него слов. Можно также вместо усреднения использовать взвешивание векторов слов в соответствии со значениями TfIdf для каждого слова.

In [None]:
def get_request_vector(request, model):
    vec = np.zeros(model.vector_size)
    # preprocess request
    request = review_to_wordlist(request)

    for word in request:
        if word in model.wv.vocab:
          embed = model.wv[word]
          embed_norm = embed / np.linalg.norm(embed)
          vec += embed_norm

    vec /= len(request)
    v = np.float32(np.array([vec]))
    v /= np.linalg.norm(v)
    return v

In [None]:
request = 'dramatic movie with happy end'
request_vec = get_request_vector(request, model_en)
request_vec

array([[-0.14008893, -0.05472086,  0.04944191, -0.12559474,  0.0020567 ,
         0.06123541, -0.06840551, -0.02292167, -0.01698559, -0.13881059,
         0.03440171,  0.02575296, -0.00401176,  0.13437031,  0.06472372,
        -0.04569431,  0.04746609, -0.03772945, -0.06949411,  0.04137134,
         0.06221985,  0.02163425,  0.03653148,  0.09964787, -0.00707901,
         0.0590613 , -0.08605307, -0.13165176, -0.03119404, -0.07059683,
         0.04037188,  0.15663204, -0.13842455,  0.00062374,  0.06131497,
        -0.06269666, -0.04445466,  0.1038482 , -0.03465127,  0.00544905,
        -0.01438187,  0.02504616,  0.11183251, -0.02822146, -0.06709478,
        -0.09793874, -0.08441784,  0.02302384, -0.04776574,  0.03626308,
        -0.05412297,  0.08464146, -0.03686461, -0.15292962,  0.03410385,
        -0.02412965,  0.04619692,  0.03198663,  0.01467675, -0.00583908,
         0.0940173 ,  0.01205364, -0.08025536, -0.01013465,  0.04553871,
        -0.08301811,  0.04716833, -0.04283306,  0.0

Подготовим матрицу эмбеддингов для всех текстов, по которым будет осуществляться поиск.

In [None]:
def get_texts_matr(texts, model):
  matr = np.zeros((len(texts), model.vector_size))
  for i in range(len(texts)):
    matr[i] = get_request_vector(texts[i], model)

  return matr

In [None]:
texts = [' '.join(sent) for sent in sentences[:500]]

In [None]:
embeddings_matr = get_texts_matr(texts, model_en)

  
  if sys.path[0] == '':


In [None]:
embeddings_matr.shape

(500, 300)

Далее нужно построить индекс для поиска по матрице векторов. Список доступных в faiss метрик близости можно посмотреть [здесь](https://github.com/facebookresearch/faiss/wiki/Faiss-indexes), в данном случае будем использовать Inner Product с предварительной нормализацией векторов, чтобы искать ближайшие вектора по косинусной близости. 

In [None]:
def init_index(embeddings, embed_dim):
    index = faiss.IndexFlatIP(embed_dim)
    # index2id = {}
    for i in range(embeddings.shape[0]):
      
        index.add(np.float32(np.array([embeddings_matr[i]])))
        # index2id[i] = doc_id
    return index

In [None]:
index = init_index(embeddings_matr, model_en.vector_size)

In [None]:
top_n = 5
D, I = index.search(request_vec, top_n)

In [None]:
# индексы найденных текстов
I[0]

array([167, 272, 414, 418, 117])

In [None]:
# значения метрик
D[0]

array([0.5567399 , 0.54188097, 0.5316471 , 0.5313479 , 0.52863854],
      dtype=float32)

In [None]:
for i in I[0]:
  print(texts[i])

the biggest failure for che is that it does not have any emotional engagement with its characters it is happy to leisurely move through the film che is a likable film but it does not grip or pull at your heartstrings
the movie is dreadful because by the end of the movie you ll wish you never seen it cause it is too slow and boring the script wasn t that bad at all the character is well written but the situation is boring and dreadful and the sentimental stuff was overdone that it end up being really cheesy
it also definitely helps the movie that the three of them are real life friends and went to college together along with the movie its director willem van de sande bakhuyzen it definitely shows on screen since they all have such a great chemistry and share some great anticipation and reaction with each other
it means that the movie also feels stagey at times with its characters and dialog
it does this all the while without feeling disjointed it has an elegance and clever subtly when i

## Задание

1. Мы будем работать с (частичными) данными lenta.ru отсюда: https://www.kaggle.com/yutkin/corpus-of-russian-news-articles-from-lenta/
2. Проведите препроцессинг текста. Разбейте данные на train и test для задачи классификации (в качестве метки класса будем использовать поле topic). В качестве данных для классификации в пунктах 3 и 5 возьмите
    - только заголовки (title)
    - только тексты новости (text)
    - и то, и другое
3. Обучите fastText для классификации текстов по темам. Сравните качество для разных данных из п. 2.
4. Обучите свою модель w2v (или возьмите любую подходящую предобученную модель). Реализуйте функцию для вычисления вектора текста / заголовка / текста+заголовка как среднего вектора входящих в него слов. 
     - (Бонус) Модифицируйте функцию вычисления среднего вектора: взвешивайте вектора слов соответствующими весами tf-idf.
5. Обучите на полученных средних векторах алгоритм классификации, сравните полученное качество с классификатором fastText. 

In [None]:
!pip install corus
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

Collecting corus
  Downloading corus-0.9.0-py3-none-any.whl (83 kB)
[?25l[K     |████                            | 10 kB 17.5 MB/s eta 0:00:01[K     |███████▉                        | 20 kB 12.9 MB/s eta 0:00:01[K     |███████████▊                    | 30 kB 9.9 MB/s eta 0:00:01[K     |███████████████▊                | 40 kB 9.0 MB/s eta 0:00:01[K     |███████████████████▋            | 51 kB 5.3 MB/s eta 0:00:01[K     |███████████████████████▌        | 61 kB 5.5 MB/s eta 0:00:01[K     |███████████████████████████▌    | 71 kB 5.4 MB/s eta 0:00:01[K     |███████████████████████████████▍| 81 kB 5.9 MB/s eta 0:00:01[K     |████████████████████████████████| 83 kB 1.0 MB/s 
[?25hInstalling collected packages: corus
Successfully installed corus-0.9.0
--2021-09-15 21:58:18--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 140.82.112.3
Connecting to github.com (github.com)|140.82.112.3|:443... 

In [None]:
from corus import load_lenta

path = 'lenta-ru-news.csv.gz'
records = load_lenta(path)
data = [(record.title, record.topic, record.text, record.tags) for record in records]

In [None]:
lenta = pd.DataFrame(data, columns=['title','topic','text','tags'])
lenta = lenta[lenta['topic'].isin(['Экономика','Спорт','Культура','Наука и техника','Бизнес'])]

In [None]:
lenta.head()

Unnamed: 0,title,topic,text,tags
1,Австрия не представила доказательств вины росс...,Спорт,Австрийские правоохранительные органы не предс...,Зимние виды
11,Овечкин повторил свой рекорд,Спорт,Капитан «Вашингтона» Александр Овечкин сделал...,Хоккей
13,Названы регионы России с самым дорогим и дешев...,Экономика,Производитель онлайн-касс «Эвотор» проанализир...,Деньги
14,Россию и Украину пригласили на переговоры по газу,Экономика,Вице-президент Еврокомиссии Марош Шефчович при...,Госэкономика
16,Хоккеист НХЛ забросил шайбу с отрицательного угла,Спорт,Нападающий клуба «Эдмонтон Ойлерс» Коннор Макд...,Хоккей


In [None]:
len(lenta)

258297

In [None]:
lenta.topic.value_counts()

Экономика          79538
Спорт              64421
Культура           53803
Наука и техника    53136
Бизнес              7399
Name: topic, dtype: int64