# Embeddings

## Word2Vec

Векторные модели, которые мы рассматривали до этого (BOW, мешок слов; TF-IDF), условно называются *счётными*. Они основываются на том, что так или иначе "считают" слова и их соседей, и на основе этого строят вектора для слов.

Другой класс моделей, который повсеместно распространён на сегодняшний день, называется *предсказательными* (или *нейронными*) моделями. Идея этих моделей заключается в использовании нейросетевых архитектур, которые "предсказывают" (а не считают) соседей для каждого слова.

 Одной из самых известных таких моделей является word2vec. Технология основана на нейронной сети, предсказывающей вероятность встретить слово в заданном контексте. Этот инструмент был разработан группой исследователей Google в 2013 году, руководителем проекта был Томаш Миколов (сейчас работает в Facebook). Вот две самые главные статьи:

* [Efficient Estimation of Word Representations in Vector Space](https://arxiv.org/pdf/1301.3781.pdf)
* [Distributed Representations of Words and Phrases and their Compositionality](https://arxiv.org/abs/1310.4546)


Полученные таким образом вектора называются *распределенными представлениями слов*, вложениями или **эмбеддингами**.
По сути мы тоже делаем **transfer learning**, но теперь для текстов, а не для картинок.


### Как это обучается?
Мы задаём вектор для каждого слова с помощью матрицы $w$ и вектор контекста с помощью матрицы $W$. По сути, word2vec является обобщающим названием для двух архитектур Skip-Gram и Continuous Bag-Of-Words (CBOW).  

![](https://www.researchgate.net/profile/Daniel_Braun6/publication/326588219/figure/fig1/AS:652185784295425@1532504616288/Continuous-Bag-of-words-CBOW-CB-and-Skip-gram-SG-training-model-illustrations.png)

**CBOW** предсказывает текущее слово, исходя из окружающего его контекста.

**Skip-gram**, наоборот, использует текущее слово, чтобы предугадывать окружающие его слова.

### Как это работает?
Word2vec принимает большой текстовый корпус в качестве входных данных и сопоставляет каждому слову вектор, выдавая координаты слов на выходе. Сначала он создает словарь, «обучаясь» на входных текстовых данных, а затем вычисляет векторное представление слов.

Векторное представление основывается на *контекстной близости*: слова, встречающиеся в тексте рядом с одинаковыми словами (а следовательно, согласно дистрибутивной гипотезе, имеющие схожий смысл), в векторном представлении будут иметь близкие координаты векторов-слов. Для вычисления близости слов используется косинусное расстояние между их векторами.


С помощью дистрибутивных векторных моделей можно строить семантические пропорции (они же аналогии: А относится к B так же, как C относится к D) и решать примеры:

* *король: мужчина = королева: женщина*
 $\Rightarrow$
* *король - мужчина + женщина = королева*

# Semi-supervised learning

Для слов нет лейблов, но мы используем слова в контексте для сбора обучающей выборки.

# Skip gram

(Предсказание контекста по слову, один из основных параметров - windows_size)

![Замещающий текст](http://mccormickml.com/assets/word2vec/training_data.png)

1. Представляем корпус текста в формате One-hot encoding, подаем вектор на вход нейросети

2. В качестве активации последнего слоя используем softmax -> переходим в пространство вероятностей (как будто задача классификации с очень большим количеством классов)

3. Предсказываем слово контектса по максимальной вероятности

![Замещающий текст](https://sysblok.ru/wp-content/uploads/2019/08/image5-3-1024x640.png)

## Fake task



В итоге наша цель получить веса модели - вектора представления слов (а не действительно предсказывать контекст)

![](http://mccormickml.com/assets/word2vec/matrix_mult_w_one_hot.png)


Модель хорошо работает с небольшим количеством тренировочных данных

# CBOW

![](https://iksinc.files.wordpress.com/2015/04/screen-shot-2015-04-12-at-10-58-21-pm.png)

Тренируется быстрее, чем SkipGram, лучше точность на редких словах


![w2v](https://developers.google.com/static/machine-learning/guides/text-classification/images/WordEmbeddings.png)

### Проблемы
Невозможно установить тип семантических отношений между словами: синонимы, антонимы и т.д. будут одинаково близки, потому что обычно употребляются в схожих контекстах. Поэтому близкие в векторном пространстве слова называют *семантическими ассоциатами*. Это значит, что они семантически связаны, но как именно — непонятно.


## RusVectōrēs


На сайте [RusVectōrēs](https://rusvectores.org/ru/) собраны предобученные на различных данных модели для русского языка, а также можно поискать наиболее близкие слова к заданному, посчитать семантическую близость нескольких слов и порешать примеры с помощью «калькулятора семантической близости».


Для других языков также можно найти предобученные модели — например, модели [fastText](https://fasttext.cc/docs/en/english-vectors.html) и [GloVe](https://nlp.stanford.edu/projects/glove/) (о них чуть дальше).

## Gensim

Использовать предобученную модель эмбеддингов или обучить свою можно с помощью библиотеки `gensim`. Вот [ее документация](https://radimrehurek.com/gensim/models/word2vec.html).

### Как использовать готовую модель

Модели word2vec бывают разных форматов:

* .vec.gz — обычный файл (текстовый)
* .bin.gz — бинарный файл

Загружаются они с помощью одного и того же класса `KeyedVectors`, меняется только параметр `binary` у функции `load_word2vec_format`.

Если же эмбеддинги обучены **не** с помощью word2vec, то для загрузки нужно использовать функцию `load`. Т.е. **для загрузки предобученных эмбеддингов *glove, fasttext, bpe* и любых других нужна именно она**.

Скачаем с RusVectōrēs модель для русского языка, обученную на НКРЯ образца 2015 г.

Для начала импортируем необходимые библиотеки:

In [1]:
import sys
import subprocess

# Instalar gensim en el Python actual (3.13.1)
subprocess.check_call([sys.executable, "-m", "pip", "install", "gensim"])

print("Gensim instalado. Por favor reinicia el kernel y luego importa.")

Gensim instalado. Por favor reinicia el kernel y luego importa.


In [2]:
import urllib.request # библиотека для скачивания данных

import gensim # библиотека для загрузки и использвоания моделй w2v
from gensim.models import word2vec # непосредственно методы w2v

In [None]:
# скачиваем модель ruscorpora_mystem_cbow_300 с сайта rusvectores
# 300 - размерность вектора embeddings для слов

# urllib.request.urlretrieve("http://rusvectores.org/static/models/rusvectores2/ruscorpora_mystem_cbow_300_2_2015.bin.gz", "ruscorpora_mystem_cbow_300_2_2015.bin.gz")
urllib.request.urlretrieve("http://vectors.nlpl.eu/repository/20/180.zip", "180.zip")

KeyboardInterrupt: 

In [3]:
import os
print("Contenido del directorio:")
print(os.listdir('.'))

Contenido del directorio:
['.git', '.gitignore', '180', 'alice.txt', 'clean_text.txt', 'Concept.md~', 'Copia original', 'fastText', 'mi_grafico_tsne.html', 'movies_alice.bin', 'movie_reviews.model', 'negative.csv', 'NLP2.ipynb', 'positive.csv', 'README.md~', 'requirements.txt', 'ru_analogy_tagged.txt', 'ru_analogy_tagged_upos.txt', 'tarea.pdf', 'tareaWord.docx', 'unlabeledTrainData.tsv', 'venv']


In [4]:
s = "1.0967804 -2.2944486 1.9791678 0.3480437 0.40753922 1.3286122 -0.93368673 0.5494722 -0.6807762 -0.749637 -0.080936104 0.0657883 -0.8856494 0.5079396 -1.086411 -0.4331763 0.020482888 -0.005711998 -1.0036458 0.3172968 1.1956499 1.0685917 -0.89309484 0.74419886 0.44171312 -0.20080043 -2.6623638 0.1759832 -2.0019765 -0.56796205 -0.20350738 -0.7399762 0.80226004 1.4174094 0.10990121 1.2313192 1.66555 -0.2618713 1.7604357 -0.31903556 2.426693 -1.2458172 1.0440445 2.797897 -0.82489556 0.4360318 0.9231148 -0.18360819 -0.06358273 0.29669294 0.563888 2.55353 2.304695 -1.8354168 -0.68992484 -1.3858901 -1.5620509 -1.3749862 -2.1975157 1.106874 -1.191033 -1.6919045 1.298686 -1.6650962 0.765335 1.7246596 0.36263967 0.63627464 1.8661187 -0.21320938 0.12465114 1.4016855 1.3836783 -0.221807 -0.06359134 -0.6489555 1.0426704 0.032523163 -2.4626455 3.2399185 -1.4561642 -0.00015617782 -2.1234381 -2.1946747 -2.5850182 -0.23289078 0.2805085 1.0394206 -2.6780462 -0.07617694 -0.88362336 0.64979047 2.2822413 1.5245788 -0.052706778 1.4810644 -1.0669724 1.3186673 0.33882877 -0.08544282 2.0553036 0.31352252 -2.5240443 0.95207083 -0.7136112 -1.1406686 -3.2639513 2.0501766 1.030644 -1.7454411 -0.3580492 2.1014802 1.036236 -0.75109017 -0.486075 0.087713644 0.52515376 2.3160763 1.1250384 -3.303132 0.78317904 -0.24642365 -0.6400011 1.0263929 0.961937 1.8545392 0.5448975 -0.30396858 1.2876836 3.0888455 -1.7404565 -3.5069118 0.15819016 1.4731908 2.4563396 1.3729837 0.5419908 0.31848156 -1.435735 -0.92718613 -2.3849835 -1.414368 -1.0865172 0.9625899 -1.1447519 2.3551738 0.5410648 0.7056803 -0.21696945 1.6292019 1.2494777 0.56514347 -2.357073 0.7346662 -0.8147335 0.43178725 -1.5202926 1.1549335 -0.8018957 2.4982815 -1.2743229 2.2307663 -1.8152403 -2.0343919 -0.6778364 0.5040609 -0.46591407 -0.039412666 1.0584725 1.337497 -0.90824944 0.9871738 -1.1770704 -2.2429724 -0.29600647 1.2257212 0.65517193 -0.32111257 -1.7304553 -0.76232827 -0.053535003 0.23281984 -0.95789707 0.8585043 0.5859607 0.51814044 0.9148407 0.023977833 1.2829818 -2.3272493 1.6203849 -0.4330552 0.051956218 1.6541086 0.9835533 -0.6490529 0.66890115 -0.2647509 -0.38891885 -0.5091467 -1.7549558 -2.2992249 -0.98530406 0.85996217 -1.9670392 0.26907313 0.7482162 0.33709395 -1.3986721 -1.9041904 0.36266187 -0.27421668 -1.1691334 1.1694051 -1.7327256 -1.1168655 0.017077647 -0.7579609 -1.0994148 -0.839054 -0.41241398 -0.25801688 0.8118757 1.8546591 -0.48946378 0.42190725 -0.28447872 -3.0851378 1.0002345 -1.675362 -0.93490523 -0.38452882 1.831201 1.0109259 -2.674635 0.18883951 1.9665631 3.7889402 -2.1134558 3.7283251 -0.61471695 -0.75607616 0.8317079 0.3362513 -2.6199396 0.67328507 1.5428456 -1.2069672 1.3842175 -2.1026692 0.56212884 -0.93531466 -0.9123665 0.63305396 2.0393972 1.5277815 -0.13641222 0.6957588 1.8950691 -0.63797045 -2.0564327 0.7198036 0.33926278 -2.3420603 -4.290701 -0.23827836 0.5137263 1.062521 1.6868784 1.0223539 -0.92437 -1.1757971 0.3735029 3.6148684 0.2944565 1.7372745 1.2462198 -0.9987387 -1.2535462 0.93148404 2.0533524 -0.21815386 0.20002785 -0.44034436 1.241798 -1.1121799 1.7288289 -0.6743066 0.12190645 -0.05030694 -0.7275542 -1.4262681 0.26919496 2.3919816 -0.89550036 0.8902179 -2.3782806 0.90631187 3.2207503 -0.049595397"

In [12]:
!unzip 180.zip -d 180/

"unzip" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


Загружаем скачанную модель. Обратите внимание, что мы скачали бинарный файл (.bin.gz), поэтому у функции ```load_word2vec_format()``` параметр ```binary=True```


In [5]:
# model_path = 'ruscorpora_mystem_cbow_300_2_2015.bin.gz'
model_path = '180/model.bin'

# model_ru = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=True)
model_ru = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=True)

Посмотрим на ближайших соседей следующей группы слов: Modelo embedding

In [6]:
words = ['веб-страница_NOUN', 'веб_NOUN', 'день_NOUN', 'ночь_NOUN', 'человек_NOUN', 'семантика_NOUN', 'биткоин_NOUN', 'сибирь_PROPN']

Частеречные тэги (например, _NOUN, тег части речи слова) нужны, поскольку это специфика скачанной модели - она была натренирована на словах, размеченных по частям речи (и лемматизированных).

**NB!** В названиях моделей на `rusvectores` указано, какой тегсет (набор обозначений тегов) они используют (mystem, upos и т.д.)

Попросим у модели 10 ближайших соседей для каждого слова и косинусные близости для каждого:

In [7]:
for word in words:
    # есть ли слово в модели?
    if word in model_ru:
        print(word)
        # смотрим на вектор слова (его размерность 300, смотрим на первые 10 чисел)
        print(model_ru[word][:10])
        # выдаем 10 ближайших соседей слова:
        for word, sim in model_ru.most_similar(positive=[word], topn=10):
            # слово + коэффициент косинусной близости
            print(word, ': ', sim)
        print('\n')
    else:
        # Увы!
        print('Увы, слова "%s" нет в модели!' % word)

Увы, слова "веб-страница_NOUN" нет в модели!
веб_NOUN
[-0.04650252  0.78717124  1.205965    0.83268696  0.5518541   0.24840897
 -1.1708709   0.04657653 -0.27033678  0.10945284]
сервер_NOUN :  0.7153681516647339
интернет_PROPN :  0.7004684805870056
internet_PROPN :  0.6930105686187744
сайт_NOUN :  0.6928846836090088
браузер_NOUN :  0.6924328804016113
интернет_NOUN :  0.6901874542236328
сеть_PROPN :  0.6827237010002136
-страница_NOUN :  0.6802850961685181
гугл_PROPN :  0.679906964302063
-сайт_NOUN :  0.6774019002914429


день_NOUN
[ 1.805067   -0.877623   -1.0102742   2.8518744  -0.43311968 -3.7207692
 -3.4317713  -0.7634762  -4.9961104  -1.1313324 ]
неделя_NOUN :  0.7375996112823486
день_PROPN :  0.706766664981842
месяц_NOUN :  0.7037326097488403
час_NOUN :  0.6643950939178467
утро_NOUN :  0.6526744961738586
вечер_NOUN :  0.6038411259651184
сутки_NOUN :  0.5923080444335938
воскресенье_NOUN :  0.5842781066894531
полдень_NOUN :  0.5743688344955444
суббота_NOUN :  0.5345946550369263


ночь

Находить косинусную близость пары слов функцией ```similarity()```:

In [8]:
print(model_ru.similarity('человек_NOUN', 'обезьяна_NOUN'))

0.22025342


Result: Low similty with 0.22025342

У загруженной модели много различных функций. Например, можно решать задачи на семантическую близость.

Что получится, если вычесть из пиццы Италию и прибавить Сибирь?

Для решения примера в качестве параметров метода ```most_similar()``` необходимо передать:
* positive — вектора, которые мы складываем
* negative — вектора, которые вычитаем

*Замечание:* не забываем взять самый близкий элемент, для этого необходимо указать ```[0][0]```.

Что получится, если вычесть из пиццы Италию и прибавить Сибирь?

In [9]:
print(model_ru.most_similar(positive=['пицца_NOUN','сибирь_PROPN'], negative=[ 'италия_PROPN'] )[0][0])


пельмень_NOUN


In [10]:
print(model_ru.most_similar(positive=['футбол_NOUN', 'хоккей_NOUN'], negative=['россия_NOUN'])[0][0])

теннис_NOUN


In [11]:
# придумайте и проверьте с помощью метода most_similar какую-нибудь  аналогию

print(model_ru.most_similar(positive=['программист_NOUN', 'алкоголь_NOUN'], negative=['кофе_NOUN'])[0][0])

наркоман_NOUN


Метод ```doesnt_match()``` находит "лишнее слово" в группе слов:

In [12]:
model_ru.doesnt_match('пицца_NOUN пельмень_NOUN хот-дог_NOUN суши_NOUN'.split())

'хот-дог_NOUN'

### Как обучить свою модель

В качестве обучающих данных возьмем размеченные и неразмеченные отзывы о фильмах (датасет взят с Kaggle).

In [18]:
!pip3 install wget



In [13]:
import wget

In [15]:
url = "https://raw.githubusercontent.com/ancatmara/data-science-nlp/master/data/w2v/train/unlabeledTrainData.tsv"
filename = wget.download(url)
print(f"\n✅ Descargado: {filename}")


✅ Descargado: unlabeledTrainData (1).tsv


Загрузим датасет в датафрейм и посмотрим на него, делаем это с помощью уже привычной библиотеки **pandas**:

In [14]:
import pandas as pd

# считываем данные в формате csv
data = pd.read_csv("unlabeledTrainData.tsv", header=0, delimiter="\t", quoting=3)

len(data)

50000

In [15]:
# проверяем, что все корректно загрузилось
data.head()

Unnamed: 0,id,review
0,"""9999_0""","""Watching Time Chasers, it obvious that it was..."
1,"""45057_0""","""I saw this film about 20 years ago and rememb..."
2,"""15561_0""","""Minor Spoilers<br /><br />In New York, Joan B..."
3,"""7161_0""","""I went to see this film with a great deal of ..."
4,"""43971_0""","""Yes, I agree with everyone on this site this ..."


In [16]:
data.iloc[10]['review']

'"After reading the comments for this movie, I am not sure whether I should be angry, sad or sickened. Seeing comments typical of people who a)know absolutely nothing about the military or b)who base everything they think they know on movies like this or on CNN reports about Abu-Gharib makes me wonder about the state of intellectual stimulation in the world.<br /><br />At the time I type this the number of people in the US military: 1.4 million on Active Duty with another almost 900,000 in the Guard and Reserves for a total of roughly 2.3 million.<br /><br />The number of people indicted for abuses at at Abu-Gharib: Currently less than 20<br /><br />That makes the total of people indicted .00083% of the total military. Even if you indict every single military member that ever stepped in to Abu-Gharib, you would not come close to making that a whole number. <br /><br />The flaws in this movie would take YEARS to cover. I understand that it\'s supposed to be sarcastic, but in reality, th

Нам необходимо отчистить данные от лишнего: убрать ссылки, html-разметку и небуквенные символы. Затем нужно привести все к нижнему регистру и токенизировать.

На выходе мы хотим получить массив из предложений, каждое из которых представляет собой массив слов.

Импортируем необходимые библиотеки и методы:

In [17]:
import sys
!{sys.executable} -m pip install nltk beautifulsoup4

"c:\Users\Usuario\Videos\Innovation" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [18]:
import nltk.data # библиотека Natural Language Toolkit
import re   # библиотека для регулярных выражений
from bs4 import BeautifulSoup # библиотека для парсинга xml
from nltk.corpus import stopwords # стоп-слова из NLTK
from nltk.tokenize import sent_tokenize, RegexpTokenizer  # токенизаторы из NLTK
# nltk.download('punkt') # для правильной работы токенизатора
nltk.download('punkt_tab') # для правильной работы токенизатора

[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Usuario\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [19]:
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

Функции для очистки данных:

In [20]:
def review_to_wordlist(review, remove_stopwords=False):
    # убираем ссылки вне тегов
    review = re.sub(r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", " ", review)
    # достаем сам текст
    review_text = BeautifulSoup(review, "lxml").get_text()
    # оставляем только буквенные символы
    review_text = re.sub("[^a-zA-Z]"," ", review_text)
    # приводим к нижнему регистру и разбиваем на слова по символу пробела
    words = review_text.lower().split()
    if remove_stopwords:
      # убираем стоп-слова
        stops = stopwords.words("english")
        words = [w for w in words if not w in stops]
    return(words)

def review_to_sentences(review, tokenizer, remove_stopwords=False):
    raw_sentences = tokenizer.tokenize(review.strip())
    sentences = []
    for raw_sentence in raw_sentences:
        if len(raw_sentence) > 0:
            sentences.append(review_to_wordlist(raw_sentence, remove_stopwords))
    return sentences

Проходим по всему датасету и парсим написанной выше функцией текст в списки слов, удаляя при этом лишнее:

In [21]:
sentences = []

print("Parsing sentences from training set...")
for review in data["review"]:
    sentences += review_to_sentences(review, tokenizer)

Parsing sentences from training set...


Посмотрим, что получилось:

In [22]:
print(len(sentences))
print(sentences[0])

529416
['watching', 'time', 'chasers', 'it', 'obvious', 'that', 'it', 'was', 'made', 'by', 'a', 'bunch', 'of', 'friends']


In [23]:
# это понадобится нам позже для обучения другой модели эмбеддингов

with open('clean_text.txt', 'w') as f:
    for s in sentences[:5000]:
        f.write(' '.join(s))
        f.write('\n')

Обучаем и сохраняем модель.


Основные параметры:
* данные должны быть итерируемым объектом
* vector_size — размер вектора,
* window — размер окна наблюдения,
* min_count — мин. частотность слова в корпусе,
* sg — используемый алгоритм обучения (0 — CBOW, 1 — Skip-gram),
* sample — порог для downsampling'a высокочастотных слов,
* workers — количество потоков,
* alpha — learning rate,
* iter — количество итераций,
* max_vocab_size — позволяет выставить ограничение по памяти при создании словаря (т.е. если ограничение превышается, то низкочастотные слова будут выбрасываться). Для сравнения: 10 млн слов = 1Гб RAM.

**NB!** Обратите внимание, что тренировка модели не включает препроцессинг! Это значит, что избавляться от пунктуации, приводить слова к нижнему регистру, лемматизировать их, проставлять частеречные теги придется до тренировки модели (если, конечно, это необходимо для вашей задачи). Т.е. в каком виде слова будут в исходном тексте, в таком они будут и в модели.

In [24]:
print("Training model...")

from gensim.models import Word2Vec
import time

print("Training model...")
start = time.time()
# обучаем модель с векторами размерности 300, длиной окна 10

model_en = word2vec.Word2Vec(sentences, workers=4, vector_size=300, min_count=10, window=10, sample=1e-3)
elapsed = time.time() - start
print(f"Modelo entrenado. Tiempo total: {elapsed:.1f} segundos")

Training model...
Training model...
Modelo entrenado. Tiempo total: 36.7 segundos


Смотрим, сколько в модели слов.

In [25]:
print(len(model_en.wv))

28308


Попробуем оценить модель вручную, порешав примеры. Несколько дано ниже, попробуйте придумать свои.

In [26]:
print(model_en.wv.most_similar(positive=["woman", "actor"], negative=["man"], topn=1))
print(model_en.wv.most_similar(positive=["dogs", "man"], negative=["dog"], topn=1))

print(model_en.wv.most_similar("usa", topn=3))

print(model_en.wv.doesnt_match("comedy thriller western novel".split()))

[('actress', 0.7570621967315674)]
[('men', 0.6298670172691345)]
[('germany', 0.7238966226577759), ('australia', 0.720360517501831), ('europe', 0.699002206325531)]
novel


### Как дообучить существующую модель

При тренировке модели "с нуля" веса инициализируются случайно, однако, можно использовать для инициализации векторов веса из предобученной модели, таким образом как бы дообучая ее.

Сначала посмотрим близость какой-нибудь пары слов в имеющейся модели, чтобы потом сравнить результат с дообученной.

In [27]:
model_en.wv.similarity('lion', 'rabbit')

np.float32(0.35459986)

В качестве дополнительных данных для обучения возьмем английский текст «Алисы в Зазеркалье».

In [32]:
url = "https://raw.githubusercontent.com/ancatmara/data-science-nlp/master/data/w2v/train/alice.txt"
filename = wget.download(url)
print(f"\n✅ Descargado: {filename}")


✅ Descargado: alice.txt


In [40]:
! wget https://raw.githubusercontent.com/ancatmara/data-science-nlp/master/data/w2v/train/alice.txt

"wget" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [28]:
with open("alice.txt", 'r', encoding='utf-8') as f:
    text = f.read()

# убираем переносы строк, токенизируем текст

text = re.sub('\n', ' ', text)
sents = sent_tokenize(text)

punct = '!"#$%&()*+,-./:;<=>?@[\]^_`{|}~„“«»†*—/\-‘’'
clean_sents = []

# убираем всю пунктуацию и делим текст на слова по пробелу
for sent in sents:
    s = [w.lower().strip(punct) for w in sent.split()]
    clean_sents.append(s)

print(clean_sents[:2])

[['through', 'the', 'looking-glass', 'by', 'lewis', 'carroll', 'chapter', 'i', 'looking-glass', 'house', 'one', 'thing', 'was', 'certain', 'that', 'the', 'white', 'kitten', 'had', 'had', 'nothing', 'to', 'do', 'with', 'it', '', 'it', 'was', 'the', 'black', 'kitten’s', 'fault', 'entirely'], ['for', 'the', 'white', 'kitten', 'had', 'been', 'having', 'its', 'face', 'washed', 'by', 'the', 'old', 'cat', 'for', 'the', 'last', 'quarter', 'of', 'an', 'hour', 'and', 'bearing', 'it', 'pretty', 'well', 'considering', 'so', 'you', 'see', 'that', 'it', 'couldn’t', 'have', 'had', 'any', 'hand', 'in', 'the', 'mischief']]


  punct = '!"#$%&()*+,-./:;<=>?@[\]^_`{|}~„“«»†*—/\-‘’'


Чтобы дообучить модель, надо сначала ее сохранить, а потом загрузить. Все параметры тренировки (размер вектора, мин. частота слова и т.п.) будут взяты из загруженной модели, т.е. задать их заново нельзя.

**NB!** Дообучить можно только полную модель (сохраненные при обучении веса и параметры модели, то есть объект самой модели), а `KeyedVectors` (просто пары "слово - вектор") — нельзя. Поэтому сохранять модель нужно в соотвествующем формате. Подробнее о разнице [вот тут](https://radimrehurek.com/gensim/models/keyedvectors.html).

In [29]:
model_path = "movie_reviews.model"

# так можно сохранить модель для последующего дообучения
print("Saving model...")
model_en.save(model_path)

Saving model...


In [30]:
# загружаем нашу обученную модель и дообучаем на текстах "Алисы"

model = word2vec.Word2Vec.load(model_path)

model.build_vocab(clean_sents, update=True)
model.train(clean_sents, total_examples=model.corpus_count, epochs=5)

(96697, 150225)

Лев и кролик стали ближе друг к другу!

In [31]:
model.wv.similarity('lion', 'rabbit')

np.float32(0.3516003)

Можно нормализовать вектора, тогда модель будет занимать меньше RAM. Однако после этого её нельзя дотренировывать. Здесь используется L2-нормализация: вектора нормализуются так, что если сложить квадраты всех элементов вектора, в сумме получится 1.

Кроме того, сохраним не полные вектора, а `KeyedVectors`.

In [32]:
model.init_sims(replace=True)
model_path = "movies_alice.bin"

print("Saving model...")
model_en.wv.save_word2vec_format(model_path, binary=True)

Saving model...


  model.init_sims(replace=True)


## Оценка

Задача обучения модели w2v - это usupervised задача (обучение без учителя), "правильных" ответов нет, поэтому нельзя вычислить некую метрику качества, чтобы сравнить две модели между собой или просто по значению одной метрики сказать, насколько хороша полученная модель.

Тем не менее, существуют специальные выборки для оценки качества дистрибутивных моделей. Основных два: один измеряет точность решения задач на аналогии (пример про Россию и пельмени), а второй используется для оценки коэффициента семантической близости.

### Word Similarity

Этот метод заключается в том, чтобы оценить, насколько представления о семантической близости слов в модели соотносятся с "представлениями" людей.

| слово 1    | слово 2    | близость |
|------------|------------|----------|
| кошка      | собака     | 0.7      |  
| чашка      | кружка     | 0.9      |       

Для каждой пары слов из заранее заданного датасета мы можем посчитать косинусное расстояние, и получить список таких значений близости. При этом у нас уже есть список значений близостей, сделанный людьми. Мы можем сравнить эти два списка и понять, насколько они похожи (например, посчитав корреляцию). Эта мера схожести должна говорить о том, насколько модель хорошо моделирует расстояния до слова.



### Аналогии

Другая популярная задача для "внутренней" оценки называется задачей поиска аналогий. Как мы уже разбирали выше, с помощью простых арифметических операций мы можем модифицировать значение слова. Если заранее собрать набор слов-модификаторов, а также слов, которые мы хотим получить в результаты модификации, то на основе подсчёта количества "попаданий" в желаемое слово мы можем оценить, насколько хорошо работает модель.

В качестве слов-модификаторов мы можем использовать семантические аналогии. Скажем, если у нас есть некоторое отношение "страна-столица", то для оценки модели мы можем использовать пары наподобие "Россия-Москва", "Норвегия-Осло", и т.д. Выборка будет выглядеть следующм образом:

| слово 1    | слово 2    | отношение     |
|------------|------------|---------------|
| Россия     | Москва     | страна-столица|  
| Норвегия   | Осло       | страна-столица|

Рассматривая случайные две пары из этого набора, мы хотим, имея триплет (Россия, Москва, Норвегия), получить слово "Осло", т.е. найти такое слово, которое будет находиться в том же отношении со словом "Норвегия", как "Россия" находится с Москвой.

Выборки для русского языка можно скачать на странице с моделями на RusVectores. Посчитаем качество нашей модели НКРЯ на выборке про аналогии:

In [41]:
url = "https://raw.githubusercontent.com/dashapopova/Preprocessing/refs/heads/master/ru_analogy_tagged.txt"
filename = wget.download(url)
print(f"\n✅ Descargado: {filename}")


✅ Descargado: ru_analogy_tagged (1).txt


In [37]:
! wget https://raw.githubusercontent.com/dashapopova/Preprocessing/refs/heads/master/ru_analogy_tagged.txt

"wget" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [33]:
with open('ru_analogy_tagged.txt','r', encoding='utf-8') as f:
  data = f.readlines()
  print (data[:10])

[': capital-common-countries\n', 'афины_S греция_S багдад_S ирак_S\n', 'афины_S греция_S бангкок_S таиланд_S\n', 'афины_S греция_S пекин_S китай_S\n', 'афины_S греция_S берлин_S германия_S\n', 'афины_S греция_S берн_S швейцария_S\n', 'афины_S греция_S каир_S египет_S\n', 'афины_S греция_S канберра_S австралия_S\n', 'афины_S греция_S ханой_S вьетнам_S\n', 'афины_S греция_S гавана_S куба_S\n']


Посчитаем точность модели на датасете с аналогиями:

In [34]:
# res = model_ru.accuracy('ru_analogy_tagged.txt')

res = model_ru.evaluate_word_analogies('ru_analogy_tagged.txt')

In [35]:


# print(res[4]['incorrect'][:10])

print(res)

(0.0, [{'section': 'capital-common-countries', 'correct': [], 'incorrect': []}, {'section': 'capital-world', 'correct': [], 'incorrect': []}, {'section': 'currency', 'correct': [], 'incorrect': []}, {'section': 'city-in-state', 'correct': [], 'incorrect': []}, {'section': 'family', 'correct': [], 'incorrect': []}, {'section': 'gram1-Aective-to-adverb', 'correct': [], 'incorrect': []}, {'section': 'gram2-opposite', 'correct': [], 'incorrect': []}, {'section': 'gram6-nationality-Aective', 'correct': [], 'incorrect': []}, {'section': 'Total accuracy', 'correct': [], 'incorrect': []}])


## Визуализация

Еще один хороший способ глазами оценить качество модели -  визуализировать ее, например, на плоскости.
### t-SNE

**t-SNE**  (*t-distributed Stochastic Neighbor Embedding*) — техника нелинейного снижения размерности и визуализации многомерных переменных. Она разработана специально для данных высокой размерности Л. ван дер Маатеном и Д. Хинтоном, [вот их статья](http://jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf). t-SNE — это итеративный алгоритм, основанный на вычислении попарных расстояний между всеми объектами (в том числе поэтому он довольно медленный).


Изобразим на плоскости 1000 самых частотных слов из коллекции текстов про кино:

In [36]:
# импортируем необходимые библиотеки
from nltk import FreqDist
from tqdm import tqdm_notebook as tqdm
from sklearn.manifold import TSNE

In [37]:
import warnings
warnings.filterwarnings('ignore')

In [38]:
top_words = []

# строим простой словарь частотности употреблений всех слов
fd = FreqDist()
for s in tqdm(sentences):
    fd.update(s)

# оставляем только 1000 самых частых слов
for w in fd.most_common(1000):
    top_words.append(w[0])

print(top_words[:50:])
# top_words_vec = model[top_words]

  0%|          | 0/529416 [00:00<?, ?it/s]

['the', 'and', 'a', 'of', 'to', 'is', 'it', 'in', 'i', 'this', 'that', 's', 'was', 'as', 'with', 'for', 'movie', 'but', 'film', 'you', 't', 'on', 'not', 'he', 'are', 'his', 'have', 'be', 'one', 'all', 'they', 'at', 'by', 'who', 'an', 'from', 'so', 'like', 'there', 'or', 'her', 'just', 'about', 'out', 'has', 'if', 'what', 'some', 'good', 'can']


Obtener vectores de las palabras seleccionadas

In [39]:
top_words_vec = model.wv[top_words]
print(f"Dimensiones de los vectores: {top_words_vec.shape}")

Dimensiones de los vectores: (1000, 300)


Применяем преобразование t-SNE для векторов выбранных 1000 слов:

In [40]:
!pip install bokeh



In [42]:
# код для отрисовки визуализации t-SNE, погружаться не надо,
# просто много настроек конфигурации :)
#%%time
# инициализируем модель
from bokeh.plotting import output_file, save



tsne = TSNE(n_components=2, random_state=0, perplexity=30)
# обучаем и применяем
top_words_tsne = tsne.fit_transform(top_words_vec)
print(f"Dimensiones después de t-SNE: {top_words_tsne.shape}")

from bokeh.models import ColumnDataSource, LabelSet
from bokeh.plotting import figure, show, output_file
from bokeh.io import output_notebook
#Muestra graficos en el notebook
output_notebook()
#crear figura
p = figure(tools="pan,wheel_zoom,reset,save",
           toolbar_location="above",
           title="word2vec T-SNE (eng model, top1000 words)",
           width=800,  height=600)
#crear fuente de datos
source = ColumnDataSource(data=dict(
    x1=top_words_tsne[:,0],
    x2=top_words_tsne[:,1],
    names=top_words
))
# Crear figura
p = figure(tools="pan,wheel_zoom,reset,save",
           toolbar_location="above",
           title="word2vec T-SNE (eng model, top1000 words, +SVD)")

p.scatter(x="x1", y="x2", size=8, source=source)

labels = LabelSet(x="x1", y="x2", text="names", y_offset=6,
                  text_font_size="8pt", text_color="#555555",
                  source=source, text_align='center')

p.add_layout(labels)

#show(p)
output_file("mi_grafico_tsne.html", 
            title="Visualización T-SNE de Word2Vec", 
            mode='inline')  # ¡Esta es la clave!

save(p)
#export_png(p, filename="mi_grafico_tsne.png")



Dimensiones después de t-SNE: (1000, 2)


'c:\\Users\\Usuario\\Videos\\Innovation Web\\Project\\NPL2\\mi_grafico_tsne.html'

Чтобы вычислить преобразование t-SNE быстрее (и иногда еще и эффективнее), можно сперва снизить размерность исходных данных с помощью, например, SVD (singular value decomposition, сингулярное разлолжение матрицы), и потом применять t-SNE.

Понизим размерность наших векторов с исходных 300 до 50 с помощью SVD:


In [45]:
# ====================================
# PARTE 2: t-SNE + SVD (como en el notebook)
# ====================================

from sklearn.decomposition import TruncatedSVD

print("\nAplicando SVD + t-SNE...")

# 1. Reducir a 50 dimensiones con SVD primero
svd = TruncatedSVD(n_components=50, random_state=0)
top_words_vec_50d = svd.fit_transform(top_words_vec)
print(f"Dimensiones después de SVD: {top_words_vec_50d.shape}")

# 2. Aplicar t-SNE a los datos reducidos
tsne_svd = TSNE(n_components=2, random_state=0)
top_words_tsne_svd = tsne_svd.fit_transform(top_words_vec_50d)
print(f"Dimensiones después de SVD + t-SNE: {top_words_tsne_svd.shape}")

# 3. Crear segunda figura
p2 = figure(tools="pan,wheel_zoom,reset,save",
           toolbar_location="above",
           title="word2vec T-SNE (eng model, top1000 words, +SVD)",  # Ahora sí es correcto
           width=800, height=600)

# 4. Crear fuente de datos para SVD
source2 = ColumnDataSource(data=dict(
    x1=top_words_tsne_svd[:,0],
    x2=top_words_tsne_svd[:,1],
    names=top_words
))

# 5. Agregar puntos (color diferente para distinguir)
p2.scatter(x="x1", y="x2", size=8, source=source2, 
           fill_color="green", fill_alpha=0.6, line_color=None)

# 6. Agregar etiquetas
labels2 = LabelSet(x="x1", y="x2", text="names", y_offset=6,
                   text_font_size="8pt", text_color="#333333",
                   source=source2, text_align='center')
p2.add_layout(labels2)

# 7. Mostrar segundo gráfico
show(p2)

# 8. Guardar segundo gráfico
output_file("mi_grafico_tsne_con_svd.html", 
            title="Visualización T-SNE de Word2Vec con SVD")
save(p2)
print("✅ Gráfico con SVD guardado como 'mi_grafico_tsne_con_svd.html'")


Aplicando SVD + t-SNE...
Dimensiones después de SVD: (1000, 50)
Dimensiones después de SVD + t-SNE: (1000, 2)


✅ Gráfico con SVD guardado como 'mi_grafico_tsne_con_svd.html'


In [44]:
# загружаем SVD из библиотеки sklearn
from sklearn.decomposition import TruncatedSVD

# инициализируем SVD
svd_50 = TruncatedSVD(n_components=50)

# обучаем и применяем разложение
top_words_vec_50 = svd_50.fit_transform(top_words_vec)

# обучаем и применяем TSNE
top_words_tsne2 = TSNE(n_components=2, random_state=0).fit_transform(top_words_vec_50)

Нарисуем полученный результат:

In [83]:
output_notebook()

p = figure(tools="pan,wheel_zoom,reset,save",
           toolbar_location="above",
           title="word2vec T-SNE (eng model, top1000 words, +SVD)")

source = ColumnDataSource(data=dict(x1=top_words_tsne2[:,0],
                                    x2=top_words_tsne2[:,1],
                                    names=top_words))

p.scatter(x="x1", y="x2", size=8, source=source)

labels = LabelSet(x="x1", y="x2", text="names", y_offset=6,
                  text_font_size="8pt", text_color="#555555",
                  source=source, text_align='center')
p.add_layout(labels)

show(p)

## FastText

FastText использует не только эмбеддинги слов, но и эмбеддинги n-грам. В корпусе каждое слово автоматически представляется в виде набора символьных n-грамм.

Скажем, если мы установим n=3, то вектор для слова "where" будет представлен суммой векторов следующих триграм: "<wh", "whe", "her", "ere", "re>" (где "<" и ">" символы, обозначающие начало и конец слова).

Благодаря этому мы можем также получать вектора для слов, отсутствуюших в словаре, а также эффективно работать с текстами, содержащими ошибки и опечатки.

* [Статья](https://aclweb.org/anthology/Q17-1010)
* [Сайт](https://fasttext.cc/)
* [Тьюториал](https://fasttext.cc/docs/en/support.html)
* [Вектора для 157 языков](https://fasttext.cc/docs/en/crawl-vectors.html)
* [Вектора, обученные на википедии](https://fasttext.cc/docs/en/pretrained-vectors.html) (отдельно для 294 разных языков)
* [Репозиторий](https://github.com/facebookresearch/fasttext)

Есть библиотека `fasttext` для питона (с готовыми моделями можно работать и через `gensim`).

In [84]:
# чтобы усатновить fasstext, можно склонировать его с репозитория

! git clone https://github.com/facebookresearch/fastText.git
! pip3 install fastText/.

fatal: destination path 'fastText' already exists and is not an empty directory.


Processing c:\users\usuario\videos\innovation web\project\npl2\fasttext
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
Collecting pybind11>=2.2 (from fasttext==0.9.2)
  Using cached pybind11-3.0.1-py3-none-any.whl.metadata (10.0 kB)
Using cached pybind11-3.0.1-py3-none-any.whl (293 kB)
Building wheels for collected packages: fasttext
  Building wheel for fasttext (pyproject.toml): started
  Building wheel for fasttext (pyproject.toml): finished with status 'error'
Failed to build fasttext


  error: subprocess-exited-with-error
  
  × Building wheel for fasttext (pyproject.toml) did not run successfully.
  │ exit code: 1
  ╰─> [42 lines of output]
      !!
      
              ********************************************************************************
              Usage of dash-separated 'description-file' will not be supported in future
              versions. Please use the underscore name 'description_file' instead.
              (Affected: fasttext).
      
              By 2026-Mar-03, you need to update your project and remove deprecated calls
              or your builds will no longer be supported.
      
              See https://setuptools.pypa.io/en/latest/userguide/declarative_config.html for details.
              ********************************************************************************
      
      !!
        opt = self._enforce_underscore(opt, section)
      !!
      
              ***************************************************************

Обучить свою модель можно аналогично w2v:


In [85]:
!pip3 install fasttext

Collecting fasttext
  Using cached fasttext-0.9.3.tar.gz (73 kB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
Collecting pybind11>=2.2 (from fasttext)
  Using cached pybind11-3.0.1-py3-none-any.whl.metadata (10.0 kB)
Using cached pybind11-3.0.1-py3-none-any.whl (293 kB)
Building wheels for collected packages: fasttext
  Building wheel for fasttext (pyproject.toml): started
  Building wheel for fasttext (pyproject.toml): finished with status 'error'
Failed to build fasttext


  error: subprocess-exited-with-error
  
  × Building wheel for fasttext (pyproject.toml) did not run successfully.
  │ exit code: 1
  ╰─> [45 lines of output]
      !!
      
              ********************************************************************************
              Usage of dash-separated 'description-file' will not be supported in future
              versions. Please use the underscore name 'description_file' instead.
              (Affected: fasttext).
      
              By 2026-Mar-03, you need to update your project and remove deprecated calls
              or your builds will no longer be supported.
      
              See https://setuptools.pypa.io/en/latest/userguide/declarative_config.html for details.
              ********************************************************************************
      
      !!
        opt = self._enforce_underscore(opt, section)
      !!
      
              ***************************************************************

In [86]:
import fasttext

ft_model = fasttext.train_unsupervised('clean_text.txt', minn=3, maxn=4, dim=300)

ModuleNotFoundError: No module named 'fasttext'

Посмотрим на вектор для слова "movie":

In [None]:
ft_model.get_word_vector("movie")

array([ 0.09348863,  0.08865794, -0.01062872, -0.05482049,  0.14360785,
        0.11044349, -0.1065911 , -0.04905809,  0.1256827 ,  0.13742325,
       -0.03804311, -0.01221638, -0.19736831, -0.00142599, -0.05534296,
        0.04121511, -0.07040895, -0.10771107,  0.01036993, -0.04733974,
        0.00851618,  0.11162078,  0.02207617, -0.02101984,  0.09430504,
        0.05223068,  0.0478907 , -0.08837556, -0.07861256,  0.01214649,
       -0.03774216, -0.01199841, -0.0444516 ,  0.0054399 , -0.17214775,
        0.13256706, -0.12179995, -0.0957673 ,  0.0404019 ,  0.0857062 ,
        0.1984096 ,  0.19905815, -0.01961703, -0.0167878 ,  0.06982499,
       -0.13073747,  0.1845553 ,  0.09114449,  0.09934445,  0.07283179,
        0.00951155,  0.00097666, -0.12042152,  0.07818631,  0.04633718,
       -0.15289176, -0.15729465,  0.09570234,  0.17740445,  0.14678328,
       -0.031924  ,  0.07860619,  0.06828801, -0.10544868, -0.06909642,
        0.11968626, -0.03074406,  0.00134859,  0.00122885,  0.02

Метод ```get_nearest_neighbors``` возвращает самые похожие слова (аналог метода ```most_similar()``` для w2v):

In [None]:
ft_model.get_nearest_neighbors('actor')

[(0.9999586939811707, 'actual'),
 (0.999957799911499, 'actresses'),
 (0.9999526143074036, 'actors'),
 (0.9999338984489441, 'acts'),
 (0.9999234676361084, 'history'),
 (0.9999234080314636, 'predator'),
 (0.9999213218688965, 'unusual'),
 (0.9999209046363831, 'scary'),
 (0.9999193549156189, 'mystery'),
 (0.9999183416366577, 'produce')]

С помощью метода ```get_analogues()``` можно получить аналогии:

In [None]:
ft_model.get_analogies("woman", "man", "actor")

[(0.9999468326568604, 'act'),
 (0.9999309778213501, 'actress'),
 (0.9999220371246338, 'actors'),
 (0.9999140501022339, 'actual'),
 (0.9999136924743652, 'attractive'),
 (0.9999110698699951, 'doctor'),
 (0.9999055862426758, 'perspective'),
 (0.9999051094055176, 'practically'),
 (0.999904990196228, 'impact'),
 (0.9999046325683594, 'dialog')]

Проблема с опечатками решена!

In [None]:
ft_model.get_nearest_neighbors('actr')

[(0.9999285340309143, 'act'),
 (0.9999226927757263, 'actors'),
 (0.9999207258224487, 'actor'),
 (0.9999164342880249, 'actual'),
 (0.9998677968978882, 'script'),
 (0.9998634457588196, 'director'),
 (0.9998475313186646, 'actress'),
 (0.9998472929000854, 'poorly'),
 (0.9998461008071899, 'directors'),
 (0.9998441338539124, 'utterly')]

Проблема с out of vocabulary словами тоже решена!


In [None]:
ft_model.get_nearest_neighbors('bitcoin')

[(0.9999852180480957, 'kevin'),
 (0.9999846816062927, 'baldwin'),
 (0.999984085559845, 'petunia'),
 (0.9999834299087524, 'victims'),
 (0.9999833703041077, 'ninja'),
 (0.9999831914901733, 'drinks'),
 (0.9999828338623047, 'trilogy'),
 (0.9999825358390808, 'genuine'),
 (0.9999823570251465, 'models'),
 (0.9999823570251465, 'freedom')]

# Бонус*: Применим полученные выше навыки и решим простую задачу анализа тональности твиттов:

Проделаем весь пайплайн от сырых текстов до получения обученной модели.
Отдельно скачиваем файлы с положительно окрашенными твитами и негативно окрашеннными.
Это реальные данные русскоязычного сегмента твиттера.


In [None]:
url = "https://raw.githubusercontent.com/Gavroshe/RuTweetCorp/master/positive.csv"
filename = wget.download(url)
print(f"\n✅ Descargado: {filename}")


✅ Descargado: positive.csv


In [None]:
!wget -O positive.csv  https://raw.githubusercontent.com/Gavroshe/RuTweetCorp/master/positive.csv

"wget" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [None]:
url = "https://raw.githubusercontent.com/Gavroshe/RuTweetCorp/master/negative.csv"
filename = wget.download(url)
print(f"\n✅ Descargado: {filename}")


✅ Descargado: negative.csv


In [None]:
!wget -O negative.csv  https://raw.githubusercontent.com/Gavroshe/RuTweetCorp/master/negative.csv

"wget" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [None]:
import pandas as pd # библиотека для удобной работы с датафреймами
# загрузим и посмотрим на наш датасет

# загружаем положительные твитты
positive = pd.read_csv('positive.csv', sep=';', usecols=[3], names=['text'])
positive['label'] = ['positive'] * len(positive) # расставляем метки

# загружаем отрицательные твитты
negative = pd.read_csv('negative.csv', sep=';', usecols=[3], names=['text'])
negative['label'] = ['negative'] * len(negative) # расставляем метки

# соединяем два набора данных
df = pd.concat([positive, negative], ignore_index=True)
df.head()

Unnamed: 0,text,label
0,"@first_timee хоть я и школота, но поверь, у на...",positive
1,"Да, все-таки он немного похож на него. Но мой ...",positive
2,RT @KatiaCheh: Ну ты идиотка) я испугалась за ...,positive
3,"RT @digger2912: ""Кто то в углу сидит и погибае...",positive
4,@irina_dyshkant Вот что значит страшилка :D\nН...,positive


In [None]:
len(df)

226834

Проведем стандартный препроцессинг:

In [None]:
!pip install pymorphy3

Collecting pymorphy3
  Downloading pymorphy3-2.0.6-py3-none-any.whl.metadata (2.4 kB)
Collecting dawg2-python>=0.8.0 (from pymorphy3)
  Downloading dawg2_python-0.9.0-py3-none-any.whl.metadata (7.5 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.6-py3-none-any.whl (53 kB)
Downloading dawg2_python-0.9.0-py3-none-any.whl (9.3 kB)
Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl (8.4 MB)
   ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
   ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
   ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
   ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
   ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
   ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
   ---------------------------------------- 0.0/8.4 MB ?


[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
import pymorphy3
from functools import lru_cache
from multiprocessing import Pool
import numpy as np
from sklearn.model_selection import train_test_split
from tqdm.notebook import tqdm
import re

# pymorphy3 — новый морфологический анализатор русского языка
m = pymorphy3.MorphAnalyzer()

# убираем все небуквенные символы
regex = re.compile(r"[А-Яа-яA-Za-z:=!\)\(_%/|]+")   # исправлено

def words_only(text, regex=regex):
    try:
        return regex.findall(text)
    except:
        return []


In [None]:
#@lru_cache(maxsize=128)
# если вы работаете не в колабе, можно заменить pymorphy на mystem и раскомментирвать первую строку про lru_cache
def lemmatize(text, pymorphy=m):
    try:
        return " ".join([pymorphy.parse(w)[0].normal_form for w in text])
    except:
        return " "

In [None]:
def clean_text(text):
    return lemmatize(words_only(text))

In [None]:
# Añade estos imports al inicio de tu celda/código
from multiprocessing import Pool
from tqdm import tqdm

# Tu función clean_text (asegúrate de que lemmatize y words_only estén definidas)
def clean_text(text):
    return lemmatize(words_only(text))

# Procesamiento paralelo CORREGIDO
with Pool(8) as p:  # Nota: es "with Pool(8) as p:", no "with_Pool(8) as_p:"
    lemmas = list(tqdm(p.imap(clean_text, df['text']), total=len(df)))

df['lemmas'] = lemmas
df.head()

NameError: name 'df' is not defined

In [None]:
# распараллелим процесс на 8 копий, чтобы ускорить,
# и к каждому объекту датасета ( = твиту) применим написанную выше функцию препроцессинга

with Pool(8) as p:
    lemmas = list(tqdm(p.imap(clean_text, df['text']), total=len(df)))

df['lemmas'] = lemmas
df.head()

NameError: name 'Pool' is not defined

Запишем полученные данные в формате для обучения классификатора:

In [None]:
# переводим данные из датафрейма в списки

X = df.lemmas.tolist()
y = df.label.tolist()

X, y = np.array(X), np.array(y)

# разбиваем на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.33)
print ("total train examples %s" % len(y_train))
print ("total test examples %s" % len(y_test))

total train examples 151978
total test examples 74856


Мы используем для классификации библиотеку fasstext, для этого ей нужно подать данные на вход в особенном формате: текстовый файл, в котором одна строка - один объект выборки, в формате



```
__label__ 0 первый текст

__label__ 1 второй текст

__label__ 0 третий текст
```


и т.д.

Записываем train и test выборки в файлы в соответствии с форматом выше:

In [None]:
with open('data.train.txt', 'w+') as outfile:
    for i in range(len(X_train)):
        outfile.write('__label__' + y_train[i] + ' '+ X_train[i] + '\n')


with open('test.txt', 'w+') as outfile:
    for i in range(len(X_test)):
        outfile.write('__label__' + y_test[i] + ' ' + X_test[i] + '\n')

Обучаем классификатор fasttext:

In [None]:
classifier = fasttext.train_supervised('data.train.txt')
result = classifier.test('test.txt')

Смотрим на метрики качества (precision и recall) полученной модели:

In [None]:
print('P@1:', result[1])
print('R@1:', result[2])
print('Number of examples:', result[0])

P@1: 0.8965613978839372
R@1: 0.8965613978839372
Number of examples: 74856


# Теги преобразования mustem в UPOS для аналоговой оценки в word2Vec

In [None]:
mystem_a_upos = {
    'A': 'ADJ', 'S': 'NOUN', 'V': 'VERB', 'ADV': 'ADV',
    'PR': 'ADP', 'CONJ': 'SCONJ', 'PART': 'PART', 'NUM': 'NUM',
    'INTJ': 'INTJ', 'SPRO': 'PRON', 'APRO': 'DET', 'ANUM': 'ADJ',
    'ADVPRO': 'ADV', 'COM': 'ADJ', 'NONLEX': 'X', 'UNKN': 'X'
}

def convert_word(word_with_ticket):
    parts= word_with_ticket.split('_')

    if len(parts) < 2:
        return word_with_ticket
    
    word = '_'.join(parts[:-1])  #la palabra puede tener guines bajos
    ticket_mystem= parts[-1]  #toma la ultima parte de la etiqueta

    #convert the ticket mystem to Upos
    ticket_upos = mystem_a_upos.get(ticket_mystem, 'X')
   #build: Word + "_" + ticket UPOS
    return f"{word}_{ticket_upos}"

#name file
file_origin = 'ru_analogy_tagged.txt'
file_convert = 'ru_analogy_tagged_upos.txt'

#Abrir ambos archivos
with open(file_origin, 'r', encoding='utf-8') as entrada, \
     open(file_convert, 'w', encoding= 'utf-8') as salida:
    
    for line in entrada:
        line = line.strip() #quita espacios al final

        if line.startswith(':'):
            salida.write(line + '\n')
        else:
            #Dividir la linea en palabras
            word = line.split()

            #Convertir cada palabra
            convert = [convert_word(p) for p in word]

            #Unir las palabras convertidas y guardarlas

            salida.write(' '.join(convert) + '\n')

print(f"✅ Conversión completada. Archivo guardado como: {file_convert}")

#Evaluamos el modelo con el archivo convertido

result = model_ru.evaluate_word_analogies('ru_analogy_tagged_upos.txt')




✅ Conversión completada. Archivo guardado como: ru_analogy_tagged_upos.txt


Show result

In [None]:
# show result
print("Resultados de la evaluación:")
print(f"Precisión total: {result[0]:.2%}")

for categoria in result[1]:
    if categoria['section'] != 'Total accuracy':
        correctas = len(categoria['correct'])
        total = correctas + len(categoria['incorrect'])
        if total > 0:
            print(f"{categoria['section']}: {correctas}/{total} ({correctas/total:.2%})")

Resultados de la evaluación:
Precisión total: 33.60%
capital-common-countries: 0/12 (0.00%)
capital-world: 0/32 (0.00%)
currency: 5/132 (3.79%)
family: 223/306 (72.88%)
gram1-Aective-to-adverb: 349/930 (37.53%)
gram2-opposite: 191/702 (27.21%)
gram6-nationality-Aective: 21/234 (8.97%)


Validation

In [None]:
# Mostrar las primeras líneas del archivo convertido
print("Primeras líneas del archivo convertido:")
with open('ru_analogy_tagged_upos.txt', 'r', encoding='utf-8') as f:
    for i in range(10):
        print(f.readline().strip())

Primeras líneas del archivo convertido:
: capital-common-countries
афины_NOUN греция_NOUN багдад_NOUN ирак_NOUN
афины_NOUN греция_NOUN бангкок_NOUN таиланд_NOUN
афины_NOUN греция_NOUN пекин_NOUN китай_NOUN
афины_NOUN греция_NOUN берлин_NOUN германия_NOUN
афины_NOUN греция_NOUN берн_NOUN швейцария_NOUN
афины_NOUN греция_NOUN каир_NOUN египет_NOUN
афины_NOUN греция_NOUN канберра_NOUN австралия_NOUN
афины_NOUN греция_NOUN ханой_NOUN вьетнам_NOUN
афины_NOUN греция_NOUN гавана_NOUN куба_NOUN
