# Практика: word2vec для кристаллов

Как вы уже могли заметить, идея, лежащая в основе [word2vec](https://arxiv.org/pdf/1310.4546), достаточно общая. В данном задании вы реализуете его самостоятельно.

P.s. GPU в этом задании нам не потребуется :)

Многие функции из этого ноутбука лежат в файле `skipgram_model_functions.py`. Это сделано специально, чтобы подсветить важные моменты и не отвлекаться на большое количество кода. Мы рекомендуем ничего не менять в функциях, исключением могут быть функции для визуализации данных.

In [1]:
import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import umap
from nltk.tokenize import WhitespaceTokenizer
from nltk.tokenize import PunktSentenceTokenizer
from torch.optim.lr_scheduler import ReduceLROnPlateau, StepLR

from skipgram_model_functions import *

  from .autonotebook import tqdm as notebook_tqdm


## Что мы хотим сделать?

Это задание нужно для того, чтобы своими руками написать модель, которая является отправной точкой для современных LLM. Прежде чем углубляться в более сложные архитектуры и изучать то, как LLM на лету генерирует текст (а иногда и не текст, а что-то другой модальности), что можно считать работой с последовательностями динамической длины, мы хотим разобраться с построением контекстуального эмбеддинга для токена - атомарной единицы языка. Мы будем решать задачу предсказания вероятности одного токена оказаться (или не оказаться) в одном контексте с другим. Из этого знания мы можем получить представление о том, какие токены схожи и различны. Опираясь на эту информацию можно не только приступать к генерации последовательностей, но и решать другие задачи. Например, в кристаллохимии можно предсказывать физикохимические свойства соединений, зная их векторное представление, или эмбеддинг.

## Небольшой рассказ о данных

Мы будем работать с базой данных `Materials Project`. Для задачи были отобраны стабильные экспериментальные кристаллические структуры, для которых было сгенерировано текстовое описние при помощи `Robocrystallographer`. Все текстовые описания были токенизированы (в нашем случае токен = 1 слово). В `корпус` попали те структуры, описание которых не превышало 70 токенов. 
<p>Папка содержит 2 файла с данными:

`robocrys_exp_stable_70_tokens.txt` - основной файл, с которым мы будем работать. Содержит строки с текстовым описанием кристаллических структур.
<p>

`robocrys_exp_stable_70_tokens.csv` - файл, содержащий дополнительную информацию о кристаллических структурах, которая пригодится при визуализации эмбеддингов, которые мы посчитаем

In [2]:
data = list(open("robocrys_exp_stable_70_tokens.txt", encoding="utf-8"))

## Предобработка данных. Токенизация

Токенизация – первый шаг.
Тексты, с которыми мы работаем, включают в себя пунктуацию и прочие нестандартные токены, так что простой `str.split` иногда может не подходить под конкретную задачу. В данном случае в качестве токена мы будем использовать каждое слово, число и символ пространнственной группы. Можно было бы для каждой строки `i` в `data` выполнить `data[i].strip().split()`, но мы используем `WhitespaceTokenizer`, выполняющий аналогичную функцию.

Обратимся к `nltk` - библиотеке, которая нашла широкое применение в области NLP.

In [3]:
tokenizer = WhitespaceTokenizer()

Посмотрим, как выглядит типичное описание одного кристалла:

In [None]:
test_description = data[0]

print(test_description)

Можно заметить, что описание содержит переносы строки, запятые и точки, которые необходимо удалить перед применением `WhitespaceTokenizer`. Все точки удалять нельзя, потому что некоторые из них являются частью чисел с плавающей точкой (например, 3.26 Å). Также нельзя удалять и использовать в качестве разделителей для токенизации некоторые специальные символы: /, -.

Сначала заменим все запятые в описаниях кристаллов на пробелы:

In [None]:
test_description = test_description.replace(",", "")

print(test_description)

Теперь необходимо избавиться от символов переноса строки и точек в конце каждого предложения. Для этого используем `PunktSentenceTokenizer`. Он разобьёт описания на предложения, а затем мы удалим точку в конце каждого из них.

In [6]:
sentence_tokenizer = PunktSentenceTokenizer()

In [None]:
test_sentences = sentence_tokenizer.tokenize(test_description)

print(f'Test sentences in description look like:\n{test_sentences}')


# Вот теперь используем WhiteSpaceTokenizer
sentences_modified = [s.rstrip('.') for s in test_sentences]
test_tokens = sum([tokenizer.tokenize(sentence) for sentence in sentences_modified], [])

print(f'Test tokens of description look like:\n{test_tokens}')

Теперь токенизируем все описания кристаллов в нашем корпусе:

In [None]:
data_tokenized = []

for description in data:
    description = description.replace(",", "")
    sentences = sentence_tokenizer.tokenize(description)
    sentences_modified = [s.rstrip('.') for s in sentences]
    tokens = sum([tokenizer.tokenize(s) for s in sentences_modified], [])
    data_tokenized.append(tokens)


print(f"Количество описаний кристаллов в корпусе:\n{len(data_tokenized)}\n")

n_tokens = sum(len(description) for description in data_tokenized)
print(f"Суммарное количество токенов в корпусе:\n{n_tokens}")

## Частота встречаемости слов и уникальные слова

Для расчета вероятностей нахождения одного слова в контексте другого нам необходимо получить частоту встречаемости каждого токена и список уникальных токенов. Сначала подсчитаем частоту встречаемости слов в корпусе:

In [None]:
word_count_dict = get_word_count_dict(data_tokenized)

Получим множество уникальных токенов. Это множество будет нашим `словарём`

In [None]:
vocabulary = set(word_count_dict.keys())


print(f'Количество уникальных токенов в корпусе:\n{len(vocabulary)}')

Индексируем наш словарь:

In [11]:
word_to_index = {word: index for index, word in enumerate(vocabulary)}
index_to_word = {index: word for word, index in word_to_index.items()}

## Создание пар `(слово, контекст)`

Для построения пар `(слово, контекст)` нам необходимо пройтись скользящим окном по всем описаниям в нашем корпусе.

Ниже задана ширина окна контекста Skipgram модели.

In [12]:
window_radius = 9

Пары `(слово, контекст)` на основе доступного датасета сгенерированы ниже.

In [None]:
context_pairs = get_context_pairs(data_tokenized, word_to_index, window_radius)

print(f"Количество пар (слово, контекст): {len(context_pairs)}")

## Подзадача №1: subsampling
Для того, чтобы сгладить разницу в частоте встречаемсости слов, необходимо реализовать механизм subsampling'а.
Для этого вам необходимо реализовать функцию ниже.

Вероятность **исключить** слово из обучения (на фиксированном шаге) вычисляется как
$$
P_\text{drop}(w_i)=1 - \sqrt{\frac{t}{f(w_i)}},
$$
где $f(w_i)$ – нормированная частота встречаемости слова, а $t$ – заданный порог (threshold).

In [14]:
def subsample_frequent_words(word_count_dict, threshold=1e-5):
    """
    Calculates the subsampling probabilities for words based on their frequencies.

    This function is used to determine the probability of keeping a word in the dataset
    when subsampling frequent words. The method used is inspired by the subsampling approach
    in Word2Vec, where each word's frequency affects its probability of being kept.

    Parameters:
    - word_count_dict (dict): A dictionary where keys are words and values are the counts of those words.
    - threshold (float, optional): A threshold parameter used to adjust the frequency of word subsampling.
                                   Defaults to 1e-5.

    Returns:
    - dict: A dictionary where keys are words and values are the probabilities of keeping each word.

    """

    words_count = sum(word_count_dict.values())

    keep_prob_dict = {}  

    for word, count in word_count_dict.items():

        freq_norm = count / words_count
        include_prob = (threshold / freq_norm) ** 0.5 if freq_norm > threshold else 0
        keep_prob_dict[word] = include_prob
        
    return keep_prob_dict

## Подзадача №2: negative sampling
Для более эффективного обучения необходимо не только предсказывать высокие вероятности для слов из контекста, но и предсказывать низкие для слов, не встреченных в контексте. Для этого вам необходимо вычислить вероятность использовать слово в качестве negative sample, реализовав функцию ниже.

`ВНИМАНИЕ: этот код вам нужно написать самостоятельно`

В оригинальной статье предлагается оценивать вероятность слов выступать в качестве negative sample согласно распределению $P_n(w)$
$$
P_n(w) = \frac{U(w)^{3/4}}{Z},
$$

где $U(w)$ распределение слов по частоте (или, как его еще называют, по униграммам), а $Z$ – нормировочная константа, чтобы общая мера была равна $1$.

`ПОДСКАЗКА`: распределение слов по частоте есть ничто иное как частота встречаемости слова в корпусе

In [15]:
def get_negative_sampling_prob(word_count_dict):
    """
    Calculates the negative sampling probabilities for words based on their frequencies.

    This function adjusts the frequency of each word raised to the power of 0.75, which is
    commonly used in algorithms like Word2Vec to moderate the influence of very frequent words.
    It then normalizes these adjusted frequencies to ensure they sum to 1, forming a probability
    distribution used for negative sampling.

    Parameters:
    - word_count_dict (dict): A dictionary where keys are words and values are the counts of those words.

    Returns:
    - dict: A dictionary where keys are words and values are the probabilities of selecting each word
            for negative sampling.

    """

    ### YOUR CODE HERE




    return negative_sampling_prob_dict

Применим функции `subsample_frequent_words` для расчета вероятностей слов быть отобранными в обучающую выборку и `get_negative_sampling_prob` для расчета вероятностей слов быть отобранными в выборку negative_sampling.<p>
Для удобства, преобразуем полученные словари в массивы (т.к. все слова все равно уже пронумерованы).

In [16]:
keep_prob_dict = subsample_frequent_words(word_count_dict)
assert keep_prob_dict.keys() == word_count_dict.keys()

keep_prob_array = keep_prob_to_array(keep_prob_dict, index_to_word, word_to_index)

In [17]:
negative_sampling_prob_dict = get_negative_sampling_prob(word_count_dict)
assert np.allclose(sum(negative_sampling_prob_dict.values()), 1)

negative_sampling_prob_array = negative_sampling_prob_to_array(negative_sampling_prob_dict, index_to_word, word_to_index)

### Реализация модели Skipgram

Наконец, время реализовать модель!

Напомним, что в случае negative sampling решается задача максимизации следующего функционала:

$$
\mathcal{L} = \log \sigma({\mathbf{v}'_{w_O}}^\top \mathbf{v}_{w_I}) + \sum_{i=1}^{k} \mathbb{E}_{w_i \sim P_n(w)} \left[ \log \sigma({-\mathbf{v}'_{w_i}}^\top \mathbf{v}_{w_I}) \right],
$$

где:
- $\mathbf{v}_{w_I}$ – вектор центрального слова $w_I$,
- $\mathbf{v}'_{w_O}$ – вектор слова из контекста $w_O$,
- $k$ – число negative samples,
- $P_n(w)$ – распределение negative samples, заданное выше,
- $\sigma$ – сигмоида.

In [18]:
class SkipGramModelWithNegSampling(nn.Module):
    def __init__(self, vocab_size, embedding_dim):
        super().__init__()
        self.center_embeddings = nn.Embedding(vocab_size, embedding_dim)
        self.context_embeddings = nn.Embedding(vocab_size, embedding_dim)

    def forward(self, center_words, pos_context_words, neg_context_words):

        center_embeddings = self.center_embeddings(center_words)
        pos_context_embeddings = self.context_embeddings(pos_context_words)
        neg_context_embeddings = self.context_embeddings(neg_context_words)

        pos_scores = torch.sum(center_embeddings * pos_context_embeddings, dim=1)
        neg_scores = torch.sum((center_embeddings.unsqueeze(1) * neg_context_embeddings), dim = 2)

        return pos_scores, neg_scores

## Обучаем модель

Инициализируем модель. Не забываем инициализировать её перед каждым обучением!

In [19]:
device = torch.device("cpu")

vocab_size = len(word_to_index)
embedding_dim = 32
num_negatives = 15

model = SkipGramModelWithNegSampling(vocab_size, embedding_dim).to(device)
optimizer = optim.Adam(model.parameters(), lr=0.05)
lr_scheduler = ReduceLROnPlateau(optimizer, factor=0.5, patience=150)
criterion = nn.BCEWithLogitsLoss()

params_counter = 0
for weights in model.parameters():
    params_counter += weights.shape.numel()
assert params_counter == len(word_to_index) * embedding_dim * 2

Запускаем обучение:

In [None]:
steps = 2500
batch_size = 1024

train_skipgram_with_neg_sampling(
    model,
    context_pairs,
    keep_prob_array,
    word_to_index,
    batch_size,
    num_negatives,
    negative_sampling_prob_array,
    steps,
    optimizer=optimizer,
    lr_scheduler=lr_scheduler,
    device=device,
)

Сохраняем состояние обученной модельки:

In [24]:
#torch.save(model.state_dict(), 'my_model_100_test.pth')

## Тестируем модель

Оценим Accuracy модели:

In [None]:
accuracy = evaluate_model(model, context_pairs, device)

Наконец, взглянем на ближайшие по косинусной мере слова:

In [None]:
central_word = "He"
n_neighbours = 20

find_nearest(model, central_word, word_to_index, index_to_word, n_neighbours)

## Визуализация результатов

Для начала нам необходимо из всего списка слов отобрать те, которые мы хотим визуализировать. 
<p>Мы хотим визуализировать формулы кристаллов, отберем их: 

In [23]:
list_of_formules = [description[0] for description in data_tokenized]

Получаем эмбеддинги для отобранных слов:

In [24]:
word_embeddings = get_word_embeddings(model, word_to_index, list_of_formules)

Наши эмбеддинги имеют размерность 32, а мы хотим визуализировать их на интерактивном 3D-графике. Для этого необходимо понизить размерность эмбеддингов с помощью редьюсеров. Мы будем использовать `umap`.

In [25]:
umap_model = umap.UMAP(n_components=3, n_neighbors=5)

embeddings_3d = umap_model.fit_transform(word_embeddings)

Строим интерактивные 3D-графики.
Ниже вы можете ввести название файла, в который будет сохранен интерактивный график. Открыть его можно на локальном компьютере в браузере. Все остальные переменные лучше не трогать, но если хочется настроить график под себя, можно исправить функции в файле `skipgram_model_functions.py`

In [37]:
output_filename = "3D_plot_by_structure_types_70_tokens.html"

properties_filename = 'robocrys_exp_stable_70_tokens.csv'
get_3D_plot_by_structure_types(list_of_formules, embeddings_3d, accuracy, output_filename, properties_filename)

In [39]:
output_filename = "3D_plot_by_crystal_system_70_tokens.html"

properties_filename = 'robocrys_exp_stable_70_tokens.csv'
get_3D_plot_by_crystal_system(list_of_formules, embeddings_3d, accuracy, output_filename, properties_filename)

### Над чем стоит подумать?

<li> Как повысить accuracy?
<li> Возможно, вы заметили в токенизации некоторые баги. Подумайте, с помощью каких инструментов от них удобнее всего избавиться.
<li> Как ширина контекстного окна Skipgram модели влияет на результат? Что изменится, если его уменьшить/увеличить?
<li> Если получилось отметить явно выраженные кластеры на 3D-графиках, подумать, какая закономерность в том, что эмбединги структур, находящихся в кластере, схожи.