In [2]:
# %pip install gensim datasets

# Embeddings

В термінах обробки природної мови та машинного навчання, embedding вказує на техніку перетворення слова або токена у вектор чисел фіксованої розмірності. Ці вектори називаються "векторними вбудуваннями" або "ембедінгами". Векторне вбудування дозволяє представляти слова у вигляді числових векторів у такому просторі, де схожі слова знаходяться близько одне до одного.

Такі ембедінги можна навчати, використовуючи методи, такі як Word2Vec, GloVe (Global Vectors for Word Representation). Ці методи дозволяють моделі вивчати семантичні відносини між словами та знаходити числові представлення слів, які відображають їхню схожість та семантику.

Ембедінги можуть бути використані у багатьох завданнях обробки природної мови, таких як класифікація текстів, машинний переклад, генерація текстів, аналіз настроїв та інші. Це дозволяє моделям краще розуміти текст та працювати з ним у вигляді числових даних, що полегшує їх тренування та покращує результати на різних завданнях.

# Word2Vec


**Word2Vec** - це техніка векторного представлення слів у вигляді числових векторів. Цей метод був розроблений Томасом Міколовим та його колегами в Google у 2013 році.

Ідея *Word2Vec* полягає в тому, щоб навчити модель передбачати контекстні слова для даного слова в тексті. Це виконується шляхом знаходження числових векторів, які представляють слова, так, щоб схожі слова знаходилися близько одне до одного у векторному просторі. Зазвичай використовується два основних підходи до Word2Vec: Continuous Bag of Words (CBOW) та Skip-Gram.

CBOW намагається передбачити цільове слово (центральне слово) на основі його контексту (навколишніх слів).

Skip-Gram, навпаки, намагається передбачити контекстні слова на основі даного цільового слова.

Отримані вектори можна використовувати для вирішення різних завдань обробки природної мови, таких як класифікація текстів, машинний переклад, аналіз настроїв та інші. Word2Vec допомагає у врахуванні семантичних відносин між словами та отриманні корисних векторних представлень слів у текстах.

<center>
    <img src="assets/word2vec.png" height=500 width=1000>
</center>

При роботі з векторами поширеним способом обчислення подібності (відстані між векторами) є:
- **[euclidean distance](https://en.wikipedia.org/wiki/Euclidean_distance):**

    Евклідова відстань (Euclidean distance) є мірою відстані між двома точками у просторі.

    Евклідова відстань широко використовується в математиці та статистиці для вимірювання відстаней між точками у просторі різної розмірності. У контексті алгоритмів машинного навчання та кластеризації, евклідова відстань часто використовується для визначення схожості між об'єктами або для групування даних.


  $$ d(p, q) = \sqrt{(p_1 - q_1)^2 + (p_2 - q_2)^2 + ... + (p_n - q_n)^2} $$

<center>
    <img src="assets/l2_distance.png" height=200 width=400>
</center>

- **[cosine similarity](https://en.wikipedia.org/wiki/Cosine_similarity):**

    Косинусна схожість (Cosine Similarity) - це міра схожості між двома невідомими векторами в просторі. Ця міра використовує кут між векторами для визначення ступеня їхньої схожості. Чим менший кут між векторами, тим більша косинусна схожість.

    Косинусна схожість широко використовується в області обробки природної мови та інших задачах, де необхідно вимірювати схожість між текстовими або числовими представленнями об'єктів. Вона особливо корисна при порівнянні текстових документів, векторних представлень слів чи інших об'єктів у векторному просторі.

  $$ \textit{cosine similarity} = S_C(A, B) := \cos( \theta ) = \frac{A \cdot B}{||A|| ||B||} = \frac{ \sum_{i=1}^n A_i B_i}{ \sqrt{\sum_{i=1}^n A_i^2 \cdot \sum_{i=1}^n B_i^2 } } $$

<center>
    <img src="assets/cosine_distance.png" height=200 width=500>
</center>


## Algorithm

**Word2Vec** це підхід до вивчення embeddings слів за допомогою неглибокої нейронної мережі. Основна ідея **Word2Vec** полягає в тому, щоб представити кожне слово як багатовимірний вектор, де положення вектора в цьому багатовимірному просторі відображає значення слова.

Word2Vec — це алгоритм, який використовує неглибоку модель нейронної мережі, щоб дізнатися значення слів із великого корпусу текстів. На відміну від глибоких нейронних мереж (DNN), які мають кілька прихованих шарів, дрібні нейронні мережі мають лише один або два прихованих шари між входом і виходом. Це робить обробку оперативною та прозорою. Неглибока нейронна мережа Word2Vec може швидко розпізнавати семантичні подібності та ідентифікувати слова-синоніми за допомогою методів логістичної регресії, що робить її швидше, ніж DNN.

Word2Vec приймає великий корпус тексту як вхідні дані та генерує векторний простір із сотнями вимірів. Кожному унікальному слову в корпусі присвоюється вектор у цьому просторі.

Розробка Word2Vec також передбачала аналіз вивчених векторів і дослідження того, як ними можна маніпулювати за допомогою векторного аналізу. Наприклад, віднімаючи «чоловік» від «короля» та додаючи «жінка», результатом буде слово «королева», яке відображає аналогію «король для королеви, як чоловік для жінки».

## Where is it used?

Word2Vec використовується для створення векторних представлень слів у вигляді числових векторів у просторі низької розмірності. Ця техніка має ряд застосувань у сфері обробки природної мови (Natural Language Processing, NLP) та машинного навчання. Основні застосування Word2Vec включають:

1. **Семантична подібність та аналогії слів:**
   Word2Vec дозволяє отримувати числові вектори для слів, які відображають їхню семантичну схожість. Завдяки цьому можна вирішувати завдання типу "король - чоловік + жінка = королева", де вектори слів використовуються для аналогій та семантичних відношень між словами.

2. **Покращення роботи з текстами:**
   Векторні представлення слова можуть бути використані для покращення роботи з текстами, такими як класифікація текстів, кластеризація, аналіз настроїв, інформаційний пошук та інші.

3. **Машинний переклад:**
   Векторні представлення слів можуть покращити якість машинного перекладу, дозволяючи моделям краще розуміти семантику слів та фраз.

4. **Рекомендації:**
   Word2Vec може бути використаний для покращення систем рекомендацій, враховуючи семантичну схожість між предметами чи користувачами.

5. **Кластеризація та категоризація текстів:**
   Векторні представлення слов можуть служити основою для кластеризації та категоризації текстової інформації.

6. **Аналіз настроїв:**
   Вектори слів можуть бути використані для аналізу настроїв в текстах, допомагаючи визначити емоційний тон висловлення.

Word2Vec дозволяє узагальнювати семантику слів і використовувати цю інформацію у різних задачах обробки природної мови та машинного навчання, що робить його потужним інструментом у цих областях.

## Language Modeling

Передбачення наступного слова – це завдання, яке можна вирішити за допомогою *language model*. Мовна модель може взяти список слів (скажімо, два слова) і спробувати передбачити слово, яке йде за ними.

На скріншоті нижче ми можемо уявити модель як ту, яка взяла ці два зелених слова ("ти маєш") і повернула список пропозицій ("не" є тим, що має найвищу ймовірність):

<center>
    <img src="assets/thou-shalt-_.png" height=300 width=600>
</center>

Ми можемо думати, що модель виглядає як цей чорний ящик:

<center>
    <img src="assets/language_model_blackbox.png" height=400 width=800>
</center>

Але на практиці модель не виводить лише одне слово. Вона фактично виводить оцінку ймовірності для всіх слів, які вона знає («словниковий запас моделі», який може коливатися від кількох тисяч до понад мільйона слів). Як приклад, клавіатурний додаток (клавіатура на будь-якому смарт-девайсі) має знайти слова з найвищими балами та представити їх користувачеві.

<center>
    <img src="assets/language_model_blackbox_output_vector.png" height=400 width=800>
</center>

З часів навчання ранніх нейронних мовних моделей ([Bengio 2003](https://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf)) обчислюють прогноз у три етапи:

<center>
    <img src="assets/neural-language-model-prediction.png" height=400 width=800>
</center>

Перший крок є найбільш актуальним для нас, коли ми обговорюємо embeddings. Одним із результатів навчального процесу стала ця матриця, яка містить embedding для кожного слова в нашому словниковому запасі. Під час передбачення ми просто шукаємо embedding вхідного слова та використовуємо їх для обчислення передбачення:

<center>
    <img src="assets/neural-language-model-embedding.png" height=400 width=800>
</center>

## Language Model Training

Мовні моделі мають величезну перевагу перед більшістю інших моделей машинного навчання. Ця перевага полягає в тому, що ми можемо навчити їх працювати над текстом, якого у нас є вдосталь. Подумайте про всі книги, статті, вміст Вікіпедії та інші форми текстових даних, які ми маємо. Порівняйте це з багатьма іншими моделями машинного навчання, які потребують ручних функцій і спеціально зібраних даних.

Слова вбудовуються завдяки тому, що ми дивимося, поруч з якими іншими словами вони зазвичай з’являються. Механіка цього така
1. Ми отримуємо багато текстових даних (скажімо, усі статті Вікіпедії, наприклад). потім
2. У нас є вікно (скажімо, з трьох слів), яке ми ковзаємо по всьому цьому тексту.
3. Ковзне вікно генерує навчальні зразки для нашої моделі

<center>
    <img src="assets/wikipedia-sliding-window.png" height=600 width=1200>
</center>

Коли це вікно ковзає по тексту, ми (фактично) створюємо набір даних, який використовуємо для навчання моделі. Щоб точно побачити, як це робиться, давайте подивимося, як ковзне вікно обробляє цю фразу:


`“Thou shalt not make a machine in the likeness of a human mind” ~Dune`

Коли ми починаємо, вікно знаходиться на перших трьох словах речення:

<center>
    <img src="assets/lm-sliding-window.png" height=200 width=600>
</center>

Ми вважаємо перші два слова ознаками, а третє слово — міткою:

<center>
    <img src="assets/lm-sliding-window-2.png" height=200 width=600>
</center>

Потім ми пересуваємо наше вікно до наступної позиції та створюємо другий зразок:

<center>
    <img src="assets/lm-sliding-window-3.png" height=200 width=600>
</center>

І незабаром ми маємо більший набір даних про те, які слова, як правило, з’являються після різних пар слів:

<center>
    <img src="assets/lm-sliding-window-4.png" height=200 width=600>
</center>

На практиці моделі, як правило, навчаються, поки ми пересуваємо вікно. Але я вважаю більш зрозумілим логічно відокремити фазу «генерації набору даних» від фази навчання. Окрім підходів до моделювання мови на основі нейронних мереж, для навчання мовних моделей зазвичай використовувався метод під назвою N-grams (див: Chapter 3 of [Speech and Language Processing](http://web.stanford.edu/~jurafsky/slp3/)). Щоб побачити, як цей перехід від N-grams до нейронних моделей відображається на продуктах реального світу, [ось публікація в блозі за 2015 рік Swiftkey](https://www.microsoft.com/en-us/swiftkey?rtc=1&activetab=pivot_1%3aprimaryr2), представляючи їхню модель нейронної мережі та порівнюючи її з попередньою моделлю N-gram.

N-грами (N-grams) — це секції тексту, що складаються з N послідовних елементів (найчастіше слів), які взяті разом. N вказує на кількість елементів у секції, і вони можуть бути символами, словами або навіть іншими одиницями тексту.

Отже, якщо взяти текст "ChatGPT є потужною мовною моделлю", розбитий на біграми (2-грами), виглядатиме так:

1. "ChatGPT є"
2. "є потужною"
3. "потужною мовною"
4. "мовною моделлю"

А якщо розглядати триграми (3-грами), то:

1. "ChatGPT є потужною"
2. "є потужною мовною"
3. "потужною мовною моделлю"

N-грами використовуються у багатьох областях обробки природної мови та статистиці мови. Вони можуть бути використані для аналізу тексту, побудови мовних моделей, розпізнавання мови, а також у багатьох інших застосуваннях. Моделі мови, які використовують N-грами, можуть враховувати ймовірність входження послідовностей слів або символів, що полегшує роботу з текстом та може бути використаною для автоматичного генерування тексту, корекції помилок та інших завдань.

На базі своїх знань, заповніть пропуск:

<center>
    <img src="assets/jay_was_hit_by_a_.png" height=100 width=200>
</center>

Контекст, який наданий тут, складається з п’яти слів перед порожнім словом (і попередньою згадкою «bus»). Я впевнений, що більшість людей здогадалися б, що слово `bus` йде в порожнє поле. Але що, якщо я дам вам ще одну інформацію – слово після пропуску, це змінить вашу відповідь?

<center>
    <img src="assets/jay_was_hit_by_a_bus.png" height=100 width=200>
</center>

Це повністю змінює те, що має залишитися в бланку. Слово `red` тепер, швидше за все, залишиться в порожньому місці. З цього ми дізнаємося, що слова як до, так і після певного слова мають інформаційну цінність. Виявляється, що врахування обох напрямків (слів ліворуч і праворуч від слова, яке ми вгадуємо) призводить до кращого ембедінгу слів. Давайте подивимося, як ми можемо налаштувати спосіб навчання моделі для врахування цього.

Замість того, щоб шукати лише два слова перед цільовим словом, ми також можемо дивитися два слова після нього.

<center>
    <img src="assets/continuous-bag-of-words-example.png" height=200 width=300>
</center>

Якщо ми це зробимо, набір даних, який ми фактично створюємо та тренуємо модель, виглядатиме так:

<center>
    <img src="assets/continuous-bag-of-words-dataset.png" height=100 width=200>
</center>

Це називається архітектурою **Continuous Bag of Words**, яка описана в [word2vec paper](https://arxiv.org/pdf/1301.3781.pdf). Інша архітектура, яка також мала тенденцію показувати чудові результати, робить речі трохи інакше.

Замість того, щоб вгадувати слово на основі його контексту (слів перед і після нього), ця інша архітектура намагається вгадати сусідні слова, використовуючи поточне слово. Ми можемо уявити, що вікно, яке воно ковзає проти навчального тексту, виглядає так:

<center>
    <img src="assets/skipgram-sliding-window.png" height=100 width=200>
</center>

Рожеві прямокутники мають різні відтінки, оскільки це ковзаюче вікно фактично створює чотири окремі зразки в нашому навчальному наборі даних:

<center>
    <img src="assets/skipgram-sliding-window-samples.png" height=200 width=400>
</center>

Цей метод називається архітектурою **skipgram**. Ми можемо візуалізувати вікно таким чином:

<center>
    <img src="assets/skipgram-sliding-window-1.png" height=300 width=600>
</center>

Це додало б ці чотири зразки до нашого навчального набору даних:

<center>
    <img src="assets/skipgram-sliding-window-2.png" height=300 width=600>
</center>

Потім ми пересуваємо наше вікно в наступне положення:

<center>
    <img src="assets/skipgram-sliding-window-3.png" height=300 width=600>
</center>

Що генерує наші наступні чотири приклади:

<center>
    <img src="assets/skipgram-sliding-window-4.png" height=300 width=600>
</center>

Кількома позиціями пізніше ми маємо ще багато прикладів:

<center>
    <img src="assets/skipgram-sliding-window-5.png" height=400 width=800>
</center>

**Skip-gram** є однією з архітектур для навчання векторних представлень слів, і вона використовується в контексті Word2Vec, розробленого в Google. Skip-gram є одним з двох підходів Word2Vec, іншим є Continuous Bag of Words (CBOW).

У методі Skip-gram основна ідея полягає в тому, щоб навчити модель передбачати контекстні слова на основі даного центрального слова. Замість того, щоб передбачати центральне слово на основі контексту (як у CBOW), Skip-gram намагається передбачити контекстні слова для кожного центрального слова.

Приклад:
1. Вхід: "The cat is on the mat."
2. Центральне слово: "on"
3. Контекстні слова, які модель намагається передбачити: "The", "cat", "is", "the", "mat".

Основна ідея полягає в тому, що модель навчається генерувати ймовірності для контекстних слів на основі центрального слова. Таким чином, отримуються векторні представлення слів, які допомагають моделі розуміти семантичні відносини між словами у тексті.

Метод Skip-gram часто використовується в задачах, де важливо мати точні векторні представлення слів, таких як у завданнях обробки природної мови та машинного навчання.

### Continuous Bag of Words (CBOW)

**Concept:**

У моделі CBOW мережа передбачає поточне слово на основі контексту (вікно навколишніх слів).

Дано послідовність слів $w_1, w_2, ... , w_T$, Метою моделі CBOW є максимізація середньої логарифмічної ймовірності:

$$ \frac{1}{T} \sum_{t=1}^T \log p(w_t | w_{t-\textit{window}}, ..., w_{t+\textit{window}}) $$

In [29]:
from gensim.models import Word2Vec

# Визначення набору речень для навчання моделі Word2Vec.
sentences = [
    ["hello", "world"],        # перше речення
    ["hello", "gensim"],       # друге речення
    ["hello", "python"],       # третє речення
    ["hello", "word2vec"],      # четверте речення
    ["gensimm", "hello"]
]

# Створення та навчання моделі CBOW (Continuous Bag of Words).
# CBOW - один із двох підходів у Word2Vec, який спробує передбачити слово на основі контексту.
# Вказані параметри:
# - vector_size: розмір вектору, який визначає кількість чисел, які представляють кожне слово у векторному просторі
# - window: максимальна відстань між поточним та прогнозованим словом у тексті
# - min_count: мінімальна кількість разів, яка показується слово в корпусі, щоб воно було включене до словника
# - workers: кількість потоків для навчання моделі
# - sg: вибір алгоритму. sg=0 використовує CBOW, sg=1 - Skip-gram
cbow_model = Word2Vec(sentences, vector_size=6, window=5, min_count=1, workers=4, sg=0)

# Доступ до векторів для конкретних слів.
vector = cbow_model.wv["python"]  # Отримання вектора для слова "hello"
print(vector)  # Виведення вектора у консоль

[-0.13808692 -0.1574803   0.12186277  0.08450437  0.11262822  0.01271443]


In [30]:
# Доступ до векторів для конкретних слів.
vector = cbow_model.wv["hello"]  # Отримання вектора для слова "hello"
print(vector)  # Виведення вектора у консоль

[-0.00893712  0.00394052  0.08505583  0.15015455 -0.15504916 -0.11861348]


In [31]:
# Доступ до векторів для конкретних слів.
vector = cbow_model.wv["gensimm"]  # Отримання вектора для слова "hello"
print(vector)  # Виведення вектора у консоль

[ 0.10764787  0.1495498  -0.08359047 -0.06272286  0.12300841 -0.02555786]


***Note:***

*Параметр vector_size у моделі Word2Vec визначає розмірність векторів, які використовуються для представлення слів у просторі векторів. Цей параметр вказує, скільки числових значень буде використано для кодування кожного слова. Зазвичай величина цього параметра обирається експериментально залежно від конкретної задачі і обсягу даних.*

*Наприклад, якщо ви встановите vector_size рівним 100, кожне слово буде представлено у просторі векторів як вектор з 100 числових значень. Ці значення вивчаються під час тренування моделі таким чином, щоб вони відображали семантичні відносини між словами, тобто слова з подібним значенням в просторі будуть розташовані близько одне до одного.*

### Skip-Gram

**Concept:**

Модель Skip-Gram використовує протилежний підхід порівняно з CBOW: вона передбачає навколишні слова за поточним словом.

Дано послідовність слів $w_1, w_2, ..., w_T$, метою моделі Skip-Gram є максимізація середньої логарифмічної ймовірності:

$$ \frac{1}{T} \sum_{t=1}^T \sum_{-c \le j \le c, \, j \ne 0} \log p(w_{t+j} | w_t) $$

In [34]:
# Створення та навчання моделі Skip-gram.
# Skip-gram - ще один підхід у Word2Vec, який намагається передбачити контекст на основі слова.
# Параметри аналогічні CBOW.
skipgram_model = Word2Vec(sentences, vector_size=10, window=5, min_count=1, workers=4, sg=1)

vector = skipgram_model.wv["hello"]
print(vector)

[-0.00536227  0.00236431  0.0510335   0.09009273 -0.0930295  -0.07116809
  0.06458873  0.08972988 -0.05015428 -0.03763372]


In [35]:
vector = skipgram_model.wv["python"]
print(vector)

[-0.07511582 -0.00930042  0.09538119 -0.07319167 -0.02333769 -0.01937741
  0.08077437 -0.05930896  0.00045162 -0.04753734]


В обох випадках, $p(w_{t+j} | w_t)$ визначається за допомогою функції softmax:

$$ p(w_{t+j} | w_t) = \frac{ \textit{exp}(v_{w_t}' v_{w_{t+j}}) }{ \sum_{w=1}^W \textit{exp}(v_{w_t}' v_w)} $$

де $v_w$ and $v_w'$ є вхідним і вихідним векторними представленнями w, $W$ це кількість слів у словнику.

In [5]:
# Thou shalt not make a machine in the likeness of a human mind

## Word2Vec Training Process

Перед початком процесу навчання ми попередньо обробляємо текст, на якому навчаємо модель. На цьому кроці ми визначаємо розмір нашого словникового запасу (ми назвемо це `vocab_size`, уявіть, що це, скажімо, 10 000) і які слова до нього належать.

У процесі навчання Word2Vec, терміни `embedding` та `context` відіграють важливу роль:

1. **Embedding:**
   - **Векторне вбудування (embedding):** Це представлення слів у вигляді числових векторів у просторі низької розмірності. Векторне вбудування служить числовим кодуванням слова, що враховує його семантичні властивості. Кожне слово в корпусі мови отримує свій вектор, а векторні представлення навчаються так, щоб схожі слова знаходилися близько одне до одного у векторному просторі.

2. **Context:**
   - **Контекст:** У відомих методах Word2Vec, таких як Skip-gram, контекст визначається навколишніми словами, які служать для навчання векторного представлення центрального слова. Наприклад, якщо ми маємо речення "The cat is on the mat," і обираємо слово "on" як центральне слово, то контекстні слова будуть "The," "cat," "is," "the," "mat."

Таким чином, весь процес навчання Word2Vec включає в себе створення векторних представлень слів (embedding) на основі їхніх контекстів. Модель навчається таким чином, щоб вектори центральних слів були схожими з векторами їхніх контекстів. У результаті отримується простір ембедінгів, де семантично схожі слова розташовані близько одне до одного.

Отже, embedding та context є ключовими поняттями у процесі навчання Word2Vec, який визначає, як модель розуміє та враховує семантичні відносини між словами в тексті.

На початку фази навчання ми створюємо дві матриці – матрицю **Embedding** та матрицю **Context**. Ці дві матриці мають вкладення для кожного слова в нашому словнику (тому `vocab_size` є одним із їхніх вимірів). Другий вимір — це те, якою довжиною має бути кожне вбудовування (`embedding_size`).

<center>
    <img src="assets/word2vec-embedding-context-matrix.png" height=400 width=800>
</center>

На початку процесу навчання ми ініціалізуємо ці матриці випадковими значеннями. Потім починаємо тренувальний процес. На кожному етапі навчання ми беремо один позитивний приклад і пов’язані з ним негативні приклади. Давайте візьмемо нашу першу групу:

<center>
    <img src="assets/word2vec-training-example.png" height=400 width=800>
</center>

Тепер у нас є чотири слова: вхідне слово `not` і вихідні/контекстні слова: `thou` (справжній сусід), `aaron` і `taco` (негативні приклади). Ми переходимо до пошуку їхніх ембедінгів – вхідне слово шукаємо в матриці ембедінгів. Для контекстних слів ми шукаємо матрицю **Context** (хоча обидві матриці мають ембедінги для кожного слова в нашому словнику).

<center>
    <img src="assets/word2vec-lookup-embeddings.png" height=400 width=800>
</center>

Потім ми беремо скалярний добуток введення з кожним із вбудованих контекстів. У кожному випадку це призведе до числа, це число вказує на подібність введення та вбудовування контексту.

<center>
    <img src="assets/word2vec-training-dot-product.png" height=200 width=400>
</center>

Тепер нам потрібен спосіб перетворити ці бали на щось, що виглядає як імовірності – нам потрібно, щоб усі вони були позитивними та мали значення від нуля до одиниці. Це чудове завдання для [sigmoid](https://en.wikipedia.org/wiki/Sigmoid_function), в [logistic operation](https://en.wikipedia.org/wiki/Logistic_function).

<center>
    <img src="assets/word2vec-training-dot-product-sigmoid.png" height=300 width=600>
</center>

Тепер ми можемо розглядати вихідні дані сигмоїдних операцій як вихідні дані моделі для цих прикладів. Ви бачите, що `taco` має найвищу оцінку, а `aaron` все ще має найнижчу оцінку як до, так і після операцій сигмоподібної форми.

Тепер, коли модель зробила прогноз, і бачимо, ніби у нас є фактична цільова мітка для порівняння, давайте обчислимо, яка помилка є в прогнозі моделі. Для цього ми просто віднімаємо оцінки сигмоїда з цільових міток.

<center>
    <img src="assets/word2vec-training-error.png" height=200 width=400>
</center>

Ось і «навчальна» частина «машинного навчання». Тепер ми можемо використати цю оцінку помилки, щоб скоригувати вбудовування `not`, `thou`, `aaron` і `taco` так, щоб наступного разу, коли ми виконаємо це обчислення, результат був ближчим до цільових оцінок.

<center>
    <img src="assets/word2vec-training-update.png" height=300 width=600>
</center>

На цьому навчальний крок завершено. Ми виходимо з нього з трохи кращими вкладеннями для слів, які беруть участь у цьому кроці (`not`, `thou`, `aaron` і `taco`). Тепер ми переходимо до наступного кроку (наступний позитивний зразок і пов’язані з ним негативні зразки) і повторюємо той самий процес.

<center>
    <img src="assets/word2vec-training-example-2.png" height=300 width=600>
</center>

Вбудовування продовжують удосконалюватися, поки ми кілька разів переглядаємо весь набір даних. Тоді ми можемо зупинити процес навчання, відкинути матрицю `Context` і використати матрицю `Embeddings` як наші попередньо навчені вбудовування для наступного завдання.


### Window Size and Number of Negative Samples

Двома ключовими гіперпараметрами в процесі навчання word2vec є розмір вікна та кількість негативних зразків.

<center>
    <img src="assets/word2vec-window-size.png" height=200 width=400>
</center>

Різні завдання краще виконуються за допомогою різних розмірів вікон. Одна [евристика](https://youtu.be/tAxrlAVw-Tk?t=648) полягає в тому, що менші розміри вікон (2-15) призводять до вбудовування, де високі оцінки подібності між двома вбудовуваннями вказують на те, що слова *взаємозамінні* (зауважте, що антоніми часто взаємозамінні, якщо ми дивимося лише на слова, що їх оточують, наприклад, *хороший* і *поганий* часто з’являються в схожих контекстах). Більші розміри вікон (15-50, або навіть більше) призводять до вбудовування, де подібність більше вказує на *спорідненість* слів. На практиці вам часто доведеться надавати [анотації](https://youtu.be/ao52o9l6KGw?t=287), які скеровують процес вбудовування. Розмір вікна Gensim за замовчуванням становить 5 (п’ять слів до та п’ять слів після введеного слова, на додаток до самого вхідного слова).

<center>
    <img src="assets/word2vec-negative-samples.png" height=300 width=600>
</center>

Ще одним фактором тренувального процесу є кількість негативних проб. Оригінальний документ передбачає 5-20 як хорошу кількість негативних зразків. У ньому також зазначено, що 2-5 здається достатнім, якщо у вас достатньо великий набір даних. Gensim за замовчуванням становить 5 негативних зразків.

## Implementing Word2Vec in PyTorch

### CBOW

In [36]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [37]:
# Використання простих даних
data = [
    ("the quick brown fox jumped over the lazy dog", "jumps"),  # перше речення та його мітка
    ("the fast runner easily overtook his competitor", "overtakes"),  # друге речення та його мітка
    # Додавання додаткових речень, якщо потрібно
]

# Створення словника
vocab = set()  # Ініціалізація пустого множинного словника
for context, target in data:
    vocab.update(context.split())  # Додавання слів з контекстів у словник
    vocab.update([target])          # Додавання цільових слів у словник
vocab = list(vocab)  # Перетворення множини у список, щоб мати можливість індексації
word_to_ix = {word: i for i, word in enumerate(vocab)}  # Створення словника індексів для кожного слова у словнику

word_to_ix

{'easily': 0,
 'fox': 1,
 'jumps': 2,
 'his': 3,
 'overtakes': 4,
 'jumped': 5,
 'lazy': 6,
 'brown': 7,
 'the': 8,
 'fast': 9,
 'competitor': 10,
 'quick': 11,
 'over': 12,
 'runner': 13,
 'overtook': 14,
 'dog': 15}

In [38]:
# Підготовка даних у форматі контексту та цільового слова
training_data = [(context.split(), target) for context, target in data]
training_data

[(['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog'],
  'jumps'),
 (['the', 'fast', 'runner', 'easily', 'overtook', 'his', 'competitor'],
  'overtakes')]

In [39]:
class CBOW(nn.Module):
    def __init__(self, vocab_size, embed_size):
        super(CBOW, self).__init__()
        # Embedding layer для конвертації індексів слів у векторні представлення
        self.embedding = nn.Embedding(vocab_size, embed_size)  # https://pytorch.org/docs/stable/generated/torch.nn.Embedding.html
        self.context = nn.Linear(embed_size, vocab_size)  # https://pytorch.org/docs/stable/generated/torch.nn.Linear.html

    def forward(self, inputs):  # Вхід: тензор індексів слів [TENSOR]
        embeds = self.embedding(inputs)  # Отримання векторного представлення для кожного слова в контексті [TENSOR, EMBED_SIZE]
        embeds_mean = torch.mean(embeds, dim=0)  # Обчислення середнього вектора для всього контексту [EMBED_SIZE]
        out = self.context(embeds_mean)  # Передача середнього вектора через контекстний шар [VOCAB_SIZE]
        log_probs = F.log_softmax(out, dim=0)  # Обчислення логарифмів ймовірностей для кожного слова словника [VOCAB_SIZE]
        return log_probs

In [40]:
EMBEDDING_DIM = 32  # Розмір векторного представлення слів
LEARNING_RATE = 0.001  # Швидкість навчання моделі
EPOCHS = 50  # Кількість епох навчання

torch.manual_seed(42)  # Фіксація seed для відтворюваності результатів
model = CBOW(len(vocab), EMBEDDING_DIM)  # Створення моделі CBOW з відповідними розмірами входу та виходу

# Визначення функції втрат. Використовується NLLLoss, оскільки модель повертає логарифми ймовірностей
loss_function = nn.NLLLoss()  # https://pytorch.org/docs/stable/generated/torch.nn.NLLLoss.html

# Визначення оптимізатора для навчання моделі (Adam)
optimizer = torch.optim.Adam(model.parameters(), lr=LEARNING_RATE)

# Цикл навчання моделі протягом заданої кількості епох
for epoch in range(EPOCHS):
    total_loss = 0
    # Проходимося по кожному запису в тренувальних даних
    for context, target in training_data:
        context_idxs = torch.tensor([word_to_ix[w] for w in context], dtype=torch.long)  # Конвертація слова у відповідний індекс
        target_idx = torch.tensor([word_to_ix[target]], dtype=torch.long)  # Конвертація цільового слова у відповідний індекс
        
        model.zero_grad()  # Обнулення градієнтів
        
        log_probs = model(context_idxs)  # Передача контексту через модель для отримання логарифмів ймовірностей
        
        # Обчислення втрат та градієнтів для оновлення параметрів моделі
        loss = loss_function(log_probs.view(1, -1), target_idx)
        loss.backward()
        optimizer.step()

        total_loss += loss.item()  # Додавання втрат для відстеження загальної втрати у кожній епохі

    # Виведення втрат на кінець кожної епохи/
    print(f'Epoch {epoch+1}, Loss: {total_loss}')

Epoch 1, Loss: 5.063270807266235
Epoch 2, Loss: 5.001727104187012
Epoch 3, Loss: 4.944370269775391
Epoch 4, Loss: 4.88770055770874
Epoch 5, Loss: 4.831376552581787
Epoch 6, Loss: 4.775300979614258
Epoch 7, Loss: 4.719436883926392
Epoch 8, Loss: 4.663767099380493
Epoch 9, Loss: 4.608281373977661
Epoch 10, Loss: 4.552973985671997
Epoch 11, Loss: 4.497838973999023
Epoch 12, Loss: 4.442871570587158
Epoch 13, Loss: 4.388066530227661
Epoch 14, Loss: 4.333418607711792
Epoch 15, Loss: 4.2789223194122314
Epoch 16, Loss: 4.224572777748108
Epoch 17, Loss: 4.1703643798828125
Epoch 18, Loss: 4.116292953491211
Epoch 19, Loss: 4.062353610992432
Epoch 20, Loss: 4.008542776107788
Epoch 21, Loss: 3.954857349395752
Epoch 22, Loss: 3.9012949466705322
Epoch 23, Loss: 3.847854256629944
Epoch 24, Loss: 3.794535279273987
Epoch 25, Loss: 3.7413374185562134
Epoch 26, Loss: 3.688263416290283
Epoch 27, Loss: 3.6353152990341187
Epoch 28, Loss: 3.5824965238571167
Epoch 29, Loss: 3.529811978340149
Epoch 30, Loss: 3.

In [44]:
# Отримання векторного представлення слова
word_emb = model.embedding(torch.tensor(word_to_ix["fox"], dtype=torch.long))  # Подача індексу слова на вході до Embedding шару моделі

print(word_emb.shape)  # Виведення розміру отриманого вектору
print(word_emb)  # Виведення отриманого векторного представлення слова

torch.Size([32])
tensor([-1.4690, -0.7932, -0.3008,  1.6401,  0.3698, -0.5005,  0.2208, -0.7009,
        -1.6204,  1.0753, -0.9587, -0.6892, -1.3657,  2.2028, -1.2310, -0.4128,
        -0.9899, -0.7467,  0.0025,  0.4714, -0.4732,  1.1207, -0.7514, -0.6439,
        -1.4227,  0.0846, -0.1352,  0.6963, -0.0157,  1.8053, -1.2461,  1.3962],
       grad_fn=<EmbeddingBackward0>)


In [45]:
# Тестування моделі з контекстом для передбачення цільового слова
context = ["the", "quick", "brown", "fox"]  # Контекст для передбачення цільового слова

context_idxs = torch.tensor([word_to_ix[w] for w in context], dtype=torch.long)  # Конвертація контексту у відповідні індекси

log_probs = model(context_idxs)  # Передача контексту через модель для отримання логарифмів ймовірностей

_, predicted_idx = torch.max(log_probs.view(1, -1), 1)  # Вибір індексу з найбільшим значенням ймовірності

print(f'Predicted word: {vocab[predicted_idx]}')  # Виведення передбаченого слова

Predicted word: jumps


### Skip Gram

In [46]:
# Використання простих даних
data = [
    "the quick brown fox jumped over the lazy dog",  # перше речення
    "the fast runner easily overtook his competitor",  # друге речення
    # Додавання додаткових речень, якщо потрібно
]

# Створення словника
vocab = set()  # Ініціалізація пустого множинного словника
for sentence in data:
    vocab.update(sentence.split())  # Додавання слів з кожного речення у словник
vocab = list(vocab)  # Перетворення множини у список, щоб мати можливість індексації
word_to_ix = {word: i for i, word in enumerate(vocab)}  # Створення словника індексів для кожного слова у словнику

word_to_ix

{'easily': 0,
 'fox': 1,
 'his': 2,
 'jumped': 3,
 'lazy': 4,
 'brown': 5,
 'the': 6,
 'fast': 7,
 'competitor': 8,
 'quick': 9,
 'over': 10,
 'runner': 11,
 'overtook': 12,
 'dog': 13}

In [49]:
# Підготовка даних у форматі цільового слова та контексту
WINDOW_SIZE = 2  # Розмір вікна контексту

training_data = []  # Ініціалізація пустого списку тренувальних даних
for sentence in data:
    words = sentence.split()  # Розбиття речення на окремі слова
    for i, target in enumerate(words):
        context = [words[j] for j in range(max(0, i - WINDOW_SIZE), min(len(words), i + WINDOW_SIZE + 1)) if j != i]  # Формування контексту навколо цільового слова
        for context_word in context:
            training_data.append((target, context_word))  # Додавання пари (цільове слово, слово контексту) до тренувальних даних

print("Training Size", len(training_data))  # Виведення розміру тренувальних даних
training_data[:20]  # Виведення перших 20 записів тренувальних даних

Training Size 52


[('the', 'quick'),
 ('the', 'brown'),
 ('quick', 'the'),
 ('quick', 'brown'),
 ('quick', 'fox'),
 ('brown', 'the'),
 ('brown', 'quick'),
 ('brown', 'fox'),
 ('brown', 'jumped'),
 ('fox', 'quick'),
 ('fox', 'brown'),
 ('fox', 'jumped'),
 ('fox', 'over'),
 ('jumped', 'brown'),
 ('jumped', 'fox'),
 ('jumped', 'over'),
 ('jumped', 'the'),
 ('over', 'fox'),
 ('over', 'jumped'),
 ('over', 'the')]

In [50]:
class SkipGram(nn.Module):
    def __init__(self, vocab_size, embed_size):
        super(SkipGram, self).__init__()
        # Embedding layer для конвертації індексів слів у векторні представлення
        self.embedding = nn.Embedding(vocab_size, embed_size)
        # Контекстний шар для перетворення векторного представлення цільового слова у розподіл ймовірностей над словами словника
        self.context = nn.Linear(embed_size, vocab_size)
        
    def forward(self, target):
        embeds = self.embedding(target)  # Отримання векторного представлення для цільового слова
        out = self.context(embeds)  # Передача векторного представлення через контекстний шар
        log_probs = F.log_softmax(out, dim=1)  # Обчислення логарифмів ймовірностей для кожного слова словника
        return log_probs

In [52]:
EMBEDDING_DIM = 32  # Розмір векторного представлення слів
LEARNING_RATE = 0.001  # Швидкість навчання моделі
EPOCHS = 150  # Кількість епох навчання

torch.manual_seed(42)  # Фіксація seed для відтворюваності результатів
model = SkipGram(len(vocab), EMBEDDING_DIM)  # Створення моделі SkipGram з відповідними розмірами входу та виходу
loss_function = nn.NLLLoss()  # Визначення функції втрат. Використовується NLLLoss, оскільки модель повертає логарифми ймовірностей
optimizer = torch.optim.Adam(model.parameters(), lr=LEARNING_RATE)  # Визначення оптимізатора для навчання моделі (Adam)

# Цикл навчання моделі протягом заданої кількості епох
for epoch in range(EPOCHS):
    total_loss = 0

    # Проходимося по кожній парі цільового слова та контексту у тренувальних даних
    for target, context in training_data:
        target_idx = torch.tensor([word_to_ix[target]], dtype=torch.long)  # Конвертація цільового слова у відповідний індекс
        context_idx = torch.tensor([word_to_ix[context]], dtype=torch.long)  # Конвертація слова контексту у відповідний індекс
        
        model.zero_grad()  # Обнулення градієнтів
        
        log_probs = model(target_idx)  # Передача цільового слова через модель для отримання логарифмів ймовірностей
        
        # Обчислення втрат та градієнтів для оновлення параметрів моделі
        loss = loss_function(log_probs, context_idx)
        loss.backward()
        optimizer.step()
        
        total_loss += loss.item()  # Додавання втрат для відстеження загальної втрати у кожній епохі

    # Виведення втрат на кінець кожної епохи
    print(f'Epoch {epoch+1}, Loss: {total_loss}')

Epoch 1, Loss: 143.06319761276245
Epoch 2, Loss: 136.11760580539703
Epoch 3, Loss: 131.4817761182785
Epoch 4, Loss: 127.26307535171509
Epoch 5, Loss: 123.41577744483948
Epoch 6, Loss: 119.90144371986389
Epoch 7, Loss: 116.68616664409637
Epoch 8, Loss: 113.74019968509674
Epoch 9, Loss: 111.03728175163269
Epoch 10, Loss: 108.55406451225281
Epoch 11, Loss: 106.26967394351959
Epoch 12, Loss: 104.16538536548615
Epoch 13, Loss: 102.22440135478973
Epoch 14, Loss: 100.43163502216339
Epoch 15, Loss: 98.77357745170593
Epoch 16, Loss: 97.23813676834106
Epoch 17, Loss: 95.81451308727264
Epoch 18, Loss: 94.49306333065033
Epoch 19, Loss: 93.2651858329773
Epoch 20, Loss: 92.12319219112396
Epoch 21, Loss: 91.06019186973572
Epoch 22, Loss: 90.06998765468597
Epoch 23, Loss: 89.14699423313141
Epoch 24, Loss: 88.28614270687103
Epoch 25, Loss: 87.48281341791153
Epoch 26, Loss: 86.73278141021729
Epoch 27, Loss: 86.03216683864594
Epoch 28, Loss: 85.37738925218582
Epoch 29, Loss: 84.76515185832977
Epoch 30, L

In [54]:
# Отримання векторного представлення слова
word_emb = model.embedding(torch.tensor(word_to_ix["fox"], dtype=torch.long))  # Подача індексу слова на вході до Embedding шару моделі
print(word_emb)  # Виведення векторного представлення слова

tensor([-1.4587, -0.9210,  0.2019,  1.9399,  0.4100, -0.1573,  0.6388, -0.8298,
        -1.8157,  1.0839, -0.9182, -0.6527, -1.4537,  2.7578, -1.2844, -0.5320,
        -0.9350, -0.7515,  0.1263,  0.3258, -0.7514,  1.1269, -1.3218, -0.9853,
        -1.6952, -0.0351, -0.2127,  0.2832, -0.2839,  2.2281, -1.2435,  1.4269],
       grad_fn=<EmbeddingBackward0>)


In [56]:
# Тестування моделі з цільовим словом для передбачення слов контексту
target = "lazy"  # Цільове слово для передбачення контексту
target_idx = torch.tensor([word_to_ix[target]], dtype=torch.long)  # Конвертація цільового слова у відповідний індекс
log_probs = model(target_idx)  # Передача цільового слова через модель для отримання логарифмів ймовірностей
_, predicted_idx = torch.max(log_probs, 1)  # Вибір індексу з найбільшим значенням ймовірності
print(f'Predicted context word: {vocab[predicted_idx]}')  # Виведення передбаченого слова контексту

Predicted context word: dog


# GloVe

**GloVe (Global Vectors for Word Representation)** — це метод отримання векторних представлень слів, аналогічний Word2Vec. Розроблений Френсісом Янгом, Крістіаном Мендельсоном та Іксін Лі у 2014 році, GloVe відрізняється своєю концепцією, що відрізняється від інших методів.

Основна ідея GloVe полягає у використанні глобальної статистики корпусу мови для отримання векторних представлень слів. Він використовує матрицю зважувань, яка представляє взаємозв'язки слів у корпусі, і намагається вивчити такі вектори, які максимально точно відображають ці статистичні відносини.

Основні принципи GloVe:
1. **Матриця зважувань:** GloVe використовує матрицю зважувань, яка містить інформацію про взаємозв'язки слів у корпусі мови.
2. **Глобальна статистика:** Використання глобальних статистик дозволяє моделі враховувати глобальні структури мови та семантичні відносини.
3. **Оптимізація функції втрат:** Метод оптимізує функцію втрат для знаходження векторів слів, які найкраще відображають глобальні зв'язки між словами.

GloVe надає досить ефективні векторні представлення слів, особливо коли у корпусі є велика кількість тексту та статистика взаємозв'язків слів є значущою. Він часто використовується у задачах обробки природної мови та машинного навчання для отримання семантично багатозначних представлень слів.

### Step 1: Building the Co-occurrence Matrix

Дано корпус, обчисліть матрицю спільного входження $X$, де $X_{ij}$​ представляє кількість повторень слова $j$ зустрічається в контексті слова $i$. Контекст можна визначити як вікно навколо слова $i$.

### Step 2: Matrix Factorization

Основна ідея GloVe полягає в тому, щоб розкласти на множники матрицю спільного входження, щоб знайти векторне представлення слів. Він спрямований на вивчення таких векторів слів, що їх скалярний добуток дорівнює логарифму ймовірності спільного зустрічання слів.

Цільова функція визначається як:

$$ J = \sum_{i,j=1}^V f(X_{ij})(w_i^T \hat{w}_j + b_i + \hat{b}_j - \log(X_{ij}))^2 $$

Де:
- $w_j$ і $\hat{w}_j$ є векторами слів для слів $i$ і $j$ відповідно.
- $b_i$ і $\hat{b}_j$ є упередженими термінами для слів $i$ і $j$ відповідно.
- $f(X_{ij})$ це вагова функція, яка призначає відносно меншу вагу рідкісним і частим подіям.
- $V$ це розмір словникового запасу.

### Step 3: Weighting Function

Вагова функція $f(x)$ вибрано для того, щоб запобігти домінуванню надто частих пар слів у навчанні. Це визначається як:

$$f(x) = \begin{cases} (\frac{x}{x_{\max}})^{\alpha} & \textit{if } x < x_{\max} \\ 1 & \textit{otherwise} \end{cases}$$

Зазвичай, $\alpha=0.75$ and $x_{\max}=100$.

### Step 4: Training

1. **Initialization:** Випадково ініціалізуйте вектори слів і умови зміщення (bias).
3. **Optimization:** Використовуйте градієнтний спуск, щоб мінімізувати цільову функцію $J$, оновлюючи вектори слів і умови зсуву, щоб зменшити вартість/функцію втрат (cost function).
4. **Iterations:** Перебирайте кожну пару слів у корпусі та оновлюйте вектори, щоб мінімізувати витрати, пов’язані з кожною парою.

Після навчання $w$ або $\hat{w}$ можна використовувати як вектори слів або їх можна комбінувати.

## PyTorch implementation

In [57]:
from collections import Counter  # Імпорт класу Counter для підрахунку елементів у списку
from scipy.sparse import coo_matrix  # Імпорт функції coo_matrix для створення розрідженої матриці
import numpy as np  # Імпорт бібліотеки NumPy для роботи з масивами та матрицями

In [58]:
def create_cooccurrence_matrix(corpus, vocab, window_size=2):
    vocab_size = len(vocab)  # Визначення розміру словника
    word2id = {word: i for i, word in enumerate(vocab)}  # Створення словника індексів для слів у словнику
    
    cooccurrences = Counter()  # Ініціалізація лічильника для підрахунку співвходжень слів
    
    # Проходимося по кожному реченню у корпусі
    for sentence in corpus:
        sentence = [word for word in sentence if word in vocab]  # Вибірка лише слів, які присутні у словнику
        # Проходимося по кожному слову у реченні
        for i, word in enumerate(sentence):
            # Проходимося по словам у вікні навколо поточного слова
            for j in range(max(0, i - window_size), min(len(sentence), i + window_size + 1)):
                if i != j:
                    # Збільшення лічильника співвходжень між поточним словом та словом у вікні
                    cooccurrences[(word2id[word], word2id[sentence[j]])] += 1
    
    # Розпакування індексів та значень лічильника, щоб сформувати розріджену матрицю
    ij_indices, values = zip(*cooccurrences.most_common())
    i_indices, j_indices = zip(*ij_indices)

    print(word2id)
    
    # Створення розрідженої матриці з отриманих індексів та значень
    cooccurrence_matrix = coo_matrix((values, (i_indices, j_indices)), shape=(vocab_size, vocab_size))
    
    return cooccurrence_matrix

# Визначення корпусу та словника
corpus = [["the", "quick", "brown", "fox"], ["jumped", "over", "the", "lazy", "dog"]]
vocab = list(set(word for sentence in corpus for word in sentence))

# Створення матриці співвходжень
X_ij = create_cooccurrence_matrix(corpus, vocab)

{'fox': 0, 'jumped': 1, 'lazy': 2, 'brown': 3, 'the': 4, 'quick': 5, 'over': 6, 'dog': 7}


In [59]:
X_ij

<8x8 sparse matrix of type '<class 'numpy.int64'>'
	with 24 stored elements in COOrdinate format>

In [60]:
X_ij.todense()

matrix([[0, 0, 0, 1, 0, 1, 0, 0],
        [0, 0, 0, 0, 1, 0, 1, 0],
        [0, 0, 0, 0, 1, 0, 1, 1],
        [1, 0, 0, 0, 1, 1, 0, 0],
        [0, 1, 1, 1, 0, 1, 1, 1],
        [1, 0, 0, 1, 1, 0, 0, 0],
        [0, 1, 1, 0, 1, 0, 0, 0],
        [0, 0, 1, 0, 1, 0, 0, 0]])

In [61]:
class GloVe(nn.Module):
    def __init__(self, vocab_size, embed_size):
        super(GloVe, self).__init__()
        # Embedding шар для векторного представлення слів
        self.w_embeddings = nn.Embedding(vocab_size, embed_size)
        self.w_dash_embeddings = nn.Embedding(vocab_size, embed_size)
        
        # Embedding шар для зміщень
        self.w_biases = nn.Embedding(vocab_size, 1)
        self.w_dash_biases = nn.Embedding(vocab_size, 1)
        
    def forward(self, i_indices, j_indices):
        # Отримання векторних представлень слів за їхніми індексами
        w_embeds = self.w_embeddings(i_indices)
        w_dash_embeds = self.w_dash_embeddings(j_indices)
        
        # Отримання зміщень за індексами
        w_bias = self.w_biases(i_indices)
        w_dash_bias = self.w_dash_biases(j_indices)
        
        # Обчислення ваги (x_ij) для кожної пари (i, j)
        x = (torch.sum(w_embeds * w_dash_embeds, dim=1) + w_bias.squeeze() + w_dash_bias.squeeze())
        return x

In [62]:
def glove_loss(x, x_max, alpha, y):
    # Обчислення ваги для кожного значення x за допомогою функції ваг
    weight = torch.where(x < x_max, (x/x_max) ** alpha, torch.ones_like(x))  # f(x)
    # Обчислення втрат GloVe
    return torch.sum(weight * (y - torch.log(x)) ** 2)

In [70]:
embed_size = 5  # Розмір векторного представлення слів
x_max = 100  # Максимальне значення x
alpha = 0.75  # Параметр alpha
epochs = 50  # Кількість епох навчання
lr = 1e-3  # Швидкість навчання

torch.manual_seed(42)  # Фіксація seed для відтворюваності результатів
model = GloVe(len(vocab), embed_size)  # Створення моделі GloVe з відповідними розмірами входу та виходу
optimizer = torch.optim.Adam(model.parameters(), lr=lr)  # Визначення оптимізатора для навчання моделі (Adam)

# Цикл навчання моделі протягом заданої кількості епох
for epoch in range(epochs):
    optimizer.zero_grad()  # Обнулення градієнтів
    
    # Отримання індексів та значень з розрідженої матриці X_ij
    i_indices, j_indices, values = X_ij.row, X_ij.col, X_ij.data
    i_indices, j_indices, values = map(torch.LongTensor, (i_indices, j_indices, values))
    
    # Передача індексів та значень через модель для отримання вихідних значень
    outputs = model(i_indices, j_indices)
    # Обчислення втрат за допомогою функції glove_loss
    loss = glove_loss(values.float(), x_max, alpha, outputs)
    
    loss.backward()  # Обчислення градієнтів
    optimizer.step()  # Оновлення параметрів моделі
    
    # Виведення втрат на кінець кожної епохи
    print(f'Epoch {epoch+1}, Loss: {loss.item()}')

Epoch 1, Loss: 4.779045104980469
Epoch 2, Loss: 4.755053997039795
Epoch 3, Loss: 4.731152534484863
Epoch 4, Loss: 4.707340240478516
Epoch 5, Loss: 4.683619499206543
Epoch 6, Loss: 4.6599907875061035
Epoch 7, Loss: 4.636454105377197
Epoch 8, Loss: 4.613012313842773
Epoch 9, Loss: 4.58966588973999
Epoch 10, Loss: 4.566415309906006
Epoch 11, Loss: 4.543262481689453
Epoch 12, Loss: 4.520206928253174
Epoch 13, Loss: 4.497249603271484
Epoch 14, Loss: 4.474391937255859
Epoch 15, Loss: 4.451634883880615
Epoch 16, Loss: 4.428977012634277
Epoch 17, Loss: 4.406421184539795
Epoch 18, Loss: 4.38396692276001
Epoch 19, Loss: 4.361615180969238
Epoch 20, Loss: 4.3393659591674805
Epoch 21, Loss: 4.317220211029053
Epoch 22, Loss: 4.295177936553955
Epoch 23, Loss: 4.2732391357421875
Epoch 24, Loss: 4.251404285430908
Epoch 25, Loss: 4.229674339294434
Epoch 26, Loss: 4.208048343658447
Epoch 27, Loss: 4.186528205871582
Epoch 28, Loss: 4.165112495422363
Epoch 29, Loss: 4.143801689147949
Epoch 30, Loss: 4.1225

In [72]:
model.w_embeddings(torch.tensor(word_to_ix["lazy"], dtype=torch.long))

tensor([-0.7094,  1.0294,  0.7520,  1.6353,  0.0911],
       grad_fn=<EmbeddingBackward0>)