# Recurrent Neural Networks

Рекурентна нейронна мережа (RNN) - це клас штучних нейронних мереж, призначених для обробки послідовних даних і врахування контексту з попередніх кроків. Основна особливість RNN полягає в тому, що вона має внутрішні зв'язки, що дозволяють інформації передаватися від одного кроку до наступного в послідовності даних.

Кожен елемент послідовності обробляється RNN на основі вхідних даних та внутрішнього стану (попередньої інформації). Це дозволяє RNN утримувати певний контекст та використовувати його для передбачення або класифікації наступного елемента в послідовності.

Однак стандартні RNN мають певні недоліки, такі як проблема зі зниклим градієнтом, яка може утруднювати навчання на довгих послідовностях. Тому було розроблено різноманітні модифікації RNN, такі як Long Short-Term Memory (LSTM) та Gated Recurrent Unit (GRU), які допомагають подолати ці обмеження.

У сфері штучного інтелекту, що постійно розширюється, аналіз і прогнозування послідовних даних залишаються ключовими зусиллями. Це насамперед тому, що численні аспекти реального світу, такі як мова, дані часових рядів природно існують у послідовності. Розуміння цих послідовностей і передбачення майбутніх подій на основі минулих даних є основою багатьох сучасних систем ШІ. Recurrent Neural Networks (RNN), клас штучних нейронних мереж, призначених явно для розпізнавання шаблонів у послідовностях даних.

<center>
    <img src="assets/sequential_problems.png" height=300 width=700>
</center>

Перш ніж ми заглибимося в RNN, давайте спочатку зрозуміємо, чому вони необхідні. У багатьох випадках інформація, що передається, не є ізольованою, а радше залежить від серії попередніх елементів. Традиційні нейронні мережі, включаючи мережі прямого зв’язку, мають тенденцію розглядати вхідні дані незалежно, позбавлені будь-якого послідовного контексту. Це обмеження стає особливо помітним у таких завданнях, як моделювання мови, де значення слова часто глибоко переплітається з його попередніми словами. Отже, механізм «пригадування» або розгляду минулої інформації стає вирішальним.

## Basic RNNs

На цьому етапі в гру вступають RNN, призначені для вирішення вищезгаданого обмеження. RNN створюють петлю в мережі, що забезпечує постійність інформації. По суті, це означає, що мережа має форму пам’яті, яка допомагає зберігати інформацію про попередні вхідні дані під час обробки нових.

Давайте зануримося в деталі. RNN — це клас нейронних мереж, які дозволяють використовувати попередні виходи як вхідні, маючи приховані стани. Зазвичай вони такі:

<center>
    <img src="assets/architecture-rnn-ltr.png", height=400 width=800>
</center>

Для кожного тимчасового кроку $t$ активація $a^{<t>}$ і результат $y^{<t>}$ виражаються таким чином:

$$ a^{<t>} = g_1(W_{aa} a^{<t - 1>} + W_{ax} x^{<t>} + b_a) $$
$$ y^{<t>} = g_2(W_{ya} a^{<t>} + b_y) $$

де $W_{ax}$, $W_{aa}$, $W_{ya}$, $b_{a}$, $b_{y}$ це коефіцієнти, які спільно використовуються в часі, і функції активації $g_1$, $g_2$.

<center>
    <img src="assets/description-block-rnn-ltr.png" height=400 width=800>
</center>

Рекурентна нейронна мережа — це нейронна мережа, яка спеціалізується на обробці послідовності даних $x(t)= x(1), . . . , x(τ)$ з індексом кроку за часом $t$ від $1$ до $τ$ (tau). Для завдань, які передбачають послідовне введення, наприклад мова, часто краще використовувати RNN. У задачі НЛП, якщо ви хочете передбачити наступне слово в реченні, важливо знати слова перед ним. RNN називають рекурентними, тому що вони виконують одне й те саме завдання для кожного елемента послідовності, при цьому результат залежить від попередніх обчислень. Інший спосіб думати про RNN полягає в тому, що вони мають «пам’ять», яка фіксує інформацію про те, що було обчислено до цього часу.

<center>
    <img src="assets/CleanShot 2023-12-04 at 15.36.10.png">
</center>

У лівій частині наведеної вище діаграми показано позначення RNN, а в правій частині RNN розгортається у повну мережу. Під розгортанням ми маємо на увазі, що ми записуємо мережу для повної послідовності. Наприклад, якщо послідовність, яка нас цікавить, є реченням із 3 слів, мережа буде розгорнута в 3-рівневу нейронну мережу, по одному шару для кожного слова.

**Вхідні дані**: $x(t)$​ береться як вхідні дані для мережі на кроці часу $t$. Наприклад, $x1$ може бути вектором з одноразовим використанням, що відповідає слову речення.

**Прихований стан**: $h(t)$​ представляє прихований стан у момент часу $t$ і діє як «пам’ять» мережі. $h(t)$​ обчислюється на основі поточного введення та прихованого стану попереднього кроку часу: $h(t)​ = f(U x(t)​ + W h(t−1)​)$. Функція $f$ вважається нелінійним перетворенням, таким як `tanh`, `ReLU`.

**Вагові коефіцієнти**: RNN має вхідні дані для прихованих зв’язків, параметризованих ваговою матрицею $U$, повторювані зв’язки «від прихованих до прихованих», параметризованих ваговою матрицею $W$, і приховані вихідні зв’язки, параметризовані ваговою матрицею $V$ і всіма цими ваговими коефіцієнтами $(U, V, W)$ поділяються в часі.

**Вихід**: $o(t)$​ ілюструє вихід мережі.

### Forward Pass

На малюнку не вказано вибір функції активації для прихованих одиниць. Перш ніж продовжити, ми зробимо кілька припущень:
1) ми припустимо функцію активації гіперболічного тангенса для прихованого шару.
2) Ми припускаємо, що вихід є дискретним, ніби RNN використовується для передбачення слів або символів. Природний спосіб представлення дискретних змінних полягає в тому, щоб розглядати результат $o$ як такий, що дає ненормализовані логарифмічні ймовірності кожного можливого значення дискретної змінної. Потім ми можемо застосувати операцію `softmax` як етап постобробки, щоб отримати вектор $ŷ$ нормалізованих ймовірностей над результатом.

Таким чином, прямий прохід RNN може бути представлений наведеним нижче набором рівнянь.

<center>
    <img src="assets/1.png">
</center>

Це приклад рекурентної мережі, яка відображає вхідну послідовність у вихідну послідовність такої ж довжини. Тоді загальні втрати для даної послідовності значень $x$ у поєднанні з послідовністю значень $y$ будуть лише сумою втрат за всі часові кроки. Ми припускаємо, що виходи $o(t)$ використовуються як аргументи функції `softmax` для отримання вектора ймовірностей над виходом. Ми також припускаємо, що втрата $L$ є негативним логарифмом правдоподібності справжньої цілі $y(t)$, враховуючи вхідні дані до цього часу.

### Backward Pass

Обчислення градієнта передбачає виконання прямого проходу розповсюдження, що рухається зліва направо через графік, показаний вище, а потім зворотного проходу розповсюдження, що рухається справа наліво через графік. Час виконання дорівнює $O(τ)$ і не може бути зменшений розпаралелюванням, оскільки граф прямого поширення за своєю суттю є послідовним; кожен часовий крок може бути обчислений лише після попереднього. Стани, обчислені в прямому проході, повинні зберігатися, доки вони не будуть повторно використані під час зворотного проходу, тому вартість пам’яті також дорівнює $O(τ)$. Алгоритм зворотного поширення, застосований до розгорнутого графіка з вартістю $O(τ)$, називається зворотним поширенням у часі (Backpropagation Through Time - BPTT). Оскільки параметри спільні для всіх часових кроків у мережі, градієнт на кожному виході залежить не лише від обчислень поточного, але й попередніх часових кроків.

### Computing Gradients

Враховуючи нашу функцію втрат $L$, нам потрібно обчислити градієнти для наших трьох вагових матриць $U, V, W$ і членів зсуву $b, c$ і оновити їх за допомогою швидкості навчання $α$. Подібно до нормального зворотного поширення, градієнт дає нам уявлення про те, як змінюються втрати щодо кожного вагового параметра. Ми оновлюємо ваги $W$, щоб мінімізувати втрати за допомогою наступного рівняння:

<center>
    <img src="assets/2.png">
</center>

Те ж саме потрібно зробити для інших ваг $U, V, b, c$.

Давайте тепер обчислимо градієнти за допомогою BPTT для наведених вище рівнянь RNN. Вузли нашого обчислювального графа включають параметри $U, V, W, b і c$, а також послідовність вузлів, індексованих $t$ для $x(t)$, $h(t)$, $o(t)$ і $L(t)$. Для кожного вузла $n$ нам потрібно рекурсивно обчислити градієнт $∇nL$ на основі градієнта, обчисленого у вузлах, які слідують за ним на графіку.

Градієнт щодо виходу $o(t)$ обчислюється за умови, що $o(t)$ використовується як аргумент функції softmax для отримання вектора $ŷ$ ймовірностей над виходом. Ми також припускаємо, що втрата – це від’ємна логарифмічна ймовірність справжньої цілі $y(t)$.

<center>
    <img src="assets/3.png">
</center>

Давайте тепер зрозуміємо, як градієнт протікає через прихований стан $h(t)$. Це ми можемо чітко бачити з наведеної нижче діаграми, що в момент часу $t$ прихований стан $h(t)$ має градієнт, що випливає як від поточного виходу, так і від наступного прихованого стану.

<center>
    <img src="assets/4.png">
</center>

Ми йдемо назад, починаючи з кінця послідовності. На останньому часовому кроці $τ$, $h(τ)$ має лише $o(τ)$ як нащадка, тому його градієнт простий:

<center>
    <img src="assets/5.png">
</center>

Потім ми можемо виконати ітерацію назад у часі для зворотного поширення градієнтів у часі від $t=τ−1$ до $t=1$, зауваживши, що $h(t)$ (для $t < τ$) має як нащадків як $o(t)$, так і $h(t+1)$. Його градієнт визначається як:

<center>
    <img src="assets/6.png">
</center>

Після отримання градієнтів на внутрішніх вузлах обчислювального графа ми можемо отримати градієнти на вузлах параметрів. Розрахунок градієнта з використанням ланцюгового правила для всіх параметрів:

<center>
    <img src="assets/7.png">
</center>

### Unrolling RNNs in Time

Щоб краще зрозуміти RNN, часто корисно «розгорнути» його на кілька часових кроків. Кожна одиниця в мережі пов’язана з певним часовим кроком і приймає як вхідні дані попередньої одиниці (з попереднього часового кроку) разом із поточним входом. Цей процес передачі інформації вздовж кроків у часі дозволяє RNN ефективно моделювати послідовні дані.

### Forward Pass, Backward Pass (Backpropagation Through Time - BPTT)

Навчання RNN передбачає прохід вперед, де ми обчислюємо вихідні дані з урахуванням поточних вхідних даних і станів, після чого слід прохід назад, де ми регулюємо ваги за допомогою градієнтного спуску. Цей процес дещо складніший, ніж у мережах прямого зв’язку через тимчасові з’єднання. Алгоритм, який використовується для цього, називається зворотним розповсюдженням у часі (Backpropagation Through Time - BPTT), розширенням стандартного зворотного розповсюдження, що використовується в інших нейронних мережах.

<center>
    <img src="assets/btt.png" height=300, width=500>
</center>

BPTT працює, розгортаючи RNN з часом, створюючи ряд взаємопов’язаних мереж прямого зв’язку. Кожен часовий крок відповідає одному шару в цій розгорнутій мережі, а ваги між шарами розподіляються між часовими кроками. Розгорнуту мережу можна розглядати як дуже глибоку мережу прямого зв’язку, де ваги розподіляються між шарами.

Під час навчання помилка поширюється через розгорнуту мережу, а ваги оновлюються за допомогою градієнтного спуску. Це дозволяє мережі навчитися прогнозувати вихід на кожному кроці часу на основі вхідних даних на цьому кроці часу, а також на попередніх кроках часу.

Однак BPTT має певні труднощі, такі як проблема зникнення градієнта, коли градієнти стають дуже малими, коли вони поширюються назад у часі, що ускладнює вивчення довгострокових залежностей. Щоб вирішити цю проблему, були запропоновані різні модифікації BPTT, такі як усічене зворотне поширення в часі та градієнтне відсікання.

### Challenges: Gradient Vanishing and Exploding

Незважаючи на свій потенціал, RNN не позбавлені викликів. Найпомітнішими проблемами є проблеми зникнення та вибухового градієнта. Це відноситься до явищ, коли під час навчання градієнти можуть стати занадто малими (зникнути) або занадто великими (вибухнути), що ускладнює навчання мережі. Для пом’якшення цих проблем було розроблено різні стратегії та вдосконалені архітектури.

BPTT потребує обчислень і може страждати від проблеми зникнення або вибуху градієнта, особливо для довгих послідовностей. Це робить навчання RNN з BPTT складним для довгих послідовностей. Такі методи, як відсікання градієнта або використання передових архітектур, таких як LSTM і GRU, можуть допомогти пом’якшити ці проблеми.

Переваги та недоліки типової архітектури RNN підсумовано в таблиці нижче:

| Переваги                                                        | Недоліки                                                            |
|-----------------------------------------------------------------|---------------------------------------------------------------------|
| • Можливість обробки вхідних даних будь-якої довжини            | • Обчислення повільні                                               |
| • Розмір моделі не збільшується разом із розміром вхідних даних | • Труднощі з доступом до інформації давнього часу                   |
| • Розрахунок враховує історичну інформацію                      | • Неможливо розглянути будь-який майбутній вхід для поточного стану |
| • Вага розподіляється в часі	                                  |                                                                     |

Хоча в принципі RNN є простою та потужною моделлю, на практиці її важко правильно навчити. Серед основних причин, чому ця модель така громіздка, – проблеми з градієнтом, що зникає, і градієнтом, що вибухає.

У той час як вибухаючий градієнт можна виправити за допомогою техніки відсікання градієнта ([gradient clipping](https://pytorch.org/docs/stable/generated/torch.nn.utils.clip_grad_norm_.html)), проблема зникнення градієнта все ще є основною проблемою для RNN.

In [None]:
"Влад та Оксана поїхали в Карпати."

Влад -> NER (name)

та -> Null

Оксана -> NER (name)

поїхали -> Null
 
в -> Null

Карпати -> NER (place)

"Цей товар мені спододобався."

x1: Цей -> 

x2: товар -> 

x3: мені ->

x4: сподобався -> 1 (good) / 0 (bad)

## Applications of RNNs

Моделі RNN в основному використовуються в області обробки природної мови та розпізнавання мовлення. Різні варіації підсумовано в таблиці нижче:


| Type of RNN                       |  Illustration                                                              | Example                    |
|:---------------------------------:|:--------------------------------------------------------------------------:|:--------------------------:|
| One-to-one<br>$T_x = T_y = 1$     | <img src="assets/rnn-one-to-one-ltr.png" height=200 width=400>             | Traditional neural network |
| One-to-many<br>$T_x = 1, T_y > 1$ | <img src="assets/rnn-one-to-many-ltr.png" height=200 width=400>            | Music generation           |
| Many-to-one<br>$T_x > 1, T_y = 1$ | <img src="assets/rnn-many-to-one-ltr.png" height=200 width=400>            | Sentiment classification   |
| Many-to-many<br>$T_x = T_y$       | <img src="assets/rnn-many-to-many-same-ltr.png" height=200 width=400>      | Named entity recognition   |
| Many-to-many<br>$T_x \ne T_y$     | <img src="assets/rnn-many-to-many-different-ltr.png" height=200 width=400> | Machine translation        |

#### One-to-Many

Рекурентні нейронні мережі (RNN) з одного до багатьох (One-to-Many) є одним з типів архітектур RNN, де вхідна послідовність подається в модель, і для кожного елемента цієї послідовності генерується вихідна послідовність. Це означає, що модель отримує одне вхідне значення і генерує послідовність вихідних значень.

Основна ідея за такою архітектурою полягає в тому, що модель може взаємодіяти з вхідною інформацією і генерувати відповідні вихідні значення для кожного елемента послідовності. Це може бути корисним в різних задачах, таких як генерація тексту, музики або відео.

#### Many-to-One

Рекурентні нейронні мережі (RNN) типу Many-to-One - це архітектурний тип, призначений для обробки послідовностей, де кілька вхідних елементів подаються в модель, і в результаті генерується одне вихідне значення.

Основна ідея за такою архітектурою полягає в тому, що модель отримує послідовність вхідних значень і виробляє вихідне значення, яке може бути використане, наприклад, для класифікації чи регресії.

Однією з типових задач для Many-to-One RNN є аналіз тексту або послідовності, де модель може приймати послідовність слів або символів і генерувати вихідне значення, таке як клас категорії або сентименту. В інших випадках, наприклад, в медичній області, Many-to-One RNN може використовуватися для аналізу часових рядів сигналів з датчиків та прогнозування певного стану.

#### Many-to-Many

Мережі Many-to-Many в контексті рекурентних нейронних мереж (RNN) включають в себе вхід і вихід на кожному часовому кроці. Це означає, що модель отримує послідовність вхідних даних і генерує відповідну послідовність вихідних даних. Цей тип архітектури може використовуватися для різних завдань, і особливо цікавим є випадок Many-to-Many з однаковою довжиною вхідної і вихідної послідовностей.

Існує декілька підтипів Many-to-Many RNN:

1. **Many-to-Many (з різними довжинами):** У цьому випадку довжина вхідної послідовності може відрізнятися від довжини вихідної послідовності. Такі моделі можуть використовуватися для завдань, де важливо враховувати контекст вхідної послідовності і генерувати відповідь в різних розмірах.

2. **Many-to-Many (з однаковою довжиною):** Цей варіант використовується, коли довжина вхідної послідовності дорівнює довжині вихідної. Такі моделі можуть використовуватися для задач, де кожен елемент вхідної послідовності має відповідний вихід, наприклад, у випадку сегментації часових рядів.

3. **Many-to-Many (з затримкою):** В даній модифікації вихід генерується з певною затримкою відносно входу. Це може бути корисно в задачах, де важливо передбачати події з певним відступом від вхідних даних.

Застосування Many-to-Many RNN може включати в себе такі завдання, як:

- **Часова серія та прогнозування:** Прогнозування значень часових рядів на основі попередніх значень.
- **Сегментація об'єктів в зображеннях:** Призначення класів кожному пікселю зображення.
- **Розпізнавання мовлення:** Визначення фонем або фонетичних одиниць у вимовленні.

У залежності від конкретного завдання та характеристик даних може використовуватися різноманітні архітектури RNN, такі як LSTM, GRU або більш сучасні архітектури, такі як Transformer.

#### Many-to-Many (NER)

RNN типу Many-to-Many, зокрема в контексті завдання розпізнавання іменованих сутностей (Named Entity Recognition, NER), представляє собою архітектурний підхід, при якому модель отримує послідовність вхідних елементів і генерує вихідну послідовність, де кожен вихідний елемент відповідає вхідному елементу та вказує на його клас або категорію іменованої сутності.

Для задачі NER, де метою є виявлення та класифікація іменованих сутностей, таких як особи, місця, дати та інші ключові елементи в тексті, Many-to-Many RNN може виявитися ефективним варіантом. Кожен часовий крок в вихідній послідовності моделі може вказувати на клас іменованої сутності або тег, що відповідає конкретному елементу вхідної послідовності.

NER, або розпізнавання іменованих сутностей (англ. Named Entity Recognition), є видом задачі в обробці природної мови (NLP). Це техніка, спрямована на виявлення та класифікацію іменованих сутностей у тексті, таких як імена осіб, назви компаній, локації, дати, числа, адреси тощо.

Мета NER - автоматизувати процес визначення інформації про конкретні об'єкти в тексті, надаючи контекст та структуру. Наприклад, в реченні "Apple Inc. була заснована Стівом Джобсом у Купертіно, Каліфорнія, у 1976 році", NER може визначити, що "Apple Inc." - це організація, "Стів Джобс" - ім'я особи, "Купертіно, Каліфорнія" - місцезнаходження, а "1976 рік" - дата.

Ця технологія є важливою для багатьох застосувань в області обробки мови, таких як аналіз текстів новин, екстракція інформації з документів, покращення пошукових систем та інші завдання, пов'язані з аналізом тексту.

#### Many-to-Many (Machine Translation)

Many-to-Many RNNs в контексті машинного перекладу використовуються для обробки послідовностей на вході і виході. У машинному перекладі це означає, що модель отримує послідовність токенів (наприклад, слова або підрядки) в одній мові і генерує відповідну послідовність токенів у іншій мові.

Такий підхід можна використовувати для перекладу великих текстових документів або коротких речень. Основними складовими Many-to-Many RNN для машинного перекладу є:

1. **Кодування (Encoder):** Модель починає з кодування вхідної послідовності (тексту в початковій мові) в вектори фіксованої довжини. Це може бути здійснено за допомогою рекурентного шару, такого як LSTM або GRU, або за допомогою більш складних архітектур, таких як Transformer.

2. **Декодування (Decoder):** Після отримання векторного представлення вхідної послідовності модель переходить до декодування. Декодер також може бути рекурентним (використовуючи LSTM, GRU) або використовувати інші архітектури, такі як Transformer. Декодер виробляє послідовність токенів у цільовій мові.

3. **Застосування для машинного перекладу:** Основною метою Many-to-Many RNN в контексті машинного перекладу є згенерувати переклад тексту з однієї мови на іншу. Кількість часових кроків у декодері зазвичай відповідає довжині вихідної послідовності.

4. **Функція втрат (Loss Function):** Для тренування моделі використовується функція втрат, яка порівнює згенерований вихід з очікуваним вихідом. Зазвичай використовується cross-entropy loss для вимірювання відмінностей між передбачуваними й фактичними токенами.

Цей тип RNN може використовувати різні підходи до згорткових шарів (convolutions), механізмів уваги та інших додаткових вдосконалень, щоб поліпшити якість перекладу. Також важливо зазначити, що в останні роки моделі на основі архітектури Transformer стали популярними для завдань машинного перекладу, особливо в контексті великих корпусів тексту.

## Loss function

У випадку рекурентної нейронної мережі функція втрат $L$ усіх часових кроків визначається на основі втрат на кожному часовому кроці таким чином:

$$ L(\hat{y}, y) = \sum_{t=1}^{T_y} L(\hat{y}^{<t>}, y^{<t>})$$

Зворотне поширення здійснюється в кожен момент часу. На кроці часу $T$ похідна втрати $L$ відносно вагової матриці $W$ виражається таким чином:

$$ \frac{\partial L^{(T)}}{\partial W} = \sum_{t=1}^{T} \frac{\partial L^{(T)}}{\partial W} \Bigg|_{(t)} $$

In [1]:
import collections

import nltk
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from nltk.corpus import stopwords

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.nn.utils.rnn import pad_sequence
from torch.utils.data import Dataset, DataLoader

In [2]:
nltk.download('stopwords')
nltk.download('punkt')
stopwords_eng = stopwords.words()

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/oleh_komenchuk/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     /Users/oleh_komenchuk/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [3]:
df = pd.read_csv("spam.csv", skiprows=1, usecols=[0, 1], encoding="ISO-8859-1", names=["target", "text"])
print(df.shape)
df.head()

(5572, 2)


Unnamed: 0,target,text
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [4]:
# Отримати список текстових документів з колонки "text" у DataFrame.
documents = df["text"].tolist()

# Створити мітки (labels) на основі колонки "target" у DataFrame, де "spam" відповідає 1, а "ham" - 0.
labels = df["target"].map({"spam": 1, "ham": 0}).tolist()

# Вивести перші два елементи списку documents та labels для перевірки.
documents[:2], labels[:2]

(['Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...',
  'Ok lar... Joking wif u oni...'],
 [0, 0])

In [None]:
"Я пішов гуляти з собакою." -> 5 words
"<PAD><PAD><PAD>Вона вечеряє." -> 5 words

In [5]:
# Розділити кожен документ на токени (слова), перетворити їх в нижній регістр та вилучити стоп-слова.
tokenized_docs = [[tok for tok in nltk.word_tokenize(doc.lower()) if tok not in stopwords_eng] for doc in documents]

# Створити словник (vocabulary), що містить усі унікальні слова з усіх документів.
vocabulary = list(set(word for doc in tokenized_docs for word in doc))

# Створити словник (word_to_idx), який визначає відповідний індекс для кожного слова, додавши йому 1 (враховуючи відсутність <PAD>).
word_to_idx = {"<PAD>": 0}
for idx, word in enumerate(vocabulary):
    word_to_idx[word] = idx + 1

# Закодувати кожен документ, замінюючи слова їхніми індексами згідно створеного словника (word_to_idx).
encoded_docs = [[word_to_idx[word] for word in doc] for doc in tokenized_docs]

In [6]:
# Оголошення класу SpamHamDataset, який є підкласом torch.utils.data.Dataset.
class SpamHamDataset(Dataset):
    # Конструктор класу, приймає два аргументи: documents (список текстових документів) та labels (список міток).
    def __init__(self, documents, labels):
        # Перевірка, чи довжина списку documents співпадає з довжиною списку labels.
        if len(documents) != len(labels):
            raise ValueError("Different sizes of documents and labels!")
        
        # Ініціалізація властивостей об'єкта класу - documents та labels.
        self.documents = documents
        self.labels = labels        

    # Метод, який повертає довжину датасету (кількість зразків).
    def __len__(self) -> int:
        return len(self.documents)

    # Метод, який повертає зразок датасету за вказаним індексом.
    def __getitem__(self, index) -> tuple:
        # Отримати текстовий документ за вказаним індексом.
        doc = self.documents[index]
        # Конвертувати текстовий документ в тензор типу LongTensor (індекси слів).
        doc = torch.LongTensor(doc)

        # Отримати мітку за вказаним індексом.
        label = self.labels[index]
        # Конвертувати мітку в тензор типу FloatTensor.
        label = torch.FloatTensor([label])

        # Повернути кортеж із текстовим документом та його міткою.
        return doc, label

In [7]:
# Розділення набору даних на тренувальний та тестовий, а також створення об'єктів датасетів.

# Розділити закодовані документи та мітки на тренувальний і тестовий набори за допомогою train_test_split.
X_train, X_test, y_train, y_test = train_test_split(encoded_docs, labels, test_size=0.2, random_state=42, stratify=labels)

# Створити об'єкт тренувального датасету, використовуючи клас SpamHamDataset.
train_dataset = SpamHamDataset(X_train, y_train)

# Створити об'єкт тестового датасету, використовуючи клас SpamHamDataset.
test_dataset = SpamHamDataset(X_test, y_test)

# Вивести довжину тренувального та тестового датасетів для перевірки.
len(train_dataset), len(test_dataset)

(4457, 1115)

In [8]:
# Визначення функції seq_collate_fn для коректного формування батчів у DataLoader.

# Функція seq_collate_fn приймає список елементів батча та повертає відформовані дані.
def seq_collate_fn(batch):
    # Використання pad_sequence для доповнення текстових документів до максимальної довжини в батчі.
    # pad_sequence: https://pytorch.org/docs/stable/generated/torch.nn.utils.rnn.pad_sequence.html
    xs = pad_sequence([item[0] for item in batch], batch_first=True, padding_value=0)
    
    # Конвертація міток у тензор типу FloatTensor та додавання додаткового виміру для сумісності з моделлю.
    ys = torch.FloatTensor([[item[1]] for item in batch])
    
    # Повернення відформованих даних у форматі (вхідний тензор xs, вихідний тензор ys).
    return xs, ys

# Створення DataLoader для тренувального та тестового датасетів з використанням зазначених параметрів.
train_loader = DataLoader(train_dataset, batch_size=16, shuffle=True, collate_fn=seq_collate_fn)
test_loader = DataLoader(test_dataset, batch_size=16, shuffle=False, collate_fn=seq_collate_fn)

In [10]:
next(iter(train_loader))[1].shape

torch.Size([16, 1])

In [11]:
# Оголошення класу SimpleRNN, що є підкласом nn.Module та визначає простий рекурентний шар (RNN).

class SimpleRNN(nn.Module):
    # Конструктор класу, приймає параметри vocab_size (розмір словника), input_size (розмір входу),
    # hidden_size (розмір прихованого стану), та output_size (розмір виходу).
    def __init__(self, vocab_size, input_size, hidden_size, output_size):
        # Виклик конструктора батьківського класу nn.Module.
        super(SimpleRNN, self).__init__()

        # Вбудовувальний шар (Embedding) для конвертації індексів слів в вектори.
        self.embed = nn.Embedding(vocab_size, input_size, padding_idx=0)

        # Розміри прихованого стану та визначення рекурентного шару.
        self.hidden_size = hidden_size

        # torch.nn.RNN docs: https://pytorch.org/docs/stable/generated/torch.nn.RNN.html
        self.rnn = nn.RNN(input_size, hidden_size, batch_first=True)

        # Лінійний шар для зведення прихованого стану до розміру виходу.
        self.fc = nn.Linear(hidden_size, output_size)

    # Метод forward, що визначає прямий прохід через модель.
    def forward(self, x):  # long tensor [B, T]
        # Ініціалізація початкового стану прихованого шару h0.
        h0 = torch.zeros(1, x.size(0), self.hidden_size, device=x.device)  # float tensor [1, B, HiddenSize]

        # Вбудовування вхідних даних (індексів слів) у вектори.
        x = self.embed(x)  # float tensor [B, T, InputSize]

        # Прохід через рекурентний шар.
        out, _ = self.rnn(x, h0)  # float tensor [B, T, HiddenSize]

        # Відібрати максимальні значення по кожному батчу у вихідному тензорі.
        out = out.max(1)[0]

        # Пройти через лінійний шар для отримання вихідних значень.
        out = self.fc(out)  # float tensor [B, OutputSize]

        # Повернути вихід моделі.
        return out

In [12]:
# Налаштування пристрою, ініціалізація моделі, критерію та оптимізатора.

# Визначення пристрою (GPU якщо доступний, інакше CPU).
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Device - {device}")

# Встановлення випадкового насіння для відтворюваності.
torch.manual_seed(42)

# Ініціалізація моделі SimpleRNN з вказаною кількістю параметрів.
model = SimpleRNN(len(word_to_idx), 512, 512, 1)

# Перенесення моделі на вказаний пристрій.
model = model.to(device)

# Виведення інформації про модель та кількість навчальних параметрів.
print(model)
print("Number of trainable parameters -", sum(p.numel() for p in model.parameters() if p.requires_grad))

# Визначення критерію (функції втрат) та оптимізатора (Adam) для навчання моделі.
criterion = nn.BCEWithLogitsLoss()
optimizer = optim.Adam(model.parameters(), lr=1e-3)

Device - cpu
SimpleRNN(
  (embed): Embedding(8863, 512, padding_idx=0)
  (rnn): RNN(512, 512, batch_first=True)
  (fc): Linear(in_features=512, out_features=1, bias=True)
)
Number of trainable parameters - 5063681


In [13]:
# Навчання моделі за допомогою циклу ітерацій по епохах та батчам.

# Визначення кількості епох та створення порожнього списку для відстеження втрат на тренувальному наборі.
n_epochs = 20
train_losses = []

# Цикл по епохах.
for epoch in range(n_epochs):
    print(f"Epoch {epoch + 1}/{n_epochs}")

    # Створення порожнього списку для зберігання втрат на кожному батчі.
    losses = []

    # Цикл по батчам у тренувальному DataLoader.
    for i, (docs, labels) in enumerate(train_loader):
        # Обнулення градієнтів параметрів моделі перед кожним батчем.
        optimizer.zero_grad()

        # Переміщення вхідних даних та міток на вказаний пристрій.
        docs = docs.to(device)
        outputs = model(docs)

        # Визначення значення функції втрат та здійснення зворотнього поширення градієнтів.
        loss = criterion(outputs, labels.to(device))
        loss.backward()

        # Оптимізація параметрів моделі згідно з градієнтами.
        optimizer.step()

        # Зберігання значення втрат на поточному батчі.
        losses.append(loss.item())

    # Зберігання середнього значення втрат на кожній епохі для подальшого відстеження.
    train_losses.append(np.mean(losses))
    print(f"  loss: {train_losses[-1]}")

Epoch 1/20
  loss: 0.19311953701018805
Epoch 2/20
  loss: 0.04128904482366444
Epoch 3/20
  loss: 0.012459575675309411
Epoch 4/20
  loss: 0.0021390981131075132
Epoch 5/20
  loss: 0.0007302987444201275
Epoch 6/20
  loss: 0.0004309399317364335
Epoch 7/20
  loss: 0.014535952262193726
Epoch 8/20
  loss: 0.01031796789821884
Epoch 9/20
  loss: 0.000911190240913129
Epoch 10/20
  loss: 0.0002536368425057192
Epoch 11/20
  loss: 0.00016343451591712836
Epoch 12/20
  loss: 0.00011839837037276794
Epoch 13/20
  loss: 9.099522999088787e-05
Epoch 14/20
  loss: 7.151458651717584e-05
Epoch 15/20
  loss: 5.735925714439892e-05
Epoch 16/20
  loss: 4.6945780243040775e-05
Epoch 17/20
  loss: 3.868831418590308e-05
Epoch 18/20
  loss: 3.415915400767853e-05
Epoch 19/20
  loss: 2.6791430657120203e-05
Epoch 20/20
  loss: 2.2457465711031088e-05


In [14]:
# Оцінка моделі на тестовому наборі та виведення метрик класифікації.

# Перевстановлення моделі у режим інференсу (evaluation).
model.eval()

# Створення порожніх списків для зберігання прогнозів та міток з тестового набору.
all_preds = []
all_labels = []

# Використання контекстного менеджера torch.no_grad() для вимкнення обчислення градієнтів під час інференсу.
with torch.no_grad():
    # Цикл по батчам у тестовому DataLoader.
    for docs, labels in test_loader:
        # Отримання вихідних значень моделі для вхідних даних з тестового батчу.
        outputs = model(docs.to(device))

        # Застосування сигмоїдальної функції та порогового значення для отримання бінарних прогнозів.
        preds = (outputs.sigmoid() >= 0.5).long().detach().cpu()

        # Розширення списків з прогнозами та мітками.
        all_preds.extend(preds.numpy()[:, 0])
        all_labels.extend(labels.numpy()[:, 0])

# Виведення звіту про класифікацію та точності на тестовому наборі.
print(classification_report(all_labels, all_preds))
print('Accuracy:', accuracy_score(all_labels, all_preds))

              precision    recall  f1-score   support

         0.0       0.99      0.98      0.98       966
         1.0       0.85      0.92      0.88       149

    accuracy                           0.97      1115
   macro avg       0.92      0.95      0.93      1115
weighted avg       0.97      0.97      0.97      1115

Accuracy: 0.967713004484305


## [Long Short-Term Memory](https://www.bioinf.jku.at/publications/older/2604.pdf)

LSTM — це особливий вид рекурентної нейронної мережі, здатної вивчати довгострокові залежності, що є досить складним для традиційних RNN через проблему зникаючого градієнта. Вони були представлені Зеппом Хохрайтером і Юргеном Шмідхубером у 1997 році.

LSTM характеризується станом комірки, який проходить через блоки, і трьома воротами, що регулюють потік інформації всередині блоку LSTM: вхідним, забутим і вихідним. Ось компоненти, пояснені більш детально:

- **Cell State** ($C_t$): Це «пам’ять» блоку, яка переносить інформацію через часові кроки.
- **Input Gate** ($i_t$): Цей "gate" ("ворота") вирішує, яку інформацію слід зберігати в стані комірки.
- **Forget Gate** ($f_t$): Цей "gate" ("ворота") вирішує, яка інформація повинна бути відкинута зі стану комірки.
- **Output Gate** ($o_t$): Цей "gate" ("ворота") вирішує, яка інформація повинна бути виведена на цьому кроці часу.

<center>
    <img src="assets/lstm.png" height=300 width=600>
</center>

Математичні операції на кожному кроці часу в LSTM такі:

- **Forget gate:**
$$ f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) $$

- **Input gate:**
$$ i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) $$

- **Cell state:**
$$ \hat{C}_t = \tanh(W_c \cdot [h_{t-1}, x_t] + b_C) $$
$$ C_t = f_t \odot C_{t-1} + i_t \odot \hat{C}_t $$

- **Output gate:**
$$ o_t = \sigma (W_o \cdot [h_{t-1}, x_t] + b_o) $$
$$ h_t = o_t \odot \tanh(C_t) $$

<center>
    <img src="assets/lstm_2.png" height=400 width=900>
</center>

Тут:
- $x_t$ - введення (input) на кроці часу $t$
- $h_{t-1}$ - прихований стан на кроці часу $t-1$
- $C_{t-1}$ - стан комірки на кроці часу $t-1$
- $W_f, W_i, W_C, W_o$ - вагові матриці, $b_f, b_f, b_C, b_o$ - вектори зміщення
- $\odot$ - поелементне множення

Інформаційний потік:
- **Step 1 (Forget Fate):** По-перше, gate забуття вирішує, яку інформацію ми будемо викидати зі стану комірки.
- **Step 2 (Input Gate and Cell State):** Далі вхідний gate вирішує, які значення ми будемо оновлювати у стані клітинки. Потім шар $\tanh$ створює нові значення-кандидати $C_t$, які можна додати до стану. На наступному кроці ми об’єднуємо ці два, щоб створити оновлення стану.
- **Step 3 (Output Gate and Final State):** Нарешті, ми вирішуємо, що будемо виводити. Цей вихід базуватиметься на стані нашої комірки, але буде відфільтрованою версією.


## [Gated Recurrrent Unit](https://arxiv.org/abs/1406.1078v3)
GRU є розширенням традиційної рекурентної нейронної мережі, яка має на меті вирішити деякі проблеми, пов’язані з основними RNN, наприклад труднощі з вивченням довгострокових залежностей через проблему зникаючого градієнта.

GRU є варіантом довготривалої короткочасної пам’яті (LSTM) і був представлений не тільки для боротьби з проблемою зникнення градієнта, але й для спрощення архітектури моделі. Як і LSTM, GRU здатні ефективно фіксувати залежності для послідовностей різної довжини.

Рівень GRU складається з кількох компонентів і блоків, які контролюють потік інформації, яку потрібно запам’ятати або забути на кожному кроці часу. Основними компонентами GRU є:

<center>
    <img src="assets/gru.png" height=400 width=800>
</center>

1. **Reset Gate:** ($r_t$) Це визначає, скільки минулої інформації потрібно передати в майбутнє.
2. **Update Gate:** ($z_t$) Це визначає, скільки минулої інформації потрібно передати на вихід.
3. **New Memory Content:** ($\hat{h}_t$) Він містить значення-кандидати, які можна додати до внутрішньої пам’яті або стану.
4. **Hidden State:** (h_t) Це являє собою пам'ять одиниці, яка передається через часові кроки.

Тут:
 - $x_t$ - введення (input) за часом $t$
 - $h_{t-1}$ - прихований стан на кроці часу $t-1$
 - $z_t$ - оновлювати вектор воріт за раз $t$
 - $r_t$ - скинути вектор воріт за один раз $t$
 - $W_z, W_r, W$ - вагові матриці, $b_z, b_r, b$ - вектори зміщення
 - $\odot$ - поелементне множення

Інформаційний потік:
- **Step 1 (Update and Reset Gates):** По-перше, gates оновлення та скидання вирішують, яку інформацію викинути, а яку нову додати.
- **Step 2 (New Memory Content):** Далі gate скидання використовується для обчислення нового вмісту пам’яті, який є кандидатом на новий стан пристрою.
- **Step 3 (Hidden State):** Нарешті, gate оновлення використовується для обчислення того, скільки минулої інформації потрібно передати в майбутнє.

### GRU vs LSTM

GRU (Gated Recurrent Unit) і LSTM (Long Short-Term Memory) - це два типи рекурентних нейронних мереж (RNN), які використовуються для обробки послідовностей даних. Обидві мають спеціальні механізми, що дозволяють контролювати потік інформації в середині мережі, але вони мають кілька відмінностей:

1. **Архітектура воріт:** У LSTM є троє основних воріт: ворота забування (forget gate), ворота входу (input gate) і ворота виходу (output gate). У GRU є двоє воріт: ворота забування/оновлення (update gate) і ворота виходу.

2. **Кількість параметрів:** GRU має менше параметрів, оскільки він має менше воріт. Це може зробити GRU більш швидким у тренуванні та менш вимогливим до обчислювальних ресурсів.

3. **Швидкість тренування та виконання:** Через меншу кількість параметрів GRU може тренуватися швидше та працювати швидше в порівнянні з LSTM.

4. **Можливість "забуття" інформації:** У LSTM є окремі ворота забування, що дозволяє мережі вирішувати, яку інформацію забути або зберегти в пам'яті. У GRU ворота забування і ворота оновлення об'єднані, що дозволяє GRU швидше адаптуватися до нових вхідних даних.

## Variants of RNNs

| Bidirectional (BRNN) | Deep (DRNN) |
|:--------------------:|:-----------:|
| <img src="assets/bidirectional-rnn-ltr.png" height=200 width=400> | <img src="assets/deep-rnn-ltr.png" height=200 width=400> |

**Bidirectional Recurrent Neural Network (BRNN)** є специфічним типом рекурентної нейронної мережі (RNN), який спрямований в обидві сторони часового виміру. Основна ідея BRNN полягає в тому, що для кожного моменту часу мережа обробляє інформацію з попередніх та наступних моментів часу, враховуючи контекст як зліва, так і справа від поточного моменту.

Основні характеристики BRNN:

1. **Архітектура:**
   - **Прямий та зворотний прохід:** BRNN складається з двох частин: одна частина обробляє дані від початку до кінця послідовності (прямий прохід), а інша - від кінця до початку (зворотний прохід).
   - **Об'єднання результатів:** Вихідні результати обох проходів об'єднуються, наприклад, шляхом конкатенації векторів або застосування якоїсь іншої операції об'єднання.

2. **Застосування:**
   - **Машинний переклад:** BRNN може бути ефективним у вирішенні завдань машинного перекладу, оскільки важливо враховувати контекст як зліва, так і справа від поточного слова для правильного перекладу.
   - **Обробка мовлення:** У завданнях обробки мовлення, таких як розпізнавання мови або аналіз настрою тексту, BRNN може допомагати у виявленні важливих патернів та контексту.

3. **Переваги:**
   - **Контекстуальне розуміння:** BRNN надає моделі можливість отримати контекст як з минулого, так і з майбутнього, що допомагає в розумінні та узагальненні вхідних даних.
   - **Покращення в якості прогнозів:** Завдяки доступу до інформації з обох сторін вхідної послідовності BRNN може вирізнятися в завданнях, де важливий контекст з обох напрямків.

BRNN може бути використаний в різних областях і завданнях, де важливо враховувати ширший контекст і покращити розуміння вхідних даних.

**Deep Recurrent Neural Network (DRNN)** - це тип нейронної мережі, яка має кілька шарів рекурентної нейронної мережі (RNN).

Основна відмінність між DRNN та звичайними RNN полягає в тому, що DRNN мають кілька шарів RNN. Це дозволяє DRNN краще обробляти довгострокові залежності в послідовних даних.

DRNN можна побудувати різними способами. Один з поширених способів полягає в тому, щоб використовувати звичайні RNN в якості шарів DRNN. Інший спосіб полягає в тому, щоб використовувати спеціальні типи RNN, такі як довготермінові короткострокові пам'яті (LSTM) або мережі зворотного зв'язку з пам'яттю (GRU).

DRNN мають ряд переваг перед звичайними RNN. Вони можуть краще обробляти довгострокові залежності, що робить їх придатними для таких завдань, як переклад та розпізнавання мови. Крім того, DRNN можуть бути більш ефективними в обчисленні, ніж звичайні RNN.

Ось деякі з прикладів того, як DRNN можна використовувати:

* **Переклад:** DRNN можна використовувати для перекладу тексту з однієї мови на іншу. Для цього DRNN навчаються на наборі даних, що містить текст у двох мовах.
* **Розпізнавання мови:** DRNN можна використовувати для розпізнавання мови. Для цього DRNN навчаються на наборі даних, що містить аудіофайли та їх транскрипції.
* **Синтез мови:** DRNN можна використовувати для синтезу мови. Для цього DRNN навчаються на наборі даних, що містить текст і аудіофайли.
* **Обробка природної мови:** DRNN можна використовувати для таких завдань обробки природної мови, як класифікація тексту, відповіді на запитання та створення резюме.

DRNN є потужним інструментом, який можна використовувати для вирішення різноманітних завдань, пов'язаних з обробкою послідовних даних.

In [15]:
# Додання класу SimpleGRU, який є підкласом nn.Module та визначає простий GRU шар.

class SimpleGRU(nn.Module):
    # Конструктор класу, приймає параметри vocab_size (розмір словника), input_size (розмір входу),
    # hidden_size (розмір прихованого стану), та output_size (розмір виходу).
    def __init__(self, vocab_size, input_size, hidden_size, output_size):
        # Виклик конструктора батьківського класу nn.Module.
        super(SimpleGRU, self).__init__()

        # Вбудовувальний шар (Embedding) для конвертації індексів слів в вектори.
        self.embed = nn.Embedding(vocab_size, input_size, padding_idx=0)

        # Визначення GRU шару з 5 шарами, двостороннім (bidirectional) та вказанням batch_first=True.
        self.gru = nn.GRU(input_size, hidden_size, num_layers=5, bidirectional=True, batch_first=True)

        # Лінійний шар для зведення прихованого стану до розміру виходу.
        self.fc = nn.Linear(hidden_size * 2, output_size)

    # Метод forward, що визначає прямий прохід через модель.
    def forward(self, x):  # long tensor [B, T]
        # Вбудовування вхідних даних (індексів слів) у вектори.
        x = self.embed(x)  # float tensor [B, T, InputSize]

        # Прохід через GRU шар.
        out, _ = self.gru(x)  # float tensor [B, T, HiddenSize]

        # Підрахунок середнього значення по часовій вісі для отримання одного вектору на кожний батч.
        out = out.mean(1)

        # Пройти через лінійний шар для отримання вихідних значень.
        out = self.fc(out)  # float tensor [B, OutputSize]

        # Повернути вихід моделі.
        return out

In [16]:
# Налаштування пристрою, ініціалізація моделі, критерію та оптимізатора для SimpleGRU.

# Визначення пристрою (GPU якщо доступний, інакше CPU).
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Device - {device}")

# Встановлення випадкового насіння для відтворюваності.
torch.manual_seed(42)

# Ініціалізація моделі SimpleGRU з вказаною кількістю параметрів.
model = SimpleGRU(len(word_to_idx), 16, 16, 1)

# Перенесення моделі на вказаний пристрій.
model = model.to(device)

# Виведення інформації про модель та кількість навчальних параметрів.
print(model)
print("Number of trainable parameters -", sum(p.numel() for p in model.parameters() if p.requires_grad))

# Визначення критерію (функції втрат) та оптимізатора (Adam) для навчання моделі.
criterion = nn.BCEWithLogitsLoss()
optimizer = optim.Adam(model.parameters(), lr=1e-3)

Device - cpu
SimpleGRU(
  (embed): Embedding(8863, 16, padding_idx=0)
  (gru): GRU(16, 16, num_layers=5, batch_first=True, bidirectional=True)
  (fc): Linear(in_features=32, out_features=1, bias=True)
)
Number of trainable parameters - 164305


In [17]:
# Навчання моделі SimpleGRU за допомогою циклу ітерацій по епохах та батчам.

# Визначення кількості епох та створення порожнього списку для відстеження втрат на тренувальному наборі.
n_epochs = 20
train_losses = []

# Цикл по епохах.
for epoch in range(n_epochs):
    print(f"Epoch {epoch + 1}/{n_epochs}")

    # Створення порожнього списку для зберігання втрат на кожному батчі.
    losses = []

    # Цикл по батчам у тренувальному DataLoader.
    for i, (docs, labels) in enumerate(train_loader):
        # Обнулення градієнтів параметрів моделі перед кожним батчем.
        optimizer.zero_grad()

        # Переміщення вхідних даних та міток на вказаний пристрій.
        docs = docs.to(device)
        outputs = model(docs)

        # Визначення значення функції втрат та здійснення зворотнього поширення градієнтів.
        loss = criterion(outputs, labels.to(device))
        loss.backward()

        # Оптимізація параметрів моделі згідно з градієнтами.
        optimizer.step()

        # Зберігання значення втрат на поточному батчі.
        losses.append(loss.item())

    # Зберігання середнього значення втрат на кожній епохі для подальшого відстеження.
    train_losses.append(np.mean(losses))
    print(f"  loss: {train_losses[-1]}")

Epoch 1/20
  loss: 0.3103157473280759
Epoch 2/20
  loss: 0.16927538275398235
Epoch 3/20
  loss: 0.1175882682858509
Epoch 4/20
  loss: 0.09092878749240256
Epoch 5/20
  loss: 0.06533884535640425
Epoch 6/20
  loss: 0.04961363203977118
Epoch 7/20
  loss: 0.03771707659176681
Epoch 8/20
  loss: 0.027984439030683542
Epoch 9/20
  loss: 0.02179249063698328
Epoch 10/20
  loss: 0.022967674919257216
Epoch 11/20
  loss: 0.02353412134899995
Epoch 12/20
  loss: 0.01618846099261248
Epoch 13/20
  loss: 0.01591176808124081
Epoch 14/20
  loss: 0.009372072257009739
Epoch 15/20
  loss: 0.00827180898012293
Epoch 16/20
  loss: 0.006314818024127093
Epoch 17/20
  loss: 0.004459694017677845
Epoch 18/20
  loss: 0.014709849530095768
Epoch 19/20
  loss: 0.00525396528543644
Epoch 20/20
  loss: 0.004214407206641503


In [18]:
# Оцінка моделі SimpleGRU на тестовому наборі та виведення метрик класифікації.

# Перевстановлення моделі у режим інференсу (evaluation).
model.eval()

# Створення порожніх списків для зберігання прогнозів та міток з тестового набору.
all_preds = []
all_labels = []

# Використання контекстного менеджера torch.no_grad() для вимкнення обчислення градієнтів під час інференсу.
with torch.no_grad():
    # Цикл по батчам у тестовому DataLoader.
    for docs, labels in test_loader:
        # Отримання вихідних значень моделі для вхідних даних з тестового батчу.
        outputs = model(docs.to(device))

        # Застосування сигмоїдальної функції та порогового значення для отримання бінарних прогнозів.
        preds = (outputs.sigmoid() >= 0.5).long().detach().cpu()

        # Розширення списків з прогнозами та мітками.
        all_preds.extend(preds.numpy()[:, 0])
        all_labels.extend(labels.numpy()[:, 0])

# Виведення звіту про класифікацію та точності на тестовому наборі.
print(classification_report(all_labels, all_preds))
print('Accuracy:', accuracy_score(all_labels, all_preds))

              precision    recall  f1-score   support

         0.0       0.98      0.98      0.98       966
         1.0       0.87      0.89      0.88       149

    accuracy                           0.97      1115
   macro avg       0.93      0.93      0.93      1115
weighted avg       0.97      0.97      0.97      1115

Accuracy: 0.9668161434977578


[The Basics of Recurrent Neural Networks (RNNs)](https://pub.towardsai.net/whirlwind-tour-of-rnns-a11effb7808f)

[Recurrent Neural Networks cheatsheet](https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks)