<h1>Содержание<span class="tocSkip"></span></h1>
<br>
<div class="toc">
    <ul class="toc-item">
        <li>
            <span>
                <a href="#1-Подготовка-окружения">
                    <span class="toc-item-num">1&nbsp;&nbsp;</span>
                    Подготовка окружения
                </a>
            </span>
        </li>
        <li>
            <span>
                <a href="#2-Загрузка-данных">
                    <span class="toc-item-num">2&nbsp;&nbsp;</span>
                    Загрузка данных
                </a>
            </span>
        </li>
        <li>
            <span>
                <a href="#3-Однонаправленная-LSTM-+-BPE">
                    <span class="toc-item-num">3&nbsp;&nbsp;</span>
                    Однонаправленная LSTM + BPE
                </a>
            </span>
        </li>
        <li>
            <span>
                <a href="#4-Общий-вывод">
                    <span class="toc-item-num">4&nbsp;&nbsp;</span>
                    Общий вывод
                </a>
            </span>
        </li>
    </ul>
</div>

# Генеративные текстовые нейросети | Однонаправленная LSTM + BPE

**Постановка задачи:** натренировать и сравнить качество нескольких генеративных текстовых моделей на одном из заданных текстовых датасетов.

**Источник данных:** [Harry Potter and the Methods of Rationality](https://hpmor.ru/).

**Характер данных:** текст книги "Гарри Поттер и методы рационального мышления".

**Основные этапы:** исследовать следующие нейросетевые архитектуры:

1. Simple RNN с посимвольной и пословной токенизацией.
2. Однонаправленная однослойная и многослойная LSTM c посимвольной токенизацией и токенизацией по словам и [на основе BPE](https://keras.io/api/keras_nlp/tokenizers/byte_pair_tokenizer/).
3. Двунаправленная LSTM.
4. *(На хорошую оценку)* трансформерная архитектура (GPT) "с нуля" [пример](https://keras.io/examples/generative/text_generation_gpt/).
5. *(На отличную оценку)* дообучение предобученной GPT-сети [пример](https://github.com/ZotovaElena/RuGPT3_finetuning).

# Реализации

1. [RNN с посимвольной токенизацией](https://github.com/MAILabs-Edu-2023/magai_lab3_gennn-nlp_lab/blob/main/RNN_char.ipynb)
2. [RNN с пословной токенизацией](https://github.com/MAILabs-Edu-2023/magai_lab3_gennn-nlp_lab/blob/main/RNN_word.ipynb)
3. Однонаправленная LSTM + BPE(текущий файл)
4. [Двунаправленная LSTM](https://github.com/MAILabs-Edu-2023/magai_lab3_gennn-nlp_lab/blob/main/LSTM_bidirectional.ipynb)
5. [Архитектура GPT](https://github.com/MAILabs-Edu-2023/magai_lab3_gennn-nlp_lab/blob/main/GPT_architecture.ipynb)
6. [Дообучение GPT](https://github.com/MAILabs-Edu-2023/magai_lab3_gennn-nlp_lab/blob/main/GPT_finetuning.ipynb)

<div style="background-color: blue; height: 2px; margin: 10px 0;"></div>

## 1 Подготовка окружения

In [1]:
%%capture --no-display
!pip install requests beautifulsoup4 pydot pydotplus

In [2]:
import numpy as np

import matplotlib.pyplot as plt 

import requests
import os
import itertools
import re

from bs4 import BeautifulSoup

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.layers import Dense, LSTM, Embedding
from keras.utils import plot_model

<div style="background-color: blue; height: 2px; margin: 10px 0;"></div>

## 2 Загрузка данных

In [3]:
def request_url(url: str) -> BeautifulSoup:
    request = requests.get(url)
    soup = BeautifulSoup(request.content, 'html.parser')
    return soup

In [4]:
def get_url_data(url: str) -> list:
    soup = request_url(url)
    scrapped_text = []
    
    h1 = soup.h1.text.strip().lower()
    p = soup.find_all('p')
    
    scrapped_text.append(h1)
    scrapped_text.extend([p_i.text.strip().lower() for p_i in p])
    
    return scrapped_text

In [5]:
def get_data() -> list:
    soup = request_url('https://hpmor.ru/')
    text = []
    
    text.extend([
        soup.h1.text.strip().lower(),
        soup.h2.text.strip().lower(),
        soup.article.p.text.strip().lower()
    ])
    
    url_chapters = [link.get('href') for link in soup.find_all('a', class_='link')]
    
    for url in url_chapters:
        scrapped_text = get_url_data(url)
        text.extend(scrapped_text)
        
    text = [p.split('.')[:-1] if '.' in p else [p] for p in text]
    text = [s.strip() for s in list(itertools.chain(*text))]
    #text = [re.sub(r'[^а-яА-ЯёЁ, ]', '', s).strip() for s in text]
    text = ' '.join(text)
    
    return text

In [6]:
text = get_data()

In [7]:
print('Total words:', len(text.split(' ')))

Total words: 517669


<div style="background-color: blue; height: 2px; margin: 10px 0;"></div>

## 3 Однонаправленная LSTM + BPE

<div style="background-color: blue; height: 2px; margin: 10px 0;"></div>

## 4 Общий вывод

<div style="text-align: center; font-size: 20px; padding: 15px 0;">
    <a href="#Содержание" data-toc-modified-id="Содержание" style="text-decoration: none; color: #296eaa; border: 2px dashed #296eaa; opacity: 0.8; border-radius: 3px; padding: 10px 80px;">
        В начало файла ↑
    </a>
</div>