# 🧠 Урок 34: Основы NLP — токенизация, word embeddings, RNN, LSTM
**Цель урока:** Познакомиться с основными концепциями обработки естественного языка (NLP), научиться токенизировать текст, использовать word embeddings, строить рекуррентные нейросети (RNN, LSTM) для классификации. Подходит для новичков.

## 📌 Что такое NLP?
- **NLP (Natural Language Processing)** — это область машинного обучения, которая позволяет компьютерам понимать, анализировать и генерировать текст.
- **Зачем?** Применяется в чат-ботах, переводах, анализе тональности, распознавании речи.
- **Аналогия:** Если текст — это язык, то NLP — это как учить язык, разбивая его на слова, фразы и предложения [[5]].

## 🧱 Токенизация: разбиение текста на части
- **Что это?** Процесс разбиения текста на токены (слова, подслова, символы).
- **Зачем?** Чтобы преобразовать текст в числа для работы с ML.
- **Методы:**
  - **Word-level:** Разбиение по словам.
  - **Character-level:** По символам.
  - **Subword-level:** По подсловам (например, BPE).
- **Пример:**
  ```python
  from nltk.tokenize import word_tokenize
  tokens = word_tokenize("Привет, мир!")  # ['Привет', ',', 'мир', '!']
  ```
- **Аналогия:** Токенизация — как разрезание текста на кусочки для удобства анализа [[3]].

## 📐 Word Embeddings: представление слов в виде векторов
- **Что это?** Слова преобразуются в числовые векторы, где близкие слова имеют близкие векторы.
- **Преимущества:** Сохраняют семантику (например, "король" — "мужчина" + "женщина" ≈ "королева").
- **Популярные методы:**
  - **Word2Vec:** Обучается на основе соседних слов.
  - **GloVe:** Использует матрицу ко-встречаемости слов.
  - **FastText:** Учитывает подслова для улучшения представления.
- **Пример:**
  ```python
  from gensim.models import Word2Vec
  model = Word2Vec(sentences=[["я", "люблю", "питон"], ["питон", "—", "мой", "любимый", "язык"]], vector_size=100, window=5, min_count=1)
  print(model.wv["питон"][:10])  # Вектор слова "питон"
  ```
- **Аналогия:** Word embeddings — как карта, где близкие слова находятся рядом [[3]].

## 🔄 RNN (Recurrent Neural Networks)
- **Что это?** Нейросети, которые обрабатывают последовательности, передавая информацию от одного шага к следующему.
- **Как работает?** Использует **hidden state** для хранения контекста.
- **Проблема:** Исчезающий/взрывающийся градиент — RNN забывает старые данные.
- **Пример архитектуры:**
  ```python
  from tensorflow.keras.models import Sequential
  from tensorflow.keras.layers import SimpleRNN, Dense
  
  model = Sequential([
      SimpleRNN(64, input_shape=(timesteps, features)),
      Dense(1)
  ])
  ```
- **Аналогия:** RNN — как человек, который читает книгу, но забывает начало главы к концу [[6]].

## 🧠 LSTM (Long Short-Term Memory)
- **Что это?** RNN с вентилями, которые контролируют, что запоминать, а что забывать.
- **Вентили:**
  - **Input Gate:** Что добавить в память.
  - **Forget Gate:** Что удалить из памяти.
  - **Output Gate:** Что использовать для предсказания.
- **Преимущества:**
  - Решает проблему исчезающего градиента.
  - Может обрабатывать длинные последовательности.
- **Ограничения:**
  - Сложнее, чем простой RNN.
  - Медленнее обучается.
- **Пример архитектуры:**
  ```python
  from tensorflow.keras.layers import LSTM
  model = Sequential([
      LSTM(64, input_shape=(timesteps, features)),
      Dense(1)
  ])
  ```
- **Аналогия:** LSTM — как человек с блокнотом: записывает важное, стирает ненужное, использует актуальное для ответа [[6]].

## 🧪 Практика: Классификация текста с LSTM
### Шаг 1: Загрузка и подготовка данных

In [None]:
from keras.datasets import imdb
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Загрузка данных
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=10000)
X_train = pad_sequences(X_train, maxlen=500)
X_test = pad_sequences(X_test, maxlen=500)

### Шаг 2: Создание модели с Embedding и LSTM

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense

model = Sequential([
    Embedding(10000, 128),  # 10,000 слов, 128-мерные эмбеддинги
    LSTM(128),  # 128 нейронов
    Dense(1, activation='sigmoid')  # Бинарная классификация
])

### Шаг 3: Компиляция и обучение

In [None]:
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

history = model.fit(X_train, y_train,
                  epochs=5,
                  batch_size=128,
                  validation_data=(X_test, y_test))

### Шаг 4: Визуализация обучения

In [None]:
import matplotlib.pyplot as plt

# График точности
plt.plot(history.history['accuracy'], label='Train Accuracy')
plt.plot(history.history['val_accuracy'], label='Test Accuracy')
plt.legend()
plt.title('Accuracy по эпохам')
plt.xlabel('Эпохи')
plt.ylabel('Accuracy')
plt.grid(True)
plt.show()

## 📊 Сравнение RNN и LSTM
- **RNN:** Простой, но быстро забывает.
- **LSTM:** Вентили контролируют память, лучше работает с длинными последовательностями.
- **Пример:**
  ```python
  from tensorflow.keras.layers import SimpleRNN
  rnn_model = Sequential([
      Embedding(10000, 128),
      SimpleRNN(128),
      Dense(1, activation='sigmoid')
  ])
  ```
- **Аналогия:** RNN — как краткосрочная память, LSTM — как долгосрочная, где можно записать важное в блокнот.

## 📈 Как работает Embedding?
- **Embedding:** Преобразует слова в плотные векторы.
- **Преимущества:**
  - Сохраняет семантику.
  - Уменьшает размерность.
- **Пример:**
  ```python
  from tensorflow.keras.layers import Embedding
  embedding = Embedding(input_dim=10000, output_dim=128)
  ```
- **input_dim:** Количество уникальных слов.
- **output_dim:** Размер вектора.
- **Аналогия:** Embedding — как карта метро, где каждое слово — станция с координатами.

## 📉 Что такое переобучение и как его избежать?
- **Переобучение (Overfitting):** Модель идеально запоминает тренировочные данные, но плохо работает на тестовых.
- **Причины:**
  - Слишком много нейронов.
  - Мало данных.
- **Как бороться?**
  - Использовать Dropout.
  - Уменьшить количество слов в токенизации.
  - Добавить регуляризацию.
- **Пример:**
  ```python
  from tensorflow.keras.layers import Dropout
  model = Sequential([
      Embedding(10000, 128),
      LSTM(128),
      Dropout(0.5),
      Dense(1, activation='sigmoid')
  ])
  ```
- **Аналогия:** Dropout — как тренировка команды без одного игрока: остальные учатся компенсировать его отсутствие.

## 📊 Как выбрать лучшие гиперпараметры?
- **GridSearchCV:** Перебор всех возможных комбинаций.
- **RandomizedSearchCV:** Случайный перебор (быстрее, чем GridSearch).
- **Пример:**
  ```python
  from sklearn.model_selection import GridSearchCV
  param_grid = {'units': [64, 128], 'dropout_rate': [0.3, 0.5]}
  grid = GridSearchCV(model, param_grid, cv=3, scoring='accuracy')
  grid.fit(X_train, y_train)
  ```
- **Аналогия:** Подбор гиперпараметров — как поиск идеального рецепта через эксперименты с ингредиентами.

## 📝 Домашнее задание
**Задача 1:** Измените архитектуру LSTM:
- Увеличьте число нейронов до 256.
- Добавьте ещё один LSTM(64).
- Как меняется `val_accuracy`?
- Нарисуйте график обучения.
- Визуализируйте confusion matrix для новых параметров.

**Задача 2:** Попробуйте RNN вместо LSTM и сравните точность. Сделайте выводы.

In [None]:
# Ваш код здесь
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout

# Измененная архитектура
modified_model = Sequential([
    Embedding(10000, 128),
    LSTM(256),
    Dropout(0.5),
    LSTM(64),  # Добавлен ещё один LSTM
    Dense(1, activation='sigmoid')
])

In [None]:
# Обучение измененной модели
modified_model.compile(optimizer='adam',
                     loss='binary_crossentropy',
                     metrics=['accuracy'])
history = modified_model.fit(X_train, y_train, 
                         epochs=5,
                         batch_size=128,
                         validation_data=(X_test, y_test))

In [None]:
# Сравнение с RNN
rnn_model = Sequential([
    Embedding(10000, 128),
    SimpleRNN(128),
    Dense(1, activation='sigmoid')
])
rnn_model.compile(optimizer='adam',
                 loss='binary_crossentropy',
                 metrics=['accuracy'])
rnn_history = rnn_model.fit(X_train, y_train, 
                          epochs=5,
                          batch_size=128,
                          validation_data=(X_test, y_test))

In [None]:
# Визуализация обучения
import matplotlib.pyplot as plt

plt.plot(history.history['val_accuracy'], label='LSTM (измененный)')
plt.plot(rnn_history.history['val_accuracy'], label='RNN')
plt.legend()
plt.title('Сравнение точности')
plt.xlabel('Эпохи')
plt.ylabel('Accuracy')
plt.grid(True)
plt.show()

## ✅ Рекомендации по выполнению
- **Задача 1:** Убедитесь, что вы используете правильное количество нейронов и Dropout.
- **Задача 2:** Следите за переобучением — если `val_accuracy` ниже `accuracy`, уменьшите сложность модели.
- **Подсказка:** Используйте `model.summary()` для анализа архитектуры.