# 🧠 Урок 36: Задачи NLP — классификация, генерация текста, NER
**Цель урока:** Понять три ключевые задачи NLP — классификация текста, генерация текста и извлечение именованных сущностей (NER), научиться применять предобученные модели (BERT, GPT, spaCy) для их решения. Подходит для новичков.

## 📌 Что такое NLP?
- **NLP (Natural Language Processing)** — это область машинного обучения, которая позволяет компьютерам понимать, анализировать и генерировать текст [[4]](https://example.com).
- **Зачем?** Применяется в чат-ботах, анализе тональности, машинном переводе, автоматическом суммировании.
- **Аналогия:** Если текст — это язык, то NLP — это как учить язык, разбивая его на слова, фразы и предложения [[8]](https://example.com).
- **Ключевые задачи NLP:**
  - **Классификация текста:** Определение категории текста (например, токсичный/не токсичный).
  - **Генерация текста:** Создание текстов, ответов, статей.
  - **Извлечение именованных сущностей (NER):** Поиск имен, дат, организаций в тексте [[2]](https://example.com).

## 🧱 Классификация текста: от логистической регрессии до BERT
- **Что это?** Определение категории текста (например, положительный/отрицательный отзыв).
- **Как работает?**
  - **Логистическая регрессия:** Линейная модель, ищет оптимальную гиперплоскость.
  - **BERT:** Двусторонняя модель, учитывает контекст до и после слова.
- **Преимущества BERT:**
  - Лучше справляется с многозначностью (например, "яблоко" как компания и фрукт).
  - Высокая точность на сложных зависимостях.
- **Ограничения:**
  - Требует больше вычислений, чем простые модели.
- **Пример:**
  ```python
  from transformers import BertTokenizer, TFBertForSequenceClassification
  tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
  model = TFBertForSequenceClassification.from_pretrained('bert-base-uncased')
  inputs = tokenizer("Этот фильм потрясающий!", return_tensors='tf')
  outputs = model(inputs)
  predicted_class = tf.argmax(outputs.logits, axis=1).numpy()
  ```
- **Аналогия:** Классификация текста — как сортировка писем по темам (спам/не спам).

## 📐 Генерация текста: GPT и его аналоги
- **Что это?** Создание текста на основе начального prompt.
- **Как работает?**
  - **GPT:** Обучается предсказывать следующее слово на основе прошлых.
  - **Causal Language Model:** Учитывает только прошлое (нет будущих слов).
- **Преимущества GPT:**
  - Может генерировать текст любой длины.
  - Хорошо справляется с логикой и рассуждениями.
- **Ограничения:**
  - Может «врать», если не знает ответа [[7]](https://example.com).
- **Пример:**
  ```python
  from transformers import GPT2Tokenizer, TFGPT2LMHeadModel
  tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
  model = TFGPT2LMHeadModel.from_pretrained('gpt2')
  inputs = tokenizer("Искусственный интеллект", return_tensors='tf')
  outputs = model.generate(inputs['input_ids'], max_length=50)
  print(tokenizer.decode(outputs[0]))
  ```
- **Аналогия:** Генерация текста — как писатель, который продолжает историю, основываясь на уже написанном [[1]](https://example.com).

## 🎯 Named Entity Recognition (NER): от BERT до генеративных моделей
- **Что это?** Извлечение именованных сущностей (имена, даты, места) из текста [[5]](https://example.com).
- **Как работает?**
  - **spaCy:** Предобученная модель, ищет сущности на основе словарей и правил.
  - **BERT:** Использует контекст для определения сущностей.
  - **Генеративные модели:** Создают новые сущности на основе запроса.
- **Примеры сущностей:**
  - **PER:** Персоны (например, "Иван Петров")
  - **LOC:** Места (например, "Москва")
  - **ORG:** Организации (например, "Google")
- **Пример с spaCy:**
  ```python
  import spacy
  nlp = spacy.load('en_core_web_sm')
  doc = nlp("Apple основана в Калифорнии Стивом Джобсом.")
  for ent in doc.ents:
      print(ent.text, ent.label_)
  ```
- **Аналогия:** NER — как подчеркивание имен и мест в учебнике для подготовки к экзамену [[1]](https://example.com).

## 🧪 Практика: Классификация текста с BERT
### Шаг 1: Загрузка данных

In [None]:
from sklearn.datasets import fetch_20newsgroups
import numpy as np

# Загрузка данных
newsgroups = fetch_20newsgroups(subset='train', categories=['sci.space', 'rec.sport.baseball'])
X_train = newsgroups.data
y_train = newsgroups.target
newsgroups_test = fetch_20newsgroups(subset='test', categories=['sci.space', 'rec.sport.baseball'])
X_test = newsgroups_test.data
y_test = newsgroups_test.target

### Шаг 2: Токенизация и обучение

In [None]:
from transformers import BertTokenizer, TFBertForSequenceClassification
from tensorflow.keras.optimizers import Adam
import tensorflow as tf

# Токенизация
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', max_length=512)
train_encodings = tokenizer(X_train, truncation=True, padding=True, max_length=512)
test_encodings = tokenizer(X_test, truncation=True, padding=True, max_length=512)

In [None]:
# Создание датасета
import tensorflow as tf

train_dataset = tf.data.Dataset.from_tensor_slices((dict(train_encodings), y_train))
test_dataset = tf.data.Dataset.from_tensor_slices((dict(test_encodings), y_test))

In [None]:
# Обучение
model = TFBertForSequenceClassification.from_pretrained('bert-base-uncased')
model.compile(optimizer=Adam(learning_rate=2e-5), loss='binary_crossentropy', metrics=['accuracy'])
history = model.fit(train_dataset.shuffle(100).batch(16), epochs=3)

In [None]:
# Оценка
loss, accuracy = model.evaluate(test_dataset.batch(16))
print(f'Accuracy: {accuracy:.2f}')

## 📈 Практика: Генерация текста с GPT
### Шаг 1: Использование GPT-2

In [None]:
from transformers import GPT2Tokenizer, TFGPT2LMHeadModel
import tensorflow as tf

# Загрузка GPT-2
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = TFGPT2LMHeadModel.from_pretrained('gpt2')

# Генерация
inputs = tokenizer("Искусственный интеллект", return_tensors='tf')
outputs = model.generate(inputs['input_ids'], max_length=100, num_return_sequences=1)
print(tokenizer.decode(outputs[0]))

### Шаг 2: Генерация через API (GPT-3/ChatGPT)

In [None]:
import openai
openai.api_key = "your-api-key"

response = openai.Completion.create(
  engine="text-davinci-003",
  prompt="Расскажи о машинном обучении",
  max_tokens=150
)
print(response.choices[0].text)

## 📊 Практика: Извлечение именованных сущностей (NER)
### Шаг 1: Использование spaCy

In [None]:
import spacy
from spacy import displacy

# Загрузка английской модели
nlp = spacy.load('en_core_web_sm')
text = "Apple основана в Калифорнии Стивом Джобсом. Google — крупная компания из США."
doc = nlp(text)

# Вывод сущностей
for ent in doc.ents:
    print(ent.text, ent.label_)

# Визуализация
displacy.render(doc, style='ent', jupyter=False)

## 📉 Что такое переобучение и как его избежать?
- **Переобучение (Overfitting):** Модель идеально запоминает тренировочные данные, но плохо работает на тестовых [[7]](https://example.com).
- **Причины:**
  - Слишком много параметров.
  - Мало данных.
- **Как бороться?**
  - Используйте регуляризацию (Dropout, L2).
  - Увеличьте данные (например, аугментация).
  - Используйте предобученные модели.
- **Пример с Dropout:**
  ```python
  from transformers import TFBertForSequenceClassification
  model = TFBertForSequenceClassification.from_pretrained('bert-base-uncased')
  model.add_layer(Dropout(0.5))
  ```
- **Аналогия:** Переобучение — как зубрежка ответов, а не понимание темы.

## 📊 Как выбрать лучшие гиперпараметры?
- **GridSearchCV:** Перебор всех возможных комбинаций.
- **RandomizedSearchCV:** Случайный перебор (быстрее, чем GridSearch).
- **Пример:**
  ```python
  from sklearn.model_selection import GridSearchCV
  param_grid = {'learning_rate': [1e-5, 3e-5], 'batch_size': [8, 16, 32]}
  grid = GridSearchCV(model, param_grid, cv=3, scoring='accuracy')
  grid.fit(X_train, y_train)
  ```
- **Аналогия:** Подбор гиперпараметров — как поиск идеального рецепта через эксперименты с ингредиентами.

## 📝 Домашнее задание
**Задача 1:** Измените prompt для GPT-2:
- Попробуйте разные темы (например, "Как стать программистом", "Искусственный интеллект в медицине").
- Как меняется качество генерации?
- Сохраните результаты в файл.

**Задача 2:** Обучите BERT на датасете IMDB (тональность отзывов):
- Скачайте данные с помощью `fetch_openml`.
- Оцените точность.
- Напишите отчет (200–300 слов), где:
  - Опишите, как вы обучали модель.
  - Сравните с логистической регрессией.
  - Объясните, почему BERT работает лучше на сложных зависимостях.
  - Приведите примеры, где NER полезен (например, медицинские снимки, анализ соцсетей [[5]](https://example.com)).
- **Подсказка:** Используйте `sns.heatmap` для матрицы ошибок.

In [None]:
# Ваш код здесь
from transformers import GPT2Tokenizer, TFGPT2LMHeadModel
import tensorflow as tf

# Генерация с разными prompt
prompts = [
    "Как стать программистом?",
    "Искусственный интеллект в медицине",
    "Машинное обучение для новичков"
]

# Генерация
for prompt in prompts:
    inputs = tokenizer(prompt, return_tensors='tf')
    outputs = model.generate(inputs['input_ids'], max_length=100)
    print(f'\nPrompt: {prompt}')
    print(tokenizer.decode(outputs[0]))

In [None]:
# Обучение BERT на IMDB
from sklearn.datasets import fetch_openml
import numpy as np

# Загрузка данных
mnist = fetch_openml('mnist_784', version=1)
X, y = mnist['data'], mnist['target']
X = X / 255.0
y = np.array([int(label) % 2 for label in y])
X_train, X_test = X[:60000], X[60000:]
y_train, y_test = y[:60000], y[60000:]

In [None]:
# Токенизация и обучение BERT
from transformers import BertTokenizer, TFBertForSequenceClassification
import tensorflow as tf

# Токенизация
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', max_length=512)
train_encodings = tokenizer(X_train.astype(str).tolist(), truncation=True, padding=True, max_length=512)
test_encodings = tokenizer(X_test.astype(str).tolist(), truncation=True, padding=True, max_length=512)

In [None]:
# Создание и обучение модели
model = TFBertForSequenceClassification.from_pretrained('bert-base-uncased')
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
history = model.fit(train_encodings, y_train, epochs=3, batch_size=16)

In [None]:
# Оценка
loss, accuracy = model.evaluate(test_encodings, y_test)
print(f'Accuracy: {accuracy:.2f}')

## ✅ Рекомендации по выполнению
- **Задача 1:** Используйте разные prompt и анализируйте, как меняется генерация.
- **Задача 2:** Для BERT используйте `TFBertForSequenceClassification` и `tokenizer`.
- **Подсказка:** Если модель переобучается, уменьшите `num_train_epochs` или увеличьте `weight_decay`.