# 🧠 Урок 26: Обработка изображений, видео и текста
**Цель урока:** Научиться обрабатывать разные типы данных: изображения, видео и текст. Подходит для новичков.

## 📌 Почему данные разные?
- **Изображения:** Матрицы пикселей, где каждый пиксель — числовое значение цвета.
- **Видео:** Последовательность кадров (изображений), где каждый кадр имеет временную метку.
- **Текст:** Последовательность слов, требует преобразования в числа для работы с ML.
- **Аналогия:** Если данные — это книги, то изображения — это романы, видео — энциклопедии, а текст — учебники.

## 📐 Обработка изображений
- **Форматы:** JPEG (сжатие с потерями), PNG (без потерь), BMP (сырые данные).
- **Чтение:**
  ```python
  from PIL import Image
  img = Image.open('example.jpg')
  print(img.size)  # Размер изображения
  ```
- **Изменение размера:**
  ```python
  resized_img = img.resize((100, 100))  # Изменить до 100x100
  ```
- **Поворот:**
  ```python
  rotated_img = img.rotate(45)  # Поворот на 45 градусов
  ```
- **Цветовые преобразования:**
  ```python
  gray_img = img.convert('L')  # В градации серого
  ```
- **Аналогия:** Изображение — как карта, где каждый пиксель — точка с координатами и цветом.

## 🎥 Обработка видео
- **Что такое видео?** Последовательность кадров с частотой кадров (fps).
- **Ключевые операции:**
  - Извлечение кадров.
  - Обработка каждого кадра (например, детекция лиц).
  - Слияние кадров обратно в видео.
- **Пример: Извлечение кадров с помощью OpenCV**
  ```python
  import cv2
  video = cv2.VideoCapture('video.mp4')
  frame_count = 0
  while True:
      ret, frame = video.read()
      if not ret:
          break
      cv2.imwrite(f'frames/frame_{frame_count}.jpg', frame)
      frame_count += 1
  video.release()
  ```
- **Аналогия:** Видео — как анимация, где каждый кадр — отдельная картинка.

## 📝 Обработка текста
- **Токенизация:** Разбиение текста на слова или подслова.
  ```python
  from nltk.tokenize import word_tokenize
  tokens = word_tokenize("Привет, мир!")  # ['Привет', ',', 'мир', '!']
  ```
- **Удаление стоп-слов:**
  ```python
  from nltk.corpus import stopwords
  filtered = [w for w in tokens if w.lower() not in stopwords.words('russian')]
  ```
- **Векторизация:** Преобразование текста в числа.
  - **Bag of Words:** Счетчик слов.
  - **TF-IDF:** Учитывает важность слов.
  - **Word Embeddings:** Векторы слов (например, Word2Vec, GloVe).
- **Пример:**
  ```python
  from sklearn.feature_extraction.text import TfidfVectorizer
  vectorizer = TfidfVectorizer()
  X = vectorizer.fit_transform(["текст 1", "текст 2"])
  ```
- **Аналогия:** Текст — как список покупок, где каждое слово — элемент, а TF-IDF — его важность для рецепта.

## 🧪 Практика: Обработка изображений
### Шаг 1: Загрузка и преобразование

In [None]:
from PIL import Image
import matplotlib.pyplot as plt

# Загрузка изображения
img = Image.open('example.jpg')
print("Размер изображения:", img.size)

# Изменение размера
resized_img = img.resize((200, 200))

# В градациях серого
gray_img = resized_img.convert('L')
plt.imshow(gray_img, cmap='gray')
plt.title('Градации серого')
plt.axis('off')
plt.show()

## 🎥 Практика: Извлечение кадров из видео
### Шаг 1: Извлечение кадров

In [None]:
import cv2

# Открытие видеофайла
video = cv2.VideoCapture('video.mp4')
frame_count = 0

# Сохранение кадров
while True:
    ret, frame = video.read()
    if not ret:
        break
    cv2.imwrite(f'frames/frame_{frame_count}.jpg', frame)
    frame_count += 1
video.release()
print(f'Извлечено {frame_count} кадров')

### Шаг 2: Обработка кадров
```python
import os
from PIL import Image

# Обработка всех кадров
for filename in os.listdir('frames'):
    if filename.endswith('.jpg'):
        img = Image.open(os.path.join('frames', filename))
        gray_img = img.convert('L')
        gray_img.save(os.path.join('processed_frames', filename))
```

## 📄 Практика: Обработка текста
### Шаг 1: Очистка текста

In [None]:
import re
from nltk.corpus import stopwords
import nltk
nltk.download('punkt')
nltk.download('stopwords')

# Пример текста
text = "Привет! Это пример текста для обработки. Нужно убрать стоп-слова и знаки препинания."

# Очистка
tokens = word_tokenize(text.lower())
filtered = [w for w in tokens if w.isalpha() and w not in stopwords.words('russian')]

### Шаг 2: Векторизация и классификация

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression

# Векторизация
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(["текст 1", "текст 2", "другой текст"])
y = [0, 1, 0]  # Целевые метки

# Обучение
model = LogisticRegression()
model.fit(X, y)

# Предсказание
new_text = vectorizer.transform(["новый текст"])
print(model.predict(new_text))  # [1]

## 📊 Примеры применения в реальном мире
- **Изображения:** Распознавание лиц, медицинская диагностика.
- **Видео:** Анализ действий, обнаружение объектов в реальном времени.
- **Текст:** Анализ тональности, чат-боты, перевод.
- **Аналогия:** Изображения — как фотографии, видео — как фильмы, текст — как книги.

## 📝 Домашнее задание
**Задача 1:** Обработайте видео: извлеките кадры, измените их размер и сохраните.
**Задача 2:** Обработайте текстовый датасет (например, отзывы о фильмах):
- Очистите текст.
- Векторизуйте его.
- Обучите модель классификации.
- Напишите отчет (200–300 слов), где:
  - Опишите, как вы обработали данные.
  - Сравните точность модели до и после очистки.
  - Объясните, почему стоп-слова мешают.
  - Приведите примеры, где эти методы полезны (например, чат-боты, анализ соцсетей).

In [None]:
# Ваш код здесь
import cv2
from PIL import Image
import os

# Извлечение кадров
video = cv2.VideoCapture('video.mp4')
frame_count = 0
while True:
    ret, frame = video.read()
    if not ret:
        break
    cv2.imwrite(f'frames/frame_{frame_count}.jpg', frame)
    frame_count += 1
video.release()
print(f'Извлечено {frame_count} кадров')

In [None]:
# Обработка кадров
for filename in os.listdir('frames'):
    if filename.endswith('.jpg'):
        img = Image.open(os.path.join('frames', filename))
        # Добавьте сюда код для изменения размера
        # resized_img = ...
        # gray_img = ...
        # gray_img.save(...)

In [None]:
# Обработка текста
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Загрузка текстового датасета
newsgroups = fetch_20newsgroups(subset='train', categories=['sci.space', 'rec.sport.baseball'])
X_train = newsgroups.data
y_train = newsgroups.target

# Векторизация
vectorizer = TfidfVectorizer()
X_train_vec = vectorizer.fit_transform(X_train)

# Обучение модели
model = LogisticRegression()
model.fit(X_train_vec, y_train)

In [None]:
# Оценка
newsgroups_test = fetch_20newsgroups(subset='test', categories=['sci.space', 'rec.sport.baseball'])
X_test_vec = vectorizer.transform(newsgroups_test.data)
accuracy = accuracy_score(newsgroups_test.target, model.predict(X_test_vec))
print(f'Accuracy: {accuracy:.2f}')

## ✅ Рекомендации по выполнению
- **Задача 1:** Используйте `cv2.resize()` для изменения размера кадров.
- **Задача 2:** Для текста уберите цифры и специальные символы через регулярные выражения.
- **Подсказка:** Используйте `os.makedirs()` для создания папок под обработанные кадры.