# 🧠 Урок 23: Работа с большими и разреженными данными
**Цель урока:** Научиться эффективно обрабатывать большие наборы данных и разреженные матрицы с помощью `pandas`, `scipy.sparse`, `Dask` и облачных технологий. Подходит для новичков.

## 📌 Что такое большие данные (Big Data)?
- **Big Data** — это данные, которые слишком велики для обработки стандартными инструментами (например, Excel, обычные массивы).
- **Примеры:** Логи веб-сайтов, данные с датчиков, транзакции банков.
- **Почему важно?** Обычные методы не справляются с объемом, скоростью или разнообразием данных.
- **Аналогия:** Представьте, что вы пытаетесь перенести 100 коробок за один раз — вам нужен грузовик, а не сумка [[4]](https://example.com ).

## 📉 Что такое разреженные данные?
- **Разреженные данные** — это когда большинство значений равны нулю (например, матрица пользователь-фильмы в Netflix).
- **Преимущества хранения:** Экономия памяти и времени обработки.
- **Методы:** Использование `scipy.sparse` вместо обычных массивов.
- **Аналогия:** Если книга состоит из 1000 страниц, но только 10 заполнены, вы можете хранить только эти 10, а не всю книгу .

## 🛠️ Обработка больших данных
### 1. Батчи (mini-batches)
- **Что это?** Обработка данных порциями, чтобы не загружать всё в память сразу.
- **Пример:** Чтение CSV порциями:
  ```python
  import pandas as pd
  chunksize = 10000
  for chunk in pd.read_csv('big_data.csv', chunksize=chunksize):
      process(chunk)  # Обработка порции
  ```
- **Аналогия:** Читаете книгу по главам, а не всю сразу [[4]](https://example.com ).

### 2. Параллельные вычисления
- **Что это?** Использование нескольких процессоров для ускорения обработки.
- **Пример:** Параллельная обработка с `joblib`:
  ```python
  from joblib import Parallel, delayed
  results = Parallel(n_jobs=-1)(delayed(process)(chunk) for chunk in chunks)
  ```
- **Аналогия:** Несколько работников упаковывают товар одновременно [[4]](https://example.com ).

### 3. Облака и распределенные системы
- **Инструменты:** AWS S3, Google Cloud Storage, Apache Spark.
- **Пример:** Использование `Dask` для работы с данными, превышающими объем RAM:
  ```python
  import dask.dataframe as dd
  df = dd.read_csv('big_data.csv')  # Работа с большими файлами
  ```
- **Аналогия:** Если вы не можете унести все книги, храните их в облаке и читайте по одной за раз [[7]](https://example.com ).

## 📊 Форматы хранения данных
- **CSV:** Простой, но медленный для больших данных.
- **Parquet:** Столбцовый формат, оптимизирован для чтения/записи больших объемов.
- **HDF5:** Поддерживает хранение многомерных массивов.
- **Feather:** Быстрый формат для обмена данными между Python и R.
- **Примеры сравнения форматов:**
  - **CSV:** Текстовый файл, легко читается, но медленно обрабатывается.
  - **Parquet:** Сжатие, типизация, оптимизация под аналитику.
  - **HDF5:** Для научных данных, например, геномные последовательности.
  - **Feather:** Для быстрого обмена между языками (Python, R).
- **Почему Parquet лучше CSV?** Сжатие, типизация, оптимизация под аналитику [[1]](https://example.com ).
- **Пример:** Сохранение в Parquet:
  ```python
  df.to_parquet('data.parquet')
  df = pd.read_parquet('data.parquet')
  ```

## 🧱 Разреженные данные и их обработка
### 1. Что такое разреженная матрица?
- **Определение:** Матрица, где большинство элементов равны нулю.
- **Зачем?** Экономия памяти: если 99% данных — нули, разреженный формат сократит объем в 100 раз.
- **Пример:** Матрица пользователь-фильм в рекомендательной системе.

### 2. Как создать разреженную матрицу?
- **Использование `scipy.sparse`:**
  - **CSR (Compressed Sparse Row):** Для быстрого доступа по строкам.
  - **CSC (Compressed Sparse Column):** Для быстрого доступа по столбцам.
  - **COO (Coordinate):** Простая структура для создания.
  ```python
  from scipy.sparse import csr_matrix
  data = csr_matrix((values, (rows, cols)), shape=(10000, 10000))
  print(data.shape)  # (10000, 10000)
  ```
- **Аналогия:** Хранение только тех страниц, которые содержат текст, а не всю книгу целиком [[1]](https://example.com ).

## 📦 Облачные технологии для работы с данными
- **AWS S3:** Хранение данных в облаке с доступом через API.
- **Google BigQuery:** SQL-запросы к терабайтным данным.
- **Apache Spark (на облачных платформах):** Обработка данных на кластерах.
- **Пример:** Подключение к Google Cloud:
  ```python
  from google.cloud import bigquery
  client = bigquery.Client()
  query = """
  SELECT name, COUNT(*)
  FROM `bigquery-public-data.usa_names.usa_1990_current`
  GROUP BY name
  ORDER BY COUNT(*) DESC
  LIMIT 100
  """
  df = client.query(query).to_dataframe()
  print(df)
  ```
- **Аналогия:** Облако — как виртуальный склад, где вы храните данные, а не на своем компьютере [[7]](https://example.com ).

## 📈 Как работает ансамблевое обучение?
- **Bagging (Bootstrap Aggregation):** Обучает несколько моделей на случайных подвыборках и объединяет их предсказания.
- **Boosting:** Каждая следующая модель исправляет ошибки предыдущих.
- **Stacking:** Использует мета-модель для комбинации предсказаний.
- **Пример:** Random Forest — это Bagging деревьев.
  ```python
  from sklearn.ensemble import RandomForestClassifier
  forest = RandomForestClassifier(n_estimators=100)
  forest.fit(X_train, y_train)
  ```

## 📊 Как выбрать лучшую модель?
- **Точность (Accuracy):** Подходит для сбалансированных классов.
- **F1-score:** Для несбалансированных задач.
- **ROC-AUC:** Для бинарной классификации.
- **GridSearchCV:** Автоматический подбор гиперпараметров.
- **Пример:**
  ```python
  from sklearn.model_selection import GridSearchCV
  grid = GridSearchCV(RandomForestClassifier(), param_grid, cv=3, scoring='accuracy')
  ```

## 🧪 Практика: Работа с разреженными данными
### Шаг 1: Создание разреженной матрицы

In [None]:
import numpy as np
from scipy.sparse import csr_matrix

# Создание разреженной матрицы
dense = np.array([[0, 0, 0], [0, 1, 0], [0, 0, 0]])
sparse = csr_matrix(dense)
print("Размер разреженной матрицы:", sparse.shape)

### Шаг 2: Работа с большими данными через Dask

In [None]:
import dask.dataframe as dd

# Чтение большого CSV
df = dd.read_csv('big_data.csv')  # Ваш файл
print(df.head())  # Первые строки

### Шаг 3: Использование Apache Arrow
- **Apache Arrow** — формат, оптимизированный для работы с большими данными в памяти.
- **Преимущества:** Высокая скорость сериализации/десериализации.
- **Пример:**
  ```python
  import pyarrow.parquet as pq
  table = pq.read_table('data.parquet')
  print(table)
  ```

## 📝 Домашнее задание
**Задача 1:** Создайте разреженную матрицу из случайных данных и сравните объем памяти с плотной матрицей.
**Задача 2:** Обработайте большой датасет с помощью Dask (например, фильтрация, группировка, агрегация).
**Задача 3:** Напишите отчет (200–300 слов), где:
- Опишите, как вы создавали разреженную матрицу.
- Сравните эффективность хранения.
- Объясните, как Dask помогает при работе с большими данными.
- Приведите примеры, где эти методы полезны (например, логистика, рекомендации).

In [None]:
# Ваш код здесь
import numpy as np
from scipy.sparse import csr_matrix
import pandas as pd
import dask.dataframe as dd

# Задача 1: Разреженная матрица
dense = np.random.choice([0, 1], size=(1000, 1000), p=[0.99, 0.01])
sparse = csr_matrix(dense)
print("Плотная матрица:", dense.nbytes / 1024, "KB")
print("Разреженная матрица:", sparse.data.nbytes / 1024, "KB")

In [None]:
# Задача 2: Чтение больших данных
df = dd.read_csv('big_data.csv')  # Ваш файл
filtered = df[df['category'] == 'electronics']
grouped = filtered.groupby('brand')['price'].mean()
result = grouped.compute()  # Вычисление
print(result)

## ✅ Рекомендации по выполнению
- **Задача 1:** Убедитесь, что вы используете `csr_matrix` для экономии памяти.
- **Задача 2:** Для ускорения используйте `dask.dataframe` вместо `pandas`.
- **Подсказка:** Используйте `sparse.nnz` для подсчета ненулевых элементов.