# Лекция 1.2: Данные и их анализ

Данные – это важный, а иногда и самый важный, элемент построения моделей машинного обучения.

Хотя данные могут быть из разных источников, иметь различные представления, быть сколь угодно разнообразными, важно помнить следующие постулаты:
- `Garbage in – garbage out` – качество данных имеет первостепенное значение и может сделать бесполезными все дальнейшие шаги по построении модели.
- Если в данных отсутствует закономерность, то модель не сможет её выучить. Именно поэтому, как мы далее изучим, для работы с разными типами данных и моделями мы дополнительно может требовать выполнение некоторых условий (часто формальное) или считаем состоятельными смелые предположения о природе данных.
- Модель не обязательно выучит именно ту закономерность, которую предполагает исследователь. Если в данных есть лазейки – модель их обязательно найдет.

Данные можно условно разделить на:
- **Cтруктурированные**:табличные данные
- **Неструктурированные**: текст, картинки, аудио

> Работать с неструктурированными данными зачастую невозможно, сама природа компьютера и реализация вычислений в нем обязывает переходить к векторному представлению отдельного неструктурированного элемента, что сводит данные к матричному (табличному) представлению, а значит структурированному.

Табличные данные описываются как числовая матрица X – матрица признаков (feature), где каждой строке соответствует объект, а столбцу – признак (измерение/атрибут объекта). Признаки бывают числовыми (дискретными и непрерывными) и категориальными (номинальные и порядковые).

<img src="../../images/types_of_data.png" alt="Типы данных" width="500">

Чаще всего работа с данными состоит из типовых шагов:
- Сбор и агрегация
- Первичный анализ данных (EDA)
- Предобработка и инженерия признаков
- Разбиение на train/validation/test

Рассмотрим каждый из них подробнее.

#### Сбор и агрегация

Для учебных задач обычно используют готовые или даже синтетические датасеты:
- [Google Dataset Search](https://datasetsearch.research.google.com)
- [Re3Data](https://www.re3data.org)
- [World Bank](https://datacatalog.worldbank.org/home)
- [Kaggle](https://www.kaggle.com/datasets)
- [HuggingFace](https://huggingface.co/datasets)
- [GitHub](https://github.com/awesomedata/awesome-public-datasets)
- [Humanitarian Data Exchange](https://data.humdata.org)
- [UC Irvine Machine Learning Repository](https://archive.ics.uci.edu)
- [OpenML](https://www.openml.org/search?type=data)
- [FiftyOne Dataset Zoo](https://docs.voxel51.com/dataset_zoo/datasets.html)

По компьютерному зрению:
- [Open Images](https://storage.googleapis.com/openimages/web/index.html)
- [COCO](https://cocodataset.org)
- [ImageNet](https://www.image-net.org)
- [VisualData](https://visualdata.io)
- [Roboflow](https://universe.roboflow.com)
- [Visual Genome](https://homes.cs.washington.edu/~ranjay/visualgenome/index.html)

По обработке естественного языка:
- [Common Crawl](https://commoncrawl.org)
- [C4](https://www.tensorflow.org/datasets/catalog/c4)
- [The Pile](https://github.com/EleutherAI/the-pile)
- [LAION](https://laion.ai)

По работе с речью и аудио:
- [LibriSpeech / LibriTTS (OpenSLR)](https://www.openslr.org/12)
- [Mozilla Common Voice](https://commonvoice.mozilla.org/datasets)
- [AudioSet](https://research.google.com/audioset)
- [FSD50K](https://annotator.freesound.org/fsd/release/FSD50K)

По временным рядам:
- [UCR Time Series Archive](https://www.cs.ucr.edu/~eamonn/time_series_data)
- [M-Competitions](https://nixtlaverse.nixtla.io/datasetsforecast/m4.html)
- [Forecasting Data](https://forecastingdata.org)

Кроме того, существуют наборы данных по медицине ([MIMIC](https://physionet.org/content/mimiciv), [MIMIC-CXR](https://physionet.org/content/mimic-cxr)), по геопространственным данным ([EuroSAT](https://www.tensorflow.org/datasets/catalog/eurosat), [BigEarthNet](https://bigearth.net)), по 3D графике ([ShapeNet](https://shapenet.org), [CARLA](https://carla.org/))

В реальных задачах, данные чаще приходится собрать данные самостоятельно. Реализовывать логику сборки обычно не приходится – если данные нужные, они и так сохраняются.

Важно, однако, понимать, что в крупных сервисах данных может быть крайне много и все они должны как-то храниться. хранилища данных существуют.
- **Data Lake** – это хранилище, которое позволяет собирать и хранить огромные объёмы сырых данных в их первоначальном формате, что даёт гибкость для дальнейшей обработки, анализа или обучения моделей машинного обучения. Возможность хранения данные в исходном виде и определение их структуры и назначения уже на этапе использования (schema-on-read), несмотря на все преимущества, без должного управления может приводить к сложностям поиска и интерпретируемости.

- **DWH (Data WareHouse)** – это централизованное хранилище структурированных данных, оптимизированное для аналитических запросов и отчётности. Обычно строится по схеме "звезда" или "снежинка", что обеспечивает высокую производительность при выполнении сложных SQL-запросов. Подходит для бизнес-аналитики (BI), где важны согласованность данных, высокая скорость обработки и возможность генерации отчётов. 

- **DLH (Data LakeHouse)** – это гибридная архитектура, сочетающая лучшие черты Data Lake (возможность хранить сырые данные в любом формате) и Data Warehouse (поддержка транзакционной целостности и аналитических возможностей). В DLH данные могут храниться как в сыром виде, так и в структурированном, при этом поддерживаются ACID-транзакции и оптимизация для аналитических запросов.

Кроме того, на практике разные данные оптимальнее хранить в разных местах, поскольку они имеют разные требования по доступности и задержке. Поэтому выделяют:
- **Hot**: низкая задержка, высокая частота обращений, быстрый ввод/чтение – PostgreSQL, MySQL, Cassandra, Redis, ElasticSearch.
- **Warm**: умеренная задержка и частота обращений – NoSQL, S3, Snowflake.
- **Cold**: редкий доступ, упор на стоимость хранения – S3 Glacier.

Уходить глубже в классификацию и устройство баз данных не будем.

#### Первичный анализ данных

**Exploratory Data Analisys (EDA)** – это термин для обозначения работы по изучению статистических закономерностей в данных. Обычно EDA предполагает расчет статистик и построение визуализаций для того, чтобы исследователю было легче сформулировать гипотезы относительно данных. 

Само исследование порой можно делать автоматизировано, для этого есть множество инструментов или инструкций. В конечном итоге, все сводится к тому, как агрегировать данные и как именно их лучше отобразить на графике. Есть проекты вроде [этого](https://www.data-to-viz.com/), которые посвящены различным способам визуального анализа данных.

Практический пример:

In [None]:
!pip install ydata-profiling -q

In [None]:
import seaborn as sns
from ydata_profiling import ProfileReport
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split

In [None]:
penguins = sns.load_dataset('penguins')
print("Размер исходного датасета:", penguins.shape)
penguins.head()

In [None]:
ProfileReport(penguins, title="Profiling Report").to_notebook_iframe()

#### Предобработка

**Предобработка** – процесс, направленный на устранение несоответствий в представлении данных, шума и иных видов аномалий. Чем больше полезного сигнала будет оставлено в данных, тем лучше ML-модель сможет его уловить.

Некоторые этапы предобработки:
- Работа с пропущенными значениями
- Удаление выбросов
- Масштабирование признаков
- Кодирование категориальных переменных
- Кодирование числовых переменных

Практический пример:

In [None]:
penguins.info()

In [None]:
penguins.isnull().sum()

In [None]:
penguins.describe().round(2)

In [None]:
df = penguins.copy()

for col in ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']:
    df[col] = df[col].fillna(df[col].median())

for col in ['species', 'island', 'sex']:
    df[col] = df[col].fillna(df[col].mode()[0])

df.isnull().sum()

In [None]:
def remove_outliers_iqr(df, columns):
    df_clean = df.copy()

    for col in columns:
        Q1 = df_clean[col].quantile(0.25)
        Q3 = df_clean[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR

        df_clean = df_clean[(df_clean[col] >= lower_bound) & (df_clean[col] <= upper_bound)]

    return df_clean

In [None]:
numeric_features = ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']
df = remove_outliers_iqr(df, numeric_features)

df.shape

#### Разбиение на train-val-test

Чтобы понять, что модель машинного обучения определила некие закономерности в данных, у нас должна быть возможность оценить это метрически.

Для оценки необходимо иметь тестовые данные – они называются **отложенная выборка** - именно они позволяют оценить качество модели путём расчёта метрик на этих данных. Ключевым требованием является то, что модель ни в коем случае не должна обучаться на тестовых данных.

<div class="alert alert-info">
Подробнее узнать про метрики можно в следующем
<a href="../../Workshops/week01_metrcs.ipynb" target="_blank">ноутбуке</a>
</div>

Как мы уже ранее разобрали, разделение данных преследует строго определённые цели:
- обучающая выборка используется для обучения модели.
- валидационная выборка для подбора гиперпараметров и выбора наилучшей модели в рамках заданного семейства алгоритмов.
- тестовая выборка служит для финальной, объективной оценки качества модели или сравнения лучших моделей из различных семейств алгоритмов.

> На практике часто используется соотношение 70/10/20 для train, validation и test соответственно, однако это соотношение не является догмой и может варьироваться в зависимости от специфики задачи и объёма доступных данных.

От свойств данных и характера задачи выделяют различные стратегии разбиения:
- Случайное разбиение (Random Split)
- Стратифицированное разбиение (Stratified Split) – гарантирует, что каждая подвыборка будет иметь примерно такое же распределение по целевому признаку, как и исходный набор данных
- Временное разбиение (Temporal Split)
- Кросс-валидация (Cross-Validation, KFold, StratifiedKFold) – данные разбиваются на $k$ равных частей и модель обучается $k$ раз, каждый раз используя $k-1$ фолдов для обучения и 1 фолд для валидации. фолда.

Даже при корректном разбиении данных можно столкнуться с рядом серьезных проблем, среди главных можно выделить:
- Дисбаланс классов: самая серьезная из проблем задачи классификации. Есть следующие методы борьбы:
    - смещение порога классификации
    - ансамблирование
    - сэмплирование (undersampling – удаление экземпляров мажорного класса/oversampling – генерация экземпляров миноритарного класса)
- Утечка данных
- Сдвиг распределения
- Недостаточный объем данных