# Управление данными и предобработка. Подготовка данных для ML.

Автор: Ширяева Диана, 6013

## Что такое управление данными и предобработка. Почему это важно?

<img src="images\img1.jpg" alt="img1" width="600"/>

<span style="color:#CC0099">**Управление данными**</span> – это процесс сбора, хранения, обработки, анализа и использования данных.

- **Сбор данных**: Определение источников, извлечение данных, обработка ошибок сбора данных, создание единого формата.
- **Хранение данных**: Выбор подходящей системы хранения (базы данных, облачные хранилища), обеспечение безопасности данных.
- **Предобработка данных**: Преобразование данных, агрегирование, фильтрация, создание новых признаков.
- **Анализ данных**: Использование статистических методов и визуализации для получения insights (ценности).
- **Использование данных**: Применение данных для принятия решений, разработки моделей машинного обучения и т.д.

<span style="color:#CC0099">**Предобработка данных**</span> – это этап, который подготавливает данные к обучению модели машинного обучения. Он включает в себя:
- Очистку данных: Удаление шума, выбросов, пропущенных значений, дубликатов.
- Преобразование данных: Масштабирование, кодирование категориальных признаков, приведение данных к нужному формату.
- Инженерия признаков: Создание новых признаков из существующих, отбор наиболее релевантных признаков.

<span style="color:#CC0099">**Почему это важно?**</span>

Качество данных влияет на:
1. Качество модели
2. Эффективность модели
3. Обобщающую способность модели

Также предобработка данных дает ещё один важный бонус - это <span style="color:#FFCC00">**понимание данных**</span>

## Место предобработки данных в общем процеесе

<pre>
┌───────────────────┐
│ Сбор данных       │
└───────────────────┘
          ↓
┌───────────────────┐
│ Предобработка     │
└───────────────────┘
          ↓
┌───────────────────┐
│ Построение модели │
└───────────────────┘
          ↓
┌───────────────────┐
│ Обучение медели   │
└───────────────────┘
          ↓
┌───────────────────┐
│ Предсказание      │
└───────────────────┘
          ↓
┌───────────────────┐
│ Анализ качества   │
└───────────────────┘
          ↓
┌───────────────────┐
│ Интерпретация     │
└───────────────────┘
</pre>

## С какими видами данных работают ML и DL модели

<img src="images\img2.jpg" alt="img2" width="600"/>

Желания человека: 
- Числовые
- Текстовые
- Изображения
- Аудио
- Временные ряды

Но сами модели работают с <span style="color:#FFCC00">количественными типами данных</span>, поэтому все качественные (категориальные) типы данных необходимо привести к формату, который понятен компьютеру.

## Стадии предобработки данных и часто используемые инструменты

1. Очистка данных:
    - Обработка пропущенных значений: Удаление, замена (средним, медианой, моделью), заполнение нулями.
    - Удаление дубликатов: Определение и удаление дублирующихся записей.
    - Обработка выбросов: Идентификация и коррекция аномальных значений.
2. Преобразование данных:
    - Масштабирование: Нормализация данных (приведение к диапазону 0-1) или стандартизация (приведение к нулевому среднему и единичному стандартному отклонению).
    - Кодирование категориальных признаков: Преобразование категориальных данных в числовые (например, с помощью one-hot encoding, label encoding).
    - Разбиение данных: Разделение на обучающую, проверочную и тестовую выборки.
3. Инженерия признаков:
    - Создание новых признаков: Извлечение информации из существующих признаков
    - Выбор признаков: Отбор наиболее релевантных признаков для модели.
    - Трансформация признаков: Приведение признаков к более удобному формату для модели (например, логарифмирование, применение полиномов).
4. Проверка качества данных:
    - Визуализация данных: Построение графиков для анализа распределения данных, наличия выбросов, зависимостей.
    - Статистический анализ: Вычисление основных статистических характеристик (среднее, дисперсия, корреляция), проверка гипотез.

In [1]:
import pandas as pd

### Обработка числовых данных

<img src="images\img3.jpg" alt="img3" width="600"/>

[number_data](preparation_number_data.ipynb)

Датасет fetch_california_housing содержит информацию о жилье в Калифорнии

1. MedInc (Median Income) - Медианный доход населения в районе (в десятитысячах долларов). 
2. HouseAge (House Age) - Средний возраст домов в районе.
3. AveRooms (Average Number of Rooms) - Среднее количество комнат в доме в районе.
4. AveBedrms (Average Number of Bedrooms) - Среднее количество спален в доме в районе.
5. Population (Population) - Общая численность населения в районе.
6. AveOccup (Average Occupancy) - Средняя плотность населения в районе (количество людей на один дом).
7. Latitude (Latitude) - Широта района.
8. Longitude (Longitude) - Долгота района.
9. MedHouseVal (Median House Value) - Медианная стоимость жилья в районе (в десятитысячах долларов). (является target)

<span style="color:#FFCC00">Инструменты</span>

- Scikit-learn: Библиотека машинного обучения с модулем для предобработки, включая стандартизацию, нормализацию, заполнение пропущенных значений, преобразование категориальных признаков и др.
- Pandas: Библиотека для работы с данными, предлагающая множество функций для предобработки, включая очистку, фильтрацию, агрегирование, группировку и изменение типов данных.
- NumPy: Библиотека для работы с массивами, обеспечивающая операции по манипулированию данными, включая операции со столбцами, транспонирование, сортировку и др.
- Feature-engine: Библиотека, специализирующаяся на инженерии признаков, включающая методы обработки пропущенных значений, преобразования признаков, удаления выбросов и др.
- DataWig: Библиотека для автоматического создания признаков, включающая методы для генерации синтетических данных, поиска и исправления ошибок.
- И другие.

In [3]:
df = pd.read_csv("fetch_california_housing.csv")
del df["Unnamed: 0"]
df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


### Обработка текстовых данных

<img src="images\img4.jpg" alt="img4" width="600"/>

##### Текст, который мы будем обрабатывать

'Жила в старом лесу белка. У белки весной появилась дочка белочка.

Один раз белка с белочкой собирали грибы на зиму. Вдруг на соседней ёлке появилась куница. Она приготовилась схватить белочку. Мама – белка прыгнула навстречу кунице и крикнула дочке: «Беги!»

Белочка бросилась наутёк. Наконец она остановилась. Посмотрела по сторонам, а места незнакомые! Мамы – белки нет. Что делать?

Увидела белочка дупло на сосне, спряталась и заснула. А утром мама дочку нашла.'

[nlp_data](preparation_nlp.ipynb)

<span style="color:#FFCC00">Инструменты</span>

- NLTK: Библиотека для обработки естественного языка, предлагающая инструменты для токенизации, нормализации текста, удаления стоп-слов, лемматизации, стемминга, создания n-грамм и др.
- Spacy: Библиотека для обработки естественного языка, известная своей скоростью и точностью, предоставляющая инструменты для токенизации, анализа частей речи, распознавания именованных сущностей, лемматизации и др.
- TextBlob: Библиотека для обработки естественного языка, предлагающая простые в использовании методы для анализа настроений, классификации текста, перевода и др.
- Gensim: Библиотека для тематического моделирования, предоставляющая инструменты для создания распределенных представлений слов (Word2Vec), тематического моделирования LDA и др.
- Snowball: Библиотека для стемминга и лемматизации, поддерживающая несколько языков.
- И другие.

### Обработка изображений (видео)

<img src="images\img5.jpg" alt="img5" width="600"/>

<span style="color:#FFCC00">Инструменты</span>

- OpenCV: Библиотека для обработки изображений, предоставляющая инструменты для преобразования, улучшения, сегментации изображений, распознавания объектов, детектирования лиц и др.
- Pillow: Библиотека для обработки изображений, предоставляющая инструменты для открытия, сохранения, редактирования и преобразования различных форматов изображений.
- Scikit-image: Библиотека для обработки изображений, основанная на Scikit-learn, предоставляющая инструменты для сегментации, фильтрации, морфологической обработки изображений и др.
- TensorFlow: Библиотека для машинного обучения, предоставляющая инструменты для предобработки изображений, включая изменение размера, нормализацию, преобразование цветов и др.
- PyTorch: Библиотека для машинного обучения, также предоставляющая инструменты для предобработки изображений, аналогичные TensorFlow.

Видео:

- FFmpeg: Библиотека для обработки мультимедиа, предоставляющая инструменты для преобразования, сжатия, кодирования и декодирования видеофайлов.
- MoviePy: Библиотека для редактирования видео, предоставляющая инструменты для работы с клипами, переходами, эффектами, титрами и др.

[image_data](preparation_image.ipynb)

Аудио:

• Librosa: Библиотека для анализа и манипулирования аудиоданными, предоставляющая инструменты для извлечения признаков, таких как MFCC, спектрограммы, хромограммы, и др.
• PyAudio: Библиотека для работы с аудио в Python, предоставляющая инструменты для записи и воспроизведения звука, а также взаимодействия с микрофонами и динамиками.
• SoundFile: Библиотека для чтения и записи аудиофайлов различных форматов.
• TensorFlow: Библиотека для машинного обучения, предоставляющая инструменты для предобработки аудио, вкл
ючая создание спектограмм, mel-спектрограмм и др.
• PyTorch: Библиотека для машинного обучения, также предоставляющая инструменты для предобработки аудио, аналогичные TensorFlow.

Временные ряды:

• statsmodels: Библиотека для статистического моделирования, предоставляющая инструменты для анализа временных рядов, включая сезонное разложение, авторегрессионные модели, модели скользящего среднего и др.
• Prophet: Библиотека для прогнозирования временных рядов, предлагающая метод моделирования пророческих временных рядов.
• Scikit-learn: Библиотека машинного обучения, предоставляющая инструменты для предобработки временных рядов, включая стандартизацию, нормализацию, заполнение пропущенных значений, разделение на обучающую и тестовую выборки и др.
• Pandas: Библиотека для работы с данными, также предоставляющая инструменты для работы с временными рядами, включая группировку, фильтрацию, агрегирование и др.
• TensorFlow: Библиотека для машинного обучения, предоставляющая инструменты для построения моделей глубокого обучения для прогнозирования временных рядов.
• PyTorch: Библиотека для машинного обучения, также предоставляющая инструменты для построения моделей глубокого обучения для прогнозирования временных рядов

### Список литературы

- Взгляд машинного обучения на типы данных: https://skine.ru/articles/538818/
- Предварительная обработка данных для машинного обучения / Хабр: https://habr.com/ru/articles/800973/
- Рассказ о белке: https://poskladam.ru/short_texts/texts/