`EDA (Exploratory Data Analysis)` — **разведывательный анализ данных**. 

Этот этап дата-сайентисты проводят перед построением самой модели. 

Цель этого этапа — понять, что нам могут дать данные, и как признаки могут быть взаимосвязаны между собой. Понимание изначальных признаков позволит создать новые, более сильные признаки и повысить качество модели. 

**Качественная модель** способна выдавать правильные результаты **на любых новых данных**, которые никогда не участвовали в обучении.   

Изучив разведывательный анализ данных, мы будем готовы создать первую модель! `EDA` помогает искать смысл и закономерности в данных, но для этого нам необходимы все навыки, освоенные в модулях раньше! 

`EDA` — это совокупность разнообразных навыков и умений, инструментов для работы с данными.

В этом модуле вы узнаете:
- какую роль играет анализ данных в машинном обучении;
- какие библиотеки Python помогут вам в освоении разведывательного анализа данных;
- поработаете с данными и узнаете, какие типы признаков существуют;
- проверите знания из прошлых модулей и примените их на практике;
- узнаете, как можно сделать разведывательный анализ данных одной строчкой кода.

Цели модуля:
- Узнать, какую роль EDA играет в машинном обучении.
- Узнать, какие навыки необходимы в освоении EDA.
- Узнать, какие типы признаков существуют, и уметь их различать.
- Поработать с библиотеками и инструментами, которые облегчат EDA.

Тот, кто занимается `машинным обучением`, обычно проходит следующие этапы: 
- формулировка бизнес-проблемы, 
- сбор данных и их очистка, 
- разведывательный анализ данных, 
- разработка и построение модели, 
- внедрение модели в продакшен.

Всё это называется жизненным циклом модели машинного обучения.

<img src='img/dst-eda-1-1.png'>

Мы можем выделить несколько этапов жизненного цикла модели машинного обучения.

### Постановка проблемы

Жизненный цикл нашей модели начинается с определения проблемы для бизнеса. Мы будем рассматривать все этапы цикла на одном примере.

> Микрокредитная организация решила автоматизировать процесс выдачи кредитов и обратилась за помощью к специалистам по машинному 
> обучению. Вместе с аналитиками компания выяснила, что им необходима прогностическая модель, которая определяла бы по данным клиента 
> вероятность его дефолта.

*Дефолт — невыполнение обязательств договора займа, например неоплата процентов или основного долга в установленный период.*

После того как задача была поставлена, начинается процесс построения модели. 

### Сбор данных

Модель машинного обучения напрямую зависит от количества и качества передаваемых в неё данных. Чтобы получить в итоговой модели более качественные данные, на этапе сбора нам необходимо собрать максимальное их количество.

> Дата-аналитики микрокредитной организации запросили у сотового оператора информацию о перемещениях клиента. Так компания сможет 
> проверить, верно ли клиент указал место проживания и работы или предоставил ложную информацию, что, по мнению аналитиков, может стать 
> полезным признаком.

### Очистка данных

После сбора данных мы должны избавиться от «мусора» (некачественных данных), и именно от этого этапа будет зависеть качество финальной модели машинного обучения. 

> Garbage in — garbage out (GIGO), в пер. с англ. «мусор на входе — мусор на выходе».

На этапе очистки данных мы определяем `пропущенные значения, аномалии и выбросы в данных`. 

Данные с пропусками в большинстве случаев нельзя передать в модель.

> В случае с микрокредитной организацией на ранних этапах работы компании в анкете клиента не заполнялся регион проживания. Аналитики 
> пытаются по адресу заполнить значения, а там, где это невозможно, просто проставляют значение ‘unknown’, как делали это вы 
> в модуле `\PYTHON-14. Очистка данных`.
> 
> Дублирующиеся данные и выбросы, аномальные значения не приносят пользу алгоритму. 
> 
> Слишком высокие значения зарплат чаще всего являются ложной информацией среди заемщиков и могут сбивать алгоритмы с толку, поэтому для
> таких признаков проводят обработку выбросов. Эти действия вы выполняли в модуле `PYTHON-14. Очистка данных`, тем самым подготавливая 
> почву для последующего анализа данных.

### Разведывательный анализ данных 

Данные ценны не сами по себе, а только если приносят пользу. Разведывательный анализ данных похож на работу детектива: имея под рукой данные, вы ищете подсказки и идеи для извлечения из них полезной информации для бизнес-задачи, которую вы пытаетесь решить. Вы исследуете одну переменную, затем две переменные вместе, а затем сразу несколько переменных. Если ваша модель показывает неудовлетворительные результаты, то почти всегда виновником является набор обучающих данных, содержащий ошибки. Они и создают потолок качества для вашей модели.

> Дата-сайентисты обнаружили, что очень важным параметром является балл из кредитной истории заёмщика. Он действительно содержит в себе 
очень много информации о поведении заёмщика в предыдущих кредитах. Такая информация будет скорее всего полезна модели. Специалисты по 
данным приняли решение раскрыть этот важный признак на несколько составляющих, поскольку полагают, что новые, более сильные признаки 
сделают модель лучше.

### Этап моделирования и вывода модели в продакшен 

На этом этапе ведётся построение предсказательных моделей, проверка качества и публикация модели. Эти этапы вы будете подробно изучать далее в курсе в блоках по машинному обучению. 

```
❗️ Важно! На самом деле цикл машинного обучения редко имеет линейную структуру. Он представляют собой повторяющийся цикл улучшения данных и модели. В любой момент мы можем вернуться на этап разведывательного анализа данных или даже на этап формулирования бизнес-проблемы, если качество модели неудовлетворительное.
```

<center> <img src='img/dst-eda-1-2.png' width="50%" height="50%"> </center>

А теперь про работу…

В реальной жизни не всегда полный цикл проводится одним человеком. На данный момент мы можем выделить три направления в машинном обучении.

1. `Дата-аналитики` проводят предварительный анализ данных и их очистку, ищут закономерности в данных и ответы на запросы бизнеса.

Предварительный анализ и очистку данных вы выполняли в модуле `PYTHON-14. Очистка данных и в модулях` и `PYTHON-11-12. Базовые и продвинутые приёмы работы с данными в Pandas`. Определению проблем бизнеса вы научитесь позже в курсе в блоках машинного обучения в бизнесе.

2. `Дата-сайентист` работает с большими объёмами данных, создаёт `рекомендательные алгоритмы` и `прогнозные модели`. Эти этапы вы будете подробно изучать далее в курсе в блоках по машинному обучению.

3. `Дата-инженер` обеспечивает сбор и хранение данных. Дата-инженер также занимается внедрением финальной модели машинного обучения в работающую систему.

> В нашем примере `дата-аналитики` подумали, что хорошо было бы собирать информацию об устройстве пользователя, поскольку это может оказаться важным признаком для формирования списка личных рекомендаций. `Дата-инженеры` ставят задачу и с этого момента в базу данных будет записываться информация об устройстве каждого пользователя. Через некоторое время её можно будет анализировать и использовать в моделях. 

Эти этапы вы будете подробно изучать далее в курсе в блоках `по инжинирингу данных`

Однако зачастую границы очень размыты: аналитик, например, также может заниматься сбором данных, а дата-сайентист — строить визуализацию и искать закономерности в данных.

Это часто зависит от размера компании. В небольших компаниях вы скорее всего будете совмещать сразу несколько направлений. В больших корпорациях за эти направления могут отвечать целые отделы.

#### В этом юните мы подробно рассмотрим, что включает в себя разведывательный анализ данных.

Недостаточно просто посмотреть на столбец или на всю таблицу и определить важные моменты в данных. Для этого были разработаны `методы EDA`, помогающие раскрыть смысл в данных. Эти методы могут выполняться в любом порядке или могут быть опущены по усмотрению специалиста.

> Например, наша модель машинного обучения предсказывает рейтинг ресторанов. Мы хотим улучшить её результат. Из введения в разведывательный анализ данных мы знаем, что качественный EDA сможет улучшить и качество модели. 

Давайте посмотрим, какие методы EDA нам необходимо применить.

### Метод Feature Engineering (проектирование признаков)

Это процесс создания новых признаков для повышения качества прогнозной модели. Для генерации новых признаков мы можем использовать внешние источники данных или конструировать признаки из имеющихся признаков в наборе данных. 

***Цель этого метода — создать новые, более сильные признаки для обучения модели. Изучать проектирование признаков мы будем далее — в модулях, посвящённых проектированию признаков.***


> У нас есть информация, в каком городе находится ресторан. Мы можем дополнительно создать признак из существующего, который бы говорил нам о том, является ли этот город столицей. Скорее всего, такой признак будет очень важен в определении рейтинга ресторана, ведь в столице рейтинг ресторанов в среднем выше. Сделать такой вывод нам помогает статистический анализ, который мы будем изучать далее в модулях про статистику.

Или, например, мы можем в открытых источниках данных найти информацию о населении этого города и создать новый числовой признак «население города, в котором находится ресторан». На первый взгляд он может оказаться действительно важным, но проверить это мы сможем только на этапе отбора признаков.

### Метод Feature Selection (отбор признаков)

Это процесс выбора признаков из общего набора данных признаков, больше всего влияющих на качество модели.

> Например, признак «город ресторана», из которого мы создавали новые признаки, кажется излишним и не таким важным.

Проверить это помогают различные статистические тесты значимости, которые мы подробно будем изучать далее в модулях про разведывательный анализ данных.

### Метод кодирования признаков

Чаще всего в кодировании нуждаются категориальные признаки. Вы с ними познакомились в `PYTHON-11. Базовые приемы работы с данными в Pandas` Юнит 5. Тип данных `Category`. Они представлены обычно в строковом формате, а большинство алгоритмов машинного обучения требуют численного формата.

> У нас есть признак, говорящий о том, к какой кухне мира относят ресторан, например к средиземноморской. 

В таком виде мы не можем передать данные в модель, поэтому закодируем их таким образом:
1. средиземноморская кухня
2. китайская
3. грузинская
   
Есть и другое кодирование: когда мы переходим от численного признака к категории за счёт кодирования интервалов одним значением. Например, средний чек в ресторане мы можем закодировать как:
1. до 1 000 руб.
2. от 1 000 руб. до 3 000 руб.
3. от 3 000 руб. и выше.

Такое кодирование помогает отнести ресторан к определённому ценовому сегменту. Мы можем предположить, что рестораны из высокого ценового сегмента (значение 3) скорее получат высокий рейтинг. Однако, чтобы проверить эту гипотезу, нам необходимы знания математической статистики.

Проверка статистических гипотез — также один из важных методов разведывательного анализа данных.

> После просмотра документального фильма о сомелье вы захотели создать прогностическую модель для оценки вин вслепую, как это делает сомелье.

Определив бизнес-задачу, вы перешли к сбору данных для обучения модели. После нескольких недель парсинга сайта [WineEnthusiast](https://www.wineenthusiast.com/) вам удалось собрать около 130 тысяч строк обзоров вин для анализа и обучения

Вот какие признаки вам удалось собрать:
- country — страна-производитель вина.
- description — подробное описание.
- designation — название виноградника, где выращивают виноград для вина.
- points — баллы, которыми WineEnthusiast оценил вино по шкале от 1 до 100.
- price — стоимость бутылки вина.
- province — провинция или штат.
- region_1 — винодельческий район в провинции или штате (например Напа).
- region_2 — конкретный регион. Иногда в пределах винодельческой зоны указываются более конкретные регионы (например Резерфорд в долине Напа), но это значение может быть пустым.
- taster_name — имя сомелье.
- taster_twitter_handle — твиттер сомелье.
- title — название вина, которое часто содержит год и другую подробную информацию.
- variety — сорт винограда, из которого изготовлено вино (например Пино Нуар).
- winery — винодельня, которая производила вино.

In [1]:
import pandas as pd
data = pd.read_csv('data/wine.zip')

In [2]:
#Поиск и удаление дубликатов

dupl_columns = list(data.columns)
mask_d = data.duplicated(subset=dupl_columns)
data_dupl = data[mask_d]

data_dedupped = data.drop_duplicates(subset=dupl_columns)

print(data_dedupped.shape[0])

119988


In [20]:
# Поиск пропусков
data_with_null = data.copy()

cols_null_percent = data_with_null.isnull().mean()*100
cols_null = cols_null_percent[cols_null_percent > 0].sort_values(ascending=False)

print(cols_null)


region_2                 61.136715
designation              28.825661
taster_twitter_handle    24.015357
taster_name              20.192197
region_1                 16.347493
price                     6.921544
country                   0.048472
province                  0.048472
variety                   0.000769
dtype: float64


In [21]:
#data_with_null.info()
data_with_null = data_with_null.drop('region_2', axis=1)

values = {'designation': 'unknown',
           'taster_twitter_handle': 'unknown',
           'taster_name': 'unknown',
           'region_1': 'unknown',
           'price': data_with_null['price'].median(),
           'country': 'unknown',
           'province': 'unknown',
           'variety': 'unknown'}

data_with_null = data_with_null.fillna(values)
data_with_null.isnull().mean()

country                  0.0
description              0.0
designation              0.0
points                   0.0
price                    0.0
province                 0.0
region_1                 0.0
taster_name              0.0
taster_twitter_handle    0.0
title                    0.0
variety                  0.0
winery                   0.0
dtype: float64