# EDA-1. Введение в разведывательный анализ данных. Алгоритмы и методы EDA 

# 1. Введение

→ В предыдущих модулях мы изучили темы визуализации, работы с признаками, повторили принципы очистки данных и работу с функциями. Возникает вопрос: в каких случаях эти навыки применяет специалист по машинному обучению в своей работе? Когда мы будем обучать модели?

EDA (Exploratory Data Analysis) — разведывательный анализ данных. Этот этап дата-сайентисты проводят перед построением самой модели. Цель этого этапа — понять, что нам могут дать данные, и как признаки могут быть взаимосвязаны между собой. Понимание изначальных признаков позволит создать новые, более сильные признаки и повысить качество модели. 

Качественная модель способна выдавать правильные результаты на любых новых данных, которые никогда не участвовали в обучении.   

Изучив разведывательный анализ данных, мы будем готовы создать первую модель! EDA помогает искать смысл и закономерности в данных, но для этого нам необходимы все навыки, освоенные в модулях раньше! 

EDA — это совокупность разнообразных навыков и умений, инструментов для работы с данными.

### В ЭТОМ МОДУЛЕ ВЫ УЗНАЕТЕ:

* Какую роль играет анализ данных в машинном обучении;

* Какие библиотеки Python помогут вам в освоении разведывательного анализа данных;

* Поработаете с данными и узнаете, какие типы признаков существуют;

* Проверите знания из прошлых модулей и примените их на практике;

* Узнаете, как можно сделать разведывательный анализ данных одной строчкой кода.

### ЦЕЛИ МОДУЛЯ:

* Узнать, какую роль EDA играет в машинном обучении.

* Узнать, какие навыки необходимы в освоении EDA.

* Узнать, какие типы признаков существуют, и уметь их различать.

* Поработать с библиотеками и инструментами, которые облегчат EDA.

# 2. Жизненный цикл ML-модели и роль EDA в машинном обучении

→ В прошлом юните мы узнали, что такое EDA, и сформировали цели на модуль. В этом юните мы рассмотрим полный жизненный цикл модели машинного обучения.

Тот, кто занимается машинным обучением, обычно проходит следующие этапы: формулировка бизнес-проблемы, сбор данных и их очистка, разведывательный анализ данных, разработка и построение модели, внедрение модели в продакшен.

Всё это называется жизненным циклом модели машинного обучения.

![](https://lms.skillfactory.ru/assets/courseware/v1/1470f05621fde7ab0edeee9fcae6ee19/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/dst-eda-1-1.png)

Мы можем выделить несколько этапов жизненного цикла модели машинного обучения.

### 0. ПОСТАНОВКА ПРОБЛЕМЫ

Жизненный цикл нашей модели начинается с определения проблемы для бизнеса. Мы будем рассматривать все этапы цикла на одном примере.

Микрокредитная организация решила автоматизировать процесс выдачи кредитов и обратилась за помощью к специалистам по машинному обучению. Вместе с аналитиками компания выяснила, что им необходима прогностическая модель, которая определяла бы по данным клиента его дефолтность.

**Дефолт** — невыполнение обязательств договора займа, например неоплата процентов или основного долга в установленный период.

После того как задача была поставлена, начинается процесс построения модели. 

### 1. СБОР ДАННЫХ

Модель машинного обучения напрямую зависит от количества и качества передаваемых в неё данных. Чтобы получить в итоговой модели более качественные данные, на этапе сбора нам необходимо собрать максимальное их количество.

Дата-аналитики микрокредитной организации запросили у сотового оператора информацию о перемещениях клиента. Так компания сможет проверить, верно ли клиент указал место проживания и работы или предоставил ложную информацию, что, по мнению аналитиков, может стать полезным признаком.

### 2. ОЧИСТКА ДАННЫХ

После сбора данных мы должны избавиться от «мусора» (некачественных данных), и именно от этого этапа будет зависеть качество финальной модели машинного обучения. 

**Garbage in** — garbage out (GIGO), в пер. с англ. «мусор на входе — мусор на выходе».

На этапе очистки данных мы определяем пропущенные значения, аномалии и выбросы в данных. 

Данные с пропусками в большинстве случаев нельзя передать в модель.

В случае с микрокредитной организацией на ранних этапах работы компании в анкете клиента не заполнялся регион проживания. Аналитики пытаются по адресу заполнить значения, а там, где это невозможно, просто проставляют значение ‘unknown’, как делали это вы в модуле PYTHON-14. Очистка данных.

Дублирующиеся данные и выбросы, аномальные значения не приносят пользу алгоритму. 

Слишком высокие значения зарплат чаще всего являются ложной информацией среди заемщиков и могут сбивать алгоритмы с толку, поэтому для таких признаков проводят обработку выбросов. Эти действия вы выполняли в модуле PYTHON-14. Очистка данных, тем самым подготавливая почву для последующего анализа данных.

### 3. РАЗВЕДЫВАТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ 

Данные ценны не сами по себе, а только если приносят пользу. Разведывательный анализ данных похож на работу детектива: имея под рукой данные, вы ищете подсказки и идеи для извлечения из них полезной информации для бизнес-задачи, которую вы пытаетесь решить. Вы исследуете одну переменную, затем две переменные вместе, а затем сразу несколько переменных. Если ваша модель показывает неудовлетворительные результаты, то почти всегда виновником является набор обучающих данных, содержащий ошибки. Они и создают потолок качества для вашей модели.

Дата-сайентисты обнаружили, что очень важным параметром является балл из кредитной истории заёмщика. Он действительно содержит в себе очень много информации о поведении заёмщика в предыдущих кредитах. Такая информация будет скорее всего полезна модели. Специалисты по данным приняли решение раскрыть этот важный признак на несколько составляющих, поскольку полагают, что новые, более сильные признаки сделают модель лучше.

### 4. ЭТАП МОДЕЛИРОВАНИЯ И ВЫВОДА МОДЕЛИ В ПРОДАКШЕН 

На этом этапе ведётся построение предсказательных моделей, проверка качества и публикация модели. Эти этапы вы будете подробно изучать далее в курсе в блоках по машинному обучению. 

❗️ Важно! На самом деле цикл машинного обучения редко имеет линейную структуру. Он представляют собой повторяющийся цикл улучшения данных и модели. В любой момент мы можем вернуться на этап разведывательного анализа данных или даже на этап формулирования бизнес-проблемы, если качество модели неудовлетворительное.

![](https://lms.skillfactory.ru/assets/courseware/v1/824479af6a8c599b5138ae967c573e24/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/dst-eda-1-2.png)

А теперь про работу…

В реальной жизни не всегда полный цикл проводится одним человеком. На данный момент мы можем выделить три направления в машинном обучении.

1. **Дата-аналитики** проводят предварительный анализ данных и их очистку, ищут закономерности в данных и ответы на запросы бизнеса.

Предварительный анализ и очистку данных вы выполняли в модуле PYTHON-14. Очистка данных и в модулях и PYTHON-11-12. Базовые и продвинутые приёмы работы с данными в Pandas. Определению проблем бизнеса вы научитесь позже в курсе в блоках машинного обучения в бизнесе.

2. **Дата-сайентист** работает с большими объёмами данных, создаёт рекомендательные алгоритмы и прогнозные модели. Эти этапы вы будете подробно изучать далее в курсе в блоках по машинному обучению.

3. **Дата-инженер** обеспечивает сбор и хранение данных. Дата-инженер также занимается внедрением финальной модели машинного обучения в работающую систему.

В нашем примере дата-аналитики подумали, что хорошо было бы собирать информацию об устройстве пользователя, поскольку это может оказаться важным признаком для формирования списка личных рекомендаций. Дата-инженеры ставят задачу и с этого момента в базу данных будет записываться информация об устройстве каждого пользователя. Через некоторое время её можно будет анализировать и использовать в моделях. 

→ Эти этапы вы будете подробно изучать далее в курсе в блоках по инжинирингу данных.

Однако зачастую границы очень размыты: аналитик, например, также может заниматься сбором данных, а дата-сайентист — строить визуализацию и искать закономерности в данных.

Это часто зависит от размера компании. В небольших компаниях вы скорее всего будете совмещать сразу несколько направлений. В больших корпорациях за эти направления могут отвечать целые отделы.

# 3. Алгоритм и методы EDA

→ В прошлом юните мы узнали, какую роль занимает разведывательный анализ данных в жизненном цикле модели машинного обучения. В этом юните мы подробно рассмотрим, что включает в себя разведывательный анализ данных.

Недостаточно просто посмотреть на столбец или на всю таблицу и определить важные моменты в данных. Для этого были разработаны методы EDA, помогающие раскрыть смысл в данных. Эти методы могут выполняться в любом порядке или могут быть опущены по усмотрению специалиста.

Например, наша модель машинного обучения предсказывает рейтинг ресторанов. Мы хотим улучшить её результат. Из введения в разведывательный анализ данных мы знаем, что качественный EDA сможет улучшить и качество модели. 

Давайте посмотрим, какие методы EDA нам необходимо применить.

## МЕТОД FEATURE ENGINEERING (ПРОЕКТИРОВАНИЕ ПРИЗНАКОВ)

Это процесс создания новых признаков для повышения качества прогнозной модели. Для генерации новых признаков мы можем использовать внешние источники данных или конструировать признаки из имеющихся признаков в наборе данных. 

**Цель этого метода** — создать новые, более сильные признаки для обучения модели. Изучать проектирование признаков мы будем далее — в модулях, посвящённых проектированию признаков.

У нас есть информация, в каком городе находится ресторан. Мы можем дополнительно создать признак из существующего, который бы говорил нам о том, является ли этот город столицей. Скорее всего, такой признак будет очень важен в определении рейтинга ресторана, ведь в столице рейтинг ресторанов в среднем выше. Сделать такой вывод нам помогает статистический анализ, который мы будем изучать далее в модулях про статистику. 

Или, например, мы можем в открытых источниках данных найти информацию о населении этого города и создать новый числовой признак «население города, в котором находится ресторан». На первый взгляд он может оказаться действительно важным, но проверить это мы сможем только на этапе отбора признаков.

## МЕТОД FEATURE SELECTION (ОТБОР ПРИЗНАКОВ)

Это процесс выбора признаков из общего набора данных признаков, больше всего влияющих на качество модели. 

Например, признак «город ресторана», из которого мы создавали новые признаки, кажется излишним и не таким важным.

Проверить это помогают различные **статистические тесты значимости**, которые мы подробно будем изучать далее в модулях про разведывательный анализ данных.

## МЕТОД КОДИРОВАНИЯ ПРИЗНАКОВ

Чаще всего в кодировании нуждаются категориальные признаки. Вы с ними познакомились в PYTHON-11. Базовые приемы работы с данными в Pandas Юнит 5. Тип данных Category. Они представлены обычно в строковом формате, а большинство алгоритмов машинного обучения требуют численного формата. 

У нас есть признак, говорящий о том, к какой кухне мира относят ресторан, например к средиземноморской. 

В таком виде мы не можем передать данные в модель, поэтому закодируем их таким образом:

1 — средиземноморская кухня

2  — китайская

3 — грузинская

Есть и другое кодирование: когда мы переходим от численного признака к категории за счёт кодирования интервалов одним значением. Например, средний чек в ресторане мы можем закодировать как:

1 — до 1 000 руб.

2 — от 1 000 руб. до 3 000 руб.

3 — от 3 000 руб. и выше.

Такое кодирование помогает отнести ресторан к определённому ценовому сегменту. Мы можем предположить, что рестораны из высокого ценового сегмента (значение 3) скорее получат высокий рейтинг. Однако, чтобы проверить эту гипотезу, нам необходимы знания математической статистики.

Проверка статистических гипотез — также один из важных методов разведывательного анализа данных.

→ В этом юните мы выяснили, какие методы используются при EDA. Для закрепления знаний предлагаем ответить вам на несколько вопросов.

# 4. Знакомство с данными: винные обзоры

Дальнейший разбор инструментов и практические задания мы будем проводить на наборе данных из соревнования на kaggle.

После просмотра документального фильма о сомелье вы захотели создать прогностическую модель для оценки вин вслепую, как это делает сомелье.

Определив бизнес-задачу, вы перешли к сбору данных для обучения модели. После нескольких недель парсинга сайта WineEnthusiast вам удалось собрать около 130 тысяч строк обзоров вин для анализа и обучения.

Вот какие признаки вам удалось собрать:

* country — страна-производитель вина.

* description — подробное описание.

* designation — название виноградника, где выращивают виноград для вина.

* points — баллы, которыми WineEnthusiast оценил вино по шкале от 1 до 100.

* price — стоимость бутылки вина.

* province — провинция или штат.

* region_1 — винодельческий район в провинции или штате (например Напа).

* region_2 — конкретный регион. Иногда в пределах винодельческой зоны указываются более конкретные регионы (например Резерфорд в долине Напа), но это значение может быть пустым.

* taster_name — имя сомелье.

* taster_twitter_handle — твиттер сомелье.

* title — название вина, которое часто содержит год и другую подробную информацию.

* variety — сорт винограда, из которого изготовлено вино (например Пино Нуар).

* winery — винодельня, которая производила вино.

Прочитаем наш файл с винными обзорами:



In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('data/wine.csv')
data.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


Сколько всего дегустаторов приняло участие в винных обзорах?

Какова максимальная цена за бутылку в этом наборе данных? Введите целое число.

In [3]:
data.describe(include=['object'])

Unnamed: 0,country,description,designation,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
count,129908,129971,92506,129908,108724,50511,103727,98758,129971,129970,129971
unique,43,119955,37979,425,1229,17,19,15,118840,707,16757
top,US,"Seductively tart in lemon pith, cranberry and ...",Reserve,California,Napa Valley,Central Coast,Roger Voss,@vossroger,Gloria Ferrer NV Sonoma Brut Sparkling (Sonoma...,Pinot Noir,Wines & Winemakers
freq,54504,3,2009,36247,4480,11065,25514,25514,11,13272,222


Какова максимальная цена за бутылку в этом наборе данных? Введите целое число.

# 5. Проверка

Проанализируйте датасет на наличие дублирующихся винных обзоров. Если дублирующиеся записи есть, удалите их.

В поле ниже введите, сколько дублирующихся записей вам удалось обнаружить.

In [4]:
data.shape[0] - data.drop_duplicates().shape[0]

9983

In [5]:
data = data.drop_duplicates()

In [13]:
data.shape


(119988, 13)

Проверьте датасет на наличие пропусков в данных.

В каких из представленных признаках были обнаружены пропуски?

In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 119988 entries, 0 to 129970
Data columns (total 13 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   country                119929 non-null  object 
 1   description            119988 non-null  object 
 2   designation            85443 non-null   object 
 3   points                 119988 non-null  int64  
 4   price                  111593 non-null  float64
 5   province               119929 non-null  object 
 6   region_1               100428 non-null  object 
 7   region_2               46769 non-null   object 
 8   taster_name            95071 non-null   object 
 9   taster_twitter_handle  90542 non-null   object 
 10  title                  119988 non-null  object 
 11  variety                119987 non-null  object 
 12  winery                 119988 non-null  object 
dtypes: float64(1), int64(1), object(11)
memory usage: 12.8+ MB


Обработайте пропущенные значения в наборе данных любым известным вам способом, который вы изучили в модуле PYTHON-14. Очистка данных.

Воспользуйтесь правилами:

* Если какой-то из признаков имеет более 30-40 % пропусков, лучше избавьтесь от него: его заполнение может привести к сильному искажению общего распределения, а удаление записей — к большой утрате данных.
* Заполняйте данные с умом! Если перед вами количественный признак, то использование нецелого числа в качестве константы является как минимум нелогичным.
* Вы можете оставить пропуски как есть, просто заменив их на какой-то специальный символ. Например, для числовых неотрицательных признаков можно использовать число -1, а для категориальных — строку 'unknown'.

In [15]:
cols_null_percent = data.isnull().mean() * 100
cols_with_null = cols_null_percent[cols_null_percent>0].sort_values(ascending=False)
display(cols_with_null)

region_2                 61.021936
designation              28.790379
taster_twitter_handle    24.540787
taster_name              20.766243
region_1                 16.301630
price                     6.996533
country                   0.049172
province                  0.049172
variety                   0.000833
dtype: float64

In [11]:
#создаем копию исходной таблицы
drop_data = data.copy()
#задаем минимальный порог: вычисляем 70% от числа строк
thresh = drop_data.shape[0]*0.7
#удаляем столбцы, в которых более 30% (100-70) пропусков
drop_data = drop_data.dropna(how='any', thresh=thresh, axis=1)
#отображаем результирующую долю пропусков
drop_data.isnull().mean()

country                  0.000492
description              0.000000
designation              0.287904
points                   0.000000
price                    0.069965
province                 0.000492
region_1                 0.163016
taster_name              0.207662
taster_twitter_handle    0.245408
title                    0.000000
variety                  0.000008
winery                   0.000000
dtype: float64

In [12]:
print(drop_data.shape)


(119988, 12)


In [16]:
#создаем копию исходной таблицы
fill_data = drop_data.copy()
#создаем словарь имя столбца: число(признак) на который надо заменить пропуски
values = {
    'designation': 'unknown',
    'taster_twitter_handle': 'unknown',
    'taster_name': 'unknown',
    'region_1': 'unknown',
    'price': 0,
    'country': 'unknown',
    'province': 'unknown',
    'variety': 'unknown',
}
#заполняем пропуски в соответствии с заявленным словарем
fill_data = fill_data.fillna(values)
#выводим результирующую долю пропусков
fill_data.isnull().mean()

country                  0.0
description              0.0
designation              0.0
points                   0.0
price                    0.0
province                 0.0
region_1                 0.0
taster_name              0.0
taster_twitter_handle    0.0
title                    0.0
variety                  0.0
winery                   0.0
dtype: float64

# 6. БОНУС. EDA одной строкой кода

→ В реальной жизни большую часть работы над моделью занимает разведывательный анализ данных. С целью решения подобной проблемы появились инструменты автоматической визуализации и представления датасета.

К таким инструментам можно отнести следующие библиотеки Python, которые могут выполнять EDA всего одной строкой кода:

* d-tale; 
* pandas-profiling;
* sweetviz.

## PANDAS-PROFILING

→ Ссылка на библиотеку

Pandas-profiling — это библиотека с открытым исходным кодом, которая создаёт подробный отчёт по данным. Pandas-profiling можно легко использовать для больших наборов данных: отчёты создаются всего за несколько секунд.

Установка:

In [6]:
pip install pandas-profiling --user


Note: you may need to restart the kernel to use updated packages.


In [None]:
pip install --upgrade pip

### РАБОТА С PANDAS-PROFILING НА ПРИМЕРЕ ВИННЫХ ОБЗОРОВ

Начните свою работу с загрузки датасета винных обзоров, с которым мы познакомились в Юните 5. Проверка.

In [7]:
import pandas as pd
from pandas_profiling import ProfileReport

df = pd.read_csv('wine_cleared.csv')

In [5]:
pip install --upgrade pip

Collecting pip
  Downloading pip-22.1.1-py3-none-any.whl (2.1 MB)
Installing collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 21.2.4
    Uninstalling pip-21.2.4:
      Successfully uninstalled pip-21.2.4
Successfully installed pip-22.1.1
Note: you may need to restart the kernel to use updated packages.
