# EDA одной строкой кода

*В реальной жизни большую часть работы над моделью занимает разведывательный анализ данных. С целью решения подобной проблемы появились инструменты автоматической визуализации и представления датасета.*

К таким инструментам можно отнести следующие библиотеки Python, которые могут выполнять EDA всего одной строкой кода:

* *d-tale*; 
* *ydata-profiling*;
* *sweetviz*.

#### YDATA-PROFILING

*[Ydata-profiling](https://ydata-profiling.ydata.ai/docs/master/pages/getting_started/overview.html)* — это библиотека с открытым исходным кодом, которая создаёт подробный отчёт по данным. *Ydata-profiling* можно легко использовать для больших наборов данных: отчёты создаются всего за несколько секунд.

**Примечание**. Ранее библиотека *ydata-profiling* называлась *pandas-profiling* и работала только с *pandas.DataFrame*. Однако, начиная с версии 4.0.0, в библиотеке появилась возможность работать с форматами данных библиотеки *Spark* (библиотека для работы с распределёнными вычислениями на больших объёмах данных). В результате расширения возможностей библиотеки возникла необходимость ребрендинга, который и привёл к смене имени. Синтаксис и формат выходных данных для pandas остались теми же.

#### РАБОТА С YDATA-PROFILING НА ПРИМЕРЕ ВИННЫХ ОБЗОРОВ

Начнем свою работу с загрузки датасета винных обзоров, с которым мы познакомились в Юните 5. Проверка.

In [1]:
import pandas as pd
from ydata_profiling import ProfileReport

df = pd.read_csv('Data/wine.csv')

Сгенерируем отчёт одной строкой.

In [2]:
profile = ProfileReport(df, title="Pandas Profiling Report")
profile
profile.to_file("wine_Pandas_Profiling_report.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Результат отчёта *ydata-profiling* можно использовать для первичной визуализации набора данных, числового и статистического анализа переменных, с которым вы познакомитесь в следующих моделях по статистике. Также отчёт используется для вывода корреляции переменных, выявления пропущенных значений, а также для просмотра первых и последних строк набора данных.

Подробнее с возможностями библиотеки вы можете познакомиться в [документации](https://ydata-profiling.ydata.ai/docs/master/pages/getting_started/overview.html).

#### SWEETVIZ

*Sweetviz* — это библиотека автоматического анализа с открытым исходным кодом. *Sweetviz* также можно использовать для сравнения нескольких наборов данных и выводов по ним. Это может быть удобно, когда необходимо сравнить обучающий и тестовый наборы данных. Об этом вы узнаете далее в модулях про машинное обучение.

С помощью *Sweetviz* можно провести первичный осмотр набора данных, просмотреть свойства признаков, провести числовой и статистический однофакторный анализ и так далее.

#### РАБОТА СО SWEETVIZ НА ПРИМЕРЕ ВИННЫХ ОБЗОРОВ

Начнем свою работу с загрузки датасета винных обзоров.

In [3]:
import pandas as pd
import sweetviz as sv

df = pd.read_csv('Data/wine.csv')

Чтобы проанализировать набор данных, просто используем функцию analyze(), а затем — show_html():

In [4]:
report = sv.analyze(df)
report.show_html()

  all_source_names = [cur_name for cur_name, cur_series in source_df.iteritems()]
  filtered_series_names_in_source = [cur_name for cur_name, cur_series in source_df.iteritems()


                                             |          | [  0%]   00:00 -> (? left)

  for item in category_counts.iteritems():
  for item in to_process.source_counts["value_counts_without_nan"].iteritems():
  for item in to_process.source_counts["value_counts_without_nan"].iteritems():
  stats["mad"] = series.mad()
  stats["mad"] = series.mad()
  for item in to_process.source_counts["value_counts_without_nan"].iteritems():
  for item in to_process.source_counts["value_counts_without_nan"].iteritems():
  for item in category_counts.iteritems():
  for item in category_counts.iteritems():
  for item in category_counts.iteritems():
  for item in to_process.source_counts["value_counts_without_nan"].iteritems():
  for item in to_process.source_counts["value_counts_without_nan"].iteritems():
  for item in to_process.source_counts["value_counts_without_nan"].iteritems():


Report SWEETVIZ_REPORT.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


#### D-TALE

*[D-Tale](https://pypi.org/project/dtale/)* — это библиотека с открытым исходным кодом. *[D-Tale](https://github.com/man-group/dtale)* делает подробный разведывательный анализ набора данных. Интересная особенность: библиотека предоставляет функцию экспорта кода для каждого графика или элемента анализа в отчёте.

#### РАБОТА С D-TALE НА ПРИМЕРЕ ВИННЫХ ОБЗОРОВ

Начнем свою работу с загрузки датасета винных обзоров.

In [6]:
import pandas as pd
import dtale

df = pd.read_csv('Data/wine.csv')

Сгенерируем отчёт одной строкой.

In [7]:
d = dtale.show(df)
d








![dtale_report](Img/dtale_report.jpg)

#### СРАВНЕНИЕ БИБЛИОТЕК

![Sravnenie](Img/Sravnenie.png)

#### Missingno

Если вы заинтересованы в использовании облегченной библиотеки для изучения полноты ваших данных, то [Missingno](https://github.com/ResidentMario/missingno) — это то, что вам обязательно следует рассмотреть для своего набора инструментов EDA.

Это библиотека Python, которая предоставляет серию визуализаций для понимания наличия и распределения отсутствующих данных в кадре данных pandas. Библиотека предоставляет вам небольшое количество графиков (гистограмма, матричный график, тепловая карта или дендрограмма), чтобы визуализировать, какие столбцы в вашем фрейме данных содержат пропущенные значения и как степень пропущенности связана между переменными.

мы можем импортировать ее вместе с pandas и загрузить наши данные в фреймворк данных.

In [8]:
import pandas as pd
import missingno as msno
df = pd.read_csv('Data/wine.csv')

Затем мы можем вызвать желаемый сюжет из доступных:

In [12]:
msno.bar(df)
msno.matrix(df)
msno.dendrogram(df)
msno.heatmap(df)

<AxesSubplot: >

четыре графика дают нам представление о:

* Насколько заполнен каждый столбец в кадре данных — msno.bar()
* Где возникают отсутствующие данные — msno.matrix()
* Насколько коррелированы пропущенные значения — msno.heatmap() и msno.dendrogram()

Хорошая вещь в этой библиотеке заключается в том, что графики четкие, простые для понимания и могут быть быстро включены в отчет в том виде, в котором они есть.

#### Sketch

[Sketch](https://github.com/approximatelabs/sketch) — это очень новая (по состоянию на февраль 2023 года) библиотека, которая использует возможности ИИ, чтобы помочь вам понять ваши dataframes pandas, используя вопросы на естественном языке непосредственно в Jupyter. Вы также можете использовать его для создания примера кода, например, как построить график x и y в dataframes, а затем использовать этот код для создания необходимого графика.

Библиотека в основном автономна, где она использует алгоритмы машинного обучения, чтобы понять контекст вашего вопроса по отношению к вашему набору данных. Есть функция, которая опирается на API OpenAI, но это не умаляет возможности использования библиотеки.

У Sketch есть большой потенциал, чтобы быть мощным, особенно если вы хотите предоставить интерфейс для клиентов с очень ограниченными знаниями в области кодирования на Python.

In [13]:
import sketch
import pandas as pd

df = pd.read_csv('Data/wine.csv')

In [14]:
df.sketch.ask('How complete is the data?')