# Разведочный анализ данных	

План занятия:

* Конвейер процесса машинного обучения
* Получение данных от источника и их подготовка
* Построение графиков в Python при помощи Matplotlib
* Коротко о NumPy
* Исследование основных характеристик датасета
* Визуальное исследование датасета

## Конвейер процесса машинного обучения

Конвейер ML сервисов [Azure](https://docs.microsoft.com/ru-ru/azure/machine-learning/service/concept-ml-pipelines):

![alt text](https://docs.microsoft.com/ru-ru/azure/machine-learning/service/media/concept-ml-pipelines/pipeline-flow.png)

Конвейер ML AI Platform for [Google Cloud](https://cloud.google.com/ml-engine/docs/ml-solutions-overview):

![alt text](https://cloud.google.com/ml-engine/docs/images/ml-workflow.svg)


### [Получение данных от источника и их подготовка](https://cloud.google.com/ml-engine/docs/ml-solutions-overview)

У вас должен быть доступ к большому набору обучающих данных, включающему атрибут (называемый в ML функцией), который вы хотите выводить (прогнозировать) на основе других функций.

Например, предположим, что вы хотите, чтобы ваша модель предсказывала цену продажи дома. Начните с большого набора данных, описывающих характеристики домов в данном районе, включая цену продажи каждого дома.

### Анализ данных

Получив ваши данные, вы должны проанализировать, понять данные и подготовить их к вводу в обучающий процесс. Например, вам может потребоваться выполнить следующие шаги:

* Объединение данных из нескольких источников и сбор их в один набор данных.
* Визуализирование данных для поиска тенденций.
* Использование ориентированные на данные языки и инструменты для поиска шаблонов и зависимостей в данных.
* Определение особенностей в ваших данных. Функции включают подмножество атрибутов данных, которые вы используете в своей модели.
* Очистка данных, чтобы найти любые аномальные значения, вызванные ошибками при вводе данных или измерениях.

### Предварительная обработка данных


На этапе предварительной обработки вы преобразуете действительные чистые данные в формат, который наилучшим образом соответствует потребностям вашей модели. Вот несколько примеров предварительной обработки данных:

* Нормализация числовых данных в общем масштабе.
* Применение правил форматирования к данным. Например, удаление тегов HTML из текстового объекта.
* Сокращение избыточности данных за счет упрощения. Например, преобразование текстового объекта в представление мешка-слов [(Bag-of-words model)](https://en.wikipedia.org/wiki/Bag-of-words_model).
* Представление текста численно. Например, присвоение значений каждому возможному значению в категориальном признаке.
* Присвоение значений ключей экземплярам данных.

## [Построение графиков в Python при помощи Matplotlib](https://python-scripts.com/matplotlib)



`matplotlib` – массивная библиотека, и создание графика, который будет выглядеть «просто, нормально» обычно проходит через путь проб и ошибок. Использование однострочных линий для создания базовых графиков в `matplotlib` – весьма просто, но умело пользоваться остальными **98%** библиотеки может быть сложно.

In [None]:
!pip install -U matplotlib

In [None]:
import matplotlib as mpl
mpl.__version__

Если вы работаете в Jupyter Notebook для того, чтобы получать графики рядом с ячейками с кодом необходимо выполнить специальную magic команду после того, как импортируете `matplotlib`:

### [Основные элементы графика](https://devpractice.ru/matplotlib-lesson-1-quick-start-guide/)

In [None]:
import matplotlib.pyplot as plt

# magic команда
%matplotlib inline 

Рассмотрим основные термины и понятия, касающиеся изображения графика, с которыми вам необходимо будет познакомиться, для того, чтобы в дальнейшем у вас не было трудностей при прочтении материалов из этого цикла статей и документации по библиотеке `matplotlib`.

[Основные компоненты matplotlib](https://pyprog.pro/mpl/mpl_main_components.html):

![alt text](https://pyprog.pro/mpl/image/part_0/mpl_anatomy.jpg)


`Figure` - это контейнер самого верхнего уровня, та область на которой все нарисовано. Таких областей может быть несколько, каждая из которых может содержать несколько контейнеров Axes.

`Axes` - это та область на которой чаще всего и отражаются графики (данные в виде графиков), а так же все вспомогательные атрибуты (линии сетки, метки, указатели и т.д.). Часто, установка этой области сопровождается с вызовом subplot, который и помещает Axes на регулярную сетку. Поэтому, так же часто Axes и Subplot можно считать синонимами. Но с тем что это за сетка и как это размещение работает, давайте разберемся чуть ниже.

Каждая область Axes содержит `XAxis` и `YAxis`. Они содержат, деления, метки и прочие вспомогательные атрибуты.

![alt text](https://devpractice.ru/wp-content/uploads/2019/08/matplotlib.lesson1.pic8_.png)

### [Построение графика](https://devpractice.ru/matplotlib-lesson-1-quick-start-guide/)

[**NumPy**](https://numpy.org/doc/stable/) - это фундаментальный пакет для научных вычислений на Python. Это библиотека Python, которая предоставляет объект многомерного массива, различные производные объекты (такие как массивы с масками и матрицы) и набор подпрограмм для быстрых операций с массивами, включая математические, логические, манипуляции с формами, сортировку, выбор, ввод-вывод, дискретные преобразования Фурье, базовую линейную алгебру, базовые статистические операции, случайное моделирование и многое другое.



Для начал построим простую линейную зависимость, дадим нашему графику название, подпишем оси и отобразим сетку. Код программы:

In [None]:
import numpy as np

# Независимая (x) и зависимая (y) переменные

#  linspace(start, stop, num=50)
#    * start : число
#        число, которое является началом последовательности
#    * stop : число
#        число, которое является концом последовательности
#    * num=50 : число
#        определяет количество элементов последовательности

x = np.linspace(0, 10, 50)
y = x
print(x[:10])

In [None]:
type(x)

Функция [`linspace()`](https://pyprog.pro/array_creation/linspace.html) возвращает одномерный массив из указанного количества элементов, значения которых равномерно распределенны внутри заданного интервала.

#### Об объектно-ориентированном API и Pyplot

Matplotlib имеет два [интерфейса](https://matplotlib.org/stable/tutorials/introductory/lifecycle.html):

* Первый - это объектно-ориентированный (OO) интерфейс. В этом случае мы используем экземпляр [`axes.Axes`](https://matplotlib.org/stable/api/axes_api.html#matplotlib.axes.Axes) (оси содержат большинство элементов фигуры а также задают систему координат) для визуализаций на экземпляре [`figure.Figure`](https://matplotlib.org/stable/api/figure_api.html#matplotlib.figure.Figure) (контейнер верхнего уровня для всех элементов графика).
* Второй основан на [MATLAB](http://pitf.ftf.nstu.ru/files/zaikin/2018/Занятие3.pdf) и использует интерфейс, основанный на состоянии. Это инкапсулировано в модуле [`pyplot`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.html#module-matplotlib.pyplot).

Большинство терминов просты, но главное, что нужно помнить, это то, что:

* `Figure` является окончательным изображением, которое может содержать 1 или более осей.
* `Axes` представляют отдельный график (не путайте это со словом "ось", которое относится к оси `x/y` графика).

Мы вызываем методы, которые строят график непосредственно по осям, что дает нам гораздо больше гибкости и возможностей в настройке нашего графика.

Построем график, используя ОО-подход:

In [None]:
fig, ax = plt.subplots()  # создаем фигуру, содержащую одну ось.
ax.plot(x, y, label='линейная')  # строим некоторые данные на осях.
ax.set_xlabel('x-метка')  # x-метка к осям.
ax.set_ylabel('y-метка')  # y-метка к осям.
ax.set_title("Линейная зависимость y = x")  # добавляем заголовок
ax.legend()  # добавляем легенду
ax.grid()  # включение отображение сетки

`pyplot`-подход:

In [None]:
#  plot(x, y)
#    * x : массив или скаляр
#        горизонтальные координаты точек данных. 
#        Не путать массив numpy и лист Python!
#    * y : массив или скаляр
#        вертикальные координаты точек данных

plt.plot(x, y, label='линейная')  # построение графика
plt.xlabel("x-метка") # ось абсцисс
plt.ylabel("y-метка") # ось ординат
plt.title("Линейная зависимость y = x") # заголовок
plt.legend()  # добавляем легенду
plt.grid() # включение отображение сетки

Изменим тип линии и ее цвет, для этого в функцию plot(), в качестве третьего параметра передадим строку, сформированную определенным образом, в нашем случае это `“r–”`, где `“r”` означает красный цвет, а `“–”` – тип линии – пунктирная линия. Более подробно о том, как задавать цвет и какие типы линии можно использовать будет рассказано с одной из следующих глав.

`pyplot`-подход:

In [None]:
plt.title("Линейная зависимость y = x") # заголовок
plt.xlabel("x") # ось абсцисс
plt.ylabel("y") # ось ординат
plt.grid()      # включение отображение сетки
plt.plot(x, y, "r--")  # построение графика

ОО-подход:

In [None]:
fig, ax = plt.subplots()  # создаем фигуру, содержащую одну ось.

ax.plot(x, y, linestyle="--", color='red')  # построение графика
ax.set_title("Линейная зависимость y = x") # заголовок
ax.set_xlabel("x") # ось абсцисс
ax.set_ylabel("y") # ось ординат
plt.grid()      # включение отображение сетки

### Несколько графиков на одном поле



Построим несколько графиков на одном поле, для этого добавим квадратичную зависимость:

In [None]:
# Линейная зависимость
x = np.linspace(0, 10, 50)
y1 = x
# Квадратичная зависимость
y2 = [i**2 for i in x]

# Построение графика
plt.title("Зависимости: y1 = x, y2 = x^2") # заголовок
plt.xlabel("x")         # ось абсцисс
plt.ylabel("y1, y2")    # ось ординат
plt.grid()              # включение отображение сетки
plt.plot(x, y1, x, y2)  # построение графика

In [None]:
fig, ax = plt.subplots(figsize=(5, 2.7), layout='constrained')
ax.plot(x, x, label='linear')  # закидываем данные на график
ax.plot(x, x**2, label='quadratic')  # больше данных на график!!!
ax.set_xlabel('x label')
ax.set_ylabel('y label')
ax.set_title("Фантастический график! 10 из 10 по мнению Антона Логвинова!")
ax.grid()
ax.legend();  # точка с запятой это не баг, а фитча, чтоб не отображать 
              # информацию последней функции

Зачем точка с запятой в питоне появилась? Узнать ответ [тут](https://stackoverflow.com/questions/51627233/why-is-there-a-semicolon-after-matplotlibs-plot-function).

### Несколько разделенных полей с графиками


Третья, довольно часто встречающаяся задача – это отобразить два или более различных поля, на которых будет отображено по одному или более графику.

Самый простой способ представить графики в отдельных полях – это использовать функцию `supplot()` для задания их мест размещения. До этого момента мы не работали с Фигурой (`Figure`) напрямую, значения ее параметров, задаваемые по умолчанию, нас устраивали. Для решения текущей задачи придется один из параметров – размер подложки, задать вручную. За это отвечает аргумент `figsize` функции `figure()`, которому присваивается кортеж из двух `float` элементов, определяющих высоту и ширину подложки.

In [None]:
fig, axes = plt.subplots(nrows = 2, ncols =2 )

axes[0,0].set(title='axes[0,0]')
axes[0,1].set(title='axes[0,1]')
axes[1,0].set(title='axes[1,0]')
axes[1,1].set(title='axes[1,1]')

for ax in axes.flat:
    ax.set(xticks=[], yticks=[])
    
plt.show()

In [None]:
# Линейная зависимость
x = np.linspace(0, 10, 50)
y1 = x

# Квадратичная зависимость
y2 = [i**2 for i in x]

# Построение графиков
#  figure(x,y)
#    функция для задания глобальных параметров отображения графиков. В нее, в 
#    качестве аргумента, мы передаем кортеж, определяющий размер общего поля. 
#  plt.figure(figsize=(9, 9)) # контейнер верхнего уровня для всех элементов поля
#
#  subplot(nrows, ncols, index)
#    * nrows: int
#        Количество строк.
#    * ncols: int
#        Количество столбцов.
#    * index: int
#        Местоположение элемента.

plt.subplot(2, 1, 1)

plt.plot(x, y1)               # построение графика
plt.title("Зависимости: y1 = x, y2 = x^2") # заголовок
plt.ylabel("y1", fontsize=14) # ось ординат
plt.grid()                    # включение отображение сетки

plt.subplot(2, 1, 2)
plt.plot(x, y2)               # построение графика
plt.xlabel("x", fontsize=14)  # ось абсцисс
plt.ylabel("y2", fontsize=14) # ось ординат
plt.grid()                    # включение отображение сетки

In [None]:
fig, axs = plt.subplots(2, 1, figsize=(5, 5), layout='constrained')

axs[0].plot(x, y1)
axs[0].grid()
axs[0].set_ylabel("y1", fontsize=14)
axs[0].set_title("Зависимости: y1 = x, y2 = x^2")

axs[1].plot(x, y2)
axs[1].grid()
axs[1].set_ylabel("y2", fontsize=14)
axs[1].set_xlabel("x", fontsize=14);

### Построение диаграммы для категориальных данных


До этого мы строили графики по численным данным, т.е. зависимая и независимая переменные имели числовой тип. На практике довольно часто приходится работать с данными нечисловой природы – имена людей, название фруктов, и т.п.

Смотри подробнее про сетку графика [здесь](https://pyprog.pro/mpl/mpl_adding_a_grid.html).

In [None]:
from collections import Counter, OrderedDict

poem = """I was run over by the truth one day.
Ever since the accident I've walked this way
So stick my legs in plaster
Tell me lies about Vietnam."""

# Считает частоту каждого символа
frequency_analysis = OrderedDict(Counter(poem))

x, y = frequency_analysis.keys(), frequency_analysis.values()

fig = plt.figure(figsize=(15, 3)) # контейнер верхнего уровня для всех элементов поля

ax = fig.add_subplot(1, 1, 1)
ax.set_title("Частотный анализ стихотворения!")
ax.set_xlabel("Символ", fontsize=14)
ax.set_ylabel("Количество", fontsize=14)
ax.grid(axis = 'y')              # включение отображение сетки по оси Y
ax.bar(x, y)

plt.show() # это необязательно. См. ниже почему

С помощью `%matplotlib inline` выходные данные команд печати отображаются встроенно в интерфейсы, такие как блокнот Jupyter, непосредственно под ячейкой кода, которая его создала. Полученные графики также будут сохранены в блокноте. Подробнее [тут](https://stackoverflow.com/questions/43027980/purpose-of-matplotlib-inline).

## [Коротко о NumPy](https://habr.com/ru/post/352678/)

**NumPy** это open-source модуль для python, который предоставляет общие математические и числовые операции в виде пре-скомпилированных, быстрых функций. Они объединяются в высокоуровневые пакеты. Они обеспечивают функционал, который можно сравнить с функционалом MatLab. 

* `NumPy` (Numeric Python) предоставляет базовые методы для манипуляции с большими массивами и матрицами. 
* `SciPy` (Scientific Python) расширяет функционал numpy огромной коллекцией полезных алгоритмов, таких как минимизация, преобразование Фурье, регрессия, и другие прикладные математические техники.

### Массивы



Главной особенностью numpy является объект `array`. Массивы схожи со списками в python, исключая тот факт, что элементы массива должны иметь одинаковый тип данных, как `float` и `int`. С массивами можно проводить числовые операции с большим объемом информации в разы быстрее и, главное, намного эффективнее чем со списками.

Создание массива из списка:

In [None]:
import numpy as np
a = np.array([1, 4, 5, 8], float)
print(a)
print(type(a))

Ко всем элементам можно получить доступ и манипулировать ими также, как вы бы это делали с обычными списками:

In [None]:
print(a[:2])
print(a[3])
a[0] = 5.
print(a[0])
print(len(a))

## Исследование основных характеристик датасета


### Загрузка git-репозитория в текущее окружение

In [None]:
%cd /content/
!mkdir gitrepos
%cd /content/gitrepos/
!git clone https://github.com/anondigriz/inginirium-course-ai

In [None]:
!ls '/content/gitrepos/inginirium-course-ai/src/03-02-2022' -l

### Текстовое описание выбранного набора данных



В качестве набора данных мы будем использовать набор данных качества [красного вина](https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009). Данный датасет содержит следующие характеристики:

| Column | Description |
|---|---|
| fixed acidity |  фиксированная кислотность |
| volatile acidity |  изменяемые значения кислотности |
| citric acid | лимонная кислота |
| residual sugar | остаточный сахар |
| chlorides | хлориды |
| free sulfur dioxide | свободный диоксид серы |
| total sulfur dioxide | общий диоксид серы |
| density | плотность | 
| pH | водородный показатель |
| sulphates | содержание сульфатов |
| alcohol | содержание алкоголя |
| quality | оценка вина по десятибалльной шкале |

### Загрузка датасета

Загрузим файлы датасета в помощью библиотеки [`Pandas`](https://pandas.pydata.org/). Данный пакет делает Python мощным инструментом для анализа данных. Пакет дает возможность строить сводные таблицы, выполнять группировки, предоставляет удобный доступ к табличным данным, а при наличии пакета `matplotlib` дает возможность рисовать графики на полученных наборах данных.

Также мы будем использовать для построения графиков пакет `Seaborn`. [`Seaborn`](https://seaborn.pydata.org/index.html) — это по сути более высокоуровневое API на базе библиотеки `matplotlib`. `Seaborn` содержит более адекватные дефолтные настройки оформления графиков. Также в библиотеке есть достаточно сложные типы визуализации, которые в `matplotlib` потребовали бы большого количество кода.

In [None]:
# Если запуск блокнота не в Google Colab, то указать здесь папку, в которой располагается загруженный датасет
CURENT_DIR = '/content/gitrepos/inginirium-course-ai/src/03-02-2022'

In [None]:
import pandas as pd
import seaborn as sns

# Есть пять предустановленная тем Seaborn: darkgrid, whitegrid, dark, white, 
# и ticks. Каждый из них подходит для различных приложений и личных предпочтений.
sns.set(style="ticks")

# загрузка данных из csv
data = pd.read_csv(CURENT_DIR+'/winequality-red.csv', sep=',')

# изучение типа объекта, создаваемого функцией pd.read_csv
print(type(data))

# вывод первых 5 строк из датасета
data.head()

### Исследование внешних признаков датасета

[`pandas.DataFrame.shape`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html) - вернуть кортеж размерности `DataFrame`.

In [None]:
print(data.shape)
print(f'Всего строк: {data.shape[0]}')
print(f'Всего колонок: {data.shape[1]}')

[`pandas.DataFrame.columns`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.columns.html#pandas.DataFrame.columns) - вернуть названия столбцов фрейма данных.

In [None]:
data.columns

[`pandas.DataFrame.dtypes`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dtypes.html#pandas.DataFrame.dtypes) - вернуть типы данных, содержащихся в колонках.

In [None]:
data.dtypes

[`Series`](https://devpractice.ru/pandas-series-and-dataframe-part2/) – это маркированная одномерная структура данных, ее можно представить, как таблицу с одной строкой. С `Series` можно работать как с обычным массивом (обращаться по номеру индекса), и как с ассоциированным массивом, когда можно использовать ключ для доступа к элементам данных. [`DataFrame`](https://devpractice.ru/pandas-series-and-dataframe-part2/) – это двумерная маркированная структура. Идейно она очень похожа на обычную таблицу, что выражается в способе ее создания и работе с ее элементами.

Обратиться к колонке можно по индексу:

In [None]:
print(type(data['fixed acidity']))
data['fixed acidity'][:5]

Функция `isnull()` вернет `Series` с булевыми значениями:

In [None]:
print(type(data['fixed acidity'].isnull()))
data['fixed acidity'].isnull()[:5]

Также можно проверить данные по каким-то условиям:

In [None]:
print(type(data['chlorides'] >= 0.098))
(data['chlorides'] >= 0.098)[:5]

С помощью получившегося булевого `Series` можно обратиться к `DataFrame` и вывести строки, у которых проверка колонок дала значение `True`. Такой подход назыывается [обращение через логическое выражение](https://devpractice.ru/pandas-indexing-part3/). Продемонстрируем это на примере. 

Проверим наличие пустых значений в датасете. Для этого сделаем перебор по всем столбцам датасета:

In [None]:
for col in data.columns:
    print('{} - {}'.format(col, data[data[col].isnull()].shape[0]))

[Кванти́ль](https://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D1%8C) — значение, которое заданная случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль называется процентилем или перцентилем.

Основные характеристики датасета можно получить с помощью функции [`pandas.DataFrame.describe`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html).

Например, фраза "90-й процентиль массы тела у новорожденных мальчиков составляет 4 кг" означает, что 90 % мальчиков рождаются с весом меньше, либо равным 4 кг, а 10 % мальчиков рождаются с весом больше 4 кг.

В итоге получаем следующие стоки:

* `count` - количество non-NA/null наблюдений.
* `mean` - средняя значений в колонке.
* `min` - минимальное значение в колонке.
* `25%` - 25-й перцентиль (0,25-квантиль называется первым (или нижним) кварти́лем (от лат. quarta — четверть)).
* `50%` - 50-й перцентиль (0,5-квантиль называется медианой (от лат. mediāna — середина) или вторым кварти́лем).
* `75%` - 75-й перцентиль (0,75-квантиль называется третьим (или верхним) кварти́лем).
* `max` - максимальное значение в колонке.

In [None]:
data.describe()

Уникальные значения из объекта `Series` можно получить с помощью функции `unique()`.

Определим уникальные значения для колонки `'quality'`:

In [None]:
print(data['quality'].unique())
print(len(data['quality'].unique()))

## Визуальное исследование датасета

### Диаграмма рассеяния



Позволяет построить распределение двух колонок данных и визуально обнаружить наличие зависимости. Не предполагается, что значения упорядочены (например, по времени).

[`seaborn.scatterplot`](https://seaborn.pydata.org/generated/seaborn.scatterplot.html) - рисует точечную диаграмму с возможностью нескольких семантических группировок.

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

#  scatterplot(ax=None, x=None, y=None, data=None, hue=None)
#    * ax : matplotlib Axes, optional
#        Объект Axes для рисования графика, в противном случае используются текущие 
#        оси.
#    * x, y : names of variables in data or vector data, optional
#        Входные переменные данных; должны быть числовыми. Может передавать данные
#        напрямую или ссылаться на столбцы в данных. В нашем случае мы передаем 
#        названия колонок в data
#    * data : DataFrame
#        Фрейм данных, где каждый столбец является переменной, а каждая 
#        строка-наблюдением.
#    * hue : name of variables in data or vector data, optional
#        Группирующая переменная, которая будет создавать точки с разными цветами. 
#        Может быть как категориальным, так и числовым, хотя в последнем случае 
#        цветовое отображение будет вести себя по-разному.
#       P.S.: hue [hjuː] сущ - оттенок

sns.scatterplot(ax=ax, x='density', y='alcohol', data=data)

Можно видеть, что между полями `density` и `alcohol` не наблюдается зависимости.
Посмотрим как влияет целевой признак на данное отношение.

In [None]:
fig, ax = plt.subplots(figsize=(10,10)) 
sns.scatterplot(ax=ax, x='density', y='alcohol', data=data, hue='quality')

### Гистограмма


Позволяет оценить плотность вероятности распределения данных.

**Гистограмма плотности распределения** — это столбиковая диаграмма, которая показывает, как данные распределяются по группам значений. Собранные данные представляют в виде ряда прямоугольников, одинаковых по ширине и различающихся по высоте. Анализ характера изменения высот позволяет оценить динамику процесса.

Ось Y показывает с какой вероятностью случайно выбранное значение из временного ряда будет принадлежать определенному интервалу.

[`seaborn.distplot`](https://seaborn.pydata.org/generated/seaborn.distplot.html) строит гистограмму плотности распределения.

In [None]:
fig, ax = plt.subplots(figsize=(10,10)) 

""" 
distplot(a)
  * a : Series, 1d-array, or list.
      Наблюдаемые данные. 
"""

sns.histplot(data['alcohol'])

### Jointplot



Комбинация гистограмм и диаграмм рассеивания. Для построения используется [`seaborn.jointplot`](https://seaborn.pydata.org/generated/seaborn.jointplot.html).

In [None]:
#  jointplot(x=None, y=None, data=None, kind='scatter')
#    * x, y : names of variables in data or vector data, optional
#        Входные переменные данных; должны быть числовыми. Может передавать данные
#        напрямую или ссылаться на столбцы в данных. В нашем случае мы передаем 
#        названия колонок в data
#    * data : DataFrame
#        Фрейм данных, где каждый столбец является переменной, а каждая 
#        строка-наблюдением.
#    * kind : { “scatter” | “reg” | “resid” | “kde” | “hex” }, optional
#        Тип отрисовки графиков

sns.jointplot(x='alcohol', y='quality', data=data) 

In [None]:
sns.jointplot(x='alcohol', y='quality', data=data, kind="hex") 

In [None]:
sns.jointplot(x='alcohol', y='quality', data=data, kind="kde") 

### Парные диаграммы


Комбинация гистограмм и диаграмм рассеивания для всего набора данных.

Выводится матрица графиков. На пересечении строки и столбца, которые соответстуют двум показателям, строится диаграмма рассеивания. В главной диагонали матрицы строятся гистограммы распределения соответствующих показателей.

Для построения парной диаграммы используется [`seaborn.jointplot`](https://seaborn.pydata.org/generated/seaborn.pairplot.html).

In [None]:
#  pairplot(data=None)
#    * data : DataFrame
#        Фрейм данных, где каждый столбец является переменной, а каждая 
#        строка-наблюдением.

sns.pairplot(data) 

### Ящик с усами



Отображает одномерное распределение вероятности. Для построения используется [`seaborn.boxplot`](https://seaborn.pydata.org/generated/seaborn.boxplot.html).

In [None]:
#  boxplot(x=None, y=None, data=None)
#    * x, y : names of variables in data or vector data, optional
#        Входные данные для построения длинных форм данных. 
#    * data : DataFrame, array, or list of arrays, optional
#        Набор данных для построения графика. Если x и y отсутствуют, это 
#        интерпретируется как "широкая форма". В противном случае ожидается,
#        что он будет иметь "длинную форму".

sns.boxplot(x=data['alcohol']) 

In [None]:
sns.boxplot(y=data['alcohol']) 

In [None]:
# Распределение параметра alcohol сгруппированные по quality.
sns.boxplot(x='quality', y='alcohol', data=data)

### Скрипичная диаграмма (Violin plot)



Ядерная оценка плотности является задачей сглаживания данных, когда делается заключение о совокупности, основываясь на конечных выборках данных. Для построения используется [`seaborn.boxplot`](https://seaborn.pydata.org/generated/seaborn.violinplot.html).

In [None]:
""" 
violinplot(x=None, y=None)
  * x, y : names of variables in data or vector data, optional
      Входные данные для построения "длинных форм" данных.
""" 

sns.violinplot(x=data['alcohol']) 

In [None]:
fig, ax = plt.subplots(2, 1, figsize=(10,10))
sns.violinplot(ax=ax[0], x=data['alcohol'])
sns.histplot(data['alcohol'], ax=ax[1])

Из приведенных выше графиков видно, что `violinplot` действительно показывает распределение плотности.

In [None]:
sns.violinplot(x='quality', y='alcohol', data=data) 

### Информация о корреляции признаков

[**Корреляция**](https://ru.strephonsays.com/correlation-and-vs-covariance-6932) - это мера силы связи между двумя переменными. **Коэффициент корреляции** определяет степень изменения одной переменной на основе изменения другой переменной. В статистике корреляция связана с концепцией зависимости, которая представляет собой статистическую связь между двумя переменными.

В статистической теории **ковариация** - это мера того, насколько две случайные величины изменяются вместе. Другими словами, ковариация - это мера силы корреляции между двумя случайными величинами.

См. разницу между ковариация и корреляция [тут](https://wikimatik.ru/article/28) или [тут](https://voxt.ru/kovariacziya-protiv-korrelyaczii/).


**Корреляция** (от латинского «correlatio» – соотношение, взаимосвязь) – математический термин, который означает меру статистической вероятностной зависимости между случайными величинами (переменными).



[Коэффициент корреляции](https://ktonanovenkogo.ru/voprosy-i-otvety/korrelyaciya-chto-ehto-takoe-prostymi-slovami.html) –  это число, которое обозначается как «r». Оно находится в промежутке от `-1` до `1`. Отражает силу и полюс взаимосвязи величин. Посмотрим на примере:

| Значение коэффициента	| Какая корреляция? | О чем это говорит? |
| --- | --- | --- |
| `r=1` |	Сильная положительная корреляция |	Люди, которые едят чернику, обладают острым зрением. Ешьте чернику! |
| `r<0,5` | Слабая положительная корреляция	| Некоторые люди, которые любят чернику, обладают острым зрением. <br/> Но это не точно. Короче, ничего не пока понятно. Но лучше есть чернику на всякий случай. |
| `r=0` | Корреляция отсутствует | Черника и зрение никак не связаны. |
| `r<-0,5` | Слабая отрицательная корреляция | Бывают случаи ухудшения зрения из-за черники. Не стоит рисковать. |
| `r=-1` | Сильная отрицательная корреляция | Практически все, кто ел чернику, ослепли. Берегитесь черники! |

Для изучения корреляции воспользуемся функцией Pandas [`DataFrame.corr`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html).

In [None]:
data.corr() 

В таком виде тяжело понять какие параметры датасета коррелируют. Поэтому воспользуемся тепловой картой [`seaborn.heatmap`](https://seaborn.pydata.org/generated/seaborn.heatmap.html).

In [None]:
#  heatmap(data, annot=None, fmt='.2g', ax=None)
#    * data : rectangular dataset
#        2D набор данных, который может быть принудительно преобразован в ndarray. 
#        Если предоставляется фрейм данных Pandas, информация об индексе / столбце 
#        будет использоваться для обозначения столбцов и строк.
#    * annot : bool or rectangular dataset, optional
#        Если True, отобразится значение данных в каждой ячейке.
#    * fmt : string, optional
#        Шаблон форматирования строк, используемый при добавлении аннотаций.
#    * ax : matplotlib Axes, optional
#        Оси, по которым рисуется график, в противном случае используйте активные
#        в данный момент оси.

sns.heatmap(data.corr()) 

In [None]:
# Вывод значений в ячейках
fig, ax = plt.subplots(figsize=(10,10)) 
sns.heatmap(data.corr(), annot=True, fmt='.3f', ax=ax) 

Отобразим только сильные корреляции (|r|>0.5):

In [None]:
corr = data.corr()
m = (corr.mask(np.eye(len(corr), dtype=bool)).abs() > 0.5).any()
raw = corr.loc[m, m]
raw

In [None]:
# Треугольный вариант матрицы
mask = np.zeros_like(raw, dtype=np.bool)
# чтобы оставить нижнюю часть матрицы :
# mask[np.triu_indices_from(mask)] = True
# чтобы оставить верхнюю часть матрицы :
mask[np.tril_indices_from(mask)] = True
sns.heatmap(raw, mask=mask, annot=True, fmt='.3f')

## Самостоятельная работа

В данном блокноте вы познакомились с различными методами визуализация данных. В конце практического занятия вам предлогается создать блокнот, в котором вы самостоятельно попробуете построить несколько графиков, которые предоставляются билиотекой matplotlib.

Выбрать график и ознакомиться с тем, как его построить, можно по [ссылке](https://matplotlib.org/stable/gallery/index.html).

На следующем занятии вам предстоит:

* Выбрать набор данных (датасет).
* Создать ноутбук, который содержит следующие разделы:
  * Текстовое описание выбранного Вами набора данных.
    * Основные характеристики датасета.
    * Визуальное исследование датасета.
    * Информация о корреляции признаков.