# Seaborn

> 🚀 В этой практике нам понадобятся: `pandas==1.3.3, seaborn==0.11.2` 

> 🚀 Установить вы их можете с помощью команды: `!pip install pandas==1.3.3 seaborn==0.11.2` 


## Содержание

* [Загрузка и базовый анализ данных](#Загрузка-и-базовый-анализ-данных)
* [Встроенная визуализация pandas](#Встроенная-визуализация-pandas)
* [Первая визуализация с помощью seaborn](#Первая-визуализация-с-помощью-seaborn)
  * [Задание - уникальность](#Задание---уникальность)
* [Анализ по нескольким переменным](#Анализ-по-нескольким-переменным)
  * [Задание - ящики и усики](#Задание---ящики-и-усики)
  * [Задание - точечки](#Задание---точечки)
  * [Задание - анализ сил](#Задание---анализ-сил)
* [Заключение](#Заключение)


> В этой практике мы не только познакомимся с новой библиотекой визуализации, но и узнаем что-то новое про pandas.

Seaborn - библиотека для визуализации данных, которая основывается на matplotlib и реализует высокоуровневый функционал по отображению более сложных графиков.

<img src="https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/assets/logo/seaborn-white-logo.svg" height="150px"></img>

[Официальный сайт](https://seaborn.pydata.org) содержит очень много полезной информации, а на [странице](https://seaborn.pydata.org/api.html) можно найти все функции библиотеки. 

> В данной практике рассмотрим основные возможности библиотеки, при этом многие функции применимы в достаточно специфичных ситуациях, поэтому при работе с данными не пренебрегайте поиском различных практик по отображению данных с использованием этой библиотеки, чтобы набраться опыта.

## Загрузка и базовый анализ данных

Так как seaborn применяется для отображения данных, то для более реалистичного примера мы используем реальный набор данных для визуализации.

> Исходно, данные были получены с сайта Kaggle - вот [страница с описанием данных](https://www.kaggle.com/abcsds/pokemon).

Импортируем все необходимые модули и загрузим данные:

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Pokemon.csv')
df.head(5)

Как видим, данные имеют 13 колонок. Официальная документация даёт нам следующие описания колонок:

- **#** - идентификатор покемона;
- **Name** - название покемона;
- **Type 1** - тип покемона, описывающий его среду;
- **Type 2** - если не NaN, то тип состоит из двух частей;
- **Total** - сумма всех следующих показателей, общий показатель того, как силен покемон;
  - **HP** - очки жизни;
  - **Attack** - очки атаки;
  - **Defence** - очки защиты;
  - **Sp. Atk** - очки специальной атаки;
  - **Sp. Def** - очки защиты против специальной атаки;
  - **Speed** - скорость покемона (тот, кто первый атакует в схватке);
- **Generation** - поколение покемона;
- **Legendary** - флаг легендарного покемона.

Первым делом мы должны определить количество записей и типы колонок:

In [None]:
df.info()

В таблице 800 записей, колонки имён и типов являются строковыми, флаг легендарности - булевые, остальные - целочисленные. После этого полезно взглянуть на количество уникальных значений в каждой колонке с помощью метода `DataFrame.nunique()`:

> Понимание количества уникальных значений (особенно в строковых данных) позволяет выбрать признаки, по которым имеет смысл проводить анализ. 

> Слишком большое количество уникальных строковых значений делает колонку (признак) малопригодной для анализа и использования.

In [None]:
df.nunique()

Мы видим, что колонки "#" и "Name" имеют слишком большое количество уникальных значений. Удалим их из наших данных, потому что полезной информации они не несут:

In [None]:
df.drop(columns=['#', 'Name'], inplace=True)

## Встроенная визуализация pandas

Первым делом настроим отображение:

In [None]:
import matplotlib as mpl

TEXT_COLOR = 'black'

mpl.rcParams['figure.figsize'] = (10, 6)
mpl.rcParams['text.color'] = 'black'
mpl.rcParams['font.size'] = 14
mpl.rcParams['axes.labelcolor'] = TEXT_COLOR
mpl.rcParams['xtick.color'] = TEXT_COLOR
mpl.rcParams['ytick.color'] = TEXT_COLOR

Pandas имеет некоторые методы для визуализации данных:

In [None]:
# Отображение гистограммы частот значений признака
# Отобразим данные в 50ти бинах (колонках гистограммы)
df['Total'].plot(kind='hist', bins=50)
plt.grid(True)
plt.show()

In [None]:
# Отображение данных в виде KDE (Kernel Density Estimation)
# Так называется плотность распределения переменной
df['Total'].plot(kind='kde')
plt.grid(True)
plt.show()

In [None]:
# Отображение трёх признаков в виде "ящиков с усами"
df[['HP', 'Attack', 'Defense']].plot(kind='box')
plt.grid(True)
plt.show()

Отображение ящик с усами полезно для обзора численных данных:
- Линия внутри ящика - медиана;
- Верхняя и нижняя границы ящика - первый и третий квартили;
- Границы усов - "наблюдаемый" минимум/максимум;
- Точки - статистические выбросы.

> Более детальная информация: https://ru.wikipedia.org/wiki/Ящик_с_усами

In [None]:
# Отображение точечного графика
# Задаем признаки, значения которых будет отображено по осям
df.plot(kind='scatter', x='Attack', y='Defense')
plt.grid(True)
plt.show()

In [None]:
# Также, можно добавить третий признак на точечный график в виде цвета
df.plot(kind='scatter', x='Attack', y='Defense', c='HP')
plt.grid(True)
plt.show()

In [None]:
# Или в виде размера
df.plot(kind='scatter', x='Attack', y='Defense', s=df['HP']/4)
plt.grid(True)
plt.show()

## Первая визуализация с помощью seaborn

Как мы теперь знаем, данные можно отобразить с помощью инструментов matplotlib, pandas (тот же matplotlib, но методами pandas). Последний инструмент (seaborn) позволяет рисовать похожие графики, но в более обощённом виде.

Мы начнём знакомство с подхода анализа по одной переменной, в котором переменные (признаки) рассматриваются по отдельности.


In [None]:
# Первый график - график количества значений
# Такой график отображает количества уникальных значений
# Хорошо подходит для категориальных признаков
sns.countplot(x='Generation', data=df)
plt.grid(True)
plt.show()

In [None]:
# Отображение графика простого распределения графика распределения признака
sns.distplot(df['Total'], bins=20)
plt.grid(True)
plt.show()

In [None]:
# Отображение графика "ящик с усами"
sns.boxplot(data=df[['HP', 'Attack', 'Defense', 'Speed']]);
plt.grid(True)
plt.show()

Другой визуализацией распредления является график скрипки, который показывает плотность распределения:

In [None]:
sns.violinplot(data=df[['HP', 'Attack', 'Defense', 'Speed']])
plt.grid(True)
plt.show()

### Задание - уникальность

Отобразите график количества уникальных значений признака `Type 1`:

In [None]:
# TODO - отобразить график количеств типов
# Для удобочитаемости изучите, как повернуть подписи
#   функцией `plt.xticks()`

## Анализ по нескольким переменным

Анализ по нескольким переменным позволяет оценить не только характеристики конкретных признаков, но и взаимосвязи признаков.

In [None]:
# График скрипки, но мы уже не просто отображаем отдельную переменную 
#   в каждой скрипке, а смотрим на распределение показателей атаки 
#   в зависимости от поколения
sns.violinplot(x='Generation', y='Attack', data=df)
plt.grid(True)
plt.show()

In [1]:
# Также, можем добавить отображение в зависимости еще и от флага легендарности
# split - для отображения в виде половинок (иначе будут отдельные графики)
# ax - для задания зоны отображения
fig, ax = plt.subplots(nrows=2, ncols=1, squeeze=False, figsize=[15, 10])

sns.violinplot(x='Generation', y='Total', hue='Legendary', data=df, ax=ax[0,0])
ax[0,0].grid(True)

sns.violinplot(x='Generation', y='Total', hue='Legendary', data=df, split=True, ax=ax[1,0])
ax[1,0].grid(True)

plt.tight_layout()
plt.show()

NameError: name 'plt' is not defined

> Обратите внимание, что размещать с помощью зон отображения **все** графики seaborn можно при помощи аргумента `ax` или прямо управлением `plt.subplot()`.

### Задание - ящики и усики

Отобразите график ящика с усами с помощью функции `sns.boxplot()`, отображая один из показателей `HP`, `Attack` или `Defense` от поколения и легендарности.

In [None]:
# TODO - отобразите график ящика с усами

---

Даже простой график скрипки уже показывает распределение данных в зависимости от поколения и легендарности. Как видите, мы воспользовались аргументами `x`, `y`, и `hue`. Последний в графике скрипки подходит для бинарного признака.

Одним из главных графиков при анализе зависимостей численных переменных является матрица корреляции признаков.

In [None]:
corr_mtrx = df[['Total', 'HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed']].corr()
# annot - добавляем надписи на график
# cmap - устанавливаем цветовую палитру
sns.heatmap(corr_mtrx, annot=True, cmap='Blues')
plt.show()

После того, как проанализированы показатели корреляции - важно визуально оценить распределение данных.

In [None]:
# График регрессионной зависимости в виде точечного графика
#   fit_reg - строится прямая по методу наименьших квадратов
sns.lmplot(x='HP', y='Attack', data=df, fit_reg=True)
plt.grid(True)
plt.show()

### Задание - точечки

Отобразите точечный график показателя атаки от защиты с разделением цветов по легендарности. Отключите построение прямой регрессии и отобразите разные группы маркерами 'x' и 'o'.

In [None]:
# TODO - оторазить точечный график с разделением по цвету группы

---

In [None]:
# Оторажение не только точечного графика, но и распределений каждого графика
sns.jointplot(x="HP", y="Attack", data=df);
plt.show()

In [None]:
# Точки часто сливаются друг с другом - 
#   для сгруппированного отображения выведем в виде шестиугольников
sns.jointplot(x="HP", y="Attack", data=df, kind='hex', height=8.0)
plt.show()

In [None]:
# Полезный график визуализации зависимостей сразу нескольких признаков
# По диагонали распределение самих признаков
# В остальных ячейках - зависимости признаков одной от другой
sns.pairplot(data=df, vars=['HP', 'Attack', 'Defense', 'Speed'])
plt.show()

In [None]:
# Аналогично, можно задать отображение групп в виде цветов
sns.pairplot(data=df, vars=['HP', 'Attack', 'Defense', 'Speed'], hue='Legendary')
plt.show()

Последний инструмент для рассмотрения - автоматическое построение графиков в разных зонах в зависимости от групп.

In [None]:
# FacetGrid - класс для построения разметки в зависимости 
#   от уникальных значений в данных 
g = sns.FacetGrid(df, col="Generation")
# После того, как разметка построена - делаем отображение 
#   путем задания типов графиков и самих данных
g = g.map(plt.hist, 'Total')
plt.show()

In [None]:
# Или точечный график в колонку
g = sns.FacetGrid(df, row="Generation")
g = g.map(plt.scatter, 'HP', 'Attack')
plt.show()

### Задание - анализ сил

Отобразите точечные графики показателей защиты от атаки. Разделите цветами по легендарности. Отобразите графики в ряд по поколениям:

In [None]:
# TODO - отобразите графики по показателям в ряд

# NOTE - для отображения легенды необходимо вызвать FacetGrid.add_legend()
#           после отображения

## Заключение

Применение seaborn позволяет упростить работу с визуализацией и интерпретацией данных. Рассмотренные в практике способы отображения не покрывают весь функционал, поэтому для более подробного разбора инструментария по каждому графику на официальном сайте имеется отличная [документация](https://seaborn.pydata.org/api.html) с примерами. 