# Візуалізація даних

## План заняття
1. Поняття візуалізації даних.
2. Візуалізація даних за допомогою matplotlib
3. Базові типи візуалізацій (line chart, scatter plot, bar plot, histogram)
4. Кілька графіків на одній візуалізації
5. Візуалізація даних у Pandas
6. Візуалізація даних за допомогою seaborn

# Що таке візуалізація даних

**Візуалізація даних** — це графічне представлення інформації та даних. Використовуючи такі візуальні елементи, як діаграми, графіки та карти, інструменти візуалізації даних забезпечують доступний спосіб перегляду та розуміння тенденцій, викидів і закономірностей у даних. 

Візуалізація даних дозволяє переглянути великий набір даних, що ми не завжди можемо зробити вручну, або робили б це дуже довго.
Візуалізація даних може бути 
- статичною: намалювали графік один раз і він є картинкою - не змінюється
- інтерактивною: кінцевий користувач може взаємодіяти з графіком, графік від того може дозволяти фільтрувати дані, робити виділення окремих точок в даних.

Є дуже багато способів відобразити різні дані. 
Є корисний сайт, де зібрані найбільш вживані типи візуалізацій - https://datavizcatalogue.com/ і якщо ви не знаєте, як візуалізувати свої дані - можна взяти натхнення тут. 
Також для повторення існуючих типів візуалізацій може бути корисною наступна [стаття](https://www.datylon.com/blog/types-of-charts-graphs-examples-data-visualization) про різні типи візуалізацій.
Також аби навчитись розповідати історії з допомогою даних - рекомендую для прочитання книгу [Storytelling with data](https://www.amazon.com/gp/product/1119002257/). 

## Візуалізація даних в Python

Бібліотек для візуалізацій існує багато. Ми розглянемо для початку наступні:
- Matplotlib — базова бібліотека для візуалізації даних в Python.
- Seaborn — бібліотека для створення статистичних графіків на Python. Вона побудована на основі matplotlib і тісно інтегрована зі структурами даних pandas. Seaborn - це обгортка matplotlib зі зручнішим інтерфейсом у деяких випадках і приємнішим стандартним стилем.

## Анатомія діаграми в matplotlib

![photo_2022-10-06_13-28-36.jpg](attachment:photo_2022-10-06_13-28-36.jpg)

## Кожна фігура складається з "панелей"
Кожна панель має свої осі ОХ і ОУ, але вони можуть і синхронізуватися між панелями.

![photo_2022-10-06_13-19-35.jpg](attachment:photo_2022-10-06_13-19-35.jpg)

# Візуалізація даних за допомогою matplotlib

Імпорт бібліотек:

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt # or  import matplotlib.pyplot as plt

На цьому етапі у нас не відображатимуться графіки. Вбудувати відображення графіків можемо двома способами:  

- `%matplotlib notebook` призведе до інтерактивних графіків, вбудованих у ноутбук 

- `%matplotlib inline` призведе до статичного відображення графіків, вбудованих у ноутбук (зазвичай я імпортую у такий спосіб - так під час збереження ноутбуків і повторного відкриття графіки мають компактніший вигляд)

In [None]:
%matplotlib inline

# Побудова базових графіків

Документація matplotlib: https://matplotlib.org/stable/index.html

## Лінійний графік

Лінійний графік `plot` дає змогу візуалізувати залежність y від x, тобто функції виду $y = f(x)$ .

![Screenshot%20%2813%29.png](attachment:Screenshot%20%2813%29.png)

Як будувати:

In [None]:
x = np.linspace(0, 10, 100)

In [None]:
x

In [None]:
y = np.sin(x)
plt.plot(y)

In [None]:
len(y)

Додаємо в кінці `;` щоб не друкувати зайвого.

In [None]:
plt.plot(np.sin(x));

Можемо задати значення осі x:

In [None]:
plt.plot(x, np.sin(x));

Можемо побудувати кілька ліній на одній фігурі.

In [None]:
plt.plot(x, np.sin(x))
plt.plot(x, np.cos(x));

In [None]:
for i in range(1,11):
    plt.plot(x, np.sin(x) + i)
plt.show();

Інший спосіб:

In [None]:
plt.plot(x, np.sin(x), x, np.cos(x));

Кольори для різних ліній чергуються за замовчуванням. Але ми можемо їх задати, причому різними способами:

In [None]:
plt.plot(x, np.sin(x - 0), color='blue')        # за іменем
plt.plot(x, np.sin(x - 1), color='g')           # за короткою назвою (rgbcmyk)
plt.plot(x, np.sin(x - 2), color='0.75')        # відтінки сірого від 0 до 1
plt.plot(x, np.sin(x - 3), color='#FFDD44')     # Hex код (RRGGBB від 00 до FF)
plt.plot(x, np.sin(x - 4), color=(1.0,0.2,0.3)) # RGB кортеж, значення від 0 до 1
plt.plot(x, np.sin(x - 5), color='chartreuse');  # підтримуються також усі CSS назви кольорів

Які є кольори за назвами можна знайти [тут](https://matplotlib.org/stable/gallery/color/named_colors.html).


Ми також можемо задавати стиль лінії, за назвою або символами:

In [None]:
plt.plot(x,x);

In [None]:
plt.plot(x, x + 0, linestyle='solid', linewidth=2)
plt.plot(x, x + 1, linestyle='dashed', linewidth=2)
plt.plot(x, x + 2, linestyle='dashdot', linewidth=2)
plt.plot(x, x + 3, linestyle='dotted', linewidth=2);

In [None]:
# Для скорочення можна використовувати такі коди:
plt.plot(x, x + 4, linestyle='-')  # solid
plt.plot(x, x + 5, linestyle='--') # dashed
plt.plot(x, x + 6, linestyle='-.') # dashdota
plt.plot(x, x + 7, linestyle=':'); # dotted

Можемо задати стиль лінії разом з кольором

In [None]:
plt.plot(x, x + 0, '-g', linewidth=2)   # solid green
plt.plot(x, x + 1, '--c', linewidth=2)  # dashed cyan
plt.plot(x, x + 2, '-.k', linewidth=2)  # dashdot black
plt.plot(x, x + 3, ':r', linewidth=2);  # dotted red

In [None]:
plt.plot(x, np.sin(x), 'or', linewidth=0.6);  # dotted red

Третій аргумент в функції plt.plot - це формат. Він будується за наступною логікою  
```
fmt = '[marker][line][color]' 
```

Детальніше - в секції Notes [тут](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html).

## Границі графіка

In [None]:
x = np.linspace(0, 10, 100)
plt.plot(x, np.sin(x))

plt.xlim(-1, 11)
plt.ylim(-1.5, 1.5);

Альтернативно можемо використати метод `plt.axis()` (зверніть увагу на можливу плутанину між `axes` з літерою e і `axis` з i).

Метод `plt.axis()` дає змогу встановити межі x і y за допомогою одного виклику, передавши список, який вказує [xmin, xmax, ymin, ymax]:

In [None]:
plt.plot(x, np.sin(x))
plt.axis([-1, 11, -1.5, 1.5]);

А так ми можемо максимально помістити графік у панель.

In [None]:
plt.plot(x, np.sin(x))
plt.axis('tight');

In [None]:
plt.plot(x, np.sin(x))
plt.tight_layout();

А так ми можемо забезпечити, щоб на екрані одна одиниця по осі ОХ відповідала одній одиниці по осі ОУ:

In [None]:
plt.plot(x, np.sin(x))
plt.axis('equal');

## Декілька графіків на одній фігурі.

Існує два інтерфейси для виконання цього завдання.

### В стилі MATLAB

Matplotlib спочатку був написаний як альтернатива Python для користувачів MATLAB, і більша частина його синтаксису відображає цей факт.

Вертикальне розташування графіків:

In [None]:
plt.figure()  # створюємо фігуру

# створюємо першу з двох панелей і встановлюємо поточну вісь
plt.subplot(2, 1, 1)  # (рядки, колонки, номер панелі)
plt.plot(x, np.sin(x))

# створюємо другу з двох панелей і встановлюємо поточну вісь
plt.subplot(2, 1, 2)
plt.plot(x, np.cos(x));
plt.tight_layout();


Горизонтальне розташування графіків:

In [None]:
plt.figure(figsize=(20, 5))  # створюємо фігуру

# створюємо першу з двох панелей і встановлюємо поточну вісь
plt.subplot(1, 3, 1)  # (рядки, колонки, номер панелі)
plt.plot(x, np.sin(x))

# створюємо другу з двох панелей і встановлюємо поточну вісь
plt.subplot(1, 3, 2)
plt.plot(x, np.cos(x))


plt.subplot(1, 3, 3)
plt.plot(x, np.cos(x+5)+5, 'r')

plt.show();

Цей інтерфейс відстежує стан: він відображає "поточну" фігуру та осі, за якими застосовуються всі команди plt.   
Ви можете отримати посилання на них, використовуючи процедури `plt.gcf()` (отримати поточний малюнок) і `plt.gca()` (отримати поточні осі).

Хоча цей інтерфейс з відстеженням стану швидкий і зручний для простих графіків, з ним легко зіткнутися з проблемами.   
Наприклад, після створення другої панелі, як ми можемо повернутися і додати що-небудь до першої?   
Це можливо в інтерфейсі в стилі MATLAB, але доволі незручно. На щастя, є другий спосіб.

### Об'єктно-орієнтований інтерфейс

Об'єктно-орієнтований інтерфейс доступний для цих більш складних ситуацій, а також для тих випадків, коли вам потрібен більший контроль над своєю фігурою.   
В об'єктно-орієнтованому інтерфейсі функції побудови графіків є методами явних об'єктів Figure і Axes, а не залежать від будь-якого поняття "активна" фігура або осі.   
Щоб відтворити попередній графік із використанням цього стилю побудови, робімо ось що:

In [None]:
# Спочатку створимо сітку графіків
# ax буде масивом із двох об'єктів Axes
fig, ax = plt.subplots(2)

# Виклик plot() методу для потрібного об'єкта
ax[0].plot(x, np.sin(x))
ax[1].plot(x, np.cos(x));

In [None]:
?plt.subplots

На практиці під час ознайомлення з даними я використовую перший спосіб. Якщо мені потрібно будувати прості візуалізації для себе.

Коли ж треба побудувати візуалізації "на тривале користування", застосовую другий спосіб за потреби.

## Підписи

Визначити підписи вісей можемо наступним чином:

In [None]:
plt.plot(x, np.sin(x))
plt.title("Синусоїда")
plt.xlabel("x")
plt.ylabel("sin(x)");

Положення, розмір і стиль підписів можна налаштувати за допомогою додаткових аргументів функцій.

## Легенда

Легенда дозволяє побачити, який графік що відображає.

In [None]:
plt.plot(x, np.sin(x), '-g', label='sin(x)')
plt.plot(x, np.cos(x), ':b', label='cos(x)')
plt.axis('equal')
plt.title('A Simple Plot')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.legend();

Важливо перед відображенням легенди задати назви ліній, які ми побудували.

In [None]:
plt.plot(x, np.sin(x), '-g')
plt.plot(x, np.cos(x), ':b')
plt.axis('equal')
plt.legend();

Іноді нам треба використовувати `ax` методи. Тоді підписи будуть мати такий вигляд:

In [None]:
ax = plt.axes()
ax.plot(x, np.sin(x))
ax.set(xlim=(0, 10), ylim=(-2, 2),
       xlabel='x', ylabel='sin(x)',
       title='A Simple Plot');

Для переходу між функціями в стилі MATLAB та об'єктно-орієнтованими методами внесіть такі зміни:

- ``plt.xlabel()``  → ``ax.set_xlabel()``
- ``plt.ylabel()`` → ``ax.set_ylabel()``
- ``plt.xlim()``  → ``ax.set_xlim()``
- ``plt.ylim()`` → ``ax.set_ylim()``
- ``plt.title()`` → ``ax.set_title()``

## Збереження графіка у файл

In [None]:
fig = plt.figure()
plt.plot(x, np.sin(x), '-')
plt.plot(x, np.cos(x), '--');

In [None]:
fig.savefig('figure_1.png')

Переконаємося, що збережена картинка містить те, що нам треба. 
І заодно подивимося, як завантажувати картинки в Jupyter Notebook.

In [None]:
from IPython.display import Image # найпростіший спосіб завантажити картинку в Jupyter Notebook
Image('figure_1.png')

In [None]:
import os

In [None]:
'figure_1.png' in os.listdir()

Можна було обійтися і без `fig`. Заодно збережемо з великим dpi (dots per inch).

In [None]:
plt.plot(x, np.sin(x), '-')
plt.plot(x, np.cos(x), '--')
plt.savefig('figure_2.png', dpi=100)

In [None]:
'figure_2.png' in os.listdir()

In [None]:
Image('figure_2.png')

**Не можна** (!!!) зберігати графік після виклику функції `plt.show()`: збережена картинка буде порожньою. 

In [None]:
'figure_3.png' in os.listdir()

In [None]:
plt.plot(x, np.sin(x), '-')
plt.plot(x, np.cos(x), '--')
plt.show()
plt.savefig('figure_3.png');

In [None]:
'figure_3.png' in os.listdir()

In [None]:
Image('figure_3.png')

Подивимося на розміри файлів, які у нас вийшли:

In [None]:
!ls -lh figure_*

Бачимо, що figure_3 - найменша, бо порожня, а figure_2 - найбільша, бо більший dpi.

У які формати можемо зберігати картинки з Python:

In [None]:
fig.canvas.get_supported_filetypes()

## Стилі

Можна змінювати стилі візуалізацій або створити власний.  
Подивитись, які є стилі, можемо в такий спосіб:

In [None]:
len(plt.style.available)

Для того щоб встановити стиль для усіх візуалізацій у сесії:

In [None]:
plt.style.use('ggplot')

In [None]:
plt.plot(x,y);

In [None]:
def make_a_plot(style_name):
    # Фіксуємо рандомізацію
    np.random.seed(10)
    for i in range(4):
        plt.plot(np.random.rand(10))
    plt.title(style_name)
    plt.show()

In [None]:
make_a_plot('ggplot')

Щоб побудувати візуалізацію з особливим стилем:

In [None]:
with plt.style.context('classic'):
    make_a_plot('classic')

In [None]:
!conda list | grep matplotlib

In [None]:
for c in plt.style.available:
    with plt.style.context(c):
        make_a_plot(c)

Повернутися до початкового стилю

In [None]:
import matplotlib as mpl
mpl.rcParams.update(mpl.rcParamsDefault)

In [None]:
make_a_plot('default')

## Scatterplot (точкова діаграма/діаграма розсіювання)

Scatterplot слугує для дослідження взаємодії двох змінних.


Можемо побудувати скатерплот за допомогою методу `scatter`:

In [None]:
plt.scatter(x, y);

In [None]:
# створимо нові дані
np.random.seed(3)
x = 4 + np.random.normal(0, 2, 200)
y = 4 + np.random.normal(0, 2, len(x))

In [None]:
plt.scatter(x, y);

Можемо додати кольори і розміри:

In [None]:
# задамо розміри і кольори
sizes = np.random.uniform(15, 80, len(x))
colors = np.random.uniform(15, 80, len(x))

# створимо фігуру
plt.scatter(x, y, marker='^', s=sizes, c=colors)

plt.show()

Можна вказувати різні символи, якими ми візуалізуємо точки, вони всі перераховані в документації та здебільшого з позначення інтуїтивно зрозумілі.

In [None]:
plt.figure(figsize=(8,5))
rng = np.random.RandomState(0)
for marker in ['o', '.', ',', 'x', '+', 'v', '^', '<', '>', 's', 'd']:
    plt.plot(rng.rand(5)*2, rng.rand(5)*2, marker,
             label="marker='{0}'".format(marker), linewidth=4)
plt.legend(loc = 'upper right')
plt.xlim(0, 1.8);

Що буде, якщо викликати не той метод для побудови графіка?

In [None]:
plt.plot(x, y);

Але іноді все може бути не так погано:

In [None]:
plt.plot(x, y, '.');

Основна відмінність `plt.scatter` від `plt.plot` полягає в тому, що його можна використовувати для створення діаграм розсіювання,   
де властивості кожної окремої точки (розмір, колір заповнення, колір межі тощо) можна індивідуально контролювати або зіставляти з даними.

## Приклад на даних

Розглянемо приклад, як це може бути корисно в реальних ситуаціях. Візуалізуємо дані з відомого Iris набору даних, який доступний у scikit-learn.
В датасеті Iris: 
- petal - пелюстка
- sepal - чашолисток

![51518iris%20img1.png](attachment:51518iris%20img1.png)

In [None]:
from sklearn.datasets import load_iris

In [None]:
iris = load_iris()

In [None]:
iris.keys()

In [None]:
print(iris['DESCR'])

Створимо датафрейм:

In [None]:
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)

In [None]:
iris_df['target'] = iris.target

In [None]:
iris_df.columns

In [None]:
display(iris_df.head())
display(iris_df.tail())

In [None]:
iris_df.target.unique()

In [None]:
iris.target_names

In [None]:
# побудуйте діаграми розсіювання для вдох інших колонок в цих даних

col_x = 'sepal length (cm)'
col_y = 'sepal width (cm)'
color_feature = 'petal length (cm)'

plt.figure(figsize=(8,4))
plt.scatter(iris_df[col_x], iris_df[col_y], alpha=0.2,
            s=100*iris_df[color_feature], c=iris.target)
plt.xlabel(col_x)
plt.ylabel(col_y)
plt.colorbar();
# вивести легенду кольорів у скатерплоті в матплотліб не вийде, тільки colorbar значень

Ми бачимо, що цей графік розсіювання дав нам можливість одночасно дослідити чотири різні виміри даних:  
- положення (x, y) кожної точки відповідає довжині та ширині чашолистка, 
- розмір точки пов'язаний із шириною пелюстки, 
- а колір залежить від конкретного виду квітки.   

Такі багатоколірні та багатоелементні точкові діаграми можуть бути корисними як під час дослідження, так і для представлення даних.

## Гістрограми та графік щільності

Гістограма візуалізує розподіл даних протягом безперервного інтервалу. Кожен стовпчик на гістограмі представляє частоту для кожного інтервалу/біна даних.
Гістограми допомагають оцінити, де зосереджені значення, які крайні значення та чи є прогалини чи незвичні значення. Вони також корисні для надання приблизного уявлення про розподіл ймовірностей.


Для повторнення або освоєння основ теорії ймовірностей і мат статистики рекомендую [цей підручник українською](https://new.mmf.lnu.edu.ua/wp-content/uploads/2018/02/Lekcii_TIMC.pdf). А з прикладної статистики - [оцей](https://maup.com.ua/assets/files/lib/book/prikladna_statist_2018.pdf).

![histogram.png](attachment:histogram.png)

![image.png](attachment:image.png)

In [None]:
np.random.seed(10)
data = np.random.randn(1000)

In [None]:
data[:5]

In [None]:
data.min(), data.max()

In [None]:
type(data)

In [None]:
len(data)

Базовий варіант побудови гістограми:

In [None]:
plt.hist(data, bins=20)
plt.grid(axis='both', alpha=.3);

Функція `hist()` має безліч опцій для налаштування як обчислень, так і відображення. 
Приклад більш кастомізованої гістограми, яка за рахунок нормалізації вже є графіком щільності:

https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html

In [None]:
plt.hist(data, bins=20, density=True, 
         alpha=.5, color='steelblue',
         edgecolor='black')
plt.grid(axis='both', alpha=.3);

Як перейти від значень по вісі ОУ в гістограмі з `density=True` до гістограми з `density=False`.

In [None]:
counts, bins = np.histogram(data, bins=20)

In [None]:
bin_size = np.diff(bins)[0]

In [None]:
0.29*bin_size*1000

In [None]:
counts, bins

Ось так зручно відображати кілька гістограм на одній панелі для порівняння вибірок:

In [None]:
x1 = np.random.normal(0, 0.8, 1000)
x2 = np.random.normal(-2, 1, 1000)
x3 = np.random.normal(3, 2, 1000)

kwargs = dict(histtype='stepfilled', alpha=0.3, density=True, bins=40)

plt.hist(x1, **kwargs)
plt.hist(x2, **kwargs)
plt.hist(x3, **kwargs);

А взагалі ось так по-різному можна це зробити:

In [None]:
x1 = np.random.normal(0, 0.8, 1000)
x2 = np.random.normal(-2, 1, 1000)
x3 = np.random.normal(3, 2, 1000)

data = [x1, x2, x3]

fig, ax = plt.subplots(3)

ax[0].hist(data, alpha=0.3, density=True, bins=20)
ax[1].hist(data, histtype='stepfilled', alpha=0.3, density=True, bins=40)
ax[2].hist(data, histtype='barstacked', alpha=0.3, density=True, bins=40)

plt.show()

Якщо нам треба просто подивитися на розподіл даних, скільки в який бін потрапило записів, то робимо це за допомогою numpy:

In [None]:
np.histogram(data, bins=5)

Я часто для зручності перегляду результату роблю так:

In [None]:
df = pd.DataFrame(np.histogram(data, bins=5)).T
df.columns=['count', 'x']
df

Це означає, що зі значеннями від -5.393109 до -2.457573 у нас 338 записів.

На даних Iris:

In [None]:
iris_df

In [None]:
plt.figure(figsize=(12,6))
for col in iris_df.columns.drop('target'):
    plt.hist(iris_df[col], bins=15, alpha=0.7, label=col)
plt.xlabel('Feature value') 
plt.ylabel('Instance count') 
plt.legend()
plt.show();

## Barplots

Іноді нам потрібна не гістограма, а просто стовпчаста діаграма. Стовпчаста діаграма використовує горизонтальні або вертикальні стовпчики для показу дискретних числових порівнянь між категоріями. Одна вісь діаграми показує конкретні категорії, які порівнюються, а інша вісь представляє дискретну шкалу значень.

![bar_chart.png](attachment:bar_chart.png)

In [None]:
fig = plt.figure()
ax = fig.add_axes([0,0,1,1])
langs = ['C', 'C++', 'Java', 'Python', 'PHP']
students = [23, 17, 35, 29, 12]
ax.bar(langs, students)
plt.show()

Можемо порівняти візуально дані за допомогою стовпчастої діаграми:

In [None]:
data = [[5., 25., 50., 20.],
      [4., 23., 51., 17.],
      [6., 22., 52., 19.]]

X = np.arange(4)
plt.bar(X + 0.00, data[0], color = 'b', width = 0.25, alpha=0.5)
plt.bar(X + 0.25, data[1], color = 'g', width = 0.25, alpha=0.5)
plt.bar(X + 0.50, data[2], color = 'r', width = 0.25, alpha=0.5)

plt.show()

Те ж саме можемо зробити через `ax` методи. І давайте обернемо дані в DataFrame замість Numpy array.

In [None]:
data_df = pd.DataFrame(data, columns=range(2018,2022))

In [None]:
data_df

In [None]:
X = np.arange(4)
fig = plt.figure()
ax = fig.add_axes([0,0,1,1])
ax.bar(X + 0.00, data_df.loc[0], color = 'b', width = 0.25, alpha=0.5)
ax.bar(X + 0.25, data_df.loc[1], color = 'g', width = 0.25, alpha=0.5)
ax.bar(X + 0.50, data_df.loc[2], color = 'r', width = 0.25, alpha=0.5);

У випадку з DataFrame ми можемо відобразити дані простіше:

In [None]:
data_df.T

In [None]:
data_df.T.plot.bar(figsize=(10,6));

# Візуалізація в Pandas

Pandas має методи візуалізації датафреймів, які є надбудовою над Matplotlib. Наприклад, побудуємо гістрограми та діаграми розсіяння для Iris.

In [None]:
iris_df[:10]

In [None]:
iris_df.columns

In [None]:
iris_df['sepal length (cm)'].hist()
plt.xlabel('sepal length (cm)')
plt.ylabel('Counts')
;

Отак в одну команду ми вивели гістограми всіх колонок в датафреймі. А може можна і попарні скатерплоти так вивести в одну команду? Можна!  
Метод `scatter_matrix` дає змогу візуалізувати парні залежності між ознаками та розподіл кожної ознаки на діагоналі.

In [None]:
pd.plotting.scatter_matrix(iris_df, c=iris.target, figsize=(10, 10), marker='o',
                        hist_kwds={'bins': 20}, s=60, alpha=.8);

Щоправда легенда таким способом виводиться криво.

In [None]:
plt.figure()
plt.imshow([np.unique(iris.target)])
_ = plt.xticks(ticks=np.unique(iris.target),labels=iris.target_names)

### Box plot

Корисним також є графік типу **box plot** ("ящик з вусами"). Він дає змогу компактно візуалізувати основні характеристики (медіану, нижній і верхній квартилі, мінімальне і максимальне значення, викиди) розподілу ознак.

Лінії, що йдуть паралельно від прямокутників, відомі як «вуса», які використовуються для позначення мінливості за межами верхнього та нижнього квартилів. Викиди іноді відображаються як окремі точки, розташовані на одній лінії з вусами. Коробкові діаграми можна малювати вертикально або горизонтально.

Хоча прямокутні діаграми можуть здаватися примітивними порівняно з гістограмою або графіком щільності, вони мають перевагу в тому, що займають менше місця, що корисно під час порівняння розподілу між багатьма групами чи наборами даних.

Ось типи спостережень, які можна зробити, переглядаючи Box Plot:

- Які ключові значення, наприклад: середнє, медіана, 25-й процентиль тощо.
- Чи є викиди та які їх значення.
- Симетричні дані чи ні.
- Наскільки щільно згруповані дані.
- Дані спотворені? Якщо так, то в якому напрямку.


![box_plot.png](attachment:box_plot.png)

In [None]:
iris_df.hist(figsize=(10,6))
plt.tight_layout()
;

In [None]:
iris_df[['petal length (cm)', 'target']].hist('petal length (cm)');

In [None]:
iris_df.boxplot(by='target', figsize=(10,10));

# Візуалізація в Seaborn

Поглянемо, як всі ці самі візуалізації ми можемо побудувати з допомогою seaborn.

In [None]:
import seaborn as sns

In [None]:
sns.set_theme()

Можна будувати отакі красиві візуалізації:

In [None]:
sns.jointplot(data=iris_df, x="sepal length (cm)", y="sepal width (cm)", hue="target");

У seaborn `pairplot` - аналог `scatter_matrix` у pandas.plotting.

In [None]:
plt.figure(figsize=(5,5))
sns.pairplot(data=iris_df, hue="target");

## Модифікації pairplot

У pairplot є багато параметрів, з якими можна погратись. Розглянемо найбільш вживану модифікацію стандартного відображення. 

In [None]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
from scipy.stats import pearsonr

def reg_coef(x,y,label=None,color=None,**kwargs):
    ax = plt.gca()
    r,p = pearsonr(x,y)
    ax.annotate('r = {:.2f}'.format(r), xy=(0.5,0.5), xycoords='axes fraction', ha='center')
    ax.set_axis_off()

In [None]:
g = sns.PairGrid(iris_df)

g.map_diag(sns.distplot)
g.map_lower(sns.regplot)
g.map_upper(reg_coef);

## Налаштування в seaborn

Можна встановлювати зафарбовування точок у параметрі `hue`.

In [None]:
iris_df.columns

In [None]:
sns.scatterplot(
    data=iris_df,
    x='sepal length (cm)', y='sepal width (cm)', hue='target'
);

Можемо змінювати тему і додавати налаштування:

In [None]:
sns.set_theme(style="ticks", font_scale=1.25)
g = sns.relplot(
    data=iris_df,
    x='sepal length (cm)', y='sepal width (cm)', hue='target',
    palette="crest", marker="^", s=100,
)
g.set_axis_labels("Sepal length (cm)", "Sepal width (cm)")
g.legend.set_title("Iris type")
g.figure.set_size_inches(6.5, 4.5)
g.ax.margins(.15)
g.despine(trim=True);

## Теплова мапа

Побудуємо графік кореляцій із тепловим забарвленням.

In [None]:
corr_data = iris_df.drop('target', axis=1)

In [None]:
corr_data.corr()

In [None]:
plt.figure(figsize=(10, 8))
matrix = np.triu(corr_data.corr())
sns.heatmap(corr_data.corr(), annot=True, linewidth=.8, mask=matrix, cmap="rocket");

## matplotlib vs seaborn

Хоча ви можете працювати продуктивно, використовуючи лише функції seaborn, повне налаштування вашої графіки потребуватиме певних знань концепцій та API matplotlib.  
Одним з аспектів кривої навчання для нових користувачів seaborn буде знання того, що для досягнення конкретного налаштування необхідно перейти на рівень matplotlib.   
З іншого боку, користувачі, які прийшли з matplotlib, виявлять, що більша частина їхніх знань застосовна до seaborn.

Matplotlib має всеосяжний і потужний API; практично будь-який атрибут фігури можна змінити на свій смак.   
Комбінація високорівневого інтерфейсу seaborn і широких можливостей налаштування matplotlib дасть вам змогу як  
швидко досліджувати свої дані, так і створювати графіку, яка може бути адаптована в кінцевий продукт публікаційної якості.

# Візуалізація time series

In [None]:
# Завантажимо дані
df = pd.read_csv('https://github.com/selva86/datasets/raw/master/AirPassengers.csv')

In [None]:
df.shape

In [None]:
df.head()

Будуємо простий графік:

In [None]:
plt.figure(figsize=(8,5), dpi=80)
plt.plot('value', data=df);

Окей, але нам хочеться побачити дати.

In [None]:
plt.figure(figsize=(8,5), dpi= 80)
plt.plot('date', 'value', data=df);

Погано відображаються підписи.

In [None]:
df.date.loc[0]

In [None]:
df.index.tolist()[::12]

In [None]:
[x[:4] for x in df.date.tolist()[::12]]

In [None]:
plt.figure(figsize=(16,10), dpi=80)
plt.plot('date', 'value', data=df)

xtick_location = df.index.tolist()[::12]
xtick_labels = [x[:4] for x in df.date.tolist()[::12]]
plt.xticks(ticks=xtick_location, labels=xtick_labels, rotation=0, fontsize=12, horizontalalignment='center', alpha=.7)
plt.yticks(fontsize=12, alpha=.7)

plt.title("Air Passengers Traffic (1949 - 1969)", fontsize=22)
plt.xlabel('Year')
plt.ylabel('Number of passengers')

plt.grid(axis='both', alpha=.3) # для зручності перегляду
plt.show()

Альтренативно можемо побудувати таку візуалізацію з pandas.plotting.

In [None]:
df.plot('date','value', figsize=(10,6));

Варіант за замовченням вже непоганий. Але можемо зробити ще зручніше та гарніше змінвши тип даних дати і встановивши її індексом.

In [None]:
df.date = pd.to_datetime(df.date)
df.set_index('date', inplace=True)

Переглянемо, який зараз вигляд мають дані.

In [None]:
df[:5]

In [None]:
df.value.plot(figsize=(10,6));

## matplotlib vs seaborn

Хоча ви можете працювати продуктивно, використовуючи лише функції seaborn, повне налаштування вашої графіки потребуватиме певних знань концепцій та API matplotlib.  
Одним з аспектів кривої навчання для нових користувачів seaborn буде знання того, що для досягнення конкретного налаштування необхідно перейти на рівень matplotlib.   
З іншого боку, користувачі, які прийшли з matplotlib, виявлять, що більша частина їхніх знань застосовна до seaborn.

Matplotlib має всеосяжний і потужний API; практично будь-який атрибут фігури можна змінити на свій смак.   
Комбінація високорівневого інтерфейсу seaborn і широких можливостей налаштування matplotlib дасть вам змогу як  
швидко досліджувати свої дані, так і створювати графіку, яка може бути адаптована в кінцевий продукт публікаційної якості.

# Візуалізація time series

In [None]:
# Завантажимо дані
df = pd.read_csv('https://github.com/selva86/datasets/raw/master/AirPassengers.csv')

In [None]:
df.shape

In [None]:
df.head()

Будуємо простий графік:

In [None]:
plt.figure(figsize=(8,5), dpi=80)
plt.plot('value', data=df);

Окей, але нам хочеться побачити дати.

In [None]:
plt.figure(figsize=(8,5), dpi= 80)
plt.plot('date', 'value', data=df);

Погано відображаються підписи.

In [None]:
df.date.loc[0]

In [None]:
df.index.tolist()[::12]

In [None]:
[x[:4] for x in df.date.tolist()[::12]]

In [None]:
plt.figure(figsize=(16,10), dpi=80)
plt.plot('date', 'value', data=df)

xtick_location = df.index.tolist()[::12]
xtick_labels = [x[:4] for x in df.date.tolist()[::12]]
plt.xticks(ticks=xtick_location, labels=xtick_labels, rotation=0, fontsize=12, horizontalalignment='center', alpha=.7)
plt.yticks(fontsize=12, alpha=.7)

plt.title("Air Passengers Traffic (1949 - 1969)", fontsize=22)
plt.xlabel('Year')
plt.ylabel('Number of passengers')

plt.grid(axis='both', alpha=.3) # для зручності перегляду
plt.show()

Альтренативно можемо побудувати таку візуалізацію з pandas.plotting.

In [None]:
df.plot('date','value', figsize=(10,6));

Варіант за замовченням вже непоганий. Але можемо зробити ще зручніше та гарніше змінвши тип даних дати і встановивши її індексом.

In [None]:
df.date = pd.to_datetime(df.date)
df.set_index('date', inplace=True)

Переглянемо, який зараз вигляд мають дані.

In [None]:
df[:5]

In [None]:
df.value.plot(figsize=(10,6));