# ВІЗУАЛІЗАЦІЯ ДАНИХ

### 1. Місце візуалізації в МН
### 2. Огляд та порівняльна характеристика засобів візуалізації
### 3. Можливості бібліотеки візуалізації Matplotlib
### 4. Візуалізація даних в середовищі Pandas


## 1. Місце візуалізації в МН

[Візуалізація](https://uk.wikipedia.org/wiki/Візуалізація) -  це унаочнення, створення умов для візуального спостереження.

### Типи візуалізації:
- __графіки__
- __діаграми__
- інфографіка
- схеми
- інтерактивний сторітеллінг
- карти і картограми

### Найбільш часто використовуються:
![image-4.png](attachment:image-4.png)

1. __LINE CHARTS__ використовуються для відображення взаємозв’язків двох показчиків даних. Це хороший індикатор тенденцій, накопичень, зниження та змін.
2. __BAR CHARTS__ (гістограми) в основному використовуються для: зміни даних з часом, порівняння різних даних і зв’язку між частинами і цілим.
3. __STACKED BAR__ (гістограми з нагромадженням) можна використовувати для порівняння зв’язків між частинами і цілим, а також застосовувати до дискретних і безперервних даних.

![image.png](attachment:image.png)

4. __CANDLESTICK__ (свічкова діаграма) — це стиль діаграми, що використовується для опису, візуалізації та аналізу руху показчика за певний час з відображенням деяких його статистичних властивостей (середня, максимальна та ін.).
5. __AREA__ (діаграма площ) відображає графічно кількісні дані. Область між віссю та лінією зазвичай підкреслюється кольорами, текстурами та штрихуваннями. Зазвичай порівнюють дві чи більше величини. 
6. __TIMELINE__ хронологічна шкала – це відображення значень показчика у хронологічному порядку. 

![image.png](attachment:image.png)

7. __HORIZON CHART__ (горизонтальна діаграма) дає простий спосіб візуалізації кількох ліній або діаграм з нагромадженням, розділених горизонтально за категоріями.
8. __WATERFALL CHART__ (діаграма водоспаду) — це форма візуалізації даних, яка допомагає зрозуміти кумулятивний ефект послідовно введених позитивних або негативних значень.

## 2. Огляд та порівняльна характеристика засобів візуалізації

### [Bokeh](https://bokeh.org) 
це бібліотека інтерактивної візуалізації Python, яка орієнтована на сучасні веб-браузери для презентацій. Її мета полягає в тому, щоб забезпечити елегантну, стислу побудову графіки в стилі [D3.js](https://d3js.org) і розширити цю можливість за допомогою високопродуктивної інтерактивності над дуже великими або потоковими наборами даних.

#### Характеристика
- Гнучкість
- Інтерактивність
- Потужний
- Продуктивний
- Спільний доступ
- OpenSource

### [Plotly](https://plotly.com/python/)
Веб-платформа для аналізу та оформлення графіків. Пропонує sandbox Python (підтримується NumPy), сітку даних та графічний інтерфейс. Скрипти Python можна зберігати та спільно редагувати.

#### Характеристика
- Діаграми, інформаційні панелі
- Експорт файлів, менеджер додатків
- Потокова обробка, механізм моментальних знімків
- Підтримка великих даних для Python

### [Seaborn](https://seaborn.pydata.org)
це бібліотека візуалізації даних, побудована на основі matplotlib і тісно інтегрована зі структурами даних pandas у Python. Візуалізація є центральною частиною Seaborn, яка допомагає досліджувати та розуміти дані.

#### Характеристика
- Вбудовані теми для стилізації графіки matplotlib
- Візуалізація одновимірних і двовимірних даних
- Підгонка та візуалізація моделей лінійної регресії
- Побудова графіка статистичних часових рядів
- Працює зі структурами даних NumPy і Pandas

## 3. Можливості бібліотеки візуалізації Matplotlib

### [Matplotlib](https://matplotlib.org) 
це кросплатформна бібліотека Python для побудови 2D-графікив. Її можна використовувати в різних користувацьких інтерфейсах, сценаріях python, оболонках IPython, ноутбуках Jupyter, веб-додатках. 
- Підтримує збереження малюнків у різних друкованих форматах. 
- Має обмежену підтримку 3D-фігур. 
- Підтримує багато сторонніх розширень.

### Архітектура Matplotlib
Matplotlib має 3-рівневу архітектуру організовану логічно у вигляді стека. 
- __Scripting__ — це API, за допомогою якого розробники створюють графіки. 
- __Artist__ — це двигун, що виконує фактичну роботу зі створення графіка всередині.
- __Backend__ - це місце, де відображається графік.

__Схема розташування рівнів matplotlib__
![image.png](attachment:image.png)

Об’єкт matplotlib найвищого рівня, який містить усі елементи вихідного графіка, називається __Figure__.

![image.png](attachment:image.png)

#### Axes

__Вісі__ — це область малюнка, де побудовано графік. Axes має заголовок, мітку __X__ та мітку __Y__. Фігура може мати багато таких осей, кожна з яких представляє один або кілька графіків. 

#### Axis

Це числові лінії, що представляють масштаб графіків, які будуються. 2D графіки мають вісь __X__ та вісь __Y__, 3D графіки мають вісь __X__, вісь __Y__ та вісь __Z__. Axis є елементом Axes.

#### Label

Так називають різні елементи фігури, напр. мітка осі X, мітка осі Y, мітка графіка  тощо.

#### Legend

Якщо в осях є кілька графіків , кожна з них має власну мітку, і всі ці мітки представлені у вигляді __легенди__. 

#### Заголовок

Це ім’я, яке відображає назву графіка

#### Позначки (Tick Labels)

Кожна вісь (X, Y або Z) матиме діапазон значень, які поділені на багато рівних значень. Блоки вибираються на двох рівнях. На наведеному вище малюнку шкала осі X коливається від 0 до 4, розділена на 4 головні блоки (0, 1, 2, 3 і 4), а кожен з основних розділів додатково поділений на 4 допоміжних блоки (0, 0,25, 0,5, 0,75). Великі відсіки називаються __Major Tick__, а маленькі — __Minor Tick__, а назви, надані їм, називаються __Major Tick Label__ і __Minor Tick label__.

#### Spines

Межі фігури називаються spines(шипами). Для кожної фігури буде 4 spines (верхня, нижня, ліва та права).

#### Grid

Для зручнішого читання координат різних точок на графіку область графіка поділена на __сітку__. Зазвичай ця сітка малюється уздовж основних тиків осей X і Y.

### Основні графіки в matplotlib

[повний перелік API](https://matplotlib.org/stable/api/index.html)

In [None]:
# Встановити backend на вивід в екран
%matplotlib inline

# Імпорт бібліотек matplotlib та pyplot
import matplotlib
from matplotlib import pyplot as plt

#### [Лінійний графік]( https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html#matplotlib.pyplot.plot)
Лінійний графік використовується для представлення зв'язку між двома безперервними змінними. Зазвичай він використовується для представлення тенденції змінної в часі

In [None]:
# api для побудови лінійного графіку `plot`
plt.plot([1, 50]);

In [None]:
plt.plot((1,5), [3,9]);

# мітки та назва
plt.title("Приклад лінійного графіка");
plt.xlabel("вісь-X");
plt.ylabel("вісь-Y");

# додатковий графік
plt.plot([8, -1, 3, 6, 8]);
# plt.axis([-1, 15, 0, 10])

#### [Стовпчикова діаграма](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.bar.html#matplotlib.pyplot.bar)

Стовпчикова діаграма — це графік, який використовує стовпчики для порівняння різних категорій даних. Стрічки можуть відображатися вертикально або горизонтально, залежно від того, яка вісь використовується для категорійної змінної. 

In [None]:
x_names = ['A', 'B', 'C']
y_values = [1.3, 4, 2.1]
plt.bar(x_names, y_values, color=['green','orange','r'], alpha=.5);
plt.title("Приклад стилю `bar");
plt.xlabel("найменування");
plt.ylabel("значення");

In [None]:
# горізонтальна гістограма
plt.barh(x_names, y_values);

#### [Кругова діаграма](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.pie.html#matplotlib.pyplot.pie)
використовується для представлення внеску різних категорій/груп у загальну суму.

In [None]:
plt.figure(figsize=(5,5))
plt.pie(y_values, labels=x_names, autopct='%i%%', colors='rgb', explode=[0,0,.1], shadow=True);

#### [Гістограми](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html#matplotlib.pyplot.hist) 
використовується для відображення розподілу безперервної змінної. Значення безперервної змінної розбиваються на потрібну кількість блоків і відкладаються на осі x, а на осі y - кількість значень, які потрапляють в кожний блок.

In [None]:
x_values = [200, 120, 100, 150, 145, 190, 122, 34, 37, 110, 45]
y_values = [20, 13, 11, 12, 12, 18, 9, 3, 5, 10, 4]
plt.figure(figsize=(10,5), edgecolor='black')
plt.title("Приклад гістограми")
plt.ylabel("кількість значень")
plt.hist(y_values, bins=3, color='g', edgecolor='black');


#### [Діаграма розсіювання](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html#matplotlib.pyplot.scatterr)
Діаграма розсіювання використовується для порівняння двох змінних і з’ясування, чи є між ними зв’язок. Якщо в даних є окремі кластери/сегменти, це буде чітко видно на графіку.

In [None]:
plt.figure(figsize=(15,5))
plt.scatter(x_values, y_values, color='g', s=180, marker='.');
plt.title("Приклад діаграми розсіюваня");
plt.xlabel("значення X");
plt.ylabel("значення Y");

####  [Коробчатий графік](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.boxplot.html#matplotlib.pyplot.boxplot)
використовується для візуалізації описової статистики розподілу даних безперервної змінної. Він візуально показує 1-й і 3-й квартилі, середнє значення, вуса в 1,5-кратному IQR (міжквартильний діапазон, різниця між 3-м і 1-м квартилем), вище яких є викиди. Якщо немає викидів, то вуса відображатимуть мінімальні та максимальні значення

In [None]:
print(x_values)
x_values[3] = 10
plt.title("Приклад Box plot")
plt.boxplot(x_values, vert=False, labels=['X-values']);

## 4. Візуалізація даних в середовищі Pandas

In [None]:
import pandas as pd
# https://data.gov.ua/dataset/387b1fd4-f2b8-4dd7-ac3d-7c692c2f4fef 
builds = pd.read_excel("build_indexes.xlsx", header=1)

In [None]:
builds.info()

In [None]:
builds.rename(columns={'attributes': 'регіони'}, inplace=True)

In [None]:
builds.describe()

In [None]:
builds.head(10)

In [None]:
svod = builds.pivot_table(index='регіони', columns='період', values='дані', aggfunc='mean' )

In [None]:
svod.head(10)

In [None]:
svod.plot(figsize=(15,5));

In [None]:
svod.plot(kind='bar', figsize=(15,5), rot=45);

In [None]:
svod.plot(figsize=(15,10), kind='area', rot=90, xticks=range(len(svod.index)));

# ПИТАННЯ, ЗАУВАЖЕННЯ, ПРОПОЗИЦІЇ?