# Визуализация данных<a name="i19"></a>

Для того, чтобы эффективно проводить разведочный анализ, нам надо познакомитсья со способами визуализации данных в Python.

Самая популярная библиотека визуализации данных, интегрированная в том числе в библиотеку pandas - это `matplotlib`.

Matplotlib cостоит из множества модулей. Модули наполнены различными классами и функциями, которые иерархически связаны между собой.

### Иерархическая структура рисунка в matplotlib

Главной единицей (объектом самого высокого уровня) при работе с matplotlib является рисунок (Figure). Любой рисунок в matplotlib имеет вложенную структуру и чем-то напоминает матрёшку. Пользовательская работа подразумевает операции с разными уровнями этой матрёшки:

Figure(Рисунок) -> Axes(Область рисования) -> Axis(Координатная ось)

#### Рисунок (Figure)

Рисунок является объектом самого верхнего уровня, на котором располагаются одна или несколько областей рисования (Axes), элементы рисунка Artisits (заголовки, легенда и т.д.) и основа-холст (Canvas). На рисунке может быть несколько областей рисования Axes, но данная область рисования Axes может принадлежать только одному рисунку Figure.

#### Область рисования (Axes)

Область рисования является объектом среднего уровня, который является, наверное, главным объектом работы с графикой matplotlib в объектно-ориентированом стиле. Это то, что ассоциируется со словом "plot", это часть изображения с пространством данных. Каждая область рисования Axes содержит две (или три в случае трёхмерных данных) координатных оси (Axis объектов), которые упорядочивают отображение данных.

#### Координатная ось (Axis)

Координатная ось являются объектом среднего уровня, которые определяют область изменения данных, на них наносятся деления ticks и подписи к делениям ticklabels. Расположение делений определяется объектом Locator, а подписи делений обрабатывает объект Formatter. Конфигурация координатных осей заключается в комбинировании различных свойств объектов Locator и Formatter.

#### Элементы рисунка (Artists)

Элементы рисунка Artists являются как бы красной линией для всех иерархических уровней. Практически всё, что отображается на рисунке является элементом рисунка (Artist), даже объекты Figure, Axes и Axis. Элементы рисунка Artists включают в себя такие простые объекты как текст (Text), плоская линия (Line2D), фигура (Patch) и другие.

Когда происходит отображение рисунка (figure rendering), все элементы рисунка Artists наносятся на основу-холст (Canvas). Большая часть из них связывается с областью рисования Axes. Также элемент рисунка не может совместно использоваться несколькими областями Axes или быть перемещён с одной на другую.


```python
# де-факто стандарт вызова pyplot в python
import matplotlib.pyplot as plt

fig = plt.figure()   # Создание объекта Figure
print (fig.axes)   # Список текущих областей рисования пуст
print (type(fig))   # тип объекта Figure
plt.scatter(1.0, 1.0)   # scatter - метод для нанесения маркера в точке (1.0, 1.0)

plt.show()
```

### Элементы рисунка Artists<a name="i20"></a>

Всё пространство рисунка Figure (прямоугольной или иной формы) можно использовать для нанесения других элементов рисунка, например, контейнеров Axes, графических примитивов в виде линий, фигур, текста и так далее. В любом случае каждый рисунок можно структурно представить следующим образом:

- Область рисования Axes
  - Заголовок области рисования -> plt.title();
- Ось абсцисс Xaxis
  - Подпись оси абсцисс OX -> plt.xlabel();
- Ось абсцисс Yaxis
  - Подпись оси абсцисс OY -> plt.ylabel();
- Легенда -> plt.legend()
- Цветовая шкала -> plt.colorbar()
  - Подпись горизонтальной оси абсцисс OY -> cbar.ax.set_xlabel();
  - Подпись вертикальной оси абсцисс OY -> cbar.ax.set_ylabel();
- Деления на оси абсцисс OX -> plt.xticks()
- Деления на оси ординат OY -> plt.yticks()

Для каждого из перечисленных уровней-контейнеров есть возможность нанести заголовок (title) или подпись (label). Подписи к рисунку облегчают понимание того, в каких единицах представлены данные на графике или диаграмме.

Также часто на рисунок наносятся линии вспомогательной сетки (grid). В pyplot она вызывается командой plt.grid(). Вспомогательная сетка связана с делениями координатных осей (ticks), которые определяются автоматически исходя из значений выборки. В дальнейшем будет показано как определять положение и задавать значения делений на координатных осях. Стоит сказать, что в matplotlib существуют главные деления (major ticks) и вспомогательные (minor ticks) для каждой координатной оси. По умолчанию рисуются только главные делений и связанные с ними линии сетки grid. В плане настройки главные деления ничем не отличаются от вспомогательных.

```python
import matplotlib.pyplot as plt
import numpy as np

lag = 0.1
x = np.arange(0.0, 2*np.pi+lag, lag)
y = np.cos(x)

fig = plt.figure()
plt.plot(x, y)

plt.text(np.pi-0.5, 0,  '1 Axes', fontsize=26, bbox=dict( color='w'))
plt.text(0.1, 0, '3 Yaxis', fontsize=18, bbox=dict(color='w'), rotation=90)
plt.text(5, -0.9, '2 Xaxis', fontsize=18, bbox=dict(color='w'))

plt.title('1a TITLE')
plt.ylabel('3a Ylabel')
plt.xlabel('2a Xlabel ')

plt.text(5, 0.85, '6 Xticks', fontsize=12, bbox=dict( color='w'), rotation=90)
plt.text(0.95, -0.55, '6 Xticks', fontsize=12, bbox=dict( color='w'), rotation=90)

plt.text(5.75, -0.5, '7 Yticks', fontsize=12, bbox=dict( color='w'))
plt.text(0.15, 0.475, '7 Yticks', fontsize=12, bbox=dict(color='w'))

plt.grid(True)

plt.show()
```

Параметры, которые определяют эти свойства в различных графических командах, обычно имеют одинаковый синтаксис, то есть называются одинаково. Стандартным способом задания свойств какого либо создаваемого объекта (или методу) является передача по ключу: ключ=значение. Наиболее часто встречаемые названия параметров изменения свойств графических объектов перечислены ниже:
- color/colors/c - цвет;
- linewidth/linewidths - толщина линии;
- linestyle - тип линии;
- alpha - степень прозрачности (от полностью прозрачного 0 до непрозрачного 1);
- fontsize - размер шрифта;
- marker - тип маркера;
- s - размер маркера в методе plt.scatter(только цифры);
- rotation - поворот строки на X градусов.

### Графические команды<a name="i21"></a>

В Matplotlib заложены как простые графические команды, так и достаточно сложные. Доступ к ним через pyplot означает использование синтаксиса вида "plt.название_команды()".

Наиболее распространённые команды для создания научной графики в matplotlib это:

- Самые простые графические команды:
  - plt.scatter() - маркер или точечное рисование;
  - plt.plot() - ломаная линия;
  - plt.text() - нанесение текста;
- Диаграммы:
  - plt.bar(), plt.barh(), plt.barbs(), broken_barh() - столбчатая диаграмма;
  - plt.hist(), plt.hist2d(), plt.hlines - гистограмма;
  - plt.pie() - круговая диаграмма;
  - plt.boxplot() - "ящик с усами" (boxwhisker);
  - plt.errorbar() - оценка погрешности, "усы".
- Изображения в изолиниях:
  - plt.contour() - изолинии;
  - plt.contourf() - изолинии с послойной окраской;
- Отображения:
  - plt.pcolor(), plt.pcolormesh() - псевдоцветное изображение матрицы (2D массива);
  - plt.imshow() - вставка графики (пиксели + сглаживание);
  - plt.matshow() - отображение данных в виде квадратов.
- Заливка:
  - plt.fill() - заливка многоугольника;
  - plt.fill_between(), plt.fill_betweenx() - заливка между двумя линиями;
- Векторные диаграммы:
  - plt.streamplot() - линии тока;
  - plt.quiver() - векторное поле.

Несколько примеров. Точечная диаграмма.

```python
import random
import numpy as np
x=[random.randint(0,100) for i in range(50)]
y=[random.randint(100,300) for i in range(50)]

fig = plt.figure()
# Добавление на рисунок прямоугольной (по умолчанию) области рисования
plt.xlabel('Ось X')
plt.ylabel('Ось Y')
scatter = plt.scatter(x, y)
plt.show()
```

Столбчатая диаграмма.

```python
fig = plt.figure()
# Добавление на рисунок прямоугольной (по умолчанию) области рисования
scatter = plt.bar(x, y)
plt.show()
```
 
Ящик с усиками.
```python
fig = plt.figure()
scatter = plt.boxplot(x)
plt.show()
```

Более подробно в практике применения. [Документация](https://pythonworld.ru/novosti-mira-python/scientific-graphics-in-python.html)

## Seaborn<a name="i22"></a>

Seaborn — это более высокоуровневое API на базе библиотеки matplotlib. Seaborn содержит более адекватные дефолтные настройки оформления графиков. Если просто добавить в код import seaborn, то картинки станут гораздо симпатичнее. Также в библиотеке есть достаточно сложные типы визуализации, которые в matplotlib потребовали бы большого количество кода.

Для визуализации распределения метрических переменных используются следующие типы графиков:

- distplot
- jointplot
- rugplot
- kdeplot

### distplot

distplot одновременно показывает гистограмму и график плотности распределения.

Загрузим вначале библиотеки и набо данных для иллюстрации. 

```python
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

tips = sns.load_dataset('tips')
tips.head()
```

```python
sns.distplot(tips['total_bill']);
```

Можно оставить только гистограмму.

```python
sns.distplot(tips['total_bill'], kde=False, bins=30);
```

```python
sns.displot(data=tips, x="total_bill", col="time", kde=True)
```

### jointplot<a name="i23"></a>

Функция jointplot() показывает совместное распределение по двум переменным. Она имеет параметр kind который может принимать следующие значения:

- “scatter”
- “reg”
- “resid”
- “kde”
- “hex”

```python
sns.jointplot(x='total_bill', y='tip', data=tips, kind='scatter');
```

```python
sns.jointplot(x='total_bill',y='tip',data=tips,kind='hex');
```

### pairplot<a name="i24"></a>

pairplot показывает отношения между всеми парами переменных.

```python
sns.pairplot(tips);
```

Или другой вариант.

```python
sns.pairplot(tips, hue='sex', palette='Set1');
```

### lmplot

```python
sns.lmplot(data=tips, x="total_bill", y="tip", col="time", hue="smoker")
```

### boxplot и violinplot<a name="i25"></a>

Эти два графика используются для изучения формы распределения.

#### boxplot

Другое название boxplot — ящик с усами или диаграмма размаха. Он был разработан Джоном Тьюки в 1970-х годах.

Такой вид диаграммы в удобной форме показывает медиану (или, если нужно, среднее), нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы. Несколько таких ящиков можно нарисовать бок о бок, чтобы визуально сравнивать одно распределение с другим; их можно располагать как горизонтально, так и вертикально. Расстояния между различными частями ящика позволяют определить степень разброса (дисперсии) и асимметрии данных и выявить выбросы.

```python
sns.boxplot(x="day", y="total_bill", data=tips, palette='rainbow');
```
Несколько другое представление.

```python
sns.boxplot(data=tips, palette='rainbow', orient='h');
```

#### violinplot

Выполняет ту же функцию, что и boxplot. По сути это два повёрнутые на 90 и -90 градусов графика плотности распределения, слипшиеся друг с другом.

```python
sns.violinplot(x="day", y="total_bill", data=tips, palette='rainbow');
```

```python
sns.violinplot(x="day", y="total_bill", data=tips, hue='sex', palette='Set1');
````

### Тепловая карта<a name="i26"></a>

```python
sns.heatmap(tips.corr());
```

Можно сменить цвета.

```python
sns.heatmap(tips.corr(),cmap='coolwarm',annot=True);
```

## Встроенные функции pandas

Часто проще построить фигуру следующим образом.

[Документация](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.bar.html)

```python
tips["total_bill"].plot()
```

Или 

```python
tips.hist(column=["total_bill"], figsize=(10,4), bins=10);
```