<!-- dom:TITLE: Графическая визуализация данных -->
# Графическая визуализация данных
<!-- dom:AUTHOR: С.В. Лемешевский Email:sergey.lemeshevsky@gmail.com at Институт математики НАН Беларуси -->
<!-- Author: -->  
**С.В. Лемешевский** (email: `sergey.lemeshevsky@gmail.com`), Институт математики НАН Беларуси

Date: **Mar 31, 2020**

Одной из важных частей в анализе данных является графическое
визуализация. Это может быть частью исследовательского процесса —
например, чтобы помочь идентифицировать выбросы или необходимые
преобразования данных, или как способ генерирования идей для
моделей. В Python есть много дополнительных библиотек для создания
статических или динамических визуализаций, но мы сосредоточемся в
основном на `matplotlib` и библиотеках, которые построены на её
основе. 

Со временем `matplotlib` породила ряд дополнительных наборов инструментов
для визуализации данных, которые используют `matplotlib` в качестве
«ядра». Одним из таких инструментов является `seaborn`.






<!-- Common Mako variable and functions -->
<!-- -*- coding: utf-8 -*- -->


# Краткий пример использования `matplotlib`
<div id="visual:matplotlib"></div>

Для импорта библиотеки `matplotlib` будем использовать следующее
соглашение:

In [None]:
%matplotlib inline

import matplotlib.pyplot as plt

Ниже приведен пример построения простой прямой:

In [None]:
import numpy as np

In [None]:
data = np.arange(10)

In [None]:
data

In [None]:
plt.plot(data)

## Рисунки и подграфики
<div id="visual:matplotlib:figs_and_subplots"></div>

Графики в `matplotlib` находятся внутри объекта `Figure`. Новый
рисунок можно создать с помощью `plt.figure`:

In [None]:
fig = plt.figure()

В интерпретаторе IPython будет построено пустое окно, а в блокноте
Jupyter ничего не произойдет. Нельзя создавать окно с пустым
рисунком. Нужно создать один или несколько подграфиков (subplots),
используя функцию `add_subplot`

In [None]:
fig.add_subplot(2, 2, 1)

Это означает, что рисунок должен быть размером $2 \times 2$
(т.е. содержать максимум 4 графика), и мы выбрали первый из четырех
графиков (нумерация начинается с единицы). Можно выбрать следующие 2
графика:

In [None]:
ax2 = fig.add_subplot(2, 2, 2)

In [None]:
ax3 = fig.add_subplot(2, 2, 3)

Если выполнить команду построения графика, например, `plt.plot([1.5, 3.5, -2, 1.6])`,
вывод будет осуществляться в последний график последнего созданного
рисунка. Например, выполнение команды

In [None]:
plt.plot(np.random.randn(50).cumsum(), 'k--')

Выражение `'k--'` задает стиль линии: черная штриховая линия. 
Метод `fig.add_subplot` возвращает объект `AxesSubplot`, в который
можно напрямую выводить график:

In [None]:
_ = ax1.hist(np.random.randn(100), bins=20, color='k', alpha=0.3)

In [None]:
ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))

Полный каталог типов графиков можно найти на сайте <https://matplotlib.org/>.

Как вы заметили представленные выше команды, выполняемые в отдельных
ячейках, в блокноте Jupyter не работают. Для того чтобы строить
подграфики в Jupyter нужно все команды выполнять в одной ячейке:

In [None]:
fig = plt.figure()
fig.add_subplot(2, 2, 1)
ax1 = fig.add_subplot(2, 2, 2)
ax2 = fig.add_subplot(2, 2, 3)
plt.plot([1.5, 3.5, -2, 1.6])
_ = ax1.hist(np.random.randn(100), bins=20, color='k', alpha=0.3)
ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))

## Цвет, маркеры и стили линий
<div id="visual:matplotlib:colors"></div>

Основная функция `plot` библиотеки `matplotlib` принимает массивы
координат `x` и `y` и (опционально) строку, задающую цвет и стиль
линии. Например, для того чтобы построить зависимость `y` от `x`
зелеными штрихами, необходимо выполнить:

```Python
        ax.plot(x, y, 'g--')
```

Таким образом, мы задали и цвет и стиль линии в виде строки. На
практике при программном создании графиков использование строк не
удобно. Такой же график можно построить с помощью команды:

```Python
        ax.plot(x, y, linestyle='--', color='g')
```

Графики могут иметь также маркеры для выделения точек данных. Так как
`matplotlib` создает непрерывные линии, интерполируя значения между
заданными точками, может быть не ясно, где находятся заданные
значения. Маркеры могут быть частью строки, задающей стиль линии:

In [None]:
from numpy.random import randn

In [None]:
plt.plot(randn(30).cumsum(), 'ko--')

Это же можно было записать более явно:

```Python
        plot(randn(30).cumsum(), color='k', linestyle='dashed', marker='o')
```

Как видно, между последовательными точками строится линейная
интерполяция. Это поведение можно изменить с помощью параметра
`drawstyle`:

In [None]:
data = np.random.randn(30).cumsum()
plt.plot(data, 'k--', label='Default')
plt.plot(data, 'k-', drawstyle='steps-post', label='steps-post')
plt.legend(loc='best')

## Подписи к осям, масштаб и легенда
<div id="visual:matplotlib:ticks"></div>

Для иллюстрации настройки графиков создадим простой рисунок и
отобразим график случайного блуждания:

In [None]:
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)
ax.plot(np.random.randn(1000).cumsum())

Для изменения подписей на оси $x$ воспользуемся методами `set_xticks`
и `set_xticklables`:

In [None]:
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)
ax.plot(np.random.randn(1000).cumsum())
ticks = ax.set_xticks([0, 250, 500, 750, 1000])
labels = ax.set_xticklabels(['one', 'two', 'three', 'four', 'five'], rotation=30, fontsize='small')

Параметр `rotation` поворачивает метки надписей на оси $x$ на 30
градусов. И, наконец, зададим название графика и метку для оси $x$ с
помощью методов `set_title` и `set_xlabel`:

In [None]:
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)
ax.plot(np.random.randn(1000).cumsum())
ticks = ax.set_xticks([0, 250, 500, 750, 1000])
labels = ax.set_xticklabels(['one', 'two', 'three', 'four', 'five'], rotation=30, fontsize='small')
ax.set_title('Первый график matplotlib')
ax.set_xlabel('Шаги')

Модификация оси $y$ осуществляется точно также, только нужно  заменить
`x` на `y` в приведенном выше коде. У класса осей есть метод `set`,
который допускает пакетную настройку свойств графика. В предыдущем 
примере можно было также написать:

```Python
        props = {
            'title': 'Первый график matplotlib',
            'xlabel': 'Шаги
        }
        ax.set(**props)
```

Для вывода легенды графика есть несколько способов. Простейший
заключается в передаче аргумента `label` при построении графиков:

In [None]:
fig = plt.figure(); ax = fig.add_subplot(1, 1, 1)
ax.plot(randn(1000).cumsum(), 'k', label='one')
ax.plot(randn(1000).cumsum(), 'k--', label='two')
ax.plot(randn(1000).cumsum(), 'k.', label='three')
ax.legend(loc='best')

## Сохранение рисунков в файл
<div id="visual:matplotlib:saving"></div>

Можно сохранить активный рисунок в файл с помощью метода
`plt.savefig`. Например, чтобы сохранить рисунок в формате SVG
достаточно набрать:

```Python
        plt.savefig('figpath.svg')
```

Тип файла определяется расширением. Есть пара важных параметров:
`dpi`, который задает разрешение рисунка (точек на дюйм),
`bbox_inches`, который может обрезать пустое пространство вокруг
рисунка. Например, чтобы сохранить тот же график в формате PNG с
разрешением 400 DPI, нудно выполнить:

```Python
        plt.savefig('figpath.png', dpi=400, bbox_inches='tight')
```

Функция `savefig` сохраняет не только на диск. Она может записывать
график в любой файлоподобный объект, например в `BytesIO`:

```Python
        from io import BytesIO
        buffer = BytesIO()
        plt.savefig(buffer)
        plot_data = buffer.getvalue()
```

## Таблица 1 : Метод `savefig`: параметры


<table border="1">
<thead>
<tr><th align="left">        Параметр        </th> <th align="left">                                                   Описание                                                   </th> </tr>
</thead>
<tbody>
<tr><td align="left">   <code>fname</code>                     </td> <td align="left">   Строка, содержащая путь к файлу или файлоподобный объект Python. Формат рисунка определяется расширением файла    </td> </tr>
<tr><td align="left">   <code>dpi</code>                       </td> <td align="left">   Разрешение рисунка в точках на дюйм. По умолчанию 100                                                             </td> </tr>
<tr><td align="left">   <code>facecolor</code>, <code>edgecolor</code>    </td> <td align="left">   Цвет фона рисунка вне графика. По умолчанию <code>w</code> (белый)                                                           </td> </tr>
<tr><td align="left">   <code>format</code>                    </td> <td align="left">   Явное задание формата файла                                                                                       </td> </tr>
<tr><td align="left">   <code>bbox_inches</code>               </td> <td align="left">   Часть рисунка для сохранения. Если задано <code>'tight'</code>, 2будет попытка обрезать пустое пространство вокруг           </td> </tr>
</tbody>
</table>




<!-- Local Variables: -->
<!-- doconce-chapter-nickname: "visual" -->
<!-- doconce-section-nickname: "matplotlib" -->
<!-- End: -->



# Построение графиков с помощью `pandas` и `seaborn`
<div id="visual:plt-with-pandas"></div>

Библиотека `matplotlib` может быть инструментом довольно низкого
уровня. График собирается из его базовых компонентов: отображения
данных (т.е. тип графика: линия, полоса, прямоугольник, разброс,
контур и т.д.), легенды, заголовка, меток и других аннотаций. В
библиотеке `pandas` мы можем получить множество столбцов данных, а
также метки строк и столбцов. В `pandas` имеются встроенные методы,
которые упрощают визуализацию объектов `DataFrame` и `Series`. Еще
одна библиотека для статистических графиков — `seaborn`.

In [None]:
import numpy as np
import  pandas as pd

## Линейные графики
<div id="visual:plt-with-pandas:line"></div>

Объекты `Series` и `DataFrame` имеют метод `plot` для создания базовых
типов графиков. По умолчанию `plot()` создает линейные графики

In [None]:
s = pd.Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10))
s.plot()

Индекс объекта `Series` передается в `plot` библиотеки `matplotlib`
для оси $x$. При этом такое поведение можно отключить с помощью
параметра `use_index = False`. В таблице
[visual:plt-with-pandas:tbl:1](#visual:plt-with-pandas:tbl:1) дается полный список
параметров функции `Series.plot`.

Большинство графических методов `pandas` принимают опциональный
параметр `ax`, который может являться объектом `subplot`. Это
позволяет размещать подграфики на сетке.




## Таблица 2 : Параметры метода `Series.plot` <div id="visual:plt-with-pandas:tbl:1"></div>


<table border="1">
<thead>
<tr><th align="left">  Параметр </th> <th align="left">                                                   Описани                                                   </th> </tr>
</thead>
<tbody>
<tr><td align="left">   <code>label</code>        </td> <td align="left">   Метка для легенды                                                                                                </td> </tr>
<tr><td align="left">   <code>ax</code>           </td> <td align="left">   Объект <code>subplot</code> из <code>matplotlib</code>, в который выводится график. Если не задан — вывод идет в активный подграфик    </td> </tr>
<tr><td align="left">   <code>style</code>        </td> <td align="left">   Строка, задающая стиль графика (например, <code>ko--</code>)                                                                </td> </tr>
<tr><td align="left">   <code>alpha</code>        </td> <td align="left">   Прозрачность заполнения графика (от 0 до 1)                                                                      </td> </tr>
<tr><td align="left">   <code>kind</code>         </td> <td align="left">   Тип графика. Может быть: 'area' , 'bar' , 'barh' , 'density', 'hist' , 'kde' , 'line' , 'pie'                    </td> </tr>
<tr><td align="left">   <code>logy</code>         </td> <td align="left">   Использовать ли логарифмический масштаб по оси <code>y</code>                                                               </td> </tr>
<tr><td align="left">   <code>use_index</code>    </td> <td align="left">   Использовать ли объект индекс для меток оси                                                                      </td> </tr>
<tr><td align="left">   <code>rot</code>          </td> <td align="left">   Поворот меток оси                                                                                                </td> </tr>
<tr><td align="left">   <code>xticks</code>       </td> <td align="left">   Значения для меток оси <code>x</code>                                                                                       </td> </tr>
<tr><td align="left">   <code>yticks</code>       </td> <td align="left">   Значения для меток оси <code>x</code>                                                                                       </td> </tr>
<tr><td align="left">   <code>xlim</code>         </td> <td align="left">   Границы по оси <code>x</code> (например, <code>[0, 10]</code>)                                                                         </td> </tr>
<tr><td align="left">   <code>ylim</code>         </td> <td align="left">   Границы по оси <code>y</code>                                                                                               </td> </tr>
<tr><td align="left">   <code>grid</code>         </td> <td align="left">   Отображать ли сетку по осям (включено по умолчанию)                                                              </td> </tr>
</tbody>
</table>


Метод `plot` объекта `DataFrame` выводит график для каждого столбца
данных в виде линии на одном и том же подграфике, создавая при этом
легенду автоматически:

In [None]:
df = pd.DataFrame(np.random.randn(10, 4).cumsum(0), columns=['A', 'B', 'C', 'D'], index=np.arange(0, 100, 10))

In [None]:
df.plot()

Атрибут `plot` содержит «семейство» методов для различных типов
графиков. Например, `df.plot()` эквивалентно `df.plot.line()`.

В `DataFrame` есть несколько параметры, которые обеспечивают некоторую
гибкость при обработке столбцов. Например, следует ли разместить их
все на одном подграфике или создавать отдельные. В таблице
[visual:plt-with-pandas:tbl:2](#visual:plt-with-pandas:tbl:2) представлены такие параметры.


## Таблица 3 : Специфичные для `DataFrame` параметры `plot` <div id="visual:plt-with-pandas:tbl:2"></div>


<table border="1">
<thead>
<tr><th align="left">   Параметр   </th> <th align="left">                                   Описание                                   </th> </tr>
</thead>
<tbody>
<tr><td align="left">   <code>subplots</code>        </td> <td align="left">   Рисовать ли каждый столбец <code>DataFrame</code> в отдельном подграфике                     </td> </tr>
<tr><td align="left">   <code>sharex</code>          </td> <td align="left">   Если <code>subplots=True</code>, использовать ли одну и ту же ось <code>x</code>, связывая метки оси    </td> </tr>
<tr><td align="left">   <code>sharey</code>          </td> <td align="left">   Если <code>subplots=True</code>, использовать ли одну и ту же ось <code>y</code>                        </td> </tr>
<tr><td align="left">   <code>figsize</code>         </td> <td align="left">   Размер рисунка для создания в виде кортежа                                        </td> </tr>
<tr><td align="left">   <code>title</code>           </td> <td align="left">   Заголовок рисунка в виде строки                                                   </td> </tr>
<tr><td align="left">   <code>legend</code>          </td> <td align="left">   Добавлять ли легенду на рисунок (по умолчанию <code>True</code>)                             </td> </tr>
<tr><td align="left">   <code>sort_columns</code>    </td> <td align="left">   Отображать ли столбцы в алфавитном порядке                                        </td> </tr>
</tbody>
</table>

## Столбчатые диаграммы
<div id="visual:plt-with-pandas:bar"></div>

Методы `plot.bar()` и `plot.barh()` строят вертикальные и
горизонтальные столбчатые диаграммы. В этом случае индексы объектов
`Series` и `DataFrame` в качестве меток на оси `x` (`bar`) или `y`
(`barh`).

In [None]:
fig, axes = plt.subplots(2, 1)
data = pd.Series(np.random.rand(16), index=list('abcdefghijklmnop'))
data.plot.bar(ax=axes[0], color='k', alpha=0.7)
data.plot.barh(ax=axes[1], color='k', alpha=0.7)

Параметры `color='k`' и `alpha=0.7` устанавливают цвет графика в
черный и частичную прозрачность для заполнения.

В `DataFrame` столбчатые диаграммы группируют каждую строку значений
вместе в группу столбиков, соответствующих каждому значению в строке:

In [None]:
df = pd.DataFrame(np.random.rand(6, 4), index=['one', 'two', 'three', 'four', 'five', 'six'], columns=pd.Index(['A', 'B', 'C', 'D'], name='Genus'))

In [None]:
df

In [None]:
df.plot.bar()

Обратите внимание на то, что имя столбцов `'Genus'` используется в
качестве заголовка легенды. Для создания столбчатых диаграмм с
накоплением для `DataFrame` задается параметр `stacked=True`, в
результате чего значение в каждой строке будут сгруппировано вместе

In [None]:
df.plot.barh(stacked=True, alpha=0.5)

Предположим, что есть набор данных по счетам и чаевым в ресторане, и
нам нужно построить столбчатую диаграмму с накоплением, показывающую
процентное соотношение точек данных для каждого размера группы в
каждый день.  Загрузим данные из файла
[tips.csv](src-visual/tips.csv.txt) и создадим сводную по дням и размеру вечеринки
(количество человек):

In [None]:
tips = pd.read_csv('src-visual/tips.csv')

In [None]:
tips.head()

In [None]:
party_counts = pd.crosstab(tips['day'], tips['size'])

In [None]:
party_counts

In [None]:
party_counts = party_counts.loc[:, 2:5]

Теперь нормализуем данные так, чтобы сумма в каждой строке была равна
$1$ и построим столбчатую диаграмму:

In [None]:
party_pcts = party_counts.div(party_counts.sum(1), axis=0)

In [None]:
party_pcts

In [None]:
party_pcts.plot.bar()

Таким образом, видно, что количество участников вечеринок
в данном наборе увеличивается в выходные дни.

В случае, если требуется агрегировать или суммировать данные перед
построением графика, использование пакета `seaborn` может значительно
упростить задачу. Давайте посмотрим на процент чаевых в день с помощью
библиотеки `seaborn`:

In [None]:
import seaborn as sns

In [None]:
tips['tip_pct'] = tips['tip']/(tips['total_bill'] - tips['tip'])

In [None]:
tips.head()

In [None]:
sns.barplot(x='tip_pct', y='day', data=tips, orient='h')

Функция `barplot` библиотеки `seaborn` принимает параметр `data`, который
может быть объектом `DataFrame`. Остальные параметры ссылаются на
имена столбцов. Поскольку в день имеется несколько наблюдений, то
столбцы диаграммы представляют собой среднее значение параметра
`tip_pct`. Черные линии, нарисованные на столбцах диаграммы,
представляют 95-процентный доверительный интервал (это можно настроить
с помощью опционального параметра). 

Функция `barplot` имеет параметр `hue`, который позволяет разделить
отображение по дополнительному категориальному значению:

In [None]:
sns.barplot(x='tip_pct', y='day', hue='time', data=tips, orient='h')

## Гистограммы и графики плотности распределения
<div id="visual:plt-with-pandas:hist"></div>

*Гистограмма* — это своего рода столбчатая диаграмма, которая дает
дискретное отображение частоты значений.  Составим гистограмму
процентных долей от общего счета, используя метод `plot.hist` объекта
`Series`:

In [None]:
tips['tip_pct'].plot.hist(bins=50)

Связанный с гистограммой тип графиков — *график плотности*, 
который формируется путем вычисления оценки непрерывного распределения
вероятности, которое могло бы генерироваться наблюдаемыми данными.
Обычная процедура заключается в аппроксимации этого распределение как
смеси «ядер», то есть более простых распределений, таких как нормальное
распределение. Таким образом, графики под графиками плотности также
можно понимать графики оценки плотности ядра
(*K*ernel *D*ensity *E*stimate). Функции `plot.kde` и `plot.density`
строят график плотности, используя подход KDE:

In [None]:
tips['tip_pct'].plot.kde()

Библиотека `seaborn` упрощает создание гистограмм и графиков плотности
с помощью метода `distplot`, который позволяет одновременно строить как
гистограмму, так и непрерывную оценку плотности. В качестве примера
рассмотрим бимодальное распределение, состоящее из двух разных
стандартных нормальных распределений:

In [None]:
comp1 = np.random.normal(0, 1, size=200)
comp2 = np.random.normal(10, 2, size=200)
values = pd.Series(np.concatenate([comp1, comp2]))

In [None]:
sns.distplot(values, bins=100, color='k')

## Диаграммы рассеяния или точечные графики
<div id="visual:plt-with-pandas:scatter"></div>

Диаграммы рассеяния полезны при изучении связей между двумя одномерными
рядами данных. Например, загрузим набор данных из файла
[macrodata.csv](src-visual/macrodata.csv.txt) проекта
[Statmodels](https://www.statsmodels.org/stable/index.html). Выберем
некоторые переменные и вычислим «логарифмические разности»:

In [None]:
macro = pd.read_csv('src-visual/macrodata.csv')

In [None]:
data = macro[['cpi', 'm1', 'tbilrate', 'unemp']]

In [None]:
trans_data = np.log(data).diff().dropna()

In [None]:
trans_data[-5:]

Теперь воспользуемся функцией `regplot` библиотеки `seaborn`, которая
строит графики рассеяния и предлагает график линейной регрессии:

In [None]:
sns.regplot('m1', 'unemp', data=trans_data)
plt.title('Зависимость $\log$ {} от $\log$ {}'.format('m1', 'unemp'))

При анализе данных полезно иметь возможность просматривать все
диаграммы рассеяния среди группы переменных, т.е. строить, так
называемые, *парные графики* или *матрицу диаграмм рассеяния*. В
библиотеке `seaborn` для этого есть удобная функция `pairplot`,
которая, в частности, поддерживает размещение гистограмм или оценок
плотности каждой переменной по диагонали:

In [None]:
sns.pairplot(trans_data, diag_kind='kde', plot_kws={'alpha': 0.2})

## Категориальные данные
<div id="visual:plt-with-pandas:facet-grids"></div>

Одним из способов визуализации данных с множеством категориальных
переменных является использование сетки фасетов (*facet grid*). В
библиотеке `seaborn` есть удобная функция `catplot`, которая
упрощает создание сетки фасетов:

In [None]:
sns.catplot(x='day', y='tip_pct', hue='time', col='smoker', kind='bar', data=tips[tips.tip_pct < 1])

Вместо отображения разными цветами  столбцов диаграмм в фасете мы
также можем расширить сетку фасетов, добавив одну строку по времени:

In [None]:
sns.catplot(x='day', y='tip_pct', row='time', col='smoker', kind='bar', data=tips[tips.tip_pct < 1])

Функция `catplot` поддерживает другие типы графиков, которые могут быть
полезны. Например, блочные графики, которые показывают медиану,
квартили и выбросы:

In [None]:
sns.catplot(x='tip_pct', y='day', kind='box', data=tips[tips.tip_pct < 0.5])

Можно создавать свои собственные сетки фасетов,
используя более общий класс `seaborn.FacetGrid` (см.
[документацию seaborn](https://seaborn.pydata.org/)).







<!-- Local Variables: -->
<!-- doconce-chapter-nickname: "visual" -->
<!-- doconce-section-nickname: "plt-with-pandas" -->
<!-- End: -->




<!-- Local Variables: -->
<!-- doconce-chapter-nickname: "visual" -->
<!-- End: -->