## 1. Введение

In [1]:
import pandas as pd
import numpy as np

Цели данного модуля:

* Познакомиться с различными способами графического представления данных.
* Освоить основные методы визуализации библиотек Matplotlib и Pandas.
* Научиться настраивать диаграммы в Matplotlib для повышения их информативности.
* Освоить основные методы визуализации библиотеки Seaborn.
* Освоить базовые методы интерактивной визуализации и анимации библиотеки Plotly.
* Научиться выбирать правильные методы визуализации для конкретных задач.

### ЗАЧЕМ НУЖНА ВИЗУАЛИЗАЦИЯ?

Приведём главные причины использования визуализации:

1. Визуальное восприятие физиологически является для человека основным.
2. Доказано, что скорость восприятия увеличивается в 60 000 раз, если информация представлена в виде диаграмм.
3. Акцентирование внимания на важных деталях.
4. Такой способ представления информации не только делает ваш отчёт о проделанной работе эстетически привлекательным, но и помогает сделать результаты анализа понятными, интерпретируемыми, убедительными и удобными для восприятия вашими коллегами.
5. Наконец, главное для нас с вами — это то, что визуализация помогает исследователю упростить анализ большого объёма данных со сложной структурой.

Визуализация является одним из основных инструментов разведывательного анализа данных — EDA (Exploratory Data Analysis) — который в больших проектах всегда предшествует построению моделей.

Благодаря графикам становится легче отслеживать взаимосвязи между переменными, проверять гипотезы, находить аномалии в данных, делать важные для бизнеса выводы и строить хорошие модели.

## 2. Обзор типов визуализации

Начнём с терминологи.

Система координат — это способ определения положения точки в пространстве или на плоскости. Самая простая система координат — двумерная прямоугольная, или декартова, система координат, с которой вы знакомы из уроков математики в школе. Каждой точке в этой системе соответствуют два значения: значение по оси абсцисс и значение по оси ординат.

Ось абсцисс — горизонтальная ось в прямоугольной системе координат. Традиционно её называют осью X.

Ось ординат — вертикальная ось в прямоугольной системе координат. Традиционно её называют осью Y.

ОСНОВНЫЕ ТИПЫ ВИЗУАЛИЗАЦИИ:

* линейный график;
* гистограмма;
* диаграмма рассеяния;
* коробчатая диаграмма;
* круговая диаграмма;
* столбчатая диаграмма;
* тепловая карта.

ЛИНЕЙНЫЙ ГРАФИК (LINEPLOT)

Линейный график представляет собой последовательность точек, соединённых линией. Каждая точка — это пара координат x и y, которые отображены по осям абсцисс и ординат (в двумерном случае). 

ГИСТОГРАММА (HISTOGRAM)

Гистограмма — это способ визуализации частоты попадания признака в некоторый численный интервал. Гистограмма состоит из прямоугольников, расположенных вдоль оси x.

ДИАГРАММА РАССЕЯНИЯ (SCATTERPLOT)

График представляет собой облака точек: по оси абсцисс откладывается одна числовая переменная, по оси ординат — вторая, а каждая точка на графике — это запись из таблицы.

Диаграммы рассеяния являются стандартным средством визуализации связи между двумя числовыми переменными. Однако через настройки графика в исследование зависимости можно добавить и несколько категориальных переменных.

КРУГОВАЯ ДИАГРАММА (PIE CHART)

Круговая диаграмма представляет собой круг, разделённый на секторы. Весь круг составляет 100 %. Каждый из секторов отображает долю одной из категорий в данных, размер сектора соответствует части целого от круга.

Диаграмма является способом визуализации для категориального признака: например, можно визуализировать и сравнивать доли от выручки, которые делает каждый продавец. 

Круговые диаграммы наглядны, когда нужно показать, как делится на части что-либо целое: например, так можно визуализировать вклад каждого из продавцов в выручку магазина. Однако круговые диаграммы неудобны, когда рассматривается больше одного признака — в этом случае приходится добавлять отдельную диаграмму. Из-за большей информативности столбчатых диаграмм специалисты склонны выбирать именно их.

СТОЛБЧАТАЯ ДИАГРАММА (BAR CHART)

Столбчатая диаграмма также максимально проста: по оси x откладывается некоторый категориальный признак, для каждой категории которого рассчитан некоторый показатель (средняя цена товаров, медианная стоимость нефти, максимальная зафиксированная концентрация газа). Высота столбца и есть значение этого показателя. 

Начинающие исследователи часто путают столбчатые диаграммы с гистограммами. Приведём основные различия этих двух видов графиков:

Что показывают?
Г: Распределение числового признака (как часто значения признака попадают в каждый из выделенных интервалов)
СД: Сравнение категорий признака по заданному показателю

Число столбцов
Г: Задаётся пользователем
СД: Равно числу категорий

Размещение столбцов
Г: Непрерывно
СД: Дискретно

Пример применения
Г: Распределение размера заработной платы в России (до 20 тысяч, от 21 до 40 тысяч, от 41 до 60 тысяч…)
Д: Средняя заработная плата по отраслям экономики, субъектам РФ, полу и прочее

ТЕПЛОВАЯ КАРТА (HEATMAP)

Тепловая карта — это графическое представление некоторой таблицы, где значения в ячейках выделяются определённым цветом или интенсивностью цвета. Таблицей может быть как DataFrame, так и, например, изображение.

Способы применения тепловых карт разнообразны: от визуализации категорий объектов на изображениях до графического представления матриц.

При исследовании табличных данных тепловые карты чаще всего применяются для визуализации сводных таблиц.

КОРОБЧАТАЯ ДИАГРАММА (BOXPLOT, BOX AND WHISKER PLOT)

Коробчатые диаграммы, которые были введены в употребление Джоном Тьюки в 1977 году, являются новым типом диаграмм для исследования распределения числового признака по отношению к предыдущим. Диаграмма основана на понятии квантилей.

Для построения коробчатой диаграммы надо знать три характеристики:

Q25 — 25 % квантиль;
Q50 — 50 % квантиль, или медиана;
Q75 — 75 % квантиль.

Основные составляющие графика:

1. Ящик, или коробка. Левая граница коробки соответствует значению , правая — , а линия внутри коробки — медиане. Ширина ящика называется межквартильным размахом (Interquartile range) и вычисляется как IQR = Q75-Q25.
2. Усы ящика, длина которых равна 1,5IQR. Крайние точки усов часто обозначаются в литературе как min и max и называются границами распределения. Фактически эти точки не всегда являются истинными минимумом и максимумом признака.
3. Потенциальные выбросы — точки, лежащие за пределами границ. Согласно теории Тьюки, эти точки следует считать аномалиями и они подлежат исключению из данных. Однако на практике так бывает не всегда, и необходимо проводить дополнительное исследование. Об этом мы будем говорить подробнее в модуле по очистке данных.