Цели данного модуля:

* Познакомиться с различными способами графического представления данных.
* Освоить основные методы визуализации библиотек Matplotlib и Pandas.
* Научиться настраивать диаграммы в Matplotlib для повышения их информативности.
* Освоить основные методы визуализации библиотеки Seaborn.
* Освоить базовые методы интерактивной визуализации и анимации библиотеки Plotly.
* Научиться выбирать правильные методы визуализации для конкретных задач.

Система координат — это способ определения положения точки в пространстве или на плоскости. Самая простая система координат — двумерная прямоугольная, или декартова, система координат, с которой вы знакомы из уроков математики в школе. Каждой точке в этой системе соответствуют два значения: значение по оси абсцисс и значение по оси ординат.

Ось абсцисс — горизонтальная ось в прямоугольной системе координат. Традиционно её называют осью X.

Ось ординат — вертикальная ось в прямоугольной системе координат. Традиционно её называют осью Y.

## ОСНОВНЫЕ ТИПЫ ВИЗУАЛИЗАЦИИ:
* линейный график;
* гистограмма;
* диаграмма рассеяния;
* коробчатая диаграмма;
* круговая диаграмма;
* столбчатая диаграмма;
* тепловая карта.

## ЛИНЕЙНЫЙ ГРАФИК (LINEPLOT)
представляет собой последовательность точек, соединённых линией. 
Каждая точка — это пара координат x и y, которые отображены 
по осям абсцисс и ординат (в двумерном случае). 
На практике, в Data Science такие графики чаще всего используются 
для визуализации временных рядов, 
например чтобы отследить динамику продаж во времени, 
число активных пользователей по дням, изменение курса валют и акций.

График бывает особенно полезен, когда вы пытаетесь спрогнозировать 
ряд и вам необходимо увидеть свой прогноз на графике 
и сравнить его с действительностью.

![Пример](/images/lin.jpg "вот")

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

vg_data = pd.read_csv('data/vgsales.csv')
dinamic_by_region = vg_data[
        ['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales', 'Year_of_Release']
    ].groupby('Year_of_Release').sum()

fig = plt.figure(figsize=(12, 6))
lineplot = sns.lineplot(data=dinamic_by_region)
lineplot.set_title('Динамика продаж видеоигр', fontsize=16)
lineplot.set_xlabel('Год выпуска')
lineplot.set_ylabel('Суммарный объём продаж')

## ГИСТОГРАММА (HISTOGRAM)
это способ визуализации частоты попадания признака в некоторый численный интервал. 
Гистограмма состоит из прямоугольников, расположенных вдоль оси x.
Ось разбита на интервалы, их ещё называют корзинами (bins), 
их число задаётся пользователем. Ширина интервалов одинакова 
и задаёт ширину прямоугольника.

По оси y откладывается высота прямоугольника — количество наблюдений, 
которые попали в интервал. 
Чем выше столбик, тем больше наблюдений находятся в интервале.

Гистограммы часто используются для оценки распределения числового признака,
 например мы можем понять, как распределены цены на товары, число шагов,
  которые делает пользователь умных часов, масса метеоритов, падающих на землю.

![Пример](/images/gist.jpg "вот")

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

melb_data = pd.read_csv('data/melb_data.csv')

fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(12, 10))
plt.subplots_adjust(hspace=.0)

histplot1 = sns.histplot(
    data=melb_data, 
    x='Price', 
    bins=30,
    ax=axes[0],
)
histplot1.set_title('Распределение стоимости недвижимости в Мельбурне', fontsize=16)
histplot1.set_xlabel('Цена объекта (млн. австралийских долларов)')
histplot1.set_ylabel('Число объектов')

histplot2 = sns.histplot(
    data=melb_data,
    x='Price',
    y='Type',
    bins=30,
    color='green',
    ax=axes[1]
)
histplot2.set_xlabel('Цена объекта (млн. австралийских долларов)')
histplot2.set_ylabel('Тип объекта')

## ДИАГРАММА РАССЕЯНИЯ (SCATTERPLOT)

Другое название этого графика — точечная диаграмма.

График представляет собой облака точек: 
по оси абсцисс откладывается одна числовая переменная, 
по оси ординат — вторая, а каждая точка на графике — это запись из таблицы.

Диаграммы рассеяния являются стандартным средством визуализации связи 
между двумя числовыми переменными. Однако через настройки графика в 
исследование зависимости можно добавить и несколько категориальных переменных.

Диаграммы рассеяния являются мощным инструментом, который очень широко
 используется в Data Science. С их помощью мы можем увидеть, как зависит 
 (или не зависит) давление от возраста пациента, объём продаж товаров от
  количества показанной рекламы и т. д.

Оценив взаимосвязь признаков, мы можем принять решение об использовании 
какого-то из признаков для предсказания.

![Пример](/images/gist.jpg "вот")

In [1]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

penguins_df = sns.load_dataset("penguins")

fig = plt.figure(figsize=(10, 5))

scatterplot = sns.scatterplot(
    data=penguins_df,
    x='bill_length_mm',
    y='flipper_length_mm',
    hue='species',
    s=100,
    size='sex',
    sizes=(50, 300)

)
scatterplot.set_title('Взаимосвязь размеров параметров тела разных видов пингвинов', fontsize=16)
scatterplot.set_xlabel('Длина клюва')
scatterplot.set_ylabel('Длина крыльев')


ModuleNotFoundError: No module named 'matplotlib'