# Визуализация на Python

В начале как настроим окружение: импортируем все необходимые библиотеки и немного настроим дефолтное отображение картинок.

In [93]:
import pandas as pd  # обработка таблиц
import matplotlib.pyplot as plt  # простые визуализации
import seaborn as sns  # красивые визуализации

# интерактивные визуализации
import plotly.express as px
import plotly.graph_objects as go

# отключим предупреждения Anaconda
import warnings
warnings.simplefilter('ignore')

# будем отображать графики прямо в jupyter'e
%pylab inline
#графики в svg выглядят более четкими
%config InlineBackend.figure_format = 'svg' 

# размер графика
from pylab import rcParams
rcParams['figure.figsize'] = 6, 4

Populating the interactive namespace from numpy and matplotlib


## Загрузка и подготовка данных

* Датасет содержит данные о продажах и оценках видео-игр `video_games_sales.csv`
* Источник с ресурса [Kaggle](https://www.kaggle.com/rush4ratio/video-game-sales-with-ratings)

1. **Выведите информацию о датасете**

2. **Подготовьте данные**

3. **Выберите признаки, которые будете использовать**

## Библиотеки для визуализаций

[`matplotlib`](https://matplotlib.org/)

* первая библиотека на python для визуализации
* очень гибкая, но и монструозная, при этом стили родом из 90х
* встроенные графики в pandas, seaborn

[`seaborn`](https://seaborn.pydata.org/)

* на основе matplotlib
* сложные графики за пару строк кода
* симпатичные стили по умолчанию
* для тонкой настройки нужно изучать документацию matplotlib

[`plotly`](https://plotly.com/python/)

* интерактивные графики 
* простой API, но есть возможность настройки (тоже придется покопаться в документации)
* красивые стили по умолчанию
* dash - для создания дашборда в полноценном web-приложении

## Выберите графики, отвечающие задачам визуализации

### Обычное сравнение (Nominal comparison)

**Nominal comparison** - простое сравнение одной или нескольких метрик по категориям без определенного порядка

**Задача** - сравнить игровые платформы по числу выпущенных и проданных игр

In [1]:
# датасет
# рыночная долю игровых платформ, расчитанная по количеству выпущенных игр и по суммарной выручке


In [2]:
# matplot


In [3]:
# seaborn


In [4]:
# plotly.express


In [5]:
# plotly.go


### Временные ряды (Time Series)

**Time Series** - изменение одной или нескольких метрик во времени

**Задача** - отобразить динамику числа проданных компьютерных игр в мире

In [6]:
# датасет
# динамика числа вышедших игр и их продаж по годам


In [8]:
# matplot

In [None]:
# seaborn

In [7]:
# plotly.go


### Ранжирование Ranking

**Ranking** - значения метрики для категорий, упорядоченные по размеру

**Задача** - показать, на каких платформах было выпущено большего всего игр

### Часть от целого (Part-to-hole)

**Part-to-hole** - доли отдельных категорий от целого

**Задача** - показать, какие доходы у разных игровых компаний и как они распределяются по рынкам (США, Европа и т.д.)

### Отклонение (Deviation)

**Deviation** - сравнение показателей для категорий с baseline

**Задача** - посмотреть, как отличаются средние прожажи для разных жанров

### Частотное распределение (Frequency distribution)

**Frequency Distribution** - распределение величины (может быть нормированным)

**Задача** - показать распределение пользовательских оценок игр

## Кореляция (Correlation)

**Correlation** - кореляция между двумя численными величинами

**Задача** - показать, как связаны между собой оценки пользователей и критиков

### Специфичные (например, воронка продаж)

## Дополнительно

* [Диаграмма "Какой график выбрать"](https://apandre.wordpress.com/wp-content/uploads/2011/02/chartchooserincolor.jpg)
* [Метод iplot в plotly](https://proglib.io/p/plotly) 