# Визуализация данных в Python

**Источник:** https://github.com/emeli-dral/sklearn_intro 

**Автор:** Эмели Драль, mailto: emeli.dral@gmail.com

## Построение графиков

In [None]:
#import matplotlib
import matplotlib.pyplot as plt

Jupyter notebook magic для отображения графиков прямо в блокноте (в питоновских скриптах графики по умолчанию строятся в отдельном окне):

In [None]:
%matplotlib inline

## Построение графика y(x) в одну строчку

Если у вас есть значения x и y:

In [None]:
x_values = [1, 3, 4, 7]
y_values = [2, 10, 17, 50]

Изобразить их на графике можно в одну строчку:

In [None]:
plt.plot(x_values, y_values);

Но чтобы настроить внешний вид графика, понадобится использовать дополнительные параметры функции plot() и, возможно, дописывать дополнительный код. Ниже мы познакомимся с некоторыми основными возможностями matplotlib.

## Простой график

#### Генерируем набор данных

In [None]:
data = range(3, 10)
print(data)

#### Строим график с помощью команды plot

In [None]:
plt.plot(data);

## Настройка внешнего вида графика

#### Тип и цвет линии

In [None]:
?plt.plot

In [None]:
plt.plot(data, color = 'g')

In [None]:
plt.plot(data, '--')

In [None]:
plt.plot(data, '--')

In [None]:
plt.plot(data, '*')

In [None]:
plt.plot(data, 'g*')

#### Задаем размер графика

In [None]:
plt.figure(figsize=(12, 10))
plt.plot(data)

#### Добавляем сетку

In [None]:
plt.figure(figsize=(10, 6))
plt.grid()
plt.plot(data)

#### Добавляем название графика

In [None]:
plt.title('Plot name')
plt.plot(data)

In [None]:
#не будет работать во втором Питоне
plt.title('Русскоязычное навзание')
plt.plot(data)

In [None]:
# будет работать во втором Питоне
plt.title(u'Русскоязычное навзание', family="verdana")
plt.plot(data)

#### Подписи к осям

In [None]:
plt.title(u'Название', family='verdana')
plt.grid()
plt.xlabel(u'Ось x', family='verdana')
plt.ylabel(u'Ось y', family='verdana')
plt.plot(data)

#### Подписи на графике

In [None]:
plt.grid()
plt.title(u'Название', family='verdana')
plt.xlabel(u'Ось x', family='verdana')
plt.ylabel(u'Ось y', family='verdana')
plt.text(4.5, 4.1, u'Очень важный комментарий', family="verdana")
plt.text(4.5, 3.5, u'Еще один очень важный комментарий', family="verdana")
plt.plot(data)

## Много гарфиков на одной плоскости

#### Сгенерируем данные

In [None]:
for i in range(10):
    print(i**2)

In [None]:
linear = range(10)
nonlinear = [x ** 2 for x in range(10)]

In [None]:
nonlinear

#### Построим график

In [None]:
plt.grid()
plt.plot(linear, 'b-')
plt.plot(nonlinear, 'g^')

#### Подписи к осям

In [None]:
?plt.scatter(6, 6)

In [None]:
plt.grid()
plt.plot(linear, 'b-')
plt.plot(nonlinear, 'g-')
plt.scatter(6, 6)
plt.legend(['linear', 'nonlinear'])

In [None]:
plt.grid()
plt.plot(linear, 'b-')
plt.plot(nonlinear, 'g-')
plt.legend(['linear', 'nonlinear'], loc=5)

## Много графиков на одном изображении

In [None]:
plt.figure(figsize=(6, 4))

plt.subplot(211)
plt.grid()
plt.plot(linear, 'b-')

plt.subplot(212)
plt.grid()
plt.plot(nonlinear, 'g-')

In [None]:
?plt.subplot

## Как сохранить график

In [None]:
plt.grid()
plt.plot(linear, 'b-')
plt.plot(nonlinear, 'r*')
plt.legend(['linear', 'nonlinear'], loc=2)
plt.savefig('../saved_plot.png')

Мы научились:
   * Строить графики в matplotlib - команда plot();
   * Настраивать внешний вид графика: сетка, подписи, несколько графиков;
   * Сохранять полученные графики в виде изображения для дальнейшего использования.

# Seaborn

Новое (на самом деле уже не новое) средство визуализации, которое гибко подстраивается под табличные данные с типами от pandas и numpy.
Обладает несколькими приятными дополнениями к графиками и встроенными эстетичными темами

In [None]:
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
sns.set();

Прочитаем таблицу с помощью pandas

In [None]:
df = pd.read_csv('Pokemon.csv', index_col=0)

Посмотрим на нее

In [None]:
df.head()

Попробуем нарисовать самой просто 2d график

In [None]:
sns.lmplot(x='Attack', y='Defense', data=df)

Как видите, seaborn дополнительно сам построил линейную модель, оценил ее доерительные интервалы и нарисовал это! Очень удобно для базового понимания датасета

Если мы хотим отразить третий параметр, мы можем сделать это с помощью цвета

In [None]:
sns.lmplot(x='Attack', y='Defense', data=df,
           hue='Stage')   # Color by evolution stage


In [None]:
# Customizing with Matplotlib
# Plot using Seaborn
sns.lmplot(x='Attack', y='Defense', data=df,
           fit_reg=False, 
           hue='Stage')
 
# Tweak using Matplotlib
plt.ylim(0, None)
plt.xlim(0, None)

Seaborn поддерживает широкий спектр инструментов для визуашизации. Почти в каждом виде есть приятные особенности, которые делают ваши графики как удобными для анализа, так и для представления заказчикам.

In [None]:
plt.figure(figsize=(12,10))
sns.boxplot(data=df);

In [None]:
# Pre-format DataFrame
stats_df = df.drop(['Total', 'Stage', 'Legendary'], axis=1)
 
# New boxplot using stats_df
plt.figure(figsize=(12,10))
sns.boxplot(data=stats_df)

Seaborn поддерживает темы и вообще очень кастомизируемый.
В его основе лежит все тот же matplotlib, поэтому если есть необходимость поменять какие-то параметры, это можно сделать через matplotlib.

А в matplotlibk реализован огромный функционал кастомизации. 

Еще один вариант изобразить данные - violinplot

In [None]:
# Set theme
sns.set_style('whitegrid')
 
# Violin plot
plt.figure(figsize=(12,10))
sns.violinplot(x='Type 1', y='Attack', data=df)

Стандартный хитмапы seaborn тоже достаточно симпатичные. При этом существует несколько тем (холодное-горячее и т д)

In [None]:
# Calculate correlations
corr = stats_df.corr()
 
# Heatmap
sns.heatmap(corr)

In [None]:
sns.distplot(df.Attack)

Еще несколько примеров визауализации данных

In [None]:
# Count Plot (a.k.a. Bar Plot)
plt.figure(figsize=(12,10))
sns.countplot(x='Type 1', data=df)
 
# Rotate x-labels
plt.xticks(rotation=-45)

In [None]:
sns.kdeplot(df.Attack, df.Defense)

In [None]:
sns.jointplot(x='Attack', y='Defense', data=df)


# Что еще можно попробовать:

### 3d графики
http://matplotlib.org/mpl_toolkits/mplot3d/tutorial.html#mplot3d-tutorial

### "Живые" графики
https://plot.ly/python/