# Визуализация 

## Библиотека seaborn
Это пакет-надстройка к matplotlib. Зачастую графики с помощью этой библиотеки строить проще и выглядят они красивее и эстетичнее

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

In [None]:
from numpy.random import normal
sample = normal(size=1000) 

Полезные функции:
- sns.set_style() - меняет стиль области построения
<br> 
- sns.load_dataset() - подгружает датасет из seaborn
<br> 
- sns.set_context() - меняет оформление графика
<br>


Виды графиков:
- sns.distplot() - график распределения
<br> 
- sns.boxplot() - боксплот
<br> 
- sns.swarmplot() - визуализация значений признака для разных категорий
<br>
- sns.pairplot() - визуализация значений признаков
<br>
- sns.heatmap() - тепловая карта
<br>
- sns.barplot() - столбчатая диаграмма
<br>
- sns.regplot() - регрессия
<br>
- sns.countplot() - визуализация количества 
<br>
- sns.jointplot() - визуализация распределение+корреляция

In [None]:
sns.set_style("whitegrid")
sns.distplot(sample)

In [None]:
sns.set_style("white")
sns.distplot(sample)

In [None]:
sns.set_style("dark")
sns.distplot(sample)

Можно настраивать цветовые палитры!
Вот пример некоторых палитр:

![alt text](http://jose-coto.com/img-post/color_brewer_qual.png "Палитры")

Построим боксплот и изменим палитру:

In [None]:
iris = sns.load_dataset('iris')
sns.boxplot(x=iris["species"], y=iris["sepal_length"], palette="Pastel1")

Или можно покрасить каждую часть в свой цвет:

In [None]:
my_pal = {"versicolor": "g", "setosa": "olive", "virginica":"m"}
sns.boxplot(x=iris["species"], y=iris["sepal_length"], palette=my_pal)

___
### Задание
Откройте файл с данными по результатам экзаменов examscore. Постройте боксплоты для баллов по математике так, чтобы на одном графике было отображено 5 боксплотов (свой для каждой группы). Выберите цветовую палитру или покрасьте каждый боксплот в свой цвет по Вашему усмотрению.

In [None]:
# YOUR CODE

___

`sns.swarmplot()` позволяет визуализировать значения признака для разных категорий.

In [None]:
sns.swarmplot(x="species", y="petal_length", data=iris)

Можно менять размер изображений, используя функцию `sns.set_context()` и различные параметры: `paper`, `notebook`, `talk` и `poster`. `notebook` - дефолтный параметр. <br>

In [None]:
sns.set_context("paper")
sns.swarmplot(x="species", y="petal_length", data=iris)

Кроме того, можно изменить другие параметры. <br>
`rc` - словарь, в котором можно изменить настройки оформления графика. Например, `axes.labelsize` изменяет размер шрифта подписей, `figure.figsize` - размер изображения.

In [None]:
sns.set_context("paper", rc={"axes.labelsize":15, "figure.figsize": [10, 5]})
sns.swarmplot(x="species", y="petal_length", data=iris)

Для того, чтобы вернуть все дефолтные настройки, можно просто выполнить `sns.set()`

In [None]:
sns.set()

___
### Задание
Постройте `swapmplot` для пары признаков из таблицы examscore. Измените параметры оформления изображения, используя `sns.set_context()`

In [None]:
# YOUR CODE

___

### График регрессии

Можно визуализировать график регрессии:

In [None]:
sns.set()
tips = sns.load_dataset("tips")
sns.regplot(x="total_bill", y="tip", data=tips)

### Связь признаков
Эта визуализация поможет нам посмотреть на одной картинке, как связаны между собой различные признаки. <br>
На диагонали матрицы графиков расположены гистограммы распределений признака. Остальные же графики — это обычные scatter для соответствующих пар признаков.

In [None]:
columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
sns_plot = sns.pairplot(iris[columns])

___
### Задание
Используя датасет examscore, визуализируйте количественные признаки, чтобы посмотреть, как они связаны между собой.

In [None]:
# YOUR CODE

___

### Тепловая карта

In [None]:
flights_long = sns.load_dataset("flights")

In [None]:
sns.set()

flights_long = sns.load_dataset("flights")
flights = flights_long.pivot("month", "year", "passengers")

# annot - добавляет аннотацию (цифры на карте), fmt - форматирует
sns.heatmap(flights, annot=True, fmt="d")

___
### Задание
Загрузите стандартный датасет "titanic" из seaborn. Посчитайте корреляцию между признаками и постройте тепловую карту для матрицы корреляций.

In [None]:
# YOUR CODE

###  Сравнение показателей по нескольким категориям

- sns.barplot() - столбчатая диаграмма для визуализации распределений значений по категориям
<br>
- sns.countplot() - визуализация количества по категориям

In [None]:
titanic = sns.load_dataset("titanic")
sns.barplot(x="sex", y="survived", hue="class", data=titanic)

In [None]:
sns.countplot(x='sex', hue='survived', data=titanic)

Теперь постройте `barplot` и `countplot` самостоятельно для других признаков из датасета. Какие можно сделать выводы?

In [None]:
# YOUR CODE

### Отображение распределения+корреляции

In [None]:
#Cгенерируйте 100 случайных наблюдений для каждой переменной
data1 = # YOUR CODE
data2 = # YOUR CODE

In [None]:
sns.jointplot(data1, data2)

___
### Задание
Используя датасет examscore, отобразите диаграмму распределения баллов по чтению и баллов по письму.