# Визуализация 

Большую часть графиков будем рассматривать на примере данных «Российский мониторинг экономического положения и здоровья населения НИУ-ВШЭ (RLMS-HSE)», проводимый Национальным исследовательским университетом "Высшая школа экономики" и ООО «Демоскоп» при участии Центра народонаселения Университета Северной Каролины в Чапел Хилле и Института социологии РАН. (Сайты обследования RLMS-HSE: http://www.cpc.unc.edu/projects/rlms и http://www.hse.ru/rlms)».

Список переменных
1. **public** – 1 если государственное предприятие (в государственной собственности), 0 если частное;

2. **wage** – заработная плата, полученная за последние 30 дней по основному месту работы;

3. **income** – сколько всего денег за последние 30 дней получил респондент, считая все источники дохода;

4. **tenure** – опыт работы на текущем месте;

5. **educ** – уровень образования, категориальная переменная (0 для индивидов без среднего образования)
```
    1 -- среднее образование
    2 -- профессиональные курсы
    3 -- ПТУ, техническое училище
    4 -- техникум
    5 -- институт, университет, академия
```
6. **urban** – 1 респондент проживает в городе, 0 в сельской местности;
7. **male** – пол, 1 для мужчин, 0 для женщин;
8. **age** – возраст;
9. **subordinates** – наличие подчиненных, 1 если есть, 0 в противном случае.
10. **experience** – число лет общего трудового стажа респондента;
11. **otherjob** – хотелось бы респонденту найти другую работу, 1 если да, 0 в противном случае;
12. **trust** – доверие мелкому и среднему частному бизнесу, 1 если респондент доверяет, 0 если не доверяет;
13. **internet** – приходилось ли респонденту в течение последних 12 месяцев пользоваться Интернетом, 1 если да, 0 в противном случае.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
data = pd.read_csv('data_rl.csv').dropna()
print(data.shape)
data.head()

In [None]:
data.region.value_counts()

In [None]:
region_data = data[data.region == 'Западно-Сибирский экономический район']
print(region_data.shape)
region_data.head()

## Повторение предыдущего семинара

### Гистограмма
Показывает распределение объектов по частоте их появления.

По оси x отложены интервалы значений, а по у количество наблюдений в данном интервале.

In [None]:
plt.figure(figsize=(8, 4))  # изменение размера картинки
plt.hist(region_data.age, bins=20)  # изменение параметра bins позволяет сделать гистограмму более "точечной"
plt.title("Гистограмма возрастов\nЗападно-Сибирский экономический район")  # заголовок
plt.xlabel("возраст")  # подпись оси абсцисс
plt.ylabel("количество людей с таким возрастом")  # подпись оси ординат

### Boxplot (ящик с усами)
Один из самых информативных графиков для демонстрации основного характера выборки, на иллюстрации ниже можно видеть, как интерпретировать данный график. Видно, что основная часть выборки (25 - 75 персентиль) должна попадать в центральный "ящик".

<img src="https://miro.medium.com/max/18000/1*2c21SkzJMf3frPXPAR_gZA.png" alt="Drawing" style="width: 600px;"/>


In [None]:
plt.boxplot(region_data[['age', 'experience']].values)               
plt.title("Boxplot возраста и опыта работы\nЗападно-Сибирский экономический район")
plt.xticks([1, 2], ['age', 'experience'])  # изменяет подписи у засечек [1, 2] на оси Ox
plt.ylabel("разброс в годах")

## Библиотека seaborn
Это пакет-надстройка к matplotlib. Зачастую графики с помощью этой библиотеки строить проще и выглядят они красивее и эстетичнее, а ещё иногда функции этой библиотеки сами догадывается, как подписать оси.

In [None]:
import numpy as np
import seaborn as sns

Полезные функции:
- sns.set_style() - меняет стиль области построения
<br> 
- sns.load_dataset() - подгружает датасет из seaborn
<br> 
- sns.set_context() - меняет оформление графика
<br>


Примеры графиков:
- sns.distplot() - график распределения
<br> 
- sns.boxplot() - боксплот
<br> 
- sns.swarmplot() - визуализация значений признака для разных категорий
<br>
- sns.pairplot() - визуализация значений признаков
<br>
- sns.heatmap() - тепловая карта
<br>
- sns.barplot() - столбчатая диаграмма
<br>
- sns.regplot() - регрессия
<br>
- sns.countplot() - визуализация количества 
<br>
- sns.jointplot() - визуализация распределение+корреляция

In [None]:
sns.set_style("whitegrid")
sns.distplot(region_data.age)
# Как и в matplotlib'e, можно звать функции для заголовка / подписей осей / почти чего угодно ещё
plt.title('Распределение возраста\nЗападно-Сибирский экономический район')

In [None]:
sns.set_style("white")
sns.boxplot(region_data.age)
plt.show()

In [None]:
sns.set_style("dark")
sns.swarmplot(region_data.age)
plt.show()

Можно настраивать цветовые палитры!
Вот пример некоторых палитр:

![alt text](http://jose-coto.com/img-post/color_brewer_qual.png "Палитры")

Построим боксплот и изменим палитру:

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(x=region_data.sex, y=region_data.wage, palette="Pastel1")
plt.show()

In [None]:
plt.figure(figsize=(10, 10))
my_pal = {'male': "green", 'female': "olive"}
sns.boxplot(x=region_data.sex, y=region_data.wage, palette=my_pal)
plt.show()

`sns.swarmplot()` позволяет визуализировать значения признака для разных категорий.

In [None]:
plt.figure(figsize=(10, 10))
sns.swarmplot(x="sex", y="wage", data=region_data)
plt.show()

Можно менять размер изображений, используя функцию `sns.set_context()` и различные параметры: `paper`, `notebook`, `talk` и `poster`. `notebook` - дефолтный параметр. <br>

In [None]:
plt.figure(figsize=(10, 10))
sns.set_context("poster")  # poster увеличивает шрифт подписей
sns.swarmplot(x="sex", y="wage", data=region_data)
plt.show()

Для того, чтобы вернуть все дефолтные настройки, можно просто выполнить `sns.set()`

In [None]:
sns.set()

___

### Задание
Откройте файл с данными по результатам экзаменов examscore.

In [None]:
# YOUR CODE

Постройте боксплоты для баллов по математике так, чтобы на одном графике было отображено 5 боксплотов (свой для каждой группы).

In [None]:
# YOUR CODE

Постройте `swapmplot` для пары признаков из таблицы examscore. 

In [None]:
# YOUR CODE

___

### График регрессии

Можно построить регрессию и сразу же ее визуализировать с помощью `regplot`

In [None]:
sns.set()
# tips = sns.load_dataset("tips")
sns.regplot(x="age", y="wage", data=region_data)
plt.show()

### Связь признаков
Эта визуализация поможет нам посмотреть на одной картинке, как связаны между собой различные признаки. <br>

На диагонали матрицы графиков расположены гистограммы распределений признака. Остальные же графики — это обычные scatter для соответствующих пар признаков.

In [None]:
region_data.head()

In [None]:
columns = ['wage', 'age', 'educ', 'tenure']
sns_plot = sns.pairplot(region_data[columns])
plt.show()

___
### Задание
Используя датасет examscore, визуализируйте количественные признаки, чтобы посмотреть, как они связаны между собой.

In [None]:
# YOUR CODE

___

### Тепловая карта

In [None]:
sns.set()  # сброс настроек по стилям, возвращение к стилю по умолчанию

plt.figure(figsize=(16, 16))
# annot - добавляет аннотацию (цифры на карте), fmt - форматирует
sns.heatmap(region_data.corr(), annot=True, fmt=".2f")
plt.show()

###  Сравнение показателей по нескольким категориям

- sns.barplot() - столбчатая диаграмма для визуализации распределений значений по категориям
<br>
- sns.countplot() - визуализация количества по категориям

In [None]:
sns.barplot(x="sex", y="wage", hue="educ", data=region_data)

In [None]:
sns.countplot(x='sex', hue='educ', data=region_data)

In [None]:
sns.jointplot(x='tenure', y='age', data=region_data)

## Несколько графиков в одном
Если каждый отдельный график не очень "сложный" и это имеет смысл, можно разместить графики не на отдельных картинках, а присоседить их.

In [None]:
plt.figure(figsize=(16, 16))
# Первые два числа задают ожидаемое число строк и столбцов с картинками.
# Последнее число задаёт порядковый номер картинки, счёт начинается с 1, слева направо, сверху вниз.
plt.subplot(2, 2, 1)
sns.regplot(x="tenure", y="age", data=region_data)

plt.subplot(2, 2, 2)
sns.countplot(x='sex', hue='educ', data=region_data)

plt.subplot(2, 2, 3)
# "Внутри" каждого subplot можно звать любые нужные функции, например, для подписи осей.
plt.hist(region_data.age, bins=20)
plt.title("Гистограмма возрастов\nЗападно-Сибирский экономический район")
plt.xlabel("возраст")
plt.ylabel("количество людей с таким возрастом")

plt.subplot(2, 2, 4)
sns.barplot(x="sex", y="wage", hue="educ", data=region_data)