## Визуализация

Зачем оно нам надо?

Вспоминаем (или узнаем заново) материал из <a href="https://drive.google.com/file/d/1htRh6_PBknB6oF7my8u-ILgNz0wtxIch/view">ЛЕКЦИИ</a>

Конечно, можно было бы рисовать диаграммы так....

![alt text](https://media.giphy.com/media/YBIxUwCdysgaJgkmsP/giphy.gif "Гифка1")

Но, пожалуй, мы пойдем другим путем и научимся пользоваться библиотеками Python

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np

## Библиотека Matplotlib 
 - <a href="http://http://matplotlib.org/">matplotlib</a> - основная библиотека для базовой визуализации данных

### Характеристики графиков

#### Оформление
- Заголовок области рисования -> plt.title();
- Подпись оси абсцисс OX -> plt.xlabel();
- Подпись оси ординат OY -> plt.ylabel();
- Легенда -> plt.legend()
- Деления на оси абсцисс OX -> plt.xticks()
- Деления на оси ординат OY -> plt.yticks()

#### Размер:
- plt.figure(figsize = (width, heigth))  - задаем размер графика в дюймах 

#### Названия цветов

![alt text](https://i.stack.imgur.com/lFZum.png "Цвета")

### Виды графиков:


Очень важно выбрать нужный тип визуализации! Можно использовать для этого этот путеводитель по графикам, давайте повторим основные типы и сферы их использования:

![alt text](http://bigdata.black/wp-content/uploads/2016/04/best-chart-1.png "Гифка1")


#### Ломаная линия
- plt.plot() </br>
<b>Зачем:</b> Будем использовать его, если хотим показать характер зависимости двух переменных. По сути, просто линия, которая строится по заданным точкам.

In [None]:
x = pd.Series(list(range(10)))
y = x**4
#Постройте график по значениям y и x
plt.title('Содержательный заголовок')
plt.xlabel('Ось x')
#Подпишите ось y
plt.show()

#### Точечный график
- plt.scatter()

<b>Зачем:</b> можно демонстрировать распределение объектов, используется для построения диаграммы, илюстрирующей силу связи (при проведении корреляционного анализа)

In [None]:
plt.scatter(x,y)

#### Столбчатая диаграмма
- plt.bar()

<b> Зачем: </b> Можно продемонстрировать распределение значений по категориям, сравнивать их между собой.

Попробуем отрисовать сразу два графика на одном рисунке:

In [None]:

X = [1,0,8,3,4]
Y = [1,8,2,4,8]

#Задайте еще 2 вектора такой же размерности
X2 = # YOUR CODE HERE

Y2 = # YOUR CODE HERE


plt.bar(X,Y, label="Bar1", color='r')
#YOUR CODE HERE: график для X2 и Y2

#Подпишите название графика, названия осей и добавьте легенду:

#YOUR CODE HERE

plt.show()

Попробуем посмотреть другие варианты оформления (а заодно вспомним про циклы): с помощью дополнительного условия можно автоматически перекрашивать часть столбцов по вашему усмотрению.

In [None]:
x = np.arange(5)
y = np.random.randn(5)
vert_bars = plt.bar(x, y, color='lightblue', align='center')

# Можно покрасить часть столбцов в другой цвет
for bar, height in zip(vert_bars, y):
    if height < 0:
        bar.set(edgecolor='darkred', color='salmon', linewidth=3)
        
#Задайте размер графика на Ваше усмотрение:
# YOUR CODE HERE

plt.show()

#### Круговая диаграмма
- plt.pie()

<b>Зачем: </b> С помощью круговой диаграммы удобно показывать, какую часть от целого занимает категория переменной.

In [None]:
# Задайте вектор, который будет содержать количество часов, которое Вы тратите на сон, еду, учебу/работу и развлечения (всего 4 значения)
slices = # YOUR CODE HERE


# Labels
activities = ['Сон','Еда','Учеба/Работа','Развлечения']

#Задайте список из 4 цветов:
cols = # YOUR CODE HERE
plt.pie(slices, labels=activities, colors=cols)

plt.title # YOUR CODE HERE

plt.show()

#### Гистограмма
- plt.hist() - гистограмма

<b> Зачем: </b> Можно показать распределение объектов по частоте их появления.


По оси x отложены интервалы значений, а по у количество наблюдений в данном интервале.

In [None]:
from numpy.random import normal
sample = normal(size=1000)     #1000 значений из нормального распределения
plt.hist(sample)               
plt.title("Gaussian Histogram")
plt.xlabel("Value")
plt.ylabel("Frequency")

#### Boxplot (ящик с усами)

- plt.hist() - гистограмма

Один из самых информативных графиков для демонстрации основных характер выборки, на иллюстрации ниже можно видеть, как интерпретировать данный график:

![alt text](https://justinsighting.com/wp-content/uploads/2016/12/boxplot-description.png "Боксплот")

Построить боксплот по сгенерированной для гистограммы выборке

In [None]:
# YOUR CODE HERE

### Несколько графиков в поле
Возможно, Вам понадобится вывести несколько графиков на одно поле <br />
Для этого можно использовать функцию subplots: <br />
fig, axes = plt.subplots(nrows=2, ncols=2, figsize = (width, height))

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=2, figsize = (7, 7)) # Мы задали 4 области для графика: 2 сверху и 2 снизу
x = pd.Series(list(range(10)))
y = x**4
axes[0, 0].plot(x,y) #График пояится слева сверху

# Придумайте еще 3 функции для y и постройте их в оставшихся областях:

# YOUR CODE HERE

## Библиотека seaborn
Это пакет-надстройка к matplotlib. Зачастую графики с помощью этой библиотеки строить проще и выглядят они красивее и эстетичнее

In [None]:
import seaborn as sns

В seaborn можно менять стили области построения:

In [None]:
sns.set_style("dark")
sns.distplot(sample)

In [None]:
sns.set_style("whitegrid")
sns.distplot(sample)

In [None]:
sns.set_style("dark")
sns.distplot(sample)

In [None]:
sns.set_style("white")
sns.distplot(sample)

Можно настраивать цветовые палитры!
Вот пример некоторых палитр:

![alt text](http://jose-coto.com/img-post/color_brewer_qual.png "Палитры")

In [None]:
df = sns.load_dataset('iris')
sns.boxplot( x=df["species"], y=df["sepal_length"], palette="Pastel1")

Или можно покрасить каждую часть в свой цвет:

In [None]:
df = sns.load_dataset('iris')
my_pal = {"versicolor": "g", "setosa": "olive", "virginica":"m"}
sns.boxplot( x=df["species"], y=df["sepal_length"], palette=my_pal)

### Тепловая карта:

In [None]:
sns.set()

flights_long = sns.load_dataset("flights")
flights = flights_long.pivot("month", "year", "passengers")


f, ax = plt.subplots(figsize=(9, 6))
sns.heatmap(flights, annot=True, fmt="d", linewidths=.5, ax=ax)

###  Сравнение показателей по нескольким категориям

In [None]:
titanic = sns.load_dataset("titanic")
sns.barplot(x="sex", y="survived", hue="class", data=titanic)

### Отображение распределения+корреляции

In [None]:
#Cгенерируйте 100 случайных наблюдений для каждой переменной
data1 = # YOUR CODE HERE
data2 = # YOUR CODE HERE

In [None]:
sns.jointplot(data1, data2)

## Самое время для самостоятельных заданий!

### Task 1

У Вас есть данные с различными характеристиками стран в файле countries. Откройте его, отберите первые 10 стран и постройте столбчатую диаграмму, отображающую процент бедного населения в стране. Настройте, чтобы все столбцы для показателей выше 15% автоматически подкрашивались в красный цвет. Подпишите оси, придумайте содержательное название, выберите сами основной цвет графика.

### Task 2

Откройте файл с данными по результатам экзаменов examscore. Постройте боксплоты для баллов по математике так, чтобы на одном графике было отображено 5 боксплотов (свой для каждой группы). Выберите цветовую палитру или покрасьте каждый боксплот в свой цвет по Вашему усмотрению.Подпишите оси, придумайте содержательное название.

### Task 3

С помощью функции sns.jointplot отобразите диаграмму распределения баллов по чтению и баллов по письму и их взаимосвязи.

### Task 4

Загрузить стандартный датасет "brain_networks" из seaborn (с регионами головного мозга), посчитать между ними корреляцию и построить тепловую карту для матрицы корреляций

### Task 5(BONUS)

Подгрузите датасет 'tips' из seaborn, загрузите первые несколько строк, изучите информацию в нем и попробуйте построить такой же график (используется violinplot):

![alt text](https://python-graph-gallery.com/wp-content/uploads/54_Grouped_violinplot_Seaborn.png "Гифка1")

# Снижение размерности (факторный анализ)

### PCA -метод главных компонент

Зачем это нужно? Для уменьшения размерности данных.

Проанализируем вино:

![alt text](https://media.giphy.com/media/nCykzvnlbY5uU/giphy.gif "Гифка1")

Давайте откроем наши данные и посмотрим на первые строчки:

In [None]:
WineData = pd.read_csv('wine.data.csv')
WineData

Посмотрим на то, как изменяются характеристики вина в зависимости от класса:

In [None]:
for c in WineData.columns[1:]:
    WineData.boxplot(c,by='Class',figsize=(7,4),fontsize=14)
    plt.title("{}\n".format(c),fontsize=16)
    plt.xlabel("Класс вина", fontsize=16)

In [None]:
plt.figure(figsize=(10,6))
plt.scatter(WineData['OD280/OD315 of diluted wines'],WineData['Flavanoids'],c=WineData['Class'],edgecolors='k',alpha=0.75,s=150)
plt.grid(True)
plt.title("Точечная диаграмма, отображающая разделение сортов вин по классам",fontsize=15)
plt.xlabel("OD280/OD315 of diluted wines",fontsize=15)
plt.ylabel("Flavanoids",fontsize=15)
plt.show()

Для начала нам необходимо стандартизировать наши данные:

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
scaler = StandardScaler()

In [None]:
X = WineData.drop('Class',axis=1)
y = WineData['Class']

In [None]:
X = scaler.fit_transform(X)

In [None]:
dfx = pd.DataFrame(data=X,columns=WineData.columns[1:])

In [None]:
dfx.head(10)

Теперь непосредственно подключим наш PCA

In [None]:
from sklearn.decomposition import PCA

n_components - с помощью данного аргумента мы можем задать количество компонент

In [None]:
pca = PCA(n_components=None)

In [None]:
dfx_pca = pca.fit(dfx)

Самое время вспомнить о графике, по которому мы на лекции учились отбирать количество факторов/компонент!

In [None]:
plt.figure(figsize=(10,6))
plt.scatter(x=[i+1 for i in range(len(dfx_pca.explained_variance_ratio_))], 
            y=dfx_pca.explained_variance_ratio_, #dfx_pca.explained_variance_ratio_ -объясненная дисперсия
           s=200, alpha=0.75,c='orange',edgecolor='k')
plt.grid(True)
plt.title("Процент объясненной дисперсии",fontsize=25)
plt.xlabel("Компоненты",fontsize=15)
plt.xticks([i+1 for i in range(len(dfx_pca.explained_variance_ratio_))],fontsize=15)
plt.yticks(fontsize=15)
plt.ylabel("Объясненная дисперсия",fontsize=15)
plt.show()

In [None]:
dfx_trans = pca.transform(dfx)

In [None]:
dfx_trans = pd.DataFrame(data=dfx_trans)
dfx_trans.head(10)

Посмотрим, как, опираясь на наши компоненты, мы можем разделить классы вин:

In [None]:
plt.figure(figsize=(10,6))
plt.scatter(dfx_trans[0],dfx_trans[1],c=WineData['Class'],edgecolors='b',alpha=0.75,s=150)
plt.grid(True)
plt.title("Разделение на классы с помощью 2 компонентов",fontsize=20)
plt.xlabel("Principal component-1",fontsize=15)
plt.ylabel("Principal component-2",fontsize=15)
plt.show()

Построим матрицу факторных нагрузок:

In [None]:
loadings = pca.components_.T * np.sqrt(pca.explained_variance_)

In [None]:
pd.DataFrame(loadings.T, columns=WineData.columns[1:]) 

### Task

Откройте файл test02.csv, реализуйте на нем факторный анализ. Постройте матрицу факторных нагрузок. Попробуйте содержательно объяснить смысл получившихся факторов.