# Вебинар по теме: Методы визуализации данных

## Вопросы:
- встроенная визуализация Pandas
- структура графика
- matplotlib
- различные типы графиков на примере seaborn
- plotly

Спикер/Ведущий: Владимир Горюнов  
Slack: @Владимир Горюнов  

Ссылка на форму обратной связи
https://forms.gle/y8xaFwJqtbFSjUeG8 

## Вопрос №1 Встроенная визуализация Pandas

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html

In [None]:
import pandas as pd 
import numpy as np 

pd.Series(np.random.randint(1,101, size=(1000))).hist() # равномерное распределение

In [None]:
mu, sigma = 0, 0.1
pd.Series(np.random.normal(mu, sigma, 1000)).hist() # нормальное распределение

### Задача 1.1 Сгенерировать таблицу тригонометрических функций и построить графики средствами pandas

In [None]:
import pandas as pd 
import numpy as np 

# создать таблицу значений для углов (-10*pi,10*pi)
x = np.linspace(-10*np.pi, 10*np.pi, 1000)
trig_df = pd.DataFrame(index=x)
trig_df['sin(x)'] = np.sin(x)
trig_df['cos(x)'] = np.cos(x)
trig_df['sin(2x)'] =np.sin(2*x)
trig_df['cos(3x+1)'] = 2*np.cos(3*x+1)
# trig_df['tan(x)'] = np.tan(x)
display(trig_df.head())
trig_df.shape

In [None]:
trig_df.plot()

In [None]:
trig_df.plot(figsize=(15,10), grid=True, xlim=(-7, 7))

In [None]:
# разделение графиков по подграфикам
trig_df.plot(subplots=True, y=['sin(x)','cos(3x+1)'])

## Вопрос №2 Из каких частей состоит график
 

### Задача 2.1 Оформляем график нескольких случайных процессов

In [None]:
rng = np.random.RandomState(0)
x = np.linspace(0,10,500)
rand_df = pd.DataFrame(np.cumsum(rng.randn(500, 6), 0))
rand_df.plot()

## Вопрос №3 Визуализация matplotlib

- два интерфейса - стиль matlab - работа с plt
- объектно-ориентированный интерфейс - работа с объектами fig, ax

ссылка на документацию 
https://matplotlib.org/ 

### Задача 3.1 plt, fig, ax

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
# интерфейс в стиле matlab - взаимодействие непосредственно с plt
plt.figure()
plt.subplot(2, 1, 1)
plt.plot(x, np.sin(x))

In [None]:
plt.subplot(2, 1, 2)
plt.plot(x, np.cos(2*x))

In [None]:
fig, ax = plt.subplots(2) # создаем сетку, ax будет массивом из двух Axes
# вызываем метод plot соответствующей оси
ax[0].plot(x, np.sin(x))
ax[1].plot(x, np.cos(2*x))

In [None]:
# можно и так
fig = plt.figure()
ax = plt.axes()

Соответствие методов интерфейса plt   
  
plt.xlabel() -> ax.set_xLabel()  
plt.ylabel() -> ax.set_yLabel()  
plt.xlim() -> ax.set_xlim()  
plt.ylim() -> ax.set_ylim()  
plt.title() -> ax.set_title()  

### Задача 3.2* Задание цветов линий

In [None]:
# выполняем последовательно несколько обращений к plt - все графики отображаются в одном окне
plt.plot(x, np.sin(x), color='blue')          # цвет по названию
plt.plot(x, np.sin(x-1), color='g')           # краткий код цвета (rgbcmyk)
plt.plot(x, np.sin(x-2), color='0.75')        # шкала оттенков серого цвета от 0 до 1
plt.plot(x, np.sin(x-3), color='#FFDD44')     # 16-ричный код
plt.plot(x, np.sin(x-4), color=(1.0,0.2,0.3)) # кортеж rgb
plt.plot(x, np.sin(x-5), color='olive')       # поддерживаются все названия цветов html

### Задача 3.3* Задание стилей линий


In [None]:
plt.plot(x, x + 0, linestyle='solid')   # непрерывное
plt.plot(x, x + 1, linestyle='dashed')  # пунктир
plt.plot(x, x + 2, linestyle='dashdot') # штрих-пунктир
plt.plot(x, x + 3, linestyle='dotted')  # точки
# сокращенные коды 
plt.plot(x, x + 4, linestyle='-')
plt.plot(x, x + 5, linestyle='--')
plt.plot(x, x + 6, linestyle='-.')
plt.plot(x, x + 7, linestyle=':')

In [None]:
# совмещенный синтаксис
plt.plot(x, x+0, '-g')
plt.plot(x, x+1, '--c')
plt.plot(x, x+2, '-.k')
plt.plot(x, x+3, ':r')

## Вопрос №4 Различные типы графиков на примере seaborn

https://seaborn.pydata.org/  

 - гистограмма
 - круговая диаграмма
 - линейная регрессия  
 - boxplot, ящик с усами
 - PairGrid - попарное сравнение признаков
 - тепловая карта

### Задача 4.1 Гистограмма распределения алмазов по стоимости, с учетом типа огранки

In [None]:
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt

diamonds = sns.load_dataset("diamonds")
print(diamonds.shape)
diamonds.head()

In [None]:
sns.set_theme(style="darkgrid") # darkgrid, whitegrid, dark, white, ticks
f, ax = plt.subplots(figsize=(7, 5))
sns.despine(f) # remove the top and right spines from plot

sns.histplot(
    diamonds,
    x="price", hue="cut",
    multiple="stack",
    palette="light:m_r",
    edgecolor=".3",
    linewidth=.5,
    log_scale=True,
)
ax.xaxis.set_major_formatter(mpl.ticker.ScalarFormatter())
ax.set_xticks([500, 1000, 2000, 5000, 10000]);

### Задача 4.2 Построение круговой диаграммы по категориям огранки

In [None]:
# подготовим данные
diamonds_cut = diamonds.groupby("cut")['carat'].count()
diamonds_cut

In [None]:
# с использованием matplotlib
pie, ax = plt.subplots(figsize=[10,6])
labels = diamonds_cut.keys()
plt.pie(x=diamonds_cut, autopct="%.1f%%", explode=[0.05]*5, labels=labels, pctdistance=0.5)
plt.title("Типы огранки", fontsize=14);
pie.savefig("diamonds_cut.png") # пример сохранения изображения в файл

### Задача 4.3 График линейной регрессии, набор данных tips

In [None]:
tips = sns.load_dataset("tips")
display(tips.head())
g = sns.jointplot(x="total_bill", y="tip", data=tips, kind="reg", truncate=False,
                  xlim=(0, 60), ylim=(0, 12), color="g", height=7)

### Задача 4.4 Boxplot, Ящик с усами

In [None]:
sns.set_theme(style="ticks", palette="pastel")
sns.boxplot(x="day", y="total_bill", hue="smoker", palette=["c", "g"],
            data=tips)
sns.despine(offset=10, trim=True)

### Задача 4.5 Попарное сравнение признаков, набор данных iris

In [None]:
sns.set_theme(style="darkgrid")
iris = sns.load_dataset("iris")
g = sns.PairGrid(iris, hue="species")
g.map_diag(sns.histplot)
g.map_offdiag(sns.scatterplot)
g.add_legend();

### Задача 4.6* Тепловая карта, набор данных boston


In [None]:
# CRIM: Per capita crime rate by town
# ZN: Proportion of residential land zoned for lots over 25,000 sq. ft
# INDUS: Proportion of non-retail business acres per town
# CHAS: Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
# NOX: Nitric oxide concentration (parts per 10 million)
# RM: Average number of rooms per dwelling
# AGE: Proportion of owner-occupied units built prior to 1940
# DIS: Weighted distances to five Boston employment centers
# RAD: Index of accessibility to radial highways
# TAX: Full-value property tax rate per $10,000
# PTRATIO: Pupil-teacher ratio by town
# B: 1000(Bk — 0.63)², where Bk is the proportion of [people of African American descent] by town
# LSTAT: Percentage of lower status of the population
# MEDV: Median value of owner-occupied homes in $1000s

In [None]:
from sklearn.datasets import load_boston
#увеличим дефолтный размер графиков
# from pylab import rcParams
# rcParams['figure.figsize'] = 10, 8

boston = load_boston()
boston_df = pd.DataFrame(boston['data'], columns=boston['feature_names'])
boston_df.head()
sns.heatmap(boston_df.corr(), annot=True, cmap="Greens");

## Вопрос №5 Plotly


In [None]:
# !pip install plotly
# !pip install cufflinks
# Пакет plotly – библиотека с открытым исходным кодом, построенная на plotly.js, которая, в свою очередь, базируется на d3.js.
# в plotly есть такие же встроенные наборы данных которые можно поисследовать
# https://plotly.com/python-api-reference/generated/plotly.data.html

In [None]:
import plotly.express as px
df = px.data.iris()
fig = px.scatter_matrix(df, dimensions=["sepal_width", "sepal_length", "petal_width", "petal_length"], color="species")
fig.show()

In [None]:
# Посмотрим пример построения свечных графиков с помощью Plotly
# https://plotly.com/python/candlestick-charts/
import plotly.graph_objects as go
import pandas as pd
from datetime import datetime

# скачаем данные по стоимости акций из готового набора 
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/finance-charts-apple.csv')

fig = go.Figure(data=[go.Candlestick(x=df['Date'],
                open=df['AAPL.Open'],
                high=df['AAPL.High'],
                low=df['AAPL.Low'],
                close=df['AAPL.Close'])])
fig.show()

## Приложение 1. Полезные ссылки
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html
- https://matplotlib.org/
- https://seaborn.pydata.org/
- https://plotly.com/python/

## Спасибо за внимание!