<a href="https://colab.research.google.com/github/MathMachado/DSWP/blob/master/Notebooks/NB11__DataViz_Matplotlib%20%26%20Seaborn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Referência
* [Visualization](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html)
* [Python Graph Galery](https://python-graph-gallery.com/all-charts/)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import bokeh # Library necessária ***

plt.rcParams["figure.figsize"] = [15, 12]
%matplotlib inline

## Séries temporais simples

#### Série/Dados simulados

In [None]:
from datetime import datetime

dt_hoje = datetime.strptime('2020-10-14', '%Y-%m-%d')
dt_inicio = datetime.strptime('2020-01-01', '%Y-%m-%d')

In [None]:
# Quantos dias desde a data inicial?
i_quantidade_dias = abs((dt_hoje - dt_inicio).days)
i_quantidade_dias

In [None]:
np.random.seed(20111974)

i_qtd_ativos = 4
df_series_temporais = pd.DataFrame(np.random.randn(i_quantidade_dias, i_qtd_ativos), index = pd.date_range(dt_inicio, periods = i_quantidade_dias)) #, columns = list('ABCD'))
df_series_temporais.columns = ['Ativo1', 'Ativo2', 'Ativo3', 'Ativo4']

#serie_temporal = pd.Series(np.random.randn(i_quantidade_dias), index = pd.date_range(dt_inicio, periods = i_quantidade_dias))
df_series_temporais.head()

## Gráfico de séries temporais

In [None]:
df_series_temporais2 = df_series_temporais.cumsum()
plt.figure()
df_series_temporais2.plot()

Gráfico de 1 única série temporal

In [None]:
df_series_temporais3 = df_series_temporais['Ativo1']
plt.figure()
df_series_temporais3.plot()

In [None]:
df_series_temporais3 = df_series_temporais['Ativo1'].cumsum()
plt.figure()
df_series_temporais3.plot(kind = 'line')

Experimente kind = {'line', 'box', 'hist', 'kde'}

### Se quisermos comparar horizontalmente
* No caso abaixo, estou a comparar as colunas 'Ativo1', 'Ativo2', 'Ativo3' e 'Ativo4' quanto ao conteúdo da linha 3 --> iloc[3].

In [None]:
df_series_temporais2.head()

In [None]:
plt.figure()
df_series_temporais2.iloc[3].plot(kind = 'bar')

### Comparar grupos
* Neste caso, vou selecionar (ou dar um zoom) somente em alguns dias do dataframe.

In [None]:
df_series_temporais2_zoom = df_series_temporais2[0:10]
df_series_temporais2_zoom

In [None]:
df_series_temporais2_zoom.plot(kind = 'bar')

#### Outra forma de visualizar o mesmo resultado:
* stacked bar plot --> Basta usar o parâmetro stacked = True

In [None]:
df_series_temporais2_zoom.plot(kind = 'bar', stacked = True)

### Se quiser visualizar o gráfico na horizontal...

In [None]:
df_series_temporais2_zoom.plot(kind = 'barh', stacked = True)

### Histogramas

In [None]:
df_series_temporais2.plot(kind = 'hist', bins = 10) # O que são bins?

#### O que são bins?

#### Histograma individual

In [None]:
plt.figure()
df_series_temporais2['Ativo3'].diff().hist() # Veja abaixo melhores explicações sobre o método diff(axis, periods) 

In [None]:
df_series_temporais2.head()

In [None]:
df_series_temporais2.diff(axis = 0, periods = 1).head()

In [None]:
df_series_temporais2.iloc[1][0] - df_series_temporais2.iloc[0][0]

In [None]:
df_series_temporais2.head()

#### diff(axis = 1, periods = 1) aplica a diferença nas colunas! Veja abaixo:



In [None]:
df_series_temporais2.diff(axis = 1, periods = 1).head()

### Histogramas em múltiplos gráficos

In [None]:
plt.figure()
df_series_temporais2.diff(axis = 0, periods = 1).hist(color ='k', alpha = 0.5, bins = 50)

## Boxplot

In [None]:
plt.figure()
boxplot = df_series_temporais2.boxplot(vert = True) # Observe o parâmetro vert = True

In [None]:
plt.figure()
boxplot = df_series_temporais2.boxplot(vert = False) # Observe o parâmetro vert = False

#### Dados sobre a qualidade de vinhos - White vs Red

* O objetivo é avaliar a qualidade dos vinhos (tinto vs branco), numa scala de 0–100. A seguir, a qualidade em função da escala:

* 95–100 Classic: a great wine
* 90–94 Outstanding: a wine of superior character and style
* 85–89 Very good: a wine with special qualities
* 80–84 Good: a solid, well-made wine
* 75–79 Mediocre: a drinkable wine that may have minor flaws
* 50–74 Not recommended

In [None]:
url_tinto = 'https://raw.githubusercontent.com/MathMachado/DataFrames/master/Wine_red.csv?token=AGDJQ64FIW7QA6DNJTVT6JC7SACV6'
url_branco = 'https://raw.githubusercontent.com/MathMachado/DataFrames/master/Wine_white.csv?token=AGDJQ67RPQDN45RZYZHV5SK7SACXY'
df_vinho_tinto = pd.read_csv(url_tinto)
df_vinho_tinto["color"] = 1 # --> Vinho Tinto

df_vinho_branco = pd.read_csv(url_branco)
df_vinho_branco["color"] = 0 # --> Vinho Branco

In [None]:
# Empilhando os dataframes df_vinho_tinto e df_vinho_branco:
df_vinhos = pd.concat([df_vinho_tinto, df_vinho_branco], axis = 0)
df_vinhos.shape

In [None]:
df_vinho_tinto.columns

In [None]:
df_vinhos['quality'].value_counts()

In [None]:
df_vinhos['color'].value_counts()

#### Tratamento do nome das colunas

In [None]:
df_vinhos.head()

In [None]:
df_vinhos.columns = [col.lower() for col in df_vinhos.columns]

# substituir ' ' por '_' no nome das colunas:
df_vinhos.columns = [col.replace(' ', '_') for col in df_vinhos.columns]
df_vinhos.head()

In [None]:
df_vinhos.describe()

In [None]:
print(f"Média do vinho Branco: {df_vinho_branco['quality'].mean()}")
print(f"Média do vinho Tinto.: {df_vinho_tinto['quality'].mean()}")
print(f"Média Geral..........: {df_vinhos['quality'].mean()}")

Abaixo, o mesmo cálculo, porém usando o artificio de procurar/selecionar o tipo que queremos no dataframe:

In [None]:
print(f"Média do vinho Branco: {df_vinhos[df_vinhos['color'] == 0]['quality'].mean()}")
print(f"Média do vinho Tinto.: {df_vinhos[df_vinhos['color'] == 1]['quality'].mean()}")
print(f"Média Geral..........: {df_vinhos['quality'].mean()}")

In [None]:
df_vinhos.columns

In [None]:
df_vinhos[df_vinhos['color'] == 1]['quality']

In [None]:
fig, ax = plt.subplots(figsize=(10, 6))
df_vinhos['quality'].value_counts().plot(kind = 'bar')

A seguir, algo mais sofisticado, contendo título do gráfico, annotations e etc

In [None]:
fig, ax = plt.subplots(figsize = (10, 6))
df_vinhos['quality'].value_counts().plot(kind = 'bar')

# Título e label dos eixos X e Y
plt.title('Avaliação da qualidade do vinho', fontsize = 25)
plt.xlabel('Atributo: quality', fontsize = 10)
plt.ylabel('Quantidade', fontsize = 10)

# Colocar grid no gráfico
ax.grid(True)

# Configurar a legenda
#plt.legend()

# Configurar limites do eixo Y
#plt.ylim(0, 5000)

# Configurar limites do eixo X
#plt.xlim(0, 3000)
 
# Show graphic
plt.show()

In [None]:
df_vinhos['color'].value_counts().plot(kind = 'bar')

In [None]:
df_vinhos.head()

In [None]:
df_vinhos['fixed_acidity'].value_counts().sort_index().plot(kind = 'area')

### Desafio: Tornar o gráfico abaixo mais informativo
* Por exemplo, mostrar qual a variável analisada, eixo X e Y, títulos e etc.

In [None]:
l_colunas = df_vinhos.columns # automatizando
for caracteristica in l_colunas:
    plt.figure() # Tire esta linha e veja o resultado
    df_vinhos[caracteristica].value_counts().sort_index().plot(kind = 'area')

### Correlações

### Introdução
O código abaixo gera dataframes para avaliarmos as correlações entre variáveis/dataframe.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

i_simulacoes = 5000

# Definir a semente --> Reproducibilidade
np.random.seed(19741120)

# Array de médias das amostras:
a_media = np.array([0.0, 5.0, 10.0])

# Array com a matriz de covariância:
a_covariancia = np.array([
        [  3.40, -2.75, -2.00],
        [ -2.75,  5.50,  1.50],
        [ -2.00,  1.50,  1.25]
    ])

# Geração das amostras aleatórias usando f_media e  eGenerate the random samples.
a_amostras = np.random.multivariate_normal(a_media, a_covariancia, size = i_simulacoes)
a_amostras

A seguir, gráfico que mostra a correlação entre a_amostras[:, 0] e a_amostras[:, 1]:

In [None]:
plt.figure(figsize= (12, 8))
ax = sns.regplot(x = a_amostras[:,0], y = a_amostras[:,1], color = 'g')
plt.xlabel('a_amostras[0]')
plt.ylabel('a_amostras[1]')
#plt.axis('equal')
plt.grid(True)

In [None]:
np.corrcoef(a_amostras[:, 0], a_amostras[:, 1])

Gráfico da correlação entre a_amostras[:, 0] e a_amostras[:, 2]:

In [None]:
plt.figure(figsize= (12, 8))
ax = sns.regplot(x = a_amostras[:,0], y = a_amostras[:,2], color = 'g')
plt.xlabel('a_amostras[0]')
plt.ylabel('a_amostras[2]')
#plt.axis('equal')
plt.grid(True)

In [None]:
np.corrcoef(a_amostras[:, 0], a_amostras[:, 2])

E por fim, gráfico com as correlações entre a_amostras[:, 1] e a_amostras[:, 2]:

In [None]:
plt.figure(figsize= (12, 8))
ax = sns.regplot(x = a_amostras[:, 1], y = a_amostras[:, 2], color = 'g')
plt.xlabel('a_amostras[1]')
plt.ylabel('a_amostras[2]')
#plt.axis('equal')
plt.grid(True)

In [None]:
np.corrcoef(a_amostras[:, 1], a_amostras[:, 2])

E a seguir, o pairplot para avaliarmos todas as colunas ao mesmo tempo:

In [None]:
sns.pairplot(pd.DataFrame(a_amostras))
plt.show()

### Análise do dataframe df_vinhos

In [None]:
df_vinhos.head()

### Correlações entre um par de variáveis X e Y

In [None]:
np.corrcoef(df_vinhos['fixed_acidity'], df_vinhos['alcohol'])

### Correlações do dataframe

In [None]:
correlacoes = df_vinhos.corr()

top_correlacoes_cols = correlacoes.color.sort_values(ascending = False).keys()
top_correlacoes = correlacoes.loc[top_correlacoes_cols, top_correlacoes_cols]
dropSelf = np.zeros_like(top_correlacoes)
dropSelf[np.triu_indices_from(dropSelf)] = True
plt.figure(figsize = (15, 9))
sns.heatmap(top_correlacoes, cmap=sns.diverging_palette(220, 10, as_cmap = True), annot = True, fmt = ".2f", mask = dropSelf)
sns.set(font_scale=1.5)
plt.show()
del correlacoes, dropSelf, top_correlacoes

In [None]:
df_vinhos.head()

### Avaliar o comportamento bivariado
* 2D Density Plot
    * Útil para avaliarmos a relação entre 2 variáveis numéricas. O gráfico no centro mostra a correlação entre as variáveis enquanto os gráficos marginais mostra a distribuição das respectivas variáveis usando histogramas ou gráficos de densidade.

In [None]:
sns.jointplot(x = df_vinhos['alcohol'], y = df_vinhos['density'], kind = "scatter", color = 'm', s=50, edgecolor = "skyblue", linewidth = 2)
plt.savefig('minha_figura.png')
plt.show()

Mesmos dados, gráfico diferente --> Explorem as opções disponíveis: https://python-graph-gallery.com/82-marginal-plot-with-seaborn/

In [None]:
sns.jointplot(x = df_vinhos['alcohol'], y = df_vinhos['density'], kind = "reg", color = 'm', )
plt.savefig('minha_figura.png')
plt.show()

### Pairplot
* Verificar relacionamentos entre pares no dataframe.

In [None]:
sns.pairplot(df_vinhos)
plt.show()

Abaixo, gráfico segmentado por color:

In [None]:
sns.pairplot(df_vinhos, hue = "color") # Compare os gráficos com e sem a opção hue
plt.show()

In [None]:
df_vinhos.head()

In [None]:
sns.lmplot("alcohol", "density", df_vinhos, hue = "color", fit_reg = False)

In [None]:
sns.lmplot("alcohol", "density", df_vinhos, hue = "quality", fit_reg = False)

### Boxplot

In [None]:
df_vinhos.boxplot(column = 'alcohol', by = 'quality', figsize = (12, 8))
plt.xlabel('Quality', fontsize = 10, color= 'blue')
plt.ylabel('alcohol', fontsize = 10, color= 'blue')
plt.show()

## Exercícios

### Exercício 1
* Análise gráfica das variáveis do dataframe IRIS.


In [None]:
from sklearn.datasets import load_iris

iris = load_iris()
X= iris['data']
y= iris['target']

df_iris = pd.DataFrame(np.c_[X, y], columns= np.append(iris['feature_names'], ['target']))
df_iris['target2'] = df_iris['target'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})
df_iris.head()

### Exercício 2
* Usando o dataframe FIFA, responda:
    * (1) Mostre o gráfico de barras com o número de jogadores por clube;
    * (2) Mostre o boxplot/histograma dos salários dos atletas para os clubes Real Madrid, Barcelona Paris Saint-Germain Bayern Munich e Juventus.