<a href="https://colab.research.google.com/github/GuilhermePelegrina/Mackenzie/blob/main/Aulas/An%C3%A1lise%20de%20Dados/Aula_10_Matplotlib_dispersao_relacoes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/logo_mackenzie.png'>


# **Visualização de dados - Gráficos de dispersão e relações entre colunas**

Nesta aula, vamos aprender como usar as bibliotecas Matplotlib e Seaborn para criar gráficos que ilustram tanto a dispersão dos dados quanto as relações entre colunas. Veremos, então, três tipos de gráficos:

- Gráfico de barras
- Gráfico de dispersão (scatter plot)
- Heatmaps


Para ilustrar os comandos dessa aula, vamos utilizar novamente o conjunto de dados [Bike Sharing](http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset).

In [None]:
import pandas as pd
dados = pd.read_csv('https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_bike_sharing_day.csv')
dados

# Relembrando - Gráficos de linha

Como visto na última aula, os gráficos de linha são frequentemente usados para ilustrar funções ou séries temporais. Ou seja, é um gráfico que proporciona uma boa visualização de grandezas que evoluem ao longo do tempo.

Veja, por exemplo, os gráficos abaixo que ilustram (i) a evolução do número de bicicletas alugadas ocasionalmente ao longo dos anos de 2011 e 2012, (ii) a temperatura normalizada e (iii) a evolução do número de bicicletas alugadas por pessoas registradas ao longo dos anos de 2011 e 2012.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x = np.arange(0,len(dados),1)

plt.figure(figsize=(16,4))
plt.plot(x, dados.casual)

plt.title('Bicicletas alugadas ocasionalmente nos anos de 2011 e 2012')
plt.xlabel('Dias')
plt.ylabel('Número de bicicletas alugadas')

plt.show()

x = np.arange(0,len(dados),1)

plt.figure(figsize=(16,4))
plt.plot(x, dados.temp, '-r')

plt.title('Temperatura (normalizada) anos de 2011 e 2012')
plt.xlabel('Dias')
plt.ylabel('Temperatura (normalizada)')

plt.show()

x = np.arange(0,len(dados),1)

plt.figure(figsize=(16,4))
plt.plot(x, dados.registered, '-g')

plt.title('Bicicletas alugadas por pessoas registradas nos anos de 2011 e 2012')
plt.xlabel('Dias')
plt.ylabel('Número de bicicletas alugadas')

plt.show()

É possível notar uma relação positiva entre a variação da temperatura com a variação de bicicletas alugadas (seja ocasionalmente ou por pessoas registradas). Para melhor visualizar essa relação, podes usar gráficos de dispersão (ou Scatter plots).

# Gráficos de dispersão ou scatter plots

Como mencionado, o gráfico de dispersão é muito útil para analisar a relação entre duas variáveis quantitativas. Com ele, podemos visualizar se há uma relação positiva, negativa ou se não há relação entre as variáveis.

Veja abaixo o exemplo com os gráficos apresentados anteriormente.

In [None]:
plt.figure(figsize=(7,5))

plt.scatter(dados.temp, dados.casual, c="blue")
plt.title('Scatter plot - Temperatura normalizada x Aluguel ocasional', fontsize=14, weight='bold')
plt.ylabel("# de bicicletas alugadas ocasionalmente", fontsize=14)
plt.xlabel("Temperatura normalizada", fontsize=14)
plt.show()

plt.figure(figsize=(7,5))

plt.scatter(dados.temp, dados.registered, c="blue")
plt.title('Scatter plot - Temperatura normalizada x Aluguel registrado', fontsize=14, weight='bold')
plt.ylabel("# de bicicletas alugadas por pessoas registradas", fontsize=14)
plt.xlabel("Temperatura normalizada", fontsize=14)
plt.show()

Veja que em ambos os gráficos de dispersão, há uma certa tendência crescente entre a temperatura e o número de bicicletas alugadas.

Em algumas aplicações, é interessante avaliar relações entre atributos condicionados a uma outra variável. Por exemplo, poderíamos plotar o gráfico de dispersão para visualizar a relação entre temperatura e bicicletas alugadas para diferentes estações do ano.

In [None]:
fig, ax = plt.subplots(figsize=(10,5))
g=ax.scatter(dados.temp,dados.casual,c=dados.season)

handles,_ =g.legend_elements( )
legend2 = ax.legend(handles, ["Primavera","Verão", "Outono", "Inverno"], loc="upper left", title="Estação do ano")
plt.xlabel("Temperatura normalizada", fontsize=14)
plt.ylabel("Bicicletas alugadas ocasionalmente", fontsize=14)
plt.show()

## Usando a biblioteca Seaborn

Os comandos para o uso da biblioteca Seaborn são bem simples. Para as customizações usando essa biblioteca, consulte o link abaixo:

https://seaborn.pydata.org/generated/seaborn.scatterplot.html


In [None]:
import seaborn as sns

plt.figure(figsize=(12,5))
plt.subplot(1,2,1)
sns.scatterplot(data = dados, x = 'temp', y = 'casual')

plt.subplot(1,2,2)
sns.scatterplot(data = dados, x = 'temp', y = 'casual', hue="season")
plt.plot()

# Heatmaps

Perceba que nos gráficos de dispersão mostrados anteriormente, conseguimos visualizar uma relação entre variáveis mas sem uma medida que quantifique tal relação. Uma das medidas mais comuns seria o coeficiente de correlação de Pearson que, em resumo, mede a correlação (linear) entre variáveis.

No Pandas, podemos calcular a correlação entre variáveis numéricas de um `DataFrame` usando o comando `df.corr()`. No entanto, o conjunto de dados `df` deve ter apenas variáveis numéricas. Caso contrário, o comando apresentará erro. Veja no exemplo a seguir.

In [None]:
dados2 = dados.drop('instant', axis=1).select_dtypes(include='number')
dados2.corr()

Uma forma mais interessante de visualizar as correlações é através do gráfico Heatmap (ou mapa de calor). Esses mapas ajudam a compreender melhor como cada variável se relaciona.

Veja abaixo como ele é construído usando a biblioteca Seaborn.

In [None]:
plt.figure(figsize=(12,5))

sns.heatmap(dados2.corr(),cmap="YlOrBr", annot = True, fmt=".3f");

Além de ser usado para apresentar medidas de similaridade entra variáveis (como a correlação), o heatmap também pode ser usado para apresentar (e comparar) distribuição de dados.

Veja o exemplo seguinte que usa como conjunto de dados [European energy](https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-08-04/energy_types.csv)

In [None]:
import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-08-04/energy_types.csv", sep = ',')
df = df.dropna()
df

In [None]:
prod = df.pivot(index=['country_name'], columns=['type'], values='2017')
prod

In [None]:
plt.figure(figsize=(10,8))

sns.heatmap(prod,cmap="Blues", annot = True, fmt=".4f") #camp: "YlGnBu"; "Greens"; "Blues"
plt.yticks(rotation=0)
plt.xticks(rotation=45)
plt.title("Heatmap da produção de energia na Europa")
plt.show()

In [None]:
import matplotlib as mpl #Selecionar as cores pro gráfico de temperatura
cmap=mpl.cm.jet

plt.figure(figsize=(10,8))

sns.heatmap(prod, cmap=cmap) #camp: "YlGnBu"; "Greens"; "Blues"
plt.yticks(rotation=0)
plt.xticks(rotation=45)
plt.title("Heatmap da produção de energia na Europa")
plt.show()

# Gráfico de barras

Por fim, veremos agora os gráficos de barras. Esse tipo de gráfigo normalmente é utilizado para comparar a quantidade de variáveis categóricas de uma variável qualitativa (ou quantitativa discreta). Podemos realizar essa comparação a partir de barras horizontais, sendo o tamanho das barras proporcionais às frequências das categorias na variável em análise.

## Com Matplotlib

In [None]:
#Investimento em saúde

plt.bar(['Seg','Ter','Qua','Qui','Sex'],[26,24,30,29,29], color='darkred') # plt.barh

plt.title('Temperatura durante a semana', fontsize=14)
plt.xlabel('Dias da semana', fontsize=12)
plt.ylabel('Temperatura (°C)', fontsize=12)
plt.show()


## Com o Seaborn - Countplot

Esse comando do Seaborn plota a frequência (contagem) das variáveis categóricas.

In [None]:
plt.figure(figsize=(8,6))

sns.countplot(x = 'season', hue = 'weathersit', data = dados, palette = 'magma')
plt.title('Situação do clima por estação do ano')
plt.show()

## Usando o grupby()

In [None]:
dados3 = dados.groupby(dados.weathersit)["casual"].count()
dados3.plot(kind='bar', rot=0, color="green", alpha=0.75)

plt.xlabel("")
plt.ylabel("Frequência",fontsize='large')
plt.title("Situação do clima",fontsize='x-large')
plt.xticks(fontsize='large')
plt.yticks(fontsize='large')
plt.show()

In [None]:
dados4 = dados.groupby(['yr','weathersit'])["casual"].count().unstack()
dados4.plot(kind="bar", rot=0, width=0.7,figsize=[14,6], stacked=True, color=['seagreen', 'orange', 'red'])

plt.xlabel("Ano",fontsize='large')
plt.ylabel("Frequência",fontsize='large')
plt.show()