<a href="https://colab.research.google.com/github/GuilhermePelegrina/Mackenzie/blob/main/Aulas/2025_1s/An%C3%A1lise%20de%20Dados/Aula_10_Matplotlib_dispersao_relacoes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/logo_mackenzie.png'>


# **Visualização de dados - Gráficos de distribuição, dispersão e relações entre colunas**

Nesta aula, vamos aprender como usar as bibliotecas Matplotlib e Seaborn para criar gráficos que ilustram tanto a dispersão dos dados quanto as relações entre colunas. Veremos, então, dois tipos de gráficos:

- Histograma
- Boxplot
- Gráfico de dispersão (scatter plot)
- Heatmaps


Para ilustrar os comandos dessa aula, vamos utilizar o conjunto de dados (Red Wine Quality)[https://archive.ics.uci.edu/dataset/186/wine+quality]. Em resumo, esse conjunto conté, nas linhas, diferentes vinhos tintos e, nas colunas, características de tais vinhos. Na última coluna (*quality*), há a qualidade de cada vinho (maior o valor, melhor a qualidade).

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

df = pd.read_csv("https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_wine_quality_red.csv", sep = ',')
df

# Histograma

Um dos gráficos mais utilizados para visualizar a distribuição de dados numéricos e contínuos é o Histograma. À partir dele, podemos extrair conclusões preliminares acerca da simetria (ou assimetria) dos dados e a presença de valores considerados *outliers* (valores discrepantes no conjunto de dados).

Um histograma é representado por colunas verticais (retângulos), centralizadas em intervalos predefinidos, as quais indicam a frequência com que os valores contidos nesses intervalos aparecem no conjunto de dados em análise.

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Aulas/Figuras/fig_graficos_histograma.png' width="900">

Note que um baixo ou alto número de retângulos (também chamados de *bins*) não conseguirá apresentar com clareza a distribuição dos dados.

**Exemplo:** Vamos analisar a distribuição dos vinhos em relação ao pH e ao açúcal residual.

In [None]:
plt.figure(figsize=(12,5))

plt.hist(df['pH'])
plt.ylabel("Frequências")
plt.title('Histograma - pH')
plt.xlim(min(df['pH']), max(df['pH']))


plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(12,5))

plt.hist(df['residual sugar'])
plt.ylabel("Frequências")
plt.title('Histograma - Açúcar residual')
plt.xlim(min(df['residual sugar']), max(df['residual sugar']))


plt.tight_layout()
plt.show()

Veja que a distribuição em relação ao pH é simétrica, ou seja, os dados parecem estar normalmente distribuídos em relação ao valor central. Já no caso do açúcar residual, a distribuição é assimétrica (à esquerda).

## Customizações no histograma

Assim como no gráfico de linhas, podemos fazer várias customizações no histograma. As mais comuns são as seguintes:

- Número de colunas (`bins`),
- Cor das barras (`facecolor`),
- Transperência da cor das barras (`alpha`),
- Cor do contorno das barras (`edgecolor`).

In [None]:
plt.figure(figsize=(12,5))

plt.hist(df['pH'], bins=20, facecolor='r', alpha=0.75, edgecolor='black')
plt.ylabel("Frequências")
plt.title('Histograma - pH')
plt.xlim(min(df['pH']), max(df['pH']))


plt.tight_layout()
plt.show()

Também podemos apresentar a densidade (frequência em termos relativos). Nesse caso, a soma das áreas do retêngulo é igual a 1.

In [None]:
plt.figure(figsize=(12,5))

plt.hist(df['pH'], facecolor='g', alpha=0.15, edgecolor='red', density='True')
plt.ylabel("Densidade")
plt.title('Histograma - pH')
plt.xlim(min(df['pH']), max(df['pH']))


plt.tight_layout()
plt.show()

O uso da densidade é uma forma de normalizar os dados do histograma. É muito útil quando comparamos histogramas extraídos de dados diferentes, principalmente quando os mesmos possuem diferentes números de amostras (linhas).

Veja o exemplo seguinte.

In [None]:
# Tempo de vida útil de um aparelho fabricado por três companhias diferentes

link="https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_vida_util.csv"
dft=pd.read_csv(link)
dft.head()

In [None]:
# Analisando o tamanho das amostras para cada marca
dft.describe()

In [None]:
# Plotando o histograma com base nas frequências

plt.figure(figsize=(8,5))

plt.hist(dft["Marca A"], label="Marca A",bins=7)
plt.hist(dft["Marca B"],alpha=0.3,label="Marca B",bins=7)
plt.hist(dft["Marca C"],alpha=0.3, label="Marca C",bins=7)
plt.xlabel("Tempo (em meses)")
plt.ylabel("Frequência")
plt.title("É o melhor gráfico?",color="r")

plt.legend()
plt.show()

In [None]:
# É muito mais "correto" analisar o gráfico usando a densidade, uma vez que os dados podem ter diferentes números de amostras.

plt.figure(figsize=(8,5))

plt.hist(dft["Marca A"],density=True, label="Marca A",bins=7)
plt.hist(dft["Marca B"],alpha=0.3,density=True,label="Marca B",bins=7)
plt.hist(dft["Marca C"],alpha=0.3,density=True, label="Marca C",bins=7)
plt.xlabel("tempo (em meses)")
plt.ylabel("Densidade")

plt.legend()
plt.show()

## Usando a biblioteca Seaborn

Além do Matplotlib, também podemos usar a biblioteca Seaborn para imprimir gráficos no Python. Veja a seguir como ficam os comandos para plotar um histograma usando densidade (é o padrão do Seabonr!) usando essa biblioteca.

In [None]:
import seaborn as sns
plt.figure(figsize=(12,5))

sns.distplot(dft["Marca A"])
plt.title('Vida útil')
plt.xlabel("Tempo (em meses)", fontsize=12)

plt.tight_layout()

Note que o Seaborn também inclui uma curva aproximando a função de densidade de probabilidade. às vezes, é interessante apenas apresentar tal curva, para facilitar a visualização. Isso principalmente quando estamos comparando mais de um histograma.

In [None]:
import seaborn as sns
plt.figure(figsize=(8,5))

sns.distplot(dft["Marca A"],hist=False,label="Marca A")
sns.distplot(dft["Marca B"],hist=False,label="Marca B")
sns.distplot(dft["Marca C"],hist=False,label="Marca C")

plt.xlabel("Tempo (em meses)", fontsize=12)
plt.legend()

plt.show()

# Boxplot

O Boxplot (ou diagrama de caixa) é uma ferramenta gráfica utilizada para ilustrar a distribuição de um conjunto de dados com base em cinco medidas principais:

- Valor mínimo desconsiderando outliers,
- Primeiro quartil (Q1),
- Mediana,
- Terceiro quartil (Q3),
- Valor máximo desconsiderando outliers.

Além desses valores, também podemos incluir em um gráfico com Boxplot os outliers, de forma a compreender quantos são e onde se encontram em relação ás demais medidas.

Por padrão, consideramos os valores de máximo e mínimo no boxplot como $ Max = Q3 + 1,5*AIQ $ e $ Min = Q1 - 1,5*AIQ $, onde $ AIQ = Q3 - Q1$ é a amplitude interquartil.


<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Aulas/Figuras/fig_graficos_boxplot.png' width="900">

In [None]:
# Exemplo:

plt.figure(figsize=(8,6))

plt.boxplot(df["alcohol"])
plt.ylabel("Teor alcoólico")
plt.title("Teor alcoólico dos vinhos tintos")

plt.show()

In [None]:
# Customizações

plt.figure(figsize=(8,6))

plt.boxplot(df["alcohol"], patch_artist=True,
            boxprops=dict(facecolor="silver", color="r"),
            medianprops=dict(color="blue"),
            capprops=dict(color="g"),
            whiskerprops=dict(color="m"),
            flierprops=dict( markeredgecolor="c"))
plt.ylabel("Teor alcoólico")
plt.title("Teor alcoólico dos vinhos tintos")
plt.show()

Em muitos casos, é interessante plotar mais de um boxplot um ao lado do outro para comparar distribuições de dados diferentes. Nesse caso, é recomendado utilizar a interface orientada a objetos.

Veja no exemplo a seguir a comparação em relação ao teor para vinhos considerados bons (*quality > 5*) e vinhos considerados ruins (*quality <= 5*).

In [None]:
fig, ax = plt.subplots(figsize=(8,5))

plt.boxplot(df[df.quality > 5]["alcohol"], positions=[1])
plt.boxplot(df[df.quality <= 5]["alcohol"], positions=[2])
ax.set_xticklabels(['Vinho bom', 'Vinho ruim'])

plt.ylabel("Teor alcoólico dos vinhos tintos bons e ruins")
plt.show()

## Boxplot com o Seaborn

O uso do Seaborn para construir boxplots facilita, principalmente, quando comparamos distribuições de dados.

Veja como ficam os comandos para plotar os boxplots comparando vinhos bons e ruins de acordo com o teor alcoólico.

In [None]:
# Criando uma coluna de dados indicando com 1 os vinhos bons e 0 os vinhos ruins

df['quality_class'] = (df.quality > 5).astype(int)
df

In [None]:
import seaborn as sns
plt.figure(figsize=(7,5))

sns.boxplot(x="quality_class", y="alcohol", data=df,color="lightgrey", linewidth=1.0, width=0.8,showmeans=True,
            meanprops={"marker":"o",
                       "markerfacecolor":"white",
                       "markeredgecolor":"black",
                      "markersize":"2"})
plt.ylabel("Teor alcoólico", fontsize=10)
plt.xlabel("Vinhos tintos", fontsize=13)
plt.title("Teor alcoólico dos vinhos tintos bons (1) e ruins (0)", fontsize=10)

plt.show()

Para ilustrar os comandos dessa aula, vamos utilizar novamente o conjunto de dados [Bike Sharing](http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset).

In [None]:
import pandas as pd
dados = pd.read_csv('https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_bike_sharing_day.csv')
dados

# Relembrando - Gráficos de linha

Para ilustrar os comandos dessa aula, vamos utilizar novamente o conjunto de dados [Bike Sharing](http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset).

Como visto na última aula, os gráficos de linha são frequentemente usados para ilustrar funções ou séries temporais. Ou seja, é um gráfico que proporciona uma boa visualização de grandezas que evoluem ao longo do tempo.

Veja, por exemplo, os gráficos abaixo que ilustram (i) a evolução do número de bicicletas alugadas ocasionalmente ao longo dos anos de 2011 e 2012, (ii) a temperatura normalizada e (iii) a evolução do número de bicicletas alugadas por pessoas registradas ao longo dos anos de 2011 e 2012.

In [None]:
import pandas as pd
dados = pd.read_csv('https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_bike_sharing_day.csv')
dados

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x = np.arange(0,len(dados),1)

plt.figure(figsize=(16,4))
plt.plot(x, dados.casual)

plt.title('Bicicletas alugadas ocasionalmente nos anos de 2011 e 2012')
plt.xlabel('Dias')
plt.ylabel('Número de bicicletas alugadas')

plt.show()

x = np.arange(0,len(dados),1)

plt.figure(figsize=(16,4))
plt.plot(x, dados.temp, '-r')

plt.title('Temperatura (normalizada) anos de 2011 e 2012')
plt.xlabel('Dias')
plt.ylabel('Temperatura (normalizada)')

plt.show()

x = np.arange(0,len(dados),1)

plt.figure(figsize=(16,4))
plt.plot(x, dados.registered, '-g')

plt.title('Bicicletas alugadas por pessoas registradas nos anos de 2011 e 2012')
plt.xlabel('Dias')
plt.ylabel('Número de bicicletas alugadas')

plt.show()

É possível notar uma relação positiva entre a variação da temperatura com a variação de bicicletas alugadas (seja ocasionalmente ou por pessoas registradas). Para melhor visualizar essa relação, podes usar gráficos de dispersão (ou Scatter plots).

# Gráficos de dispersão ou scatter plots

Como mencionado, o gráfico de dispersão é muito útil para analisar a relação entre duas variáveis quantitativas. Com ele, podemos visualizar se há uma relação positiva, negativa ou se não há relação entre as variáveis.

Veja abaixo o exemplo com os gráficos apresentados anteriormente.

In [None]:
plt.figure(figsize=(7,5))

plt.scatter(dados.temp, dados.casual, c="blue")
plt.title('Scatter plot - Temperatura normalizada x Aluguel ocasional', fontsize=14, weight='bold')
plt.ylabel("# de bicicletas alugadas ocasionalmente", fontsize=14)
plt.xlabel("Temperatura normalizada", fontsize=14)
plt.show()

plt.figure(figsize=(7,5))

plt.scatter(dados.temp, dados.registered, c="blue")
plt.title('Scatter plot - Temperatura normalizada x Aluguel registrado', fontsize=14, weight='bold')
plt.ylabel("# de bicicletas alugadas por pessoas registradas", fontsize=14)
plt.xlabel("Temperatura normalizada", fontsize=14)
plt.show()

Veja que em ambos os gráficos de dispersão, há uma certa tendência crescente entre a temperatura e o número de bicicletas alugadas.

Em algumas aplicações, é interessante avaliar relações entre atributos condicionados a uma outra variável. Por exemplo, poderíamos plotar o gráfico de dispersão para visualizar a relação entre temperatura e bicicletas alugadas para diferentes estações do ano.

In [None]:
fig, ax = plt.subplots(figsize=(10,5))
g=ax.scatter(dados.temp,dados.casual,c=dados.season)

handles,_ =g.legend_elements( )
legend2 = ax.legend(handles, ["Primavera","Verão", "Outono", "Inverno"], loc="upper left", title="Estação do ano")
plt.xlabel("Temperatura normalizada", fontsize=14)
plt.ylabel("Bicicletas alugadas ocasionalmente", fontsize=14)
plt.show()

## Usando a biblioteca Seaborn

Os comandos para o uso da biblioteca Seaborn são bem simples. Para as customizações usando essa biblioteca, consulte o link abaixo:

https://seaborn.pydata.org/generated/seaborn.scatterplot.html


In [None]:
import seaborn as sns

plt.figure(figsize=(12,5))
plt.subplot(1,2,1)
sns.scatterplot(data = dados, x = 'temp', y = 'casual')

plt.subplot(1,2,2)
sns.scatterplot(data = dados, x = 'temp', y = 'casual', hue="season")
plt.plot()

# Heatmaps

Perceba que nos gráficos de dispersão mostrados anteriormente, conseguimos visualizar uma relação entre variáveis mas sem uma medida que quantifique tal relação. Uma das medidas mais comuns seria o coeficiente de correlação de Pearson que, em resumo, mede a correlação (linear) entre variáveis.

No Pandas, podemos calcular a correlação entre variáveis numéricas de um `DataFrame` usando o comando `df.corr()`. No entanto, o conjunto de dados `df` deve ter apenas variáveis numéricas. Caso contrário, o comando apresentará erro. Veja no exemplo a seguir.

In [None]:
dados2 = dados.drop('instant', axis=1).select_dtypes(include='number')
dados2.corr()

Uma forma mais interessante de visualizar as correlações é através do gráfico Heatmap (ou mapa de calor). Esses mapas ajudam a compreender melhor como cada variável se relaciona.

Veja abaixo como ele é construído usando a biblioteca Seaborn.

In [None]:
plt.figure(figsize=(12,5))

sns.heatmap(dados2.corr(),cmap="YlOrBr", annot = True, fmt=".3f");