<a href="https://colab.research.google.com/github/GuilhermePelegrina/Mackenzie/blob/main/Aulas/2s2024/An%C3%A1lise%20de%20Dados/Aula_07_Visualizacao_variaveis_categoricas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/logo_mackenzie.png'>


# **Visualização de dados - Variáveis categóricas**

Nesta aula, vamos aprender como usar as bibliotecas Matplotlib e Seaborn para criar gráficos que ilustram informações contidas em variáveis categóricas.

Para ilustrar os comandos dessa aula, vamos utilizar novamente o conjunto de dados [Bike Sharing](http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset).

In [None]:
import pandas as pd
dados = pd.read_csv('https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_bike_sharing_day.csv')
dados

# Gráfico de barras

O gráfico de barras é o mais utilizado para visualizar variáveis categóricas e comparar a frequência das categorias que aparecem em tal dado. Podemos realizar essa comparação a partir de barras tanto horizontais quanto verticais, sendo o tamanho das barras proporcionais às frequências das categorias na variável em análise.

## Usando o Matplotlib

O comando do Matplotlib é o `.bar` (barras verticais) ou `,barh` (barras horizontais). Nesse, informamos as labels (nomes) de cada barra e, em seguida, os dados que vao compor o tamanho da barra.

Veja abaixo exemplos onde informamos manualmente os nomes das colunas e os valores (alturas) das barras. Note

In [None]:
import matplotlib.pyplot as plt

# Temperatura em dias úteis - barras verticais

plt.bar(['Seg','Ter','Qua','Qui','Sex'],[26,24,30,29,29], color='darkred')

plt.title('Temperatura durante a semana', fontsize=14)
plt.xlabel('Dias da semana', fontsize=12)
plt.ylabel('Temperatura (°C)', fontsize=12)
plt.show()


In [None]:
# Temperatura em dias úteis - barras horizontais

plt.barh(['Seg','Ter','Qua','Qui','Sex'],[26,24,30,29,29], color='red')

plt.title('Temperatura durante a semana', fontsize=14)
plt.xlabel('Temperatura (°C)', fontsize=12)
plt.ylabel('Dias da semana', fontsize=12)
plt.show()

Ne exemplo seguinte, extraímos as informações de ambos os eixos diretos da base de dados. No caso, plotamos a frequência das situações climáticas. Note, em cada plot, a diferença em relação à frequência absoluta ou relativa.

In [None]:
# Frequência absoluta

plt.bar(dados.weathersit.unique(),dados.weathersit.value_counts(), color='blue')

plt.title('Frequência das situações climáticas', fontsize=14)
plt.xlabel('Situações climáticas', fontsize=12)
plt.ylabel('Frequência absoluta', fontsize=12)
plt.show()

In [None]:
# Frequência relativa

plt.bar(dados.weathersit.unique(),dados.weathersit.value_counts(normalize=True), color='blue')

plt.title('Frequência das situações climáticas', fontsize=14)
plt.xlabel('Situações climáticas', fontsize=12)
plt.ylabel('Frequência relativa', fontsize=12)
plt.show()

Além das customização já vistas nesta disciplina (em relação aos labels, título, etc...), temos outras no gráfico de barras, como:

- Rotação dos nomes das categorias: Dependendo do tamanho dos nomes, é interessante rotacionar o nome para ficar mais adequado ao plot.

- Cores diferentes em cada barra: Para customizar as cores das barras, podemos indicar com o parâmetros `color = (...)` as cores de cada uma. Lembre-se que, para isso, devemos informar um número de cores iguais ao número de barras que será plotada.

Antes de mostrar um exemplo com essas customizações, vamos trocar o nome de alguns dados para melhor visualizar as informações. Esse procedimento é bem comum quando se lida com bases de dados onde informações categóricas são representadas por números. Na análise de dados em si, isso não é um problema. Basta lembrar o que cada número significa. Mas quando usamos a base de dados para criar um modelo computacional, isso atrapalha a criação de tal modelo.

Após alterar essas variáveis, veja um exemplo com customizações no gráfico de barras.

In [None]:
import numpy as np

wd1, wd2 = dados.workingday==0, dados.workingday==1
dados.workingday = np.select([wd1, wd2], ['dia útil', 'dia não útil'], default=None)

dados

In [None]:
nomes = dados.workingday.unique()
x_pos = np.arange(len(nomes)) # Indica a posição onde serão plotadas as barras. Nesse caso, em cada inteiro iniciando em 0
valores = dados.workingday.value_counts()

plt.bar(x_pos,valores, color=('darkgreen','yellow')) # Note que, até aqui, não informamos os nomes de cada barra

plt.xticks(x_pos,nomes,rotation=45) # Informação dos nomes das barras e rotação dos labels do eixo x

plt.title('Frequência de dias úteis ou não úteis', fontsize=14)
plt.xlabel('Tipo de dia', fontsize=12)
plt.ylabel('Frequência absoluta', fontsize=12)

plt.show()



## Usando o Seaborn (Countplot)

O Seaborn é uma outra biblioteca utilizada para plotar gráficos. Nessa biblioteca, tem um comando bem útil (dentre diversos outros) para visualizar a frequência de variáveis categóricas. Esse comando é o `.countplot`, e nele informamos a coluna que queremos visualizar a frequência (`x`), a tabela de dados que contém tal coluna (´data´) e, caso deseje, a paleta de cores.

In [None]:
import seaborn as sns

plt.figure(figsize=(8,6))

sns.countplot(x = 'weathersit', data = dados, palette = 'magma')
plt.title('Frequências das situações climáticas')
plt.ylabel('Frequêcia absoluta')
plt.show()

Ao usar esse comando, temos um facilidade quando queremos visualizar a frequência de variáveis categóricas condicionadas a outra variável categórica. Veja abaixo como ficam as frequências daos dias úteis ou não úteis ao longo das estações do ano.

In [None]:
import seaborn as sns

plt.figure(figsize=(8,6))

sns.countplot(x = 'season', hue = 'workingday', data = dados, palette = 'gray')
plt.title('Frequência de dias úteis ou não úteis por estação')
plt.ylabel('Frequêcia absoluta')
plt.show()

## Usando o grupby()

Também podemos usar diretamente o *groupby()* para plotar os gráficos de barra. Lembre-se que o resultado do *groupby()* é um DataFrame Portanto, usamos a função `.plot()` do DataFrame indicando o tipo de gráfico que queremos plotar (no caso, o tipo `bar`).

Note no exemplo a seguir como fica o código, assim como algumas customizações.

In [None]:
dados3 = dados.groupby('workingday')["weathersit"].count()
dados3.plot(kind='bar', rot=90, color="green", alpha=0.75)

plt.xlabel("Tipo de dia")
plt.ylabel("Frequência",fontsize='large')
plt.title("Situação do clima",fontsize='x-large')
plt.yticks(fontsize='large')
plt.show()

No exemplo abaixo plotamos a frequência de uma variável categórica empilhada (*stacked*) de acordo com o chaveamento de outra variável categórica. Note, também, a inclusão das frequências em casa parcela da barra.

In [None]:
dados4 = dados.groupby(['yr','weathersit'])["casual"].count().unstack()
ax =dados4.plot(kind="bar", rot=0, width=0.7,figsize=[14,6], stacked=True, color=['seagreen', 'orange', 'red'])

plt.xlabel("Ano",fontsize='large')
plt.ylabel("Frequência absoluta",fontsize='large')

for c in ax.containers:
    ax.bar_label(c, label_type="center")

plt.show()