# Python para data science na prática
---

## Análise exploratória de dados (EDA) - Analisis univariante em Python

Ao realizar análises univariadas, nosso foco é examinar uma ou mais variáveis individualmente no dataset. A análise pode fornecer insights como mediana, moda, valor máximo, intervalo e detecção de valores discrepantes. Tanto variáveis categóricas quanto numéricas podem ser analisadas univariadamente. 

Diversas opções de gráficos podem ser utilizadas para ambos os tipos de variáveis, ajudando a entender a distribuição dos dados e a identificar padrões ocultos. Saber quando utilizar cada tipo de gráfico é crucial para garantir a precisão da análise e dos insights obtidos. 

Neste notebook, abordaremos o seguinte:
- Análise univariada usando um histograma
- Análise univariada usando um boxplot
- Análise univariada usando um gráfico de Violino
- Análise univariada usando uma tabela de resumo
- Análise univariada usando um gráfico de barras
- Análise univariada usando um gráfico de pizza

In [3]:
# importando as bibliotecas
import matplotlib.pyplot as plt                # importar a biblioteca matplotlib
import numpy as np                             # importar numpy
import pandas as pd                            # importat pandas
import seaborn as sns                          # seaborn
%matplotlib inline                            
#%config InlineBackend.figure_format='svg'
#plt.style.use('classic')                       # estilo da biblioteca

In [None]:
# leitura do dataset
pinguin_data = pd.read_csv("data/penguins_size.csv") # ,index_col=0)
pinguin_data.head()

Usar colunas com dados relevantes

In [None]:
pinguins_rel = pinguin_data[['species', 'culmen_length_mm', 'culmen_depth_mm']]
pinguins_rel.head()

In [None]:
# dimesões
print('Dim:',pinguins_rel.shape)
print('Tipos:',pinguins_rel.dtypes)

### Análise univariada usando um histograma 

Ao visualizar uma variável numérica em nosso conjunto de dados, o histograma é uma das várias opções disponíveis. Um histograma, parecido com um gráfico de barras, oferece insights sobre a distribuição de frequência de um conjunto de dados contínuo. No histograma, o eixo x representa valores contínuos divididos em compartimentos ou intervalos, enquanto o eixo y mostra o número ou a porcentagem de ocorrências em cada compartimento.

Com o histograma, podemos identificar rapidamente valores discrepantes, dispersão de dados, assimetria e muito mais. 



Histograma com detalhes básico

In [None]:
# histograma com detalhes basicos
sns.histplot(data=pinguins_rel, x=pinguins_rel["culmen_length_mm"]);

In [None]:
plt.figure(figsize= (12,6))  
ax = sns.histplot( data = pinguins_rel, x= pinguins_rel["culmen_length_mm"])  
ax.set_xlabel('comprimento do Culmen em mm',fontsize = 15)  
ax.set_ylabel('Número de registros', fontsize = 15)  
ax.set_title('Análises Univariada do comprimento do Culmen', fontsize= 20);

### Análise univariada usando um boxplot 

Assim como o histograma, o boxplot (também conhecido como whisker plot) é um bom candidato para visualizar uma única variável contínua no dataset. 

Os boxplots nos dão uma noção da distribuição subjacente de nosso conjunto de dados por meio de cinco métricas principais. As métricas incluem os valores mínimo, primeiro quartil, mediana, terceiro quartil e máximo.

![boxplot](images/box-plot.png)

Na figura anterior, podemos ver os seguintes componentes de um boxplot:
- A caixa: representa o intervalo interquartil (percentil 25/1º quartil até percentil 75/3º quartil)
- A mediana é a linha dentro da caixa e também é chamada de percentil 50. 
- Os limites: Os limites superior e inferior representam o intervalo de valores no dataset que não são discrepantes. A posição do limite é calculada a partir do intervalo interquartil (IQR), 1º quartil e 3º quartil. Isso é representado por Q1 - 1,5(IQR) e Q3 + 1,5(IQR) para o limite inferior e superior, respectivamente.
- Os círculos: os círculos inferior e superior fora dos limites representam valores discrepantes no dataset. Esses valores discrepantes são valores excepcionalmente pequenos abaixo do limite inferior ou valores excepcionalmente grandes acima do limite máximo. 

Com boxplots, podemos obter insights sobre a distribuição de dataset e identificar facilmente valores discrepantes. 

In [None]:
# leitura do dataset
valorcasa_data = pd.read_csv("data/HousingPricesData.csv",index_col=0) # ,index_col=0)
valorcasa_data.head()

In [None]:
# valores relevantes
valorcasas_rel = valorcasa_data[['Zip','Price','Area','Room']]
valorcasas_rel.head()

Criando o box-plot

In [None]:
# box-plot
sns.barplot(data=valorcasas_rel, x=valorcasas_rel['Price']);

In [None]:
# exemplo
tips = sns.load_dataset('tips')
# Criando um boxplot
sns.boxplot(x='day', y='total_bill', data=tips)
# Exibindo o gráfico
plt.show()

In [None]:
#
plt.figure(figsize= (12,6))  
ax = sns.boxplot(data=valorcasas_rel, x=valorcasas_rel['Price'])  
ax.set_xlabel('Preços de casas',fontsize = 15)  
ax.set_title('Analises univariado de preços de casas', fontsize= 20)  
plt.ticklabel_format(style='plain', axis='x')

### Análise univariada usando um gráfico de violino 

Um gráfico de violino é bastante parecido com um boxplot porque representa a distribuição de nosso conjunto de dados. O gráfico do violino mostra o pico de nossos dados e onde a maioria dos valores em nosso conjunto de dados está agrupada. 

Assim como os boxplots fornecem estatísticas resumidas sobre os dados, os plots do violino  fazem o mesmo, além de fornecer informações adicionais sobre a forma de nossos dados.

![Violino](images/violino.png)

Na figura acima, podemos ver os seguintes componentes de um gráfico de violino:
- *A linha grossa*: representa o intervalo interquartil (percentil 25/1º quartil até percentil 75/3º quartil).
- *O ponto branco*: representa a mediana (percentil 50).
- *A linha fina*: é semelhante aos limites superior e inferior do boxplot. Ele representa o intervalo de valores nos conjunto de dados que não são discrepantes. Os limites inferior e superior da linha são calculados a partir do IIQ entre o 1º quartil e o 3º quartil. Isso é representado por Q1 - 1,5(IQR) e Q3 + 1,5(IQR) para os limites inferior e superior, respectivamente.
- *O gráfico de densidade do kernel*: exibe a forma da distribuição dos dados subjacentes. Os pontos de dados no conjunto de dados têm maior probabilidade de estar nas seções mais largas (picos) e menor probabilidade de cair nas seções mais finas (caudas). 



In [None]:
# usando o dataset anterior
valorcasas_rel.head()

Criando o gráfico do violino usando o método de `violinplot`

In [None]:
# violinplot
sns.violinplot(data=valorcasas_rel,x=valorcasas_rel['Price']);

Addicionado maiores detalhes ao gráfico

In [None]:
plt.figure(figsize= (12,6)) 
ax = sns.violinplot(data =valorcasas_rel, x=valorcasas_rel['Price']) 
ax.set_xlabel('Preços de casas em milhões',fontsize = 15) 
ax.set_title( 'Análise univariada de preços de casas', fontsize= 20) 
plt.ticklabel_format(style='plain', axis='x')

### Análise univariada usando uma tabela de resumo 

Na análise univariada, uma tabela de resumo é muito útil para analisar valores numéricos no conjunto de dados. Em Python, essas tabelas de resumo apresentam estatísticas que resumem a tendência central, a dispersão e a forma da distribuição do conjunto de dados. 

As estatísticas abrangidas incluem a contagem de registos não vazios, média, desvio padrão, mínimo, máximo, percentil 25, percentil 50 e percentil 75. 

Nos pandas, o método de `descrbe()` fornece a essas tabelas de resumo todas as estatísticas mencionadas.

In [None]:
# usando o mesmo dataset original
cep_preco = valorcasas_rel[['Zip','Price']]
cep_preco.head()

Criar um resumo da tabela usando o método `descrebe()`.

In [None]:
# tabela resumo
cep_preco.describe()

### Análise univariada usando um gráfico de barras 

Assim como os histogramas, os gráficos de barras consistem em barras retangulares. Porém, enquanto o histograma analisa dados numéricos, o gráfico de barras analisa categorias. 

O eixo x normalmente representa as categorias no dataset, enquanto o eixo y representa a contagem das categorias ou suas ocorrências por porcentagem. Em alguns casos, o eixo y também pode ser a soma ou média de uma coluna numérica no dataset. 

O gráfico de barras fornece `insights` rápidos, especialmente quando precisamos comparar rapidamente categorias no dataset. 

Seaborn também possui um método barplot. Enquanto o countplot traça a contagem de cada categoria, o barplot traça uma variável numérica em relação a cada categoria. Isso torna o countplot mais adequado para análise univariada, enquanto o método barplot é mais adequado para análise bivariada.

In [None]:
# dataset se pinguins
pinguins_rel.head()

In [None]:
#
sns.countplot(data=pinguins_rel,x=pinguins_rel['species'],
              hue=pinguins_rel['species'], palette='coolwarm');

Adicionando detalhes ao gráfico

In [None]:
plt.figure(figsize= (12,6)) 
ax = sns.countplot(data=pinguins_rel, x= pinguins_rel['species'],
                   hue=pinguins_rel['species'], palette='coolwarm') 
ax.set_xlabel('Especie de Pinguin',fontsize = 15) 
ax.set_ylabel('Contagem de registros', fontsize = 15) 
ax.set_title('Análise univariada de espécies de pinguins', fontsize= 20)
ax.set_title('Análise univariada do comprimento de Culmen', fontsize= 20);

### Análise univariada usando um gráfico de pizza 

Um gráfico de pizza é um visual circular que exibe os tamanhos relativos de diversas categorias. Cada fatia de um gráfico de pizza representa uma categoria e o tamanho de cada categoria é proporcional à sua fração do tamanho total dos dados, normalmente 100%. Os gráficos de pizza permitem comparar facilmente várias categorias. 

Seaborn não possui um método de gráfico de pizza para criar gráficos de pizza, portanto, usaremos matplotlib para conseguir isso. O método pie em matplotlib pode ser usado para isso.

In [None]:
# usando o mesmo dataset anterior
pinguins_rel.head()

In [None]:
# agrupando os pinguins em especies
grupo_pinguins = pinguins_rel.groupby('species').count()
grupo_pinguins

In [None]:
# reser indices
grupo_pinguins = grupo_pinguins.reset_index()
grupo_pinguins

Criando o gráfico de pizza usando o método `pie`

In [None]:
plt.pie(grupo_pinguins['culmen_length_mm'], labels=grupo_pinguins['species'])
plt.show()

Adicionando detalhes à pizza

In [None]:
cores =['g','b','r']
plt.pie(grupo_pinguins['culmen_length_mm'], labels=grupo_pinguins['species'], colors=cores)
plt.title('Análises univariado das especies de pinguins')
plt.show()

---
Python para data science na prática &copy; Jorge Zavaleta, 2024