# Visualização para Pré-processamento e Transformação de Dados
### Usando Matplotlib e Seaborn

Neste notebook vamos explorar como gráficos auxiliam na identificação de problemas e aplicação de técnicas de pré-processamento e transformação de dados.

In [1]:
#!pip install matplotlib
#!pip install seaborn

In [None]:
import pandas as pd      # Manipulação de dados
import numpy as np       # Números e arrays
import matplotlib.pyplot as plt  # Gráficos
import seaborn as sns    # Visualizações estatísticas

sns.set(style='whitegrid')  # Define estilo dos gráficos

# Gerando dataset de exemplo
np.random.seed(42)  # Reprodutibilidade

df = pd.DataFrame({
    'idade': np.random.randint(15, 70, 100),         # 100 idades entre 15 e 69
    'salario': np.random.randint(1200, 12000, 100),  # 100 salários entre 1200 e 11999
    'genero': np.random.choice(['Masculino', 'Feminino'], 100)  # 100 gêneros aleatórios
})

df.head()  # Mostra as 5 primeiras linhas


## 1. Identificação de Outliers
Os **outliers** são valores extremos que podem distorcer análises e modelos. O **boxplot** é uma ótima ferramenta para identificá-los visualmente.
- Retângulo (caixa): representa o intervalo entre o 1º quartil (Q1, 25%) e o 3º quartil (Q3, 75%).
- Linha dentro da caixa: é a mediana (Q2, 50%), ou seja, o valor central da distribuição.
- “Bigodes” (linhas horizontais): mostram os limites inferior e superior, geralmente calculados como:

In [None]:
plt.figure(figsize=(6,4))        # Define tamanho do gráfico
sns.boxplot(x=df['salario'])     # Cria boxplot da coluna salario
plt.title('Boxplot de Salário')  # Define título
plt.show()                       # Exibe o gráfico


- O salário mínimo está em torno de ~1200 e o máximo perto de 12.000.
- A mediana (linha no meio da caixa) está por volta de 6.500–7.000, mostrando que metade dos funcionários ganha até esse valor.
- A caixa (entre Q1 e Q3) cobre aproximadamente 4.000 a 9.000, ou seja, 50% das pessoas recebem dentro desse intervalo.
- Não há outliers visíveis no gráfico — todos os salários estão dentro dos bigodes.

## 2. Distribuição dos Dados
Histogramas e curvas de densidade permitem verificar a **distribuição** dos dados. Isso auxilia na decisão sobre **normalização, padronização ou transformações matemáticas**.

In [None]:
plt.figure(figsize=(6,4))                  # Define tamanho do gráfico
sns.histplot(df['idade'], kde=True, bins=10)  # Histograma da idade + curva KDE
plt.title('Distribuição de Idade')         # Define título
plt.show()                                 # Exibe o gráfico


- O gráfico mostra que a idade dos indivíduos está bem distribuída em várias faixas, com maior concentração em torno dos 20, 35 e 65 anos.
- A curva de densidade ajuda a visualizar que não existe apenas um pico central, mas sim diferentes grupos etários relevantes.

## 3. Relação entre Variáveis
Gráficos de dispersão e matrizes de correlação ajudam a identificar relações entre atributos, redundâncias e a necessidade de redução de dimensionalidade.

In [None]:
plt.figure(figsize=(6,4))                               # Define tamanho do gráfico
sns.scatterplot(x='idade', y='salario', hue='genero', data=df)  # Dispersão: idade x salário, cor por gênero
plt.title('Idade vs Salário por Gênero')                # Define título
plt.show()                                              # Exibe o gráfico


- Não há uma tendência clara de crescimento do salário com a idade → pessoas jovens e mais velhas aparecem tanto com salários altos quanto baixos.
- A distribuição é heterogênea para ambos os gêneros.
- Há sobreposição entre masculino e feminino, sem diferença visual muito acentuada.

In [None]:
plt.figure(figsize=(6,4))                              # Define tamanho do gráfico
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm')  # Heatmap da correlação entre variáveis numéricas
plt.title('Matriz de Correlação')                      # Define título
plt.show()                                             # Exibe o gráfico


Valores variam de -1 a +1:
- +1 → correlação perfeita positiva.
- -1 → correlação perfeita negativa.
- 0 → sem correlação.
  
Neste caso:
- Correlação idade–salário ≈ 0.14 → fraca e positiva, ou seja, salários tendem a crescer levemente com a idade, mas a relação é muito fraca.
- As diagonais são sempre 1, pois um atributo é 100% correlacionado consigo mesmo.

## 4. Análise de Categorias
Os **countplots** permitem verificar se existe **desbalanceamento de classes**, importante em tarefas de classificação.

In [None]:
plt.figure(figsize=(6,4))             # Define tamanho do gráfico
sns.countplot(x='genero', data=df)    # Cria gráfico de barras com contagem por gênero
plt.title('Distribuição por Gênero')  # Define título
plt.show()                            # Exibe o gráfico


Esse gráfico mostra que a base de dados possui uma distribuição equilibrada entre homens e mulheres, o que é positivo para análises de aprendizado de máquina, pois não há desbalanceamento de classes significativo.

## Conclusão
- A visualização é fundamental no **pré-processamento**.
- Gráficos permitem detectar **outliers, distribuições irregulares, correlações e desbalanceamentos**.
- Essa análise inicial orienta quais **técnicas de transformação** aplicar.

# Quando usar cada tipo de gráfico

- **Histograma** → Quando você deseja analisar a **distribuição** de uma variável numérica (ex.: idades, salários). Ajuda a identificar assimetrias e outliers.
- **Boxplot** → Quando você quer resumir estatísticas de uma variável e **detectar outliers** rapidamente, ou comparar grupos (ex.: salário por cargo).
- **Gráfico de Barras** → Melhor para **comparar categorias** em termos de contagem ou soma (ex.: quantos registros existem por cidade).
- **Dispersão (Scatter Plot)** → Quando precisa avaliar a **relação entre duas variáveis numéricas** (ex.: idade x salário). Bom para visualizar correlação.
- **Heatmap de Correlação** → Usado para ter uma **visão geral das relações lineares** entre várias variáveis numéricas, identificando quais se influenciam.

Em resumo:
- Use **histograma** e **boxplot** para entender uma variável.
- Use **barras** para categorias.
- Use **scatter plot** para duas variáveis numéricas.
- Use **heatmap** para visão geral de muitas variáveis numéricas ao mesmo tempo.