# 01 - Exploração e Limpeza de Dados
Este notebook realiza a **análise exploratória dos dados (EDA)** e o **pré-processamento inicial** do dataset *Air Quality and Health Impact*.  
As etapas incluem:

1. Carregamento e inspeção do dataset bruto  
    - Remoção de colunas não utilizáveis  
    - Separação entre variáveis preditoras e alvo  
2. Análise exploratória (EDA):
   - Verificação de tipos, estatísticas, duplicatas e ausentes
   - Histogramas
   - Boxplots
   - Correlação
   - Investigação de outliers
3. Normalização e salvamento do dataset
   - Salvamento do scaler com `StandardScaler`
   - Salvamento do dataset processado

In [None]:
# Imports e Configurações Iniciais
from src.preporcessing import load_raw_dataset, remove_columns, split_features_target

## 1. Carregamento e inspeção do dataset bruto

In [None]:
df = load_raw_dataset("../data/raw/air_quality_health_impact_data.csv")
print(f"Linhas: {df.shape[0]}, Colunas: {df.shape[1]}")
df.head()

### Sobre o dataset

Este dataset contém 5.811 registros relacionados a qualidade do ar, condições climáticas e impactos na saúde.  
Possui três áreas principais:

- **Air Quality Metrics**
- **Weather Conditions**
- **Health Impact Metrics**

Uma coluna com o Id:

- `RecordId`

E duas colunas relacionadas ao alvo:

- `HealthImpactScore` → variável contínua (0–100)
- `HealthImpactClass` → variável categórica (classes 0–4)

### Remoção do Score e do ID
A variável `HealthImpactScore` é usada para construir diretamente o valor da classe (`HealthImpactClass`).  
Portanto, usá-la como feature criaria *data leakage*: o modelo teria acesso a informação que ele só deveria ver após prever.

Já o `RecordId`, é apenas um identificador sequencial que não contém informação preditiva.

In [None]:
df = remove_columns(df, cols=['HealthScore', 'RecordID'])
df.head()

### Separação entre features e alvo

Separar as variáveis preditoras da variável alvo é útil na fase de exploração, pois:

- evita misturar os atributos de entrada com a classe alvo;
- facilita a visualização (histogramas, boxplots, correlação);
- permite identificar outliers e distribuições apenas nas features;
- prepara a base para o pré-processamento e para a modelagem futura.

É uma separação é apenas organizacional.

In [None]:
feature_df, target = split_features_target(df, target='HealthImpactClass')

### Ausência de valores ausentes e duplicados

O dataset não possui valores ausentes nem duplicados.  
Portanto, não será necessário imputação, tampouco remover ou agrupar instâncias repetidas

In [None]:
# Dados faltosos e duplicados
print("\nLinhas duplicadas:", df.duplicated().sum())

print("\nValores ausentes:")
display(feature_df.isnull().sum())