# Milestone 1: Data Understanding & Initial EDA

Este notebook realiza a análise exploratória inicial dos dados fornecidos para o projeto de habituação.
O objetivo é compreender a distribuição demográfica e económica dos candidatos a programas de apoio.

## 1. Configuração e Carregamento

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Configurar estilo dos gráficos
sns.set_theme(style="whitegrid")

# Caminhos
data_path = '../data/raw/amostras_desafio.xlsx'
processed_path = '../data/processed/'
figures_path = '../reports/figures/'

# Garantir diretorias
os.makedirs(processed_path, exist_ok=True)
os.makedirs(figures_path, exist_ok=True)

# Carregar dados
try:
    df = pd.read_excel(data_path)
    print("Dados carregados com sucesso!")
    display(df.head())
except Exception as e:
    print(f"Erro ao carregar dados: {e}")

## 2. Limpeza Inicial
Renomeação de colunas para facilitar a manipulação.

In [None]:
df.columns = [col.strip() for col in df.columns]
rename_map = {
    'Contexto': 'contexto',
    'Estado': 'estado',
    'Data Estado': 'data_estado',
    'Escalão Etário': 'escalao_etario',
    'Nº Elem. Agregado': 'n_elem_agregado',
    'Nº Adultos': 'n_adultos',
    'Concelho': 'concelho',
    'Rendimento Global (IRS e Rend. Isentos)': 'rendimento_anual_bruto'
}
df.rename(columns=rename_map, inplace=True)
df.info()

## 3. Análise Exploratória (EDA)
### 3.1 Distribuição Geográfica
Onde residem os candidatos?

In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(y='concelho', data=df, order=df['concelho'].value_counts().index, palette='viridis', hue='concelho', legend=False)
plt.title('Distribuição de Candidatos por Concelho')
plt.xlabel('Número de Candidatos')
plt.ylabel('Concelho')
plt.tight_layout()
plt.savefig(os.path.join(figures_path, 'distribuicao_concelho.png'))
plt.show()

### 3.2 Distribuição Etária
Quantos candidatos são jovens (< 35 anos)?

In [None]:
plt.figure(figsize=(8, 5))
sns.countplot(x='escalao_etario', data=df, order=['Menos 35 anos', '35 a 65 anos', 'Mais 65 anos'], palette='pastel', hue='escalao_etario', legend=False)
plt.title('Distribuição de Candidatos por Escalão Etário')
plt.xlabel('Escalão Etário')
plt.ylabel('Contagem')
plt.tight_layout()
plt.savefig(os.path.join(figures_path, 'distribuicao_etaria.png'))
plt.show()

### 3.3 Distribuição de Rendimentos
Qual é o rendimento anual bruto dos agregados?

In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(df['rendimento_anual_bruto'], bins=20, kde=True, color='skyblue')
plt.title('Distribuição do Rendimento Anual Bruto dos Agregados')
plt.xlabel('Rendimento Anual (€)')
plt.ylabel('Frequência')
plt.axvline(df['rendimento_anual_bruto'].mean(), color='red', linestyle='--', label=f'Média: {df["rendimento_anual_bruto"].mean():.2f}€')
plt.legend()
plt.tight_layout()
plt.savefig(os.path.join(figures_path, 'distribuicao_rendimento.png'))
plt.show()

## 4. Conclusões Preliminares (M1)
- A maioria dos candidatos reside em Lisboa.
- Existe um equilíbrio entre jovens e adultos.
- O rendimento médio ronda os 15.000€ anuais.

In [None]:
df.to_csv(os.path.join(processed_path, 'amostra_limpa_M1.csv'), index=False)
print("Processo concluído.")