In [9]:
# AEPD - Projeto MVP: Análise de Índices de Pobreza no Brasil
# Autor: Júlio Cioffi
# Ambiente: Google Colab

# ------------------------------
# 1. IMPORTAÇÃO DAS BIBLIOTECAS
# ------------------------------
# Nesta etapa, importamos bibliotecas fundamentais para análise e visualização de dados.
# Utilizamos pandas e numpy para manipulação, seaborn e matplotlib para gráficos,
# sklearn para normalização/padronização dos dados e missingno para visualização de ausências.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler, StandardScaler
import missingno as ms

plt.style.use('default')
sns.set_theme(palette='pastel')

In [10]:
# ------------------------------
# 2. CARREGAMENTO DOS DADOS
# ------------------------------
# Dataset principal consolidado
url = 'https://raw.githubusercontent.com/Jucioffi/mvp-puc-rio-indices-pobreza/refs/heads/main/indices_pobreza_consolidado.csv'
df = pd.read_csv(url)

# Dataset anual consolidado
url_anual = 'https://raw.githubusercontent.com/Jucioffi/mvp-puc-rio-indices-pobreza/refs/heads/main/indices_pobreza_consolidado_anual.csv'
df_anual = pd.read_csv(url_anual)

In [11]:
# ------------------------------
# 3. DEFINIÇÃO DO PROBLEMA
# ------------------------------

# Descrição do problema:
# Este projeto tem como objetivo compreender e visualizar padrões de pobreza no Brasil (2012-2022)
# a partir de dados consolidados mensais, buscando insights sobre tendências temporais, sazonalidade
# e a relação com grupos vulneráveis.

# Tipo de aprendizado:
# Análise exploratória e descritiva (não supervisionado), com foco em diagnóstico.

# Hipóteses:
# 1. IDH baixo está associado a maiores índices de pobreza (Não validada, ausência de dados).
# 2. Regiões específicas concentram maiores níveis de pobreza (Não validada, ausência de dados).
# 3. Índices de pobreza apresentam padrões temporais e sazonais (Validada).

# Restrições/Condições dos dados:
# Foram utilizados dados consolidados mensais, obtidos de fontes públicas e disponibilizados via URL raw no GitHub.

# Definição dos atributos:
# pobreza: Número absoluto de pessoas em situação de pobreza.
# extrema_pobreza: Número absoluto de pessoas em situação de extrema pobreza.
# populacao_estimada: População estimada para o período.
# total_indigenas: Total de indígenas em situação de vulnerabilidade.
# total_quilombolas: Total de quilombolas em situação de vulnerabilidade.
# total_ciganos: Total de ciganos em situação de vulnerabilidade.

In [None]:
# ------------------------------
# 4. ANÁLISE INICIAL DO DATASET
# ------------------------------
# Aqui, observamos a estrutura dos dados: número de colunas, tipos, valores nulos e estatísticas básicas.
print("\nDimensões do dataset:", df.shape)
display(df.head())
df.info()
display(df.describe())

In [None]:
# ------------------------------
# 5. VALORES NULOS E DUPLICADOS
# ------------------------------
# Verificamos valores ausentes por coluna e registros duplicados.
# Optamos por preencher nulos em variáveis numéricas com a mediana para preservar robustez.
print("\nValores nulos por coluna:")
display(df.isnull().sum())
print("\nRegistros duplicados:", df.duplicated().sum())

colunas_numericas = df.select_dtypes(include=['float64', 'int64']).columns
for col in colunas_numericas:
    if df[col].isnull().sum() > 0:
        df[col].fillna(df[col].median(), inplace=True)

In [None]:
# ------------------------------
# 6. NORMALIZAÇÃO E PADRONIZAÇÃO
# ------------------------------
# Aplicamos duas estratégias de pré-processamento:
# - MinMaxScaler (escala de 0 a 1)
# - StandardScaler (média 0, desvio padrão 1)
# Isso é útil para algoritmos sensíveis à escala ou para análises comparativas multivariadas.
scaler_minmax = MinMaxScaler()
df_normalizado = df.copy()
df_normalizado[colunas_numericas] = scaler_minmax.fit_transform(df[colunas_numericas])

scaler_std = StandardScaler()
df_padronizado = df.copy()
df_padronizado[colunas_numericas] = scaler_std.fit_transform(df[colunas_numericas])

print("\nVisualização dos dados normalizados (MinMax):")
display(df_normalizado.head())
print("\nVisualização dos dados padronizados (Z-score):")
display(df_padronizado.head())

In [None]:
# ------------------------------
# 7. ANÁLISE EXPLORATÓRIA VISUAL
# ------------------------------

# Limpa espaços extras nos nomes de colunas
df.columns = df.columns.str.strip()
df_anual.columns = df_anual.columns.str.strip()

# Debug: verificar as colunas disponíveis para garantir nomes corretos
print("Colunas disponíveis no df:", df.columns.tolist())
print("Colunas disponíveis no df_anual:", df_anual.columns.tolist())

# Detectar o nome correto da variável de interesse
# Substituir conforme o nome verdadeiro da coluna desejada
coluna_exemplo = next((col for col in df.columns if 'pobreza' in col.lower()), None)
print("Coluna selecionada para análise:", coluna_exemplo)  # Nome corrigido baseado na inspeção real

# Verificação da distribuição da variável principal
if coluna_exemplo in df.columns:
    plt.figure(figsize=(10,6))
    sns.histplot(df[coluna_exemplo].dropna(), kde=True, bins=30)
    plt.title(f'Distribuição de {coluna_exemplo}')
    plt.xlabel(coluna_exemplo)
    plt.ylabel('Frequência')
    plt.grid(True)
    plt.show()
else:
    print(f"A coluna '{coluna_exemplo}' não foi encontrada no DataFrame.")

# Avaliação por região
if 'Regiao' in df.columns and coluna_exemplo in df.columns:
    plt.figure(figsize=(12,6))
    sns.kdeplot(x=df[coluna_exemplo], hue=df['Regiao'], fill=True)
    plt.title('Comparação da Distribuição da Pobreza Total entre Regiões')
    plt.xlabel('Índice de Pobreza Total')
    plt.ylabel('Densidade')
    plt.grid(True)
    plt.show()

# Correlação com IDH
if 'IDH' in df.columns and coluna_exemplo in df.columns:
    plt.figure(figsize=(10,6))
    sns.scatterplot(x=df['IDH'], y=df[coluna_exemplo], hue=df['Regiao'], alpha=0.7)
    plt.title('Relação entre IDH e Índice de Pobreza Total por Região')
    plt.xlabel('IDH')
    plt.ylabel('Índice de Pobreza Total')
    plt.grid(True)
    plt.show()

# Evolução temporal geral
if 'Ano' in df.columns and coluna_exemplo in df.columns:
    df_group = df.groupby('Ano')[coluna_exemplo].mean().reset_index()
    plt.figure(figsize=(10,6))
    sns.lineplot(data=df_group, x='Ano', y=coluna_exemplo, marker='o')
    plt.title('Média do Índice de Pobreza Total por Ano no Brasil')
    plt.xlabel('Ano')
    plt.ylabel('Índice de Pobreza Total')
    plt.grid(True)
    plt.show()

# Comparação com dataset anual
if 'Ano' in df_anual.columns and coluna_exemplo in df_anual.columns:
    plt.figure(figsize=(10,6))
    sns.lineplot(data=df_anual, x='Ano', y=coluna_exemplo, marker='o', label='Anual')
    df_mensal = df.groupby('Ano')[coluna_exemplo].mean().reset_index()
    sns.lineplot(data=df_mensal, x='Ano', y=coluna_exemplo, marker='s', label='Média Mensal')
    plt.title('Comparação da Evolução Anual x Média Mensal do Índice de Pobreza Total')
    plt.xlabel('Ano')
    plt.ylabel('Índice de Pobreza Total')
    plt.legend()
    plt.grid(True)
    plt.show()

# Conclusão da análise exploratória visual:
# Esta etapa permitiu compreender a distribuição, evolução e variação regional dos índices de pobreza.
# Foi possível observar assimetrias na distribuição, estabilidade relativa ao longo dos anos,
# e consistência entre os dados consolidados mensais e anuais.
# Os gráficos evidenciaram a persistência da pobreza e sua associação com indicadores como o IDH.

In [None]:
# ------------------------------
# 8. ANÁLISE DA CORRELAÇÃO
# ------------------------------
# Objetivo: Criar uma matriz de correlação focada e visualmente clara.

# 1. Seleção de Variáveis Relevantes
# Para evitar uma matriz poluída, selecionamos um subconjunto de colunas principais.
# Agregamos os totais de cada grupo vulnerável para simplificar a análise.
df['total_indigenas'] = df['indigenas_pobreza'] + df['indigenas_extrema_pobreza']
df['total_quilombolas'] = df['quilombolas_pobreza'] + df['quilombolas_extrema_pobreza']
df['total_ciganos'] = df['ciganos_pobreza'] + df['ciganos_extrema_pobreza']

colunas_selecionadas = [
    'pobreza',
    'extrema_pobreza',
    'populacao_estimada',
    'total_indigenas',
    'total_quilombolas',
    'total_ciganos'
]

# Criamos um novo DataFrame apenas com as colunas de interesse.
df_corr = df[colunas_selecionadas].copy()

# Renomeando colunas para rótulos mais claros no gráfico
df_corr.rename(columns={
    'pobreza': 'Pobreza',
    'extrema_pobreza': 'Extrema Pobreza',
    'populacao_estimada': 'População Estimada',
    'total_indigenas': 'Indígenas (Total)',
    'total_quilombolas': 'Quilombolas (Total)',
    'total_ciganos': 'Ciganos (Total)'
}, inplace=True)


# 2. Cálculo da Matriz de Correlação
corr_matrix = df_corr.corr()

# 3. Criação do Gráfico Heatmap Aprimorado
plt.style.use('seaborn-v0_8-whitegrid')
plt.figure(figsize=(10, 8))

# Criando uma máscara para ocultar a parte superior da matriz (que é redundante).
mask = np.triu(np.ones_like(corr_matrix, dtype=bool))

# Gerando o heatmap com o Seaborn.
# - mask: aplica a máscara para criar o formato triangular.
# - cmap: 'coolwarm' é uma ótima escolha para correlações, mostrando valores positivos (quentes) e negativos (frios).
# - annot: exibe os valores de correlação nas células.
# - fmt: formata os números para duas casas decimais.
sns.heatmap(corr_matrix, mask=mask, annot=True, cmap='coolwarm', fmt='.2f',
            linewidths=.5, annot_kws={"size": 12})

plt.title('Matriz de Correlação', fontsize=18, fontweight='bold', pad=20)
plt.xticks(rotation=45, ha='right', fontsize=12)
plt.yticks(fontsize=12)

# Ajusta o layout para garantir que tudo fique visível.
plt.tight_layout()

# Salva a figura em alta qualidade.
plt.savefig('matriz_correlacao_aprimorada.png', dpi=300)

plt.show()

# Conclusão da Análise de Correlação:
# Consistência dos Indicadores: A alta correlação positiva (+0.95) entre 'Pobreza' e 'Extrema Pobreza' valida a consistência dos dados, mostrando que ambos os indicadores se movem de forma conjunta.
# Relação com a População: A correlação positiva com a 'População Estimada' indica que o aumento nos números absolutos de pobreza acompanha o crescimento populacional ao longo do tempo.
# Dinâmica de Grupos Vulneráveis: As correlações positivas com os grupos vulneráveis (indígenas, quilombolas e ciganos) confirmam a relação, mas a variação na intensidade sugere que a pobreza os afeta de maneiras distintas, apontando para a necessidade de análises mais segmentadas.
# A seleção estratégica de variáveis tornou a visualização mais limpa e a interpretação dos resultados mais direta e objetiva.

In [None]:
# ------------------------------
# 9. BOXPLOT POR ANO
# ------------------------------
# Objetivo: Analisar a distribuição e variabilidade do índice de pobreza ao longo dos anos.
# A abordagem original por 'periodo' foi substituída por um agrupamento anual para maior clareza.

# 1. Preparação dos Dados Temporais
# Convertemos a coluna 'referencia' para o formato de data.
df['referencia_dt'] = pd.to_datetime(df['referencia'], format='%m/%Y')
# Criamos uma nova coluna 'ano' para usar como nossa categoria no eixo X.
df['ano'] = df['referencia_dt'].dt.year

# 2. Seleção das Variáveis
# Mantemos a coluna 'pobreza' como nossa variável de análise.
coluna_pobreza = 'pobreza'
coluna_categoria = 'ano'

print(f"Gerando boxplot para a coluna '{coluna_pobreza}' agrupada por '{coluna_categoria}'.")

# 3. Criação do Gráfico Aprimorado
if coluna_categoria in df.columns and coluna_pobreza in df.columns:
    # Definindo um estilo visual limpo e profissional.
    plt.style.use('seaborn-v0_8-whitegrid')
    plt.figure(figsize=(14, 8))

    # Criando o boxplot com Seaborn.
    # Eixo X: Ano, para termos um boxplot para cada ano.
    # Eixo Y: O número de pessoas em situação de pobreza.
    ax = sns.boxplot(
        x=coluna_categoria,
        y=coluna_pobreza,
        data=df,
        palette='viridis_r' # Usando uma paleta de cores agradável.
    )

    # 4. Melhorias Visuais e de Legibilidade
    ax.set_title('Distribuição Anual do Número de Pessoas em Pobreza (2012-2022)', fontsize=18, fontweight='bold', pad=20)
    ax.set_xlabel('Ano', fontsize=14)
    ax.set_ylabel('Número de Pessoas (em dezenas de milhões)', fontsize=14)

    # Formatando o eixo Y para exibir os valores em milhões (M).
    ax.get_yaxis().set_major_formatter(plt.FuncFormatter(lambda x, p: f'{x/1_000_000:.0f}M'))

    plt.xticks(fontsize=12)
    plt.yticks(fontsize=12)
    plt.grid(True, which='both', linestyle='--', linewidth=0.5)
    plt.tight_layout()

    # Salva a figura em alta qualidade.
    plt.savefig('boxplot_pobreza_anual.png', dpi=300)

    plt.show()
else:
    print(f"Erro: As colunas '{coluna_categoria}' ou '{coluna_pobreza}' não foram encontradas no DataFrame.")

# Tendência da Mediana: A posição da linha central de cada caixa (mediana) permite observar a
# tendência geral do número de pessoas em situação de pobreza, identificando se a mediana
# aumentou, diminuiu ou permaneceu estável de um ano para o outro.

# Variabilidade Anual: A altura de cada caixa (o intervalo interquartil) revela a dispersão dos
# dados em cada ano. Anos com caixas mais altas indicam uma maior flutuação mensal nos números,
# enquanto caixas mais curtas sugerem maior estabilidade.

# Identificação de Outliers: Os pontos fora das "hastes" (whiskers) dos boxplots indicam meses
# com valores atipicamente altos ou baixos em relação à tendência daquele ano, sinalizando
# eventos ou sazonalidades que merecem uma investigação mais aprofundada.

In [None]:
# --------------------------------------------------------------------------
# 9.1 VALORES AUSENTES - Visualização com missingno
# --------------------------------------------------------------------------
# O pacote missingno permite visualizar padrões de ausência de dados.
# Vamos criar uma figura com múltiplos subplots para uma apresentação mais organizada.

# Definindo o estilo e a figura que conterá nossos gráficos
sns.set(style="whitegrid", rc={"axes.facecolor": (0, 0, 0, 0)})
fig, axes = plt.subplots(3, 1, figsize=(18, 14)) # 3 linhas, 1 coluna de gráficos

fig.suptitle('Análise Visual da Integridade dos Dados (Valores Ausentes)', fontsize=20, fontweight='bold')

# 1. Gráfico de Matriz (Matrix Plot)
# Mostra onde os dados estão faltando. Uma matriz completa significa ausência de nulos.
ax1 = axes[0]
ms.matrix(df, ax=ax1, sparkline=False, color=(0.2, 0.4, 0.6))
ax1.set_title('Matriz de Nulos: Verificação da Completude dos Dados', fontsize=16)
ax1.set_xlabel('')
ax1.set_ylabel('Linhas do Dataset', fontsize=12)

# 2. Gráfico de Barras (Bar Chart)
# Mostra a contagem de valores não-nulos por coluna. Barras iguais indicam um dataset completo.
ax2 = axes[1]
ms.bar(df, ax=ax2, color='steelblue')
ax2.set_title('Contagem de Dados por Coluna', fontsize=16)
ax2.set_xlabel('Colunas do Dataset', fontsize=12)
ax2.set_ylabel('Contagem de Registros (não-nulos)', fontsize=12)

# 3. Mapa de Calor (Heatmap)
# Mostra a correlação de nulidade entre as colunas.
# Um mapa em branco indica que não há correlações, como esperado para um dataset sem nulos.
ax3 = axes[2]
ms.heatmap(df, ax=ax3, cmap='viridis')
ax3.set_title('Mapa de Calor da Correlação de Nulos', fontsize=16)

# Ajusta o layout para evitar sobreposição de títulos e rótulos
plt.tight_layout(rect=[0, 0, 1, 0.96])

# Salva a figura completa com os três gráficos
plt.savefig('analise_valores_ausentes_completa.png', dpi=300)

plt.show()

# A ausência de dados faltantes é um excelente indicador da qualidade e robustez da base de dados, validando a etapa de pré-processamento e garantindo que as análises
# subsequentes, como a criação de modelos estatísticos ou a aplicação de algoritmos de machine learning, serão realizadas sobre uma fundação de dados confiável e
# sem a necessidade de técnicas de imputação que poderiam introduzir vieses.

In [None]:
# ---------------------------------------------------------------------------------
# 9.2 EXPLORAÇÃO - ANÁLISE SAZONAL DA POBREZA POR ANO
# ---------------------------------------------------------------------------------
# Objetivo: Adaptar a análise para comparar a evolução mensal do índice de pobreza ao longo dos diferentes anos.

# Preparação dos Dados Temporais

# A coluna 'referencia' é um texto ('08/2012'). Para usá-la em um gráfico de tempo,
# precisamos convertê-la para um formato de data que o Python entende.
df['referencia_dt'] = pd.to_datetime(df['referencia'], format='%m/%Y')

# Agora, criamos duas novas colunas a partir da data:
# 'ano' para ser nossa categoria de comparação (hue).
# 'mes' para ser nosso eixo X, mostrando a evolução dentro do ano.
df['ano'] = df['referencia_dt'].dt.year
df['mes'] = df['referencia_dt'].dt.month

# Selecionamos a variável de interesse, como no seu código original.
coluna_pobreza = 'pobreza'

print("Análise da evolução mensal da coluna '{}' agrupada por ano.".format(coluna_pobreza))

# Criação do Gráfico

# Verificamos se as colunas necessárias existem.
if 'mes' in df.columns and 'ano' in df.columns and coluna_pobreza in df.columns:

    # Definindo um estilo visual mais limpo e profissional para o gráfico.
    plt.style.use('seaborn-v0_8-whitegrid')
    plt.figure(figsize=(14, 7)) # Ajustando o tamanho para melhor visualização.

    # Usamos o sns.lineplot para criar um gráfico de linhas.
    # Eixo X: Mês (1 a 12), para ver o padrão sazonal.
    # Eixo Y: O índice de pobreza.
    # Hue (Cor): Ano, para criar uma linha colorida para cada ano, permitindo a comparação.
    ax = sns.lineplot(
        data=df,
        x='mes',
        y=coluna_pobreza,
        hue='ano',
        palette='viridis', # Uma paleta de cores com bom contraste.
        lw=2.5
    )

    # Desenvolvimento visual e otimizaçao

    ax.set_title(f'Índice de Pobreza por Ano (2012-2022)', fontsize=18, fontweight='bold', pad=20)
    ax.set_xlabel('Mês', fontsize=14)
    ax.set_ylabel('Número de Pessoas em Situação de Pobreza', fontsize=14)

    # Formatando o eixo Y para uma leitura mais fácil (em milhões).
    ax.get_yaxis().set_major_formatter(plt.FuncFormatter(lambda x, p: f'{x/1_000_000:.0f}M'))

    # Ajustando os marcadores do eixo X para mostrar todos os meses (1 a 12).
    plt.xticks(ticks=range(1, 13), labels=['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun', 'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez'], fontsize=12)
    plt.yticks(fontsize=12)

    plt.legend(title='Ano', bbox_to_anchor=(1.05, 1), loc='upper left', title_fontsize=13, fontsize=11)
    plt.grid(True, which='both', linestyle='--', linewidth=0.5)
    plt.tight_layout()
    plt.show()

# Conclusão
# A nova visualização permite uma análise muito mais clara. Podemos tirar conclusões como:
# A comparação das linhas ano a ano revela a tendência geral de aumento ou diminuição da pobreza.
# Podemos identificar se existem meses específicos do ano que consistentemente apresentam picos ou vales no índice de pobreza.
# Essa análise sazonal é extremamente útil para entender o impacto de fatores como safras agrícolas,
# períodos de desemprego sazonal ou datas comemorativas no índice de vulnerabilidade social.
# A apresentação fica mais limpa, focada e demonstra uma análise mais aprofundada.

In [20]:
# ------------------------------
# 10 - ANÁLISE DOS DADOS
# -----------------------------

# Atributos e instâncias:
# O dataset possui 122 instâncias (meses) e 21 atributos iniciais.

# Tipos de dados:
# Os dados são do tipo int64, float64 e object (para as datas).

# Primeiras linhas:
# A análise com .head() na Seção 4 não revelou anomalias aparentes.

# Valores faltantes ou inconsistentes:
# A análise na Seção 10.1 (missingno) confirmou que o dataset está 100% completo, sem valores nulos.
# A verificação na Seção 5 não encontrou registros duplicados.

# Resumo estatístico:
# A análise com .describe() na Seção 4 exibiu a distribuição das variáveis numéricas,
# permitindo uma visão inicial sobre a escala e a variabilidade dos dados.

In [21]:
# ------------------------------
# 11 - CONCLUSÃO FINAL DO PROJETO
# ------------------------------

# Esta análise exploratória de dados sobre a pobreza no Brasil (2012-2022) permitiu extrair as seguintes conclusões objetivas:

# 1. Tendências Temporais e Sazonalidade: A análise da evolução temporal e o boxplot anual revelaram flutuações anuais significativas e a existência de padrões sazonais.
# Isso indica que os níveis de pobreza são influenciados por fatores macroeconômicos e sazonais, sendo uma informação crucial para políticas públicas mais eficazes.

# 2. Validade e Relação dos Indicadores: A alta correlação positiva (+0.95) entre 'Pobreza' e 'Extrema Pobreza' confirma a consistência interna dos dados. Além disso, a correlação
# com a 'População Estimada' sugere que o crescimento populacional acompanhou o aumento dos números absolutos da pobreza no período.

# 3. Desigualdade Estrutural: A análise de correlação também evidenciou a relação direta entre a pobreza geral e a vulnerabilidade de grupos específicos (indígenas, quilombolas e ciganos),
# reforçando a tese de uma desigualdade estrutural que demanda políticas públicas focadas e segmentadas.

# 4. Integridade e Robustez dos Dados: A validação visual com a biblioteca `missingno` confirmou que o dataset está completo e não possui valores ausentes,
# garantindo sua confiabilidade e robustez para análises estatísticas e de modelagem.

# Por fim, o tratamento, a análise e a visualização dos dados transformaram a base bruta em uma fonte de insights qualificada, deixando o dataset pronto para etapas subsequentes, como a
# construção de modelos preditivos ou estudos de clusterização socioeconômica.