<a href="https://colab.research.google.com/github/duhh-09/teste-guit/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ETL

In [None]:
import pandas as pd
import os

def processar_dados_instituicao(df_raw, col_cidade, col_alunos):
    """
    Extrai e limpa os dados da instituição (alunos por cidade) de um DataFrame bruto.

    Args:
        df_raw (pd.DataFrame): O DataFrame original lido do CSV.
        col_cidade (str): O nome da coluna da cidade para o ano específico.
        col_alunos (str): O nome da coluna do número de alunos para o ano específico.

    Returns:
        pd.DataFrame: Um DataFrame limpo com as colunas 'municipio' e 'num_beneficiados_alunos'.
    """
    df = df_raw[[col_cidade, col_alunos]].copy()
    df.columns = ['municipio', 'num_beneficiados_alunos']
    df.dropna(how='all', inplace=True)
    df['num_beneficiados_alunos'] = pd.to_numeric(
        df['num_beneficiados_alunos'].astype(str).str.replace(',', '', regex=False),
        errors='coerce'
    ).fillna(0).astype(int)
    df['municipio'] = df['municipio'].str.strip().str.upper()
    return df

def processar_dados_homicidios(df_pb_homicidios, ano):
    """
    Filtra, processa e agrega os dados de homicídios para um ano específico.

    Args:
        df_pb_homicidios (pd.DataFrame): DataFrame com dados de homicídios já filtrado para a Paraíba.
        ano (int): O ano a ser processado (ex: 2022).

    Returns:
        pd.DataFrame: DataFrame agregado por município com a contagem de homicídios para o ano.
    """
    col_nome_output = f'homicidios_jovens_{ano}'
    df_ano = df_pb_homicidios[df_pb_homicidios['período'] == ano][['nome', 'valor']].copy()
    df_ano.columns = ['municipio', col_nome_output]
    df_ano['municipio'] = df_ano['municipio'].str.strip().str.upper()
    df_agregado = df_ano.groupby('municipio').sum().reset_index()
    return df_agregado

def consolidar_e_salvar(ano, df_instituicao, df_homicidios, df_censo, pasta_saida):
    """
    Une os DataFrames de instituição, homicídios e censo, e salva o resultado consolidado.

    Args:
        ano (int): O ano da análise para nomear colunas e arquivos.
        df_instituicao (pd.DataFrame): DataFrame dos dados da instituição.
        df_homicidios (pd.DataFrame): DataFrame dos dados de homicídios.
        df_censo (pd.DataFrame): DataFrame dos dados do censo.
        pasta_saida (str): Caminho da pasta para salvar o arquivo final.
    """
    if df_instituicao is None or df_censo is None:
        print(f"AVISO: Não foi possível gerar a análise de {ano} pois dados essenciais não foram carregados.")
        return

    print(f"\n--- Unindo e Salvando Análise de {ano} ---")
    df_final = df_instituicao.copy()


    if df_homicidios is not None:
        df_final = pd.merge(df_final, df_homicidios, on='municipio', how='left')


    df_final = pd.merge(df_final, df_censo, on='municipio', how='left')


    col_homicidios = f'homicidios_jovens_{ano}'
    if col_homicidios in df_final.columns:
        df_final[col_homicidios] = df_final[col_homicidios].fillna(0)

    caminho_arquivo_saida = os.path.join(pasta_saida, f'dados_consolidados_finais_{ano}.csv')
    df_final.to_csv(caminho_arquivo_saida, index=False, encoding='utf-8-sig')
    print(f"Análise de {ano} salva com sucesso em: {caminho_arquivo_saida}")

print("Iniciando o script ETL completo para as análises de 2022 e 2023...")


try:
    pasta_principal = r'D:\IASMIN\FACULDADE\ANALISE DE DADOS\PROJETO ALPARGATAS'
    if not os.path.exists(pasta_principal):
        pasta_principal = './'
        print(f"AVISO: Caminho principal não encontrado. Usando diretório atual: '{pasta_principal}'.")

    pasta_dados = os.path.join(pasta_principal, 'DADOS')
    pasta_censo = os.path.join(pasta_dados, 'CENSO')
    pasta_dados_tratados = os.path.join(pasta_principal, 'DADOS_TRATADOS')
    os.makedirs(pasta_dados_tratados, exist_ok=True)

    print(f"\nLendo dados de:")
    print(f" -> INSTITUIÇÃO/RDPB: {pasta_dados}")
    print(f" -> CENSO: {pasta_censo}")
    print(f"\nSalvando resultados em: {pasta_dados_tratados}")

    caminho_instituicao = os.path.join(pasta_dados, 'DADOS ALPARGATAS(Sheet1).csv')
    caminho_homicidios_rdpb = os.path.join(pasta_dados, 'homicidios-de-jovens.csv')

    caminho_censo_alfa = os.path.join(pasta_censo, 'Agregados_por_setores_alfabetizacao_BR.csv')
    caminho_censo_basico = os.path.join(pasta_censo, 'Agregados_por_setores_basico_BR_20250417.csv')
    caminho_censo_domicilio = os.path.join(pasta_censo, 'Agregados_por_setores_caracteristicas_domicilio1_BR.csv')
    caminho_censo_demo = os.path.join(pasta_censo, 'Agregados_por_setores_demografia_BR.csv')

except Exception as e:
    print(f"Erro na configuração de caminhos: {e}")
    exit()


print("\n--- Etapa 2: Processando Dados da INSTITUIÇÃO (2022 e 2023) ---")
df_instituicao_2022, df_instituicao_2023 = None, None
try:
    df_raw_instituicao = pd.read_csv(caminho_instituicao)
    df_instituicao_2023 = processar_dados_instituicao(df_raw_instituicao, 'CIDADE', 'N ALUNOS')
    print("Dados da Instituição de 2023 processados.")
    df_instituicao_2022 = processar_dados_instituicao(df_raw_instituicao, 'CIDADE.1', 'N ALUNOS.1')
    print("Dados da Instituição de 2022 processados.")
except FileNotFoundError:
    print(f"ERRO: Arquivo da Instituição não encontrado em '{caminho_instituicao}'.")
except Exception as e:
    print(f"Ocorreu um erro ao processar os dados da Instituição: {e}")


print("\n--- Etapa 3: Processando Dados da RDPB (Homicídios 2022 e 2023) ---")
df_homicidios_2022, df_homicidios_2023 = None, None
try:
    df_rdpb_raw = pd.read_csv(caminho_homicidios_rdpb, sep=';')
    df_rdpb_raw['cod_uf'] = df_rdpb_raw['cod'].astype(str).str[:2]
    df_rdpb_pb = df_rdpb_raw[df_rdpb_raw['cod_uf'] == '25'].copy()

    df_homicidios_2022 = processar_dados_homicidios(df_rdpb_pb, 2022)
    print("Dados da RDPB (Homicídios) de 2022 processados.")
    df_homicidios_2023 = processar_dados_homicidios(df_rdpb_pb, 2023)
    print("Dados da RDPB (Homicídios) de 2023 processados.")
except FileNotFoundError:
    print(f"ERRO: Arquivo de Homicídios (RDPB) não encontrado em '{caminho_homicidios_rdpb}'.")
except Exception as e:
    print(f"Ocorreu um erro ao processar os dados da RDPB: {e}")


print("\n--- Etapa 4: Processando Dados do CENSO 2022 a partir dos arquivos nacionais ---")
df_censo = None
try:
    df_basico = pd.read_csv(caminho_censo_basico, sep=';', encoding='latin-1', usecols=['CD_UF', 'NM_MUN', 'CD_SETOR', 'v0001'])
    df_alfa = pd.read_csv(caminho_censo_alfa, sep=';', encoding='latin-1', usecols=['CD_setor', 'V00645', 'V00660'])
    df_domicilio = pd.read_csv(caminho_censo_domicilio, sep=';', encoding='latin-1', usecols=['CD_setor', 'V00048', 'V00052', 'V00054'])
    df_demo = pd.read_csv(caminho_censo_demo, sep=';', encoding='latin-1', usecols=['CD_setor', 'V01016', 'V01017', 'V01018'])


    df_alfa.rename(columns={'CD_setor': 'CD_SETOR'}, inplace=True)
    df_domicilio.rename(columns={'CD_setor': 'CD_SETOR'}, inplace=True)
    df_demo.rename(columns={'CD_setor': 'CD_SETOR'}, inplace=True)


    df_basico_pb = df_basico[df_basico['CD_UF'] == 25].copy()
    print(f"Encontrados {len(df_basico_pb)} setores censitários na Paraíba.")


    df_censo_pb_completo = pd.merge(df_basico_pb, df_alfa, on='CD_SETOR', how='left')
    df_censo_pb_completo = pd.merge(df_censo_pb_completo, df_domicilio, on='CD_SETOR', how='left')
    df_censo_pb_completo = pd.merge(df_censo_pb_completo, df_demo, on='CD_SETOR', how='left')
    print("Arquivos do Censo unidos com sucesso.")


    mapa_nomes = {
        'NM_MUN': 'municipio', 'v0001': 'populacao_total', 'V01016': 'pop_15_a_17_anos',
        'V01017': 'pop_18_a_19_anos', 'V01018': 'pop_20_a_24_anos', 'V00048': 'renda_media_per_capita',
        'V00052': 'domicilios_ate_meio_salario', 'V00054': 'domicilios_meio_a_um_salario',
        'V00645': 'pessoas_alfabetizadas', 'V00660': 'jovens_15_a_17_frequentam_escola'
    }
    df_censo_pb_completo.rename(columns=mapa_nomes, inplace=True)


    colunas_para_converter = [col for col in mapa_nomes.values() if col != 'municipio']
    for coluna in colunas_para_converter:
        df_censo_pb_completo[coluna] = pd.to_numeric(df_censo_pb_completo[coluna], errors='coerce')
    print("Colunas do Censo convertidas para formato numérico.")


    agg_dict = {
        'populacao_total': 'sum', 'pop_15_a_17_anos': 'sum', 'pop_18_a_19_anos': 'sum',
        'pop_20_a_24_anos': 'sum', 'domicilios_ate_meio_salario': 'sum',
        'domicilios_meio_a_um_salario': 'sum', 'pessoas_alfabetizadas': 'sum',
        'jovens_15_a_17_frequentam_escola': 'sum', 'renda_media_per_capita': 'mean'
    }


    df_censo = df_censo_pb_completo.groupby('municipio').agg(agg_dict).reset_index()
    df_censo['municipio'] = df_censo['municipio'].str.strip().str.upper()

    print("Dados do CENSO com variáveis relevantes processados e agregados por município.")

except FileNotFoundError as e:
    print(f"ERRO: Um dos arquivos do Censo não foi encontrado. Detalhe: {e}")
except KeyError as e:
    print(f"ERRO de Coluna: A coluna {e} não foi encontrada. Verifique os nomes das colunas nos arquivos.")
except Exception as e:
    print(f"Ocorreu um erro inesperado ao processar os dados do Censo: {e}")




consolidar_e_salvar(2022, df_instituicao_2022, df_homicidios_2022, df_censo, pasta_dados_tratados)
consolidar_e_salvar(2023, df_instituicao_2023, df_homicidios_2023, df_censo, pasta_dados_tratados)

print("\nScript concluído.")

# ANALISE

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np


try:
    print("Iniciando a análise comparativa...")
    print("Carregando 'dados_consolidados_finais_2022.csv' e 'dados_consolidados_finais_2023.csv'...")

    df_2022 = pd.read_csv("D:\IASMIN\FACULDADE\ANALISE DE DADOS\PROJETO ALPARGATAS\DADOS_TRATADOS\dados_consolidados_finais_2022.csv")
    df_2023 = pd.read_csv("D:\IASMIN\FACULDADE\ANALISE DE DADOS\PROJETO ALPARGATAS\DADOS_TRATADOS\dados_consolidados_finais_2023.csv")

    print("Arquivos carregados com sucesso.")


    df_2022['taxa_homicidios_10k'] = (df_2022['homicidios_jovens_2022'] / df_2022['populacao_total']) * 10000
    df_2023['taxa_homicidios_10k'] = (df_2023['homicidios_jovens_2023'] / df_2023['populacao_total']) * 10000


    df_comp_2022 = df_2022[['municipio', 'taxa_homicidios_10k', 'num_beneficiados_alunos']].rename(columns={
        'taxa_homicidios_10k': 'taxa_homicidios_2022',
        'num_beneficiados_alunos': 'alunos_2022'
    })
    df_comp_2023 = df_2023[['municipio', 'taxa_homicidios_10k', 'num_beneficiados_alunos']].rename(columns={
        'taxa_homicidios_10k': 'taxa_homicidios_2023',
        'num_beneficiados_alunos': 'alunos_2023'
    })


    df_comparativo = pd.merge(df_comp_2022, df_comp_2023, on='municipio', how='outer')


    epsilon = 1e-6
    df_comparativo['variacao_perc_homicidios'] = ((df_comparativo['taxa_homicidios_2023'] - df_comparativo['taxa_homicidios_2022']) / (df_comparativo['taxa_homicidios_2022'] + epsilon)) * 100


    df_comparativo['variacao_abs_alunos'] = df_comparativo['alunos_2023'] - df_comparativo['alunos_2022']


    df_comparativo.fillna(0, inplace=True)

    print("\n--- Tabela Comparativa Final ---")

    print(df_comparativo.to_string())



    plt.style.use('seaborn-v0_8-whitegrid')


    df_melted_homicidios = df_comparativo.melt(id_vars='municipio', value_vars=['taxa_homicidios_2022', 'taxa_homicidios_2023'],
                                               var_name='Ano', value_name='Taxa de Homicídios')
    df_melted_homicidios['Ano'] = df_melted_homicidios['Ano'].str.replace('taxa_homicidios_', '')

    plt.figure(figsize=(18, 8))
    sns.barplot(x='municipio', y='Taxa de Homicídios', hue='Ano', data=df_melted_homicidios, palette=['skyblue', 'salmon'])
    plt.title('Comparativo da Taxa de Homicídios de Jovens (por 10k hab.): 2022 vs 2023', fontsize=16)
    plt.ylabel('Taxa de Homicídios por 10.000 Habitantes')
    plt.xlabel('Município')
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.savefig('comparativo_taxa_homicidios.png')
    print("\n[SUCESSO] Gráfico 'comparativo_taxa_homicidios.png' salvo.")
    plt.show()


    df_variacao_sorted = df_comparativo.sort_values('variacao_perc_homicidios', ascending=False)
    plt.figure(figsize=(18, 8))
    colors = ['red' if x > 0 else 'green' for x in df_variacao_sorted['variacao_perc_homicidios']]
    sns.barplot(x='municipio', y='variacao_perc_homicidios', data=df_variacao_sorted, palette=colors)
    plt.axhline(0, color='black', linewidth=0.8)
    plt.title('Variação Percentual da Taxa de Homicídios de Jovens (2022 para 2023)', fontsize=16)
    plt.ylabel('Variação Percentual (%)')
    plt.xlabel('Município')
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.savefig('variacao_percentual_homicidios.png')
    print("[SUCESSO] Gráfico 'variacao_percentual_homicidios.png' salvo.")
    plt.show()


    df_melted_alunos = df_comparativo.melt(id_vars='municipio', value_vars=['alunos_2022', 'alunos_2023'],
                                           var_name='Ano', value_name='Número de Alunos')
    df_melted_alunos['Ano'] = df_melted_alunos['Ano'].str.replace('alunos_', '')

    plt.figure(figsize=(18, 8))
    sns.barplot(x='municipio', y='Número de Alunos', hue='Ano', data=df_melted_alunos, palette=['lightblue', 'darkblue'])
    plt.title('Comparativo do Número de Alunos Beneficiados: 2022 vs 2023', fontsize=16)
    plt.ylabel('Número de Alunos')
    plt.xlabel('Município')
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.savefig('comparativo_alunos.png')
    print("[SUCESSO] Gráfico 'comparativo_alunos.png' salvo.")
    plt.show()

    print("\nAnálise concluída com sucesso!")

except FileNotFoundError:
    print("\nERRO CRÍTICO: Um ou ambos os arquivos CSV não foram encontrados.")
    print("Por favor, tente enviar os arquivos novamente na sua próxima mensagem para que eu possa acessá-los.")
except Exception as e:
    print(f"Ocorreu um erro inesperado durante a execução: {e}")