## 1. Importação das bibliotecas

In [1]:

import pandas as pd
import numpy as np


## 2. Carregamento dos dados

In [2]:

# Carregando o dataset macro (abandono e renda média)
df_ab = pd.read_csv('AbandonoEscolar_RendaMedia_2013_2023.csv')

# Carregando o Censo Escolar
df_censo = pd.read_csv('microdados_ed_basica_2022.csv', sep=';', encoding='latin1', low_memory=False)


## 3. Mapeamento e limpeza da coluna 'UF'

In [3]:

# Mapeando nome das UFs para siglas
mapa_ufs = {
    'Rondônia': 'RO', 'Acre': 'AC', 'Amazonas': 'AM', 'Roraima': 'RR',
    'Pará': 'PA', 'Amapá': 'AP', 'Tocantins': 'TO',
    'Maranhão': 'MA', 'Piauí': 'PI', 'Ceará': 'CE', 'Rio Grande do Norte': 'RN',
    'Paraíba': 'PB', 'Pernambuco': 'PE', 'Alagoas': 'AL', 'Sergipe': 'SE', 'Bahia': 'BA',
    'Minas Gerais': 'MG', 'Espírito Santo': 'ES', 'Rio de Janeiro': 'RJ', 'São Paulo': 'SP',
    'Paraná': 'PR', 'Santa Catarina': 'SC', 'Rio Grande do Sul': 'RS',
    'Mato Grosso do Sul': 'MS', 'Mato Grosso': 'MT', 'Goiás': 'GO', 'Distrito Federal': 'DF'
}

# Renomeando a coluna para facilitar o merge
df_ab.rename(columns={'Unidade_Geografica': 'UF'}, inplace=True)

# Aplicando o mapeamento e removendo linhas inválidas
df_ab['UF'] = df_ab['UF'].map(mapa_ufs)
df_ab.dropna(subset=['UF'], inplace=True)


## 4. Agregação dos dados do Censo Escolar

In [4]:

# Selecionando apenas colunas de interesse
colunas_selecionadas = ['NU_ANO_CENSO', 'SG_UF', 'QT_MAT_BAS']
df_censo_reduzido = df_censo[colunas_selecionadas].copy()
df_censo_reduzido.rename(columns={'NU_ANO_CENSO': 'Ano', 'SG_UF': 'UF'}, inplace=True)

# Agregando o total de matrículas por UF e Ano
df_censo_agregado = df_censo_reduzido.groupby(['Ano', 'UF'])['QT_MAT_BAS'].sum().reset_index()


## 5. Mesclando os dados

In [5]:

# Merge entre os dados de abandono e censo
df_final = pd.merge(df_ab, df_censo_agregado, on=['Ano', 'UF'], how='left')

# Exibindo amostra do dataframe final
df_final.head()


Unnamed: 0,Ano,UF,Regiao,Localizacao,Dependencia_Administrativa,Grupo_de_Abandono,Taxa_Abandono,Renda_Media,QT_MAT_BAS
0,2013,RO,Norte,Total,Total,Ensino Fundamental,2.5,2374,
1,2013,RO,Norte,Total,Pública,Ensino Fundamental,2.7,2374,
2,2013,RO,Norte,Total,Privada,Ensino Fundamental,0.1,2374,
3,2013,RO,Norte,Total,Municipal,Ensino Fundamental,2.0,2374,
4,2013,RO,Norte,Total,Federal,Ensino Fundamental,,2374,
