## Pré-Processamento

INEP Censo Escolar - Microdados

### Importação das bibliotecas necessárias

In [121]:
# Bibliotecas
import os
import pandas as pd
import zipfile
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler

### Seleção de Variáveis

| Contagem | Código | Nome da Variável | Descrição da Variável | Tipo | Tamanho | Categoria |
|---|:---:|---|---|:---:|:---:|---|
| 1 | 1 | NU_ANO_CENSO | Ano do Censo | Num | 4 |  |
| 2 | 2 | NO_REGIAO | Nome da região geográfica | Char | 20 |  |
| 3 | 3 | CO_REGIAO | Código da região geográfica | Num | 1 |  |
| 4 | 5 | SG_UF | Sigla da Unidade da Federação | Char | 2 |  |
| 5 | 6 | CO_UF | Código da UF | Num | 2 |  |
| 6 | 7 | NO_MUNICIPIO | Nome do Município | Char | 150 |  |
| 7 | 8 | CO_MUNICIPIO | Código do Município | Num | 7 |  |
| 8 | 9 | NO_MESORREGIAO | Nome da Mesorregião | Char | 100 |  |
| 9 | 11 | NO_MICRORREGIAO | Nome da Microrregião | Char | 100 |  |
|DADOS DA ESCOLA|  |  |  |  |  |  |
| 10 | 14 | CO_ENTIDADE | Código da Escola | Num | 8 |  |
| 11 | 15 | NO_ENTIDADE | Nome da Escola | Char | 100 |  |
| 12 | 16 | TP_DEPENDENCIA | Dependência Administrativa | Num | 1 | 1 - Federal<br> 2 - Estadual<br> 3 - Municipal<br> 4 - Privada |
| 13 | 18 | TP_LOCALIZACAO | Localização | Num | 1 | 1 - Urbana<br> 2 - Rural |
| 14 | 27 | TP_SITUACAO_FUNCIONAMENTO | Situação de funcionamento | Num | 1 | 1 - Em Atividade<br> 2 - Paralisada<br> 3 - Extinta (ano do Censo)<br> 4 - Extinta em Anos Anteriores |
| 15 | 228 | IN_ALIMENTACAO | Alimentação escolar para os alunos - PNAE/FNDE | Num | 1 | 0 - Não oferece<br> 1 - Oferece |
| DADOS DA OFERTA DE MATRÍCULA |  |  |  |  |  |  |
| 16 | 276 | IN_MEDIACAO_PRESENCIAL | Mediação didático-pedagógica oferecida pela escola - Presencial | Num | 1 | 0 - Não<br> 1 - Sim |
| 17 | 277 | IN_MEDIACAO_SEMIPRESENCIAL | Mediação didático-pedagógica oferecida pela escola - Semipresencial | Num | 1 | 0 - Não<br> 1 - Sim |
| 18 | 278 | IN_MEDIACAO_EAD | Mediação didático-pedagógica oferecida pela escola - Educação a Distância - EAD | Num | 1 | 0 - Não<br> 1 - Sim |
| 19 | 280 | IN_DIURNO | Turno - Diurno - Horário de início da turma de escolarização entre 05h e 16h | Num | 1 | 0 - Não<br> 1 - Sim |
| 20 | 281 | IN_NOTURNO | Turno - Noturno - Turno de início da turma de escolarização entre 17h e 04h | Num | 1 | 0 - Não<br> 1 - Sim |
| 21 | 291 | IN_PROF | Etapa de Ensino - Educação Profissional - Modo profissionalizante de ensino correspondente <br>às turmas de cursos de formação inicial e continuada ou de qualificação profissional (Cursos FIC) <br>articulados à EJA ou concomitantes; ou de cursos técnicos de nível médio nas formas articulada <br>(integrada ou concomitante) ou subsequente ao ensino médio e de normal/magistério <br>(Possui uma ou mais matrículas) | Num | 1 | 0 - Não<br> 1 - Sim |
| NÚMERO DE MATRÍCULAS NA EDUCAÇÃO BÁSICA |  |  |  |  |  |  |
| 22 | 299 | QT_MAT_BAS | Número de Matrículas na Educação Básica | Num | 8 |  |
| 23 | 306 | QT_MAT_MED | Número de Matrículas no Ensino Médio | Num | 8 |  |
|  |  |  |  |  |  |  |
| 24 | 315 | QT_MAT_BAS_FEM | Número de Matrículas na Educação Básica - Feminino | Num | 8 |  |
| 25 | 316 | QT_MAT_BAS_MASC | Número de Matrículas na Educação Básica - Masculino | Num | 8 |  |
|  |  |  |  |  |  |  |
| 26 | 317 | QT_MAT_BAS_ND | Número de Matrículas na Educação Básica - Cor/Raça Não Declarada | Num | 8 |  |
| 27 | 318 | QT_MAT_BAS_BRANCA | Número de Matrículas na Educação Básica - Cor/Raça Branca | Num | 8 |  |
| 28 | 319 | QT_MAT_BAS_PRETA | Número de Matrículas na Educação Básica - Cor/Raça Preta | Num | 8 |  |
| 29 | 320 | QT_MAT_BAS_PARDA | Número de Matrículas na Educação Básica - Cor/Raça Parda | Num | 8 |  |
| 30 | 321 | QT_MAT_BAS_AMARELA | Número de Matrículas na Educação Básica - Cor/Raça Amarela | Num | 8 |  |
| 31 | 322 | QT_MAT_BAS_INDIGENA | Número de Matrículas na Educação Básica - Cor/Raça Indígena | Num | 8 |  |
|  |  |  |  |  |  |  |
| 32 | 338 | QT_MAT_MED_INT | Número de Matrículas no Ensino Médio - Tempo Integral | Num | 8 |  |
| NÚMERO DE DOCENTES DA EDUCAÇÃO BÁSICA |  |  |  |  |  |  |
| 33 | 346 | QT_DOC_MED | Número de Docentes do Ensino Médio | Num | 8 |  |
| NÚMERO DE TURMAS DE EDUCAÇÃO BÁSICA |  |  |  |  |  |  |
| 34 | 362 | QT_TUR_MED | Número de Turmas de Ensino Médio | Num | 8 |  |

### Montagem do Drive

In [122]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [123]:
%cd /content/drive/MyDrive/Data Girls/Grace Hopper/entrega_final

/content/drive/MyDrive/Data Girls/Grace Hopper/entrega_final


### Pipeline Completo do Pré-Processamento

#### Microdados do Censo Escolar

Serão incluídas apenas as variáveis selecionadas na primeira etapa.

Serão mantidas apenas escolas que possuem ao menos uma matrícula nesse período, ou seja, onde QT_MAT_MED > 0, pois o objetivo é analisar o impacto da pandemia na evasão escolar no Ensino Médio.

Serão analisadas apenas as escolas que não tenham sido extintas, ou seja, onde TP_SITUACAO_FUNCIONAMENTO == 1 ou == 2.

In [124]:
# ==============================
#  Função para carregar microdados
# ==============================
def load_micro(ano):
    filepath = os.path.join(os.getcwd(), "data", "raw", f"microdados_{ano}.zip")

    parametros = ['NU_ANO_CENSO','NO_REGIAO','CO_REGIAO','SG_UF','CO_UF','NO_MUNICIPIO','CO_MUNICIPIO','NO_MESORREGIAO','NO_MICRORREGIAO','CO_ENTIDADE','NO_ENTIDADE','TP_DEPENDENCIA',
              'TP_LOCALIZACAO','TP_SITUACAO_FUNCIONAMENTO','IN_AGUA_POTAVEL','IN_ENERGIA_REDE_PUBLICA','IN_ENERGIA_GERADOR_FOSSIL','IN_ENERGIA_RENOVAVEL','IN_ESGOTO_REDE_PUBLICA',
              'IN_ESGOTO_FOSSA','IN_LIXO_SERVICO_COLETA','IN_LIXO_DESTINO_FINAL_PUBLICO','IN_TRATAMENTO_LIXO_INEXISTENTE','IN_BANHEIRO','IN_BANHEIRO_PNE','IN_BIBLIOTECA_SALA_LEITURA',
              'IN_LABORATORIO_CIENCIAS','IN_LABORATORIO_INFORMATICA','IN_ACESSIBILIDADE_CORRIMAO','IN_ACESSIBILIDADE_ELEVADOR','IN_ACESSIBILIDADE_PISOS_TATEIS','IN_ACESSIBILIDADE_VAO_LIVRE',
              'IN_ACESSIBILIDADE_RAMPAS','IN_ACESSIBILIDADE_SINAL_SONORO','IN_ACESSIBILIDADE_SINAL_TATIL','IN_ACESSIBILIDADE_SINAL_VISUAL','IN_ACESSIBILIDADE_INEXISTENTE','IN_DESKTOP_ALUNO',
              'IN_COMP_PORTATIL_ALUNO','IN_TABLET_ALUNO','IN_INTERNET','IN_ALIMENTACAO','IN_MATERIAL_PED_MULTIMIDIA','IN_MATERIAL_PED_CIENTIFICO','IN_MATERIAL_PED_DIFUSAO','IN_MATERIAL_PED_MUSICAL',
              'IN_MATERIAL_PED_JOGOS','IN_MATERIAL_PED_ARTISTICAS','IN_MATERIAL_PED_DESPORTIVA','IN_MATERIAL_PED_CAMPO','IN_MEDIACAO_PRESENCIAL','IN_MEDIACAO_SEMIPRESENCIAL','IN_MEDIACAO_EAD',
              'IN_DIURNO','IN_NOTURNO','IN_PROF','QT_MAT_BAS','QT_MAT_MED','QT_MAT_BAS_FEM','QT_MAT_BAS_MASC','QT_MAT_BAS_ND','QT_MAT_BAS_BRANCA','QT_MAT_BAS_PRETA','QT_MAT_BAS_PARDA',
              'QT_MAT_BAS_AMARELA','QT_MAT_BAS_INDIGENA','QT_DOC_MED','QT_TUR_MED']

    microdados_iter = pd.read_csv(
        filepath, sep=";", header=0, index_col="CO_ENTIDADE", encoding="latin1",
        usecols=parametros, chunksize=10000
    )

    df = pd.concat([
        chunk[(chunk["TP_SITUACAO_FUNCIONAMENTO"].isin([1, 2])) & (chunk["QT_MAT_MED"] > 0)]
        for chunk in microdados_iter
    ])
    return df

##### Tratamento de Valores Faltantes

In [125]:
# ==============================
#  Função para tratar variáveis faltantes
# ==============================
def treat_values(df):
    cols = [
        'IN_MATERIAL_PED_MULTIMIDIA','IN_MATERIAL_PED_CIENTIFICO','IN_MATERIAL_PED_DIFUSAO',
        'IN_MATERIAL_PED_MUSICAL','IN_MATERIAL_PED_JOGOS','IN_MATERIAL_PED_ARTISTICAS',
        'IN_MATERIAL_PED_DESPORTIVA','IN_MATERIAL_PED_CAMPO'
    ]
    df[cols] = df[cols].replace(9, 0)
    return df

* Para a criação de novas variáveis, chamadas "índices", serão utilizados parâmetros com a possibilidade de valor 9 (Não informado). Para esses casos, a abordagem escolhida foi tratar o valor 9 como sinônimo de "False".

* Serão removidas as entradas com valores nulos.

##### Criação de Novas Variáveis

* Índices
* Matrículas no Ensino Médio

Índice de infraestrutura Básica (IND_INFRA_BASICA)

|  |  |  |
|---|---|---|
| IN_AGUA_POTAVEL | Fornece água potável para o consumo humano | 0 - Não<br>1 - Sim |
| IN_ENERGIA | Há energia elétrica | 0 - Não<br>1 - Sim |
| IN_ESGOTO | Há esgotamento sanitário | 0 - Não<br>1 - Sim |
| IN_TRATAMENTO_LIXO_INEXISTENTE | Tratamento do lixo/resíduos que a escola realiza - Não faz tratamento | 0 - Não<br>1 - Sim<br>9 - Não informado |
| IN_BANHEIRO | Dependências físicas existentes e utilizadas na escola - Banheiro | 0 - Não<br>1 - Sim |

As variáveis ```IN_ENERGIA``` e ```IN_ESGOTO``` foram criadas a partir da combinação de todas as subcategorias.

* IN_ENERGIA_REDE_PUBLICA; IN_ENERGIA_GERADOR_FOSSIL; IN_ENERGIA_RENOVAVEL.
* IN_ESGOTO_REDE_PUBLICA; IN_ESGOTO_FOSSA

Índice de acessibilidade (IND_ACESSIBILIDADE)

|  |  |  |
|---|---|---|
| IN_BANHEIRO_PNE | Dependências físicas existentes e utilizadas na escola - Banheiro acessível, adequado ao uso de pessoas com deficiência ou mobilidade reduzida | 0 - Não<br>1 - Sim |
| IN_ACESSIBILIDADE_CORRIMAO | Recursos de acessibilidade para pessoas com deficiência ou mobilidade reduzida nas vias de circulação interna na escola - Corrimão e guarda corpos | 0 - Não<br>1 - Sim |
| IN_ACESSIBILIDADE_ELEVADOR | Recursos de acessibilidade para pessoas com deficiência ou mobilidade reduzida nas vias de circulação interna na escola - Elevador | 0 - Não<br>1 - Sim |
| IN_ACESSIBILIDADE_PISOS_TATEIS | Recursos de acessibilidade para pessoas com deficiência ou mobilidade reduzida nas vias de circulação interna na escola - Pisos táteis | 0 - Não<br>1 - Sim |
| IN_ACESSIBILIDADE_VAO_LIVRE | Recursos de acessibilidade para pessoas com deficiência ou mobilidade reduzida nas vias de circulação interna na escola - Portas com vão livre de no mínimo 80 cm | 0 - Não<br>1 - Sim |
| IN_ACESSIBILIDADE_RAMPAS | Recursos de acessibilidade para pessoas com deficiência ou mobilidade reduzida nas vias de circulação interna na escola - Rampas | 0 - Não<br>1 - Sim |
| IN_ACESSIBILIDADE_SINAL_SONORO | Recursos de acessibilidade para pessoas com deficiência ou mobilidade reduzida nas vias de circulação interna na escola - Sinalização sonora | 0 - Não<br>1 - Sim |
| IN_ACESSIBILIDADE_SINAL_TATIL | Recursos de acessibilidade para pessoas com deficiência ou mobilidade reduzida nas vias de circulação interna na escola - Sinalização tátil (piso/paredes) | 0 - Não<br>1 - Sim |
| IN_ACESSIBILIDADE_SINAL_VISUAL | Recursos de acessibilidade para pessoas com deficiência ou mobilidade reduzida nas vias de circulação interna na escola - Sinalização visual (piso/paredes) | 0 - Não<br>1 - Sim |

Índice de Diversidade de Materiais Pedagógicos (IND_DIVERSIDADE_MATERIAL_PED)

|  |  |  |
|---|---|---|
| IN_MATERIAL_PED_MULTIMIDIA | Instrumentos, materiais socioculturais e/ou pedagógicos em uso na escola para o desenvolvimento de atividades de ensino aprendizagem - Acervo multimídia | 0 - Não<br>1 - Sim |
| IN_MATERIAL_PED_CIENTIFICO | Instrumentos, materiais socioculturais e/ou pedagógicos em uso na escola para o desenvolvimento de atividades de ensino aprendizagem - Conjunto de materiais científicos | 0 - Não<br>1 - Sim |
| IN_MATERIAL_PED_DIFUSAO | Instrumentos, materiais socioculturais e/ou pedagógicos em uso na escola para o desenvolvimento de atividades de ensino aprendizagem - Equipamento para amplificação e difusão de som/áudio | 0 - Não<br>1 - Sim |
| IN_MATERIAL_PED_MUSICAL | Instrumentos, materiais socioculturais e/ou pedagógicos em uso na escola para o desenvolvimento de atividades de ensino aprendizagem - Instrumentos musicais para conjunto, banda/fanfarra e/ou aulas de música | 0 - Não<br>1 - Sim |
| IN_MATERIAL_PED_JOGOS | Instrumentos, materiais socioculturais e/ou pedagógicos em uso na escola para o desenvolvimento de atividades de ensino aprendizagem - Jogos Educativos | 0 - Não<br> 1 - Sim |
| IN_MATERIAL_PED_ARTISTICAS | Instrumentos, materiais socioculturais e/ou pedagógicos em uso na escola para o desenvolvimento de atividades de ensino aprendizagem - Materiais para atividades culturais e artísticas | 0 - Não<br>1 - Sim |
| IN_MATERIAL_PED_DESPORTIVA | Instrumentos, materiais socioculturais e/ou pedagógicos em uso na escola para o desenvolvimento de atividades de ensino aprendizagem - Materiais para prática desportiva e recreação | 0 - Não<br>1 - Sim |
| IN_MATERIAL_PED_CAMPO | Instrumentos, materiais socioculturais e/ou pedagógicos em uso na escola para o desenvolvimento de atividades de ensino aprendizagem - Materiais pedagógicos para a educação do campo | 0 - Não<br>1 - Sim |

Índice de Infraestrutura Educacional (IND_INFRA_EDUCACIONAL)

|  |  |  |
|---|---|---|
| IN_BIBLIOTECA_SALA_LEITURA | Dependências físicas existentes e utilizadas na escola - Biblioteca e/ou Sala de leitura | 0 - Não<br>1 - Sim |
| IN_LABORATORIO_CIENCIAS | Dependências físicas existentes e utilizadas na escola - Laboratório de ciências | 0 - Não<br>1 - Sim |
| IN_LABORATORIO_INFORMATICA | Dependências físicas existentes e utilizadas na escola - Laboratório de informática | 0 - Não<br>1 - Sim |

índice de Infraestrutura Tecnológica (IND_INFRA_TEC)

||||
|---|---|---|
| IN_DESKTOP_ALUNO | Computadores em   uso pelos alunos - Computador de mesa (desktop) | 0 - Não<br>1 - Sim |
| IN_COMP_PORTATIL_ALUNO | Computadores   em uso pelos alunos - Computador portátil | 0 - Não<br>1 - Sim |
| IN_TABLET_ALUNO | Computadores   em uso pelos alunos - Tablet | 0 - Não<br>1 - Sim |
| IN_INTERNET | Acesso à Internet | 0 - Não<br>1 - Sim |

In [126]:
# ==============================
#  Função para criar índices
# ==============================
def new_indexes(df):
    # Energia
    df["IN_ENERGIA"] = np.where(
        (df["IN_ENERGIA_REDE_PUBLICA"] == 1) |
        (df["IN_ENERGIA_GERADOR_FOSSIL"] == 1) |
        (df["IN_ENERGIA_RENOVAVEL"] == 1), 1, 0
    )

    # Esgoto
    df["IN_ESGOTO"] = np.where(
        (df["IN_ESGOTO_REDE_PUBLICA"] == 1) |
        (df["IN_ESGOTO_FOSSA"] == 1), 1, 0
    )

    # Coleta de lixo
    df["IN_COLETA_LIXO"] = np.where(
        (df["IN_LIXO_SERVICO_COLETA"] == 1) |
        (df["IN_LIXO_DESTINO_FINAL_PUBLICO"] == 1) |
        (df["IN_TRATAMENTO_LIXO_INEXISTENTE"] == 0), 1, 0
    )

    # Índices
    df["IND_INFRA_BASICA"] = df[["IN_AGUA_POTAVEL","IN_ENERGIA","IN_ESGOTO","IN_COLETA_LIXO","IN_BANHEIRO"]].sum(axis=1)
    df["IND_ACESSIBILIDADE"] = df[[
        "IN_BANHEIRO_PNE","IN_ACESSIBILIDADE_CORRIMAO","IN_ACESSIBILIDADE_ELEVADOR",
        "IN_ACESSIBILIDADE_PISOS_TATEIS","IN_ACESSIBILIDADE_VAO_LIVRE","IN_ACESSIBILIDADE_RAMPAS",
        "IN_ACESSIBILIDADE_SINAL_SONORO","IN_ACESSIBILIDADE_SINAL_TATIL","IN_ACESSIBILIDADE_SINAL_VISUAL",
        "IN_ACESSIBILIDADE_INEXISTENTE"
    ]].sum(axis=1)
    df["IND_DIVERSIDADE_MATERIAL_PED"] = df[[
        "IN_MATERIAL_PED_MULTIMIDIA","IN_MATERIAL_PED_CIENTIFICO","IN_MATERIAL_PED_DIFUSAO",
        "IN_MATERIAL_PED_MUSICAL","IN_MATERIAL_PED_JOGOS","IN_MATERIAL_PED_ARTISTICAS",
        "IN_MATERIAL_PED_DESPORTIVA","IN_MATERIAL_PED_CAMPO"
    ]].sum(axis=1)
    df["IND_INFRA_EDUCACIONAL"] = df[["IN_BIBLIOTECA_SALA_LEITURA","IN_LABORATORIO_CIENCIAS","IN_LABORATORIO_INFORMATICA"]].sum(axis=1)
    df["IND_INFRA_TEC"] = df[["IN_DESKTOP_ALUNO","IN_COMP_PORTATIL_ALUNO","IN_TABLET_ALUNO","IN_INTERNET"]].sum(axis=1)

    # Normalização
    scaler = MinMaxScaler()
    indices = ["IND_INFRA_BASICA","IND_ACESSIBILIDADE","IND_DIVERSIDADE_MATERIAL_PED","IND_INFRA_EDUCACIONAL","IND_INFRA_TEC"]
    df[indices] = scaler.fit_transform(df[indices])

    df = df.drop(columns=['IN_ENERGIA_REDE_PUBLICA','IN_ENERGIA_GERADOR_FOSSIL','IN_ENERGIA_RENOVAVEL','IN_ENERGIA',
    'IN_ESGOTO_REDE_PUBLICA','IN_ESGOTO_FOSSA','IN_ESGOTO',
    'IN_LIXO_SERVICO_COLETA','IN_LIXO_DESTINO_FINAL_PUBLICO','IN_TRATAMENTO_LIXO_INEXISTENTE','IN_COLETA_LIXO',
    'IN_AGUA_POTAVEL','IN_BANHEIRO',
    'IN_BANHEIRO_PNE','IN_ACESSIBILIDADE_CORRIMAO','IN_ACESSIBILIDADE_ELEVADOR','IN_ACESSIBILIDADE_PISOS_TATEIS','IN_ACESSIBILIDADE_VAO_LIVRE','IN_ACESSIBILIDADE_RAMPAS','IN_ACESSIBILIDADE_SINAL_SONORO',
    'IN_ACESSIBILIDADE_SINAL_TATIL','IN_ACESSIBILIDADE_SINAL_VISUAL','IN_ACESSIBILIDADE_INEXISTENTE',
    'IN_MATERIAL_PED_MULTIMIDIA','IN_MATERIAL_PED_CIENTIFICO','IN_MATERIAL_PED_DIFUSAO','IN_MATERIAL_PED_MUSICAL','IN_MATERIAL_PED_JOGOS','IN_MATERIAL_PED_ARTISTICAS','IN_MATERIAL_PED_DESPORTIVA','IN_MATERIAL_PED_CAMPO',
    'IN_BIBLIOTECA_SALA_LEITURA','IN_LABORATORIO_CIENCIAS','IN_LABORATORIO_INFORMATICA',
    'IN_DESKTOP_ALUNO','IN_COMP_PORTATIL_ALUNO','IN_TABLET_ALUNO','IN_INTERNET'])

    return df

Como os índices possuem escalas diferentes (ex.: IND_INFRA_BASICA de 0 a 6 e IND_ACESSIBILIDADE de 0 a 9), é importante garantir comparabilidade. O método escolhido foi o Min-Max Scaling, que mantém os valores entre 0 e 1, facilitando a análise comparativa.

A análise busca entender o nível de evasão escolar dos alunos do Ensino Médio. Contudo, as variáveis listadas abaixo, que se referem a aspectos socioeconômicos, consideram todo o ensino básico. É preciso calculá-las exclusivamente para o Ensino Médio.

* QT_MAT_BAS_FEM
* QT_MAT_BAS_MASC
* QT_MAT_BAS_ND
* QT_MAT_BAS_BRANCA
* QT_MAT_BAS_PRETA
* QT_MAT_BAS_PARDA
* QT_MAT_BAS_AMARELA
* QT_MAT_BAS_INDIGENA

In [127]:
# ==============================
#  Função para proporções do Ensino Médio
# ==============================
def new_enrolment(df):
    colunas = ['QT_MAT_BAS_FEM','QT_MAT_BAS_MASC','QT_MAT_BAS_ND','QT_MAT_BAS_BRANCA',
               'QT_MAT_BAS_PRETA','QT_MAT_BAS_PARDA','QT_MAT_BAS_AMARELA','QT_MAT_BAS_INDIGENA']
    for coluna in colunas:
        df[f"QT_MAT_MED_{coluna.split('_')[-1]}"] = (
            df[coluna] / df["QT_MAT_BAS"] * df["QT_MAT_MED"]
        ).round()

    df = df.drop(columns=['QT_MAT_BAS','QT_MAT_BAS_FEM', 'QT_MAT_BAS_MASC', 'QT_MAT_BAS_ND','QT_MAT_BAS_BRANCA', 'QT_MAT_BAS_PRETA', 'QT_MAT_BAS_PARDA','QT_MAT_BAS_AMARELA', 'QT_MAT_BAS_INDIGENA'])

    return df

##### Ajuste de Tipos

In [128]:
def type_casting(df):
    # Casting de int64 para object
    codigos = ['CO_REGIAO', 'CO_UF', 'CO_MUNICIPIO']
    for col in codigos:
        if col in df.columns:
            df[col] = df[col].astype("object")

    # Casting de int64 para bool
    booleanos = [
        'IN_ALIMENTACAO', 'IN_MEDIACAO_PRESENCIAL', 'IN_MEDIACAO_SEMIPRESENCIAL',
        'IN_MEDIACAO_EAD','IN_DIURNO', 'IN_NOTURNO', 'IN_PROF'
    ]
    for col in booleanos:
        if col in df.columns:
            df[col] = df[col].astype("bool")

    # Casting de int64/float64 para float16
    num = [
        'QT_DOC_MED','QT_TUR_MED','QT_MAT_MED_FEM','QT_MAT_MED_MASC','QT_MAT_MED_ND',
        'QT_MAT_MED_BRANCA','QT_MAT_MED_PRETA','QT_MAT_MED_PARDA','QT_MAT_MED_AMARELA',
        'QT_MAT_MED_INDIGENA','IND_INFRA_BASICA','IND_ACESSIBILIDADE',
        'IND_DIVERSIDADE_MATERIAL_PED','IND_INFRA_EDUCACIONAL','IND_INFRA_TEC'
    ]
    for col in num:
        if col in df.columns:
            df[col] = df[col].astype("float16")

    # Casting de int64 para category
    categoricos = ['TP_DEPENDENCIA', 'TP_LOCALIZACAO', 'TP_SITUACAO_FUNCIONAMENTO']
    for col in categoricos:
        if col in df.columns:
            df[col] = df[col].astype("category")

    # Renomeando categorias
    if 'TP_DEPENDENCIA' in df.columns:
        df['TP_DEPENDENCIA'] = df['TP_DEPENDENCIA'].cat.rename_categories({
            1: 'Federal', 2: 'Estadual', 3: 'Municipal', 4: 'Privada'
        })
    if 'TP_LOCALIZACAO' in df.columns:
        df['TP_LOCALIZACAO'] = df['TP_LOCALIZACAO'].cat.rename_categories({
            1: 'Urbana', 2: 'Rural'
        })
    if 'TP_SITUACAO_FUNCIONAMENTO' in df.columns:
        df['TP_SITUACAO_FUNCIONAMENTO'] = df['TP_SITUACAO_FUNCIONAMENTO'].cat.rename_categories({
            1: 'Em Atividade', 2: 'Paralisada'
        })

    return df

#### Dataframes Complementares

In [129]:
# ==============================
#  Função para carregar e processar alunos_turma
# ==============================
def load_alunos_turma(ano):
    zip_path = os.path.join(os.getcwd(), "data", "raw", f"alunos_turma_{ano}.zip")
    excel_file = f"alunos_turma_{ano}.xlsx"

    with zipfile.ZipFile(zip_path) as z:
        with z.open(excel_file) as f:
            df = pd.read_excel(f, header=8, na_values="--")

    # Selecionar colunas relevantes
    df = df[["CO_ENTIDADE","NO_ENTIDADE","MED_CAT_0","MED_01_CAT_0","MED_02_CAT_0","MED_03_CAT_0"]]

    # Remover escolas sem Ensino Médio
    num_cols = ["MED_CAT_0","MED_01_CAT_0","MED_02_CAT_0","MED_03_CAT_0"]
    df.dropna(subset=num_cols, how="all", inplace=True)

    # Substituir '--' por 0 e converter
    df[num_cols] = df[num_cols].apply(pd.to_numeric, errors="coerce").fillna(0)
    df[num_cols] = df[num_cols].astype("float32")

    # Renomear colunas
    df.rename(columns={
        "MED_CAT_0":"ALUNOS_TURMA_MED",
        "MED_01_CAT_0":"ALUNOS_TURMA_MED1",
        "MED_02_CAT_0":"ALUNOS_TURMA_MED2",
        "MED_03_CAT_0":"ALUNOS_TURMA_MED3"
    }, inplace=True)

    return df

In [130]:
columns_map = {
    2019: {
        "tap_MED":"TAP_MED","tap_M01":"TAP_MED1","tap_M02":"TAP_MED2","tap_M03":"TAP_MED3",
        "tre_MED":"TRE_MED","tre_M01":"TRE_MED1","tre_M02":"TRE_MED2","tre_M03":"TRE_MED3",
        "tab_MED":"TAB_MED","tab_M01":"TAB_MED1","tab_M02":"TAB_MED2","tab_M03":"TAB_MED3"
    },
    2020: {
        "tap_MED":"TAP_MED","tap_M01":"TAP_MED1","tap_M02":"TAP_MED2","tap_M03":"TAP_MED3",
        "tre_MED":"TRE_MED","tre_M01":"TRE_MED1","tre_M02":"TRE_MED2","tre_M03":"TRE_MED3",
        "tab_MED":"TAB_MED","tab_M01":"TAB_MED1","tab_M02":"TAB_MED2","tab_M03":"TAB_MED3"
    },
    2021: {
        '1_CAT_MED':'TAP_MED',
        '1_CAT_MED_01':'TAP_MED1',
        '1_CAT_MED_02':'TAP_MED2',
        '1_CAT_MED_03':'TAP_MED3',
        '2_CAT_MED':'TRE_MED',
        '2_CAT_MED_01':'TRE_MED1',
        '2_CAT_MED_02':'TRE_MED2',
        '2_CAT_MED_03':'TRE_MED3',
        '3_CAT_MED':'TAB_MED',
        '3_CAT_MED_01':'TAB_MED1',
        '3_CAT_MED_02':'TAB_MED2',
        '3_CAT_MED_03':'TAB_MED3'
    }
}

In [131]:
# ==============================
#  Função para carregar e processar taxa de rendimento
# ==============================
def load_tx_rendimento(ano):
    zip_path = os.path.join(os.getcwd(), "data", "raw", f"tx_rendimento_{ano}.zip")
    excel_file = f"tx_rendimento_{ano}.xlsx"

    with zipfile.ZipFile(zip_path) as z:
        with z.open(excel_file) as f:
            df = pd.read_excel(f, header=8, na_values="--")

    # Mapear colunas para nomes padronizados
    mapping = columns_map.get(ano, {})
    df.rename(columns=mapping, inplace=True)

    # Selecionar apenas as colunas padronizadas que existem no DataFrame
    cols_to_keep = [v for v in mapping.values() if v in df.columns]
    # Sempre manter identificadores
    id_cols = ["CO_ENTIDADE","NO_ENTIDADE"]
    df = df[id_cols + cols_to_keep]

    # Tratar valores
    df[cols_to_keep] = df[cols_to_keep].apply(pd.to_numeric, errors="coerce").fillna(0)
    df[cols_to_keep] = (df[cols_to_keep] / 100).astype("float32")

    return df

In [132]:
# ==============================
#  Função para carregar e processar tx_evasao
# ==============================
def load_tx_evasao(ano):
    zip_path = os.path.join(os.getcwd(), "data", "raw", f"tx_transicao_{ano}_{ano+1}.zip")
    excel_file = f"tx_transicao_{ano}_{ano+1}.xlsx"

    # Verifica a existência do dataframe
    if not os.path.exists(zip_path):
        print(f"[INFO] Arquivo não encontrado: {zip_path}. Avançando para o próximo passo.")
        return None

    with zipfile.ZipFile(zip_path) as z:
        with z.open(excel_file) as f:
            df = pd.read_excel(f, header=8, na_values=["--", "***"])

    df = df[(df['NO_LOCALIZACAO'] == 'Total') & (df['NO_DEPENDENCIA'] == 'Total')][[
    'CO_MUNICIPIO',
    '1_CAT3_CATMED',
    '1_CAT3_CATMED_01',
    '1_CAT3_CATMED_02',
    '1_CAT3_CATMED_03'
    ]]

    # Remoção das escolas que não oferecem Ensino Médio
    num_cols = ['1_CAT3_CATMED','1_CAT3_CATMED_01','1_CAT3_CATMED_02','1_CAT3_CATMED_03']
    df.dropna(subset=num_cols, how='all', inplace=True)

    # Conversão para numérico
    df[num_cols] = df[num_cols].apply(pd.to_numeric, errors='coerce')
    df[num_cols] = df[num_cols] / 100

    # Conversão para float32
    df[num_cols] = df[num_cols].astype('float32')

    # Renomar colunas
    df.rename(columns={'1_CAT3_CATMED':'TEV_MED','1_CAT3_CATMED_01':'TEV_MED1','1_CAT3_CATMED_02':'TEV_MED2','1_CAT3_CATMED_03':'TEV_MED3'}, inplace=True)

    return df

#### Criação de Dataframes Intermediários

In [133]:
# ==============================
#  Função para criação dos dataframes intermediários (Agregação por Escola)
# ==============================
def create_school_agg(micro, alunos, rendimento):
    df = micro.reset_index().merge(alunos, on="CO_ENTIDADE", how="left")
    df = df.merge(rendimento, on="CO_ENTIDADE", how="left")
    print(f"✅ Junção dos dados principais e auxiliares finalizada.")

    # Marcação booleana para localização
    df['IN_RURAL'] = (df['TP_LOCALIZACAO'] == 'Rural')
    df['IN_URBANA'] = (df['TP_LOCALIZACAO'] == 'Urbana')

    # Marcação booleana para Situação de Funcionamento
    df['IN_ATIVA'] = (df['TP_SITUACAO_FUNCIONAMENTO'] == 'Em Atividade')
    df['IN_PARALISADA'] = (df['TP_LOCALIZACAO'] == 'Paralisada')

    # Marcação booleana para dependência administrativa
    colunas_dependencia = {
        f'IN_{tipo.upper()}': (df['TP_DEPENDENCIA'] == tipo)
        for tipo in ['Municipal', 'Estadual', 'Federal', 'Privada']
    }

    df = pd.concat([df, pd.DataFrame({**colunas_dependencia})], axis=1)

    # Generalização de dependência pública
    df['TP_DEPENDENCIA'] = df['TP_DEPENDENCIA'].replace({'Federal': 'Pública', 'Estadual': 'Pública', 'Municipal': 'Pública'})

    return df

In [134]:
# ==============================
#  Função para criação dos dataframes intermediários (Agregação por Município)
# ==============================
def create_city_agg(df):
  agg_dict = {
      # Variáveis Nominais
      'NO_MUNICIPIO': 'first',
      'NU_ANO_CENSO': 'first',
      'NO_REGIAO': 'first',
      'SG_UF': 'first',
      'NO_MESORREGIAO': 'first',
      'NO_MICRORREGIAO': 'first',

      # Local
      'IN_RURAL': 'sum',
      'IN_URBANA': 'sum',

      # Dependência
      'IN_ATIVA': 'sum',
      'IN_PARALISADA': 'sum',
      'IN_MUNICIPAL': 'sum',
      'IN_ESTADUAL': 'sum',
      'IN_FEDERAL': 'sum',
      'IN_PRIVADA': 'sum',

      # Índices
      'IND_INFRA_BASICA': 'mean',
      'IND_ACESSIBILIDADE': 'mean',
      'IND_DIVERSIDADE_MATERIAL_PED': 'mean',
      'IND_INFRA_EDUCACIONAL': 'mean',
      'IND_INFRA_TEC':'mean',

      # Estrutura Escola
      'IN_ALIMENTACAO': 'sum',

      # Oferta de Matrículas
      'IN_PROF': 'sum',
      'IN_MEDIACAO_PRESENCIAL': 'sum',
      'IN_MEDIACAO_SEMIPRESENCIAL': 'sum',
      'IN_MEDIACAO_EAD': 'sum',
      'IN_DIURNO': 'sum',
      'IN_NOTURNO': 'sum',

      # Alunos
      'QT_MAT_MED': 'sum',
      'QT_MAT_MED_FEM': 'sum',
      'QT_MAT_MED_MASC': 'sum',
      'QT_MAT_MED_ND': 'sum',
      'QT_MAT_MED_BRANCA': 'sum',
      'QT_MAT_MED_PRETA': 'sum',
      'QT_MAT_MED_PARDA': 'sum',
      'QT_MAT_MED_AMARELA': 'sum',
      'QT_MAT_MED_INDIGENA': 'sum',

      # Turmas
      'QT_DOC_MED': 'sum',
      'QT_TUR_MED': 'mean',
      'ALUNOS_TURMA_MED': 'mean',
      'ALUNOS_TURMA_MED1': 'mean',
      'ALUNOS_TURMA_MED2': 'mean',
      'ALUNOS_TURMA_MED3': 'mean',

      # Taxas
      'TAP_MED': 'mean',
      'TAP_MED1': 'mean',
      'TAP_MED2': 'mean',
      'TAP_MED3': 'mean',
      'TRE_MED': 'mean',
      'TRE_MED1': 'mean',
      'TRE_MED2': 'mean',
      'TRE_MED3': 'mean',
      'TAB_MED': 'mean',
      'TAB_MED1': 'mean',
      'TAB_MED2': 'mean',
      'TAB_MED3': 'mean',
  }

  df = df.groupby(['CO_MUNICIPIO'], observed=False).agg(agg_dict).dropna()

  prop_urbana = df.apply(lambda x: x['IN_URBANA'] / (x['IN_URBANA'] + x['IN_RURAL']), axis=1)
  df.insert(loc=7, column='PROP_ESCOLAS_URBANAS', value=prop_urbana)

  prop_publica = df.apply(lambda x: (x['IN_MUNICIPAL'] + x['IN_ESTADUAL'] + x['IN_FEDERAL']) / (x['IN_MUNICIPAL'] + x['IN_ESTADUAL'] + x['IN_FEDERAL'] + x['IN_PRIVADA']), axis=1)
  df.insert(loc=14, column='PROP_ESCOLAS_PUBLICAS', value=prop_publica)

  return df

#### Dataframe Final

In [135]:
def create_final_df(df, evasao):
  # Verifica a existência do dataframe
  if evasao is None or evasao.empty:
    print(f"[INFO] Arquivo não encontrado. Avançando para o próximo passo.")
    return None

  df = pd.merge(df, evasao, on=['CO_MUNICIPIO'], how='left')

  return df

#### Pipeline Principal

In [136]:
# ==============================
#  Pipeline principal
# ==============================
def processar_dados(ano):
    print(f"🔄 Processando dados {ano}...")

    # Microdados
    micro = load_micro(ano)
    print(f"✅ Leitura finalizada.")

    micro = treat_values(micro)
    print(f"✅ Tratamento de valores faltantes finalizado.")

    micro = new_indexes(micro)
    micro = new_enrolment(micro)
    print(f"✅ Criação de novas variáveis finalizada.")

    micro = type_casting(micro)
    print(f"✅ Casting de tipos finalizado.")

    print(f"🔄 Processando alunos_turma...")
    # Alunos_turma
    alunos = load_alunos_turma(ano)

    print(f"🔄 Processando tx_rendimento...")
    # Taxa de rendimento
    rendimento = load_tx_rendimento(ano)

    print(f"🔄 Processando tx_evasao...")
    # Taxa de Evasão
    evasao = load_tx_evasao(ano)
    print(f"✅ Leitura e tratamento de dados auxiliares finalizada.")

    print(f"🔄 Processando dataframe agregado por escola...")
    df = create_school_agg(micro, alunos, rendimento)
    print(f"✅ Dataframe agregado por escola criado.")

    print(f"🔄 Processando dataframe agregado por município...")
    df = create_city_agg(df)
    print(f"✅ Dataframe agregado por município criado.")

    print(f"🔄 Processando dataframe final...")
    df = create_final_df(df, evasao)
    print(f"🔷 Dataframe final criado.")

    return df

### Exportação

In [137]:
anos = [2019, 2020, 2021]
dfs = {ano: processar_dados(ano) for ano in anos}

🔄 Processando dados 2019...
✅ Leitura finalizada.
✅ Tratamento de valores faltantes finalizado.
✅ Criação de novas variáveis finalizada.
✅ Casting de tipos finalizado.
🔄 Processando alunos_turma...
🔄 Processando tx_rendimento...
🔄 Processando tx_evasao...
✅ Leitura e tratamento de dados auxiliares finalizada.
🔄 Processando dataframe agregado por escola...
✅ Junção dos dados principais e auxiliares finalizada.
✅ Dataframe agregado por escola criado.
🔄 Processando dataframe agregado por município...


  df['TP_DEPENDENCIA'] = df['TP_DEPENDENCIA'].replace({'Federal': 'Pública', 'Estadual': 'Pública', 'Municipal': 'Pública'})


✅ Dataframe agregado por município criado.
🔄 Processando dataframe final...
🔷 Dataframe final criado.
🔄 Processando dados 2020...
✅ Leitura finalizada.
✅ Tratamento de valores faltantes finalizado.
✅ Criação de novas variáveis finalizada.
✅ Casting de tipos finalizado.
🔄 Processando alunos_turma...
🔄 Processando tx_rendimento...
🔄 Processando tx_evasao...
✅ Leitura e tratamento de dados auxiliares finalizada.
🔄 Processando dataframe agregado por escola...
✅ Junção dos dados principais e auxiliares finalizada.
✅ Dataframe agregado por escola criado.
🔄 Processando dataframe agregado por município...


  df['TP_DEPENDENCIA'] = df['TP_DEPENDENCIA'].replace({'Federal': 'Pública', 'Estadual': 'Pública', 'Municipal': 'Pública'})


✅ Dataframe agregado por município criado.
🔄 Processando dataframe final...
🔷 Dataframe final criado.
🔄 Processando dados 2021...
✅ Leitura finalizada.
✅ Tratamento de valores faltantes finalizado.
✅ Criação de novas variáveis finalizada.
✅ Casting de tipos finalizado.
🔄 Processando alunos_turma...
🔄 Processando tx_rendimento...
🔄 Processando tx_evasao...
[INFO] Arquivo não encontrado: /content/drive/MyDrive/Data Girls/Grace Hopper/entrega_final/data/raw/tx_transicao_2021_2022.zip. Avançando para o próximo passo.
✅ Leitura e tratamento de dados auxiliares finalizada.
🔄 Processando dataframe agregado por escola...
✅ Junção dos dados principais e auxiliares finalizada.
✅ Dataframe agregado por escola criado.
🔄 Processando dataframe agregado por município...


  df['TP_DEPENDENCIA'] = df['TP_DEPENDENCIA'].replace({'Federal': 'Pública', 'Estadual': 'Pública', 'Municipal': 'Pública'})


✅ Dataframe agregado por município criado.
🔄 Processando dataframe final...
[INFO] Arquivo não encontrado. Avançando para o próximo passo.
🔷 Dataframe final criado.


In [141]:
#for ano, df in dfs.items():
    #df.to_csv(f"dados_{ano}.csv", index=False, encoding="utf-8")