## Importação das Bibliotecas e dos Dados

In [None]:
import pandas as pd
import os

In [None]:
# Carregar dataframes
df_microdados2021_arq1 = pd.read_csv('microdados2021_arq1.txt', sep=';')
df_microdados2021_arq3 = pd.read_csv('microdados2021_arq3.txt', sep=';')

df_microdados2023_arq1 = pd.read_csv('microdados2023_arq1.txt', sep=';')
df_microdados2023_arq3 = pd.read_csv('microdados2023_arq3.txt', sep=';')

# Organização e Consolidação das Colunas de Desempenho

In [None]:
# Ordenar as linhas pelos valores das colunas 'NU_ANO' e 'CO_CURSO' e resetar o índice para organizar os dados
df_microdados2021_arq1_sorted = df_microdados2021_arq1.sort_values(by=['NU_ANO', 'CO_CURSO']).reset_index(drop=True)
df_microdados2021_arq3_sorted = df_microdados2021_arq3.sort_values(by=['NU_ANO', 'CO_CURSO']).reset_index(drop=True)

df_microdados2023_arq1_sorted = df_microdados2023_arq1.sort_values(by=['NU_ANO', 'CO_CURSO']).reset_index(drop=True)
df_microdados2023_arq3_sorted = df_microdados2023_arq3.sort_values(by=['NU_ANO', 'CO_CURSO']).reset_index(drop=True)

# Para 2021: Concatenar NT_GER ao df_microdados2021_arq1_sorted
df_microdados2021_arq1_sorted['NT_GER'] = df_microdados2021_arq3_sorted['NT_GER']
df_2021 = df_microdados2021_arq1_sorted # Renomeia para df_2021

# Para 2023: Concatenar NT_GER ao df_microdados2023_arq1_sorted
df_microdados2023_arq1_sorted['NT_GER'] = df_microdados2023_arq3_sorted['NT_GER']
df_2023 = df_microdados2023_arq1_sorted # Renomeia para df_2023

#display(df_2021.head())
#display(df_2023.head())

## Filtragem e Mapeamento

In [None]:
codigos_grupos_cursos = {
    2021: {
        72,     # Tecnologia em Análise e Desenvolvimento de Sistemas
        79,     # Tecnologia em Redes de Computadores
        4004,   # Ciência Da Computação (Bacharelado)
        4005,   # Ciência Da Computação (Licenciatura)
        4006,   # Sistemas de Informação
        6409    # Tecnologia em Gestão da Tecnologia da Informação
    },
    2023: {
        6411    # Engenharia de Computação I
    }
}

codigos_organizacao_academica = {
    10019,  # Centro Federal de Educação Tecnológica
    10020,  # Centro Universitário
    10022,  # Faculdade
    10026,  # Instituto Federal de Educação, Ciência e Tecnologia
    10028   # Universidade
}

map_categorias_administrativas = {
    1: 'Pública',
    2: 'Pública',
    3: 'Pública',
    4: 'Privada',
    5: 'Privada',
    6: 'Privada',
    7: 'Outro',
}


## Aplicar os filtros em df_2021
# Filtra CO_GRUPO
filtro_grupo_2021 = df_2021['CO_GRUPO'].isin(codigos_grupos_cursos[2021])
# Filtra CO_ORGACAD
filtro_orgacad_2021 = df_2021['CO_ORGACAD'].isin(codigos_organizacao_academica)
# Combina os filtros e reseta o índice pra manter a sequência dos dados
df_2021_filtrado = df_2021[filtro_grupo_2021 & filtro_orgacad_2021].reset_index(drop=True)
# Mapeia os valores de CO_CATEGAD
df_2021_filtrado['CO_CATEGAD'] = df_2021_filtrado['CO_CATEGAD'].map(map_categorias_administrativas)


## Aplicar os filtros em df_2023
# Filtra CO_GRUPO
filtro_grupo_2023 = df_2023['CO_GRUPO'].isin(codigos_grupos_cursos[2023])
# Filtra CO_ORGACAD
filtro_orgacad_2023 = df_2023['CO_ORGACAD'].isin(codigos_organizacao_academica)
# Combina os filtros e reseta o índice
df_2023_filtrado = df_2023[filtro_grupo_2023 & filtro_orgacad_2023].reset_index(drop=True)
# Mapeia os valores de CO_CATEGAD
df_2023_filtrado['CO_CATEGAD'] = df_2023_filtrado['CO_CATEGAD'].map(map_categorias_administrativas)

#display(df_2021_filtrado)
#display(df_2023_filtrado)

## Concatenação final e Exportação

In [None]:
# Concatena df_2021_filtrado e df_2023_filtrado
df_final = pd.concat([df_2021_filtrado, df_2023_filtrado]).reset_index(drop=True)

# Exporta o df final em csv
df_final.to_csv('df_final.csv', index=False)