# Exploração da base de dados do CENSO

Neste notebook, iremos carregar e realizar exploração de dados.

In [2]:
import os
import pandas as pd

# Caminhos
caminho_raw = r"C:\Users\john-\OneDrive - Universidade Federal da Paraíba\Área de Trabalho\Artigo - Estatística\projeto-evasao\data\raw\censo"
caminho_processed = r"C:\Users\john-\OneDrive - Universidade Federal da Paraíba\Área de Trabalho\Artigo - Estatística\projeto-evasao\data\processed"

# Lista dos anos
anos = [2018, 2019, 2021, 2022, 2023]

# Lista para armazenar os dataframes
lista_df = []

# Loop para carregar e armazenar os dataframes
for ano in anos:
    arquivo = f"MICRODADOS_CADASTRO_CURSOS_{ano}.csv"
    caminho_arquivo = os.path.join(caminho_raw, arquivo)
    
    print(f"Lendo arquivo: {arquivo}")
    df = pd.read_csv(caminho_arquivo, sep=';', encoding='latin1')
    
    # Manter apenas as colunas relevantes
    df = df[['CO_CURSO', 'QT_VG_TOTAL']]
    
    lista_df.append(df)

# Concatenar todos os dataframes
df_concatenado = pd.concat(lista_df, ignore_index=True)

# Calcular a média de QT_VG_TOTAL por CO_CURSO
df_resultado = (
    df_concatenado
    .groupby('CO_CURSO', as_index=False)
    .mean(numeric_only=True)
)

# Renomear a coluna para refletir que é a média
df_resultado.rename(columns={'QT_VG_TOTAL': 'QT_VG_TOTAL_MEDIA'}, inplace=True)

# Salvar o resultado
caminho_saida = os.path.join(caminho_processed, 'vagas_cursos.csv')
df_resultado.to_csv(caminho_saida, index=False, encoding='utf-8-sig')

print("Arquivo 'vagas_cursos.csv' salvo com sucesso no diretório processed.")



Lendo arquivo: MICRODADOS_CADASTRO_CURSOS_2018.csv


  df = pd.read_csv(caminho_arquivo, sep=';', encoding='latin1')


Lendo arquivo: MICRODADOS_CADASTRO_CURSOS_2019.csv


  df = pd.read_csv(caminho_arquivo, sep=';', encoding='latin1')


Lendo arquivo: MICRODADOS_CADASTRO_CURSOS_2021.csv


  df = pd.read_csv(caminho_arquivo, sep=';', encoding='latin1')


Lendo arquivo: MICRODADOS_CADASTRO_CURSOS_2022.csv


  df = pd.read_csv(caminho_arquivo, sep=';', encoding='latin1')


Lendo arquivo: MICRODADOS_CADASTRO_CURSOS_2023.csv


  df = pd.read_csv(caminho_arquivo, sep=';', encoding='latin1')


Arquivo 'vagas_cursos.csv' salvo com sucesso no diretório processed.


In [3]:
import pandas as pd
import os

# Definir os caminhos dos arquivos
caminho = r"C:\Users\john-\OneDrive - Universidade Federal da Paraíba\Área de Trabalho\Artigo - Estatística\projeto-evasao\data\processed"

# Carregar os dataframes
df_ml = pd.read_csv(os.path.join(caminho, 'ml_iq_2018_2023.csv'), encoding='utf-8-sig')
df_vagas = pd.read_csv(os.path.join(caminho, 'vagas_cursos.csv'), encoding='utf-8-sig')

# Realizar o merge utilizando CÓDIGO_DO_CURSO e CO_CURSO
df_merged = df_ml.merge(
    df_vagas,
    left_on='CÓDIGO_DO_CURSO',
    right_on='CO_CURSO',
    how='left'
)

# Arredondar a coluna QT_VG_TOTAL_MEDIA para zero casas decimais (inteiro)
df_merged['QT_VG_TOTAL_MEDIA'] = df_merged['QT_VG_TOTAL_MEDIA'].round(0)

# Opcional: Transformar em inteiro, se desejar
df_merged['QT_VG_TOTAL_MEDIA'] = df_merged['QT_VG_TOTAL_MEDIA'].astype('Int64')

# Remover a coluna CO_CURSO que veio apenas para merge (opcional)
df_merged.drop(columns=['CO_CURSO'], inplace=True)

# Salvar o dataframe atualizado
df_merged.to_csv(
    os.path.join(caminho, 'ml_iq_2018_2023.csv'),
    index=False,
    encoding='utf-8-sig'
)

print("Merge realizado, coluna arredondada e arquivo salvo com sucesso!")



Merge realizado, coluna arredondada e arquivo salvo com sucesso!


In [1]:
import pandas as pd
import os

# Caminho do arquivo
caminho = r"C:\Users\john-\OneDrive - Universidade Federal da Paraíba\Área de Trabalho\Artigo - Estatística\projeto-evasao\data\processed"

# Carregar o dataframe
df = pd.read_csv(os.path.join(caminho, 'ml_iq_2018_2023.csv'), encoding='utf-8-sig')

# Excluir as colunas
colunas_excluir = ['mun', 'CURSOS', 'media_salarial_media_2018_2023']
df = df.drop(columns=[col for col in colunas_excluir if col in df.columns])

# Renomear a coluna salario para SALARIO (se existir)
df = df.rename(columns={'salario': 'SALARIO'})

# Salvar novamente no mesmo arquivo
df.to_csv(
    os.path.join(caminho, 'ml_iq_2018_2023.csv'),
    index=False,
    encoding='utf-8-sig'
)

print("Colunas removidas e coluna renomeada com sucesso!")


Colunas removidas e coluna renomeada com sucesso!
