Notebook para realizar o tratamento da base de dados merge2018 retirada do SUAP em agosto de 2023. Todos os atributos sensíveis foram removidos. Essa base é o retrato dos alunos 

In [1]:
import pandas as pd

In [2]:
merge2018 = pd.read_excel('merge2018.xlsx')

In [3]:
merge2018.head(10)

Unnamed: 0.1,Unnamed: 0,Ano Letivo de Previsão de Conclusão,Ano de Conclusão,Ano de Ingresso,Campus,Cota MEC,Cota Sistec,Código Curso,Data de Conclusão de Curso,Data do Último Procedimento,...,LOCAL_RN,LOCAL_DESLOC,LOCAL_DESLOC_DIST,LOCAL_UF,LOCAL_UF_CIDADE,LOCAL_PAIS,LOCAL_DESLOC_MOTIVO,PAE_AVALIACAO,PAE_PRELECAO,ASREMT
0,0,2024,-,2023,AP,-,-,8079,-,-,...,,,,,,,,,,
1,1,2021,2021,2018,AP,-,-,8401,11/01/2022,-,...,,,,,,,,,,
2,2,2020,-,2018,AP,-,-,8407,-,03/09/2018,...,,,,,,,,,,
3,4,2022,-,2020,AP,-,-,8428,-,16/06/2021,...,,,,,,,,,,
4,5,2022,2022,2019,AP,-,-,8427,17/02/2023,-,...,,,,,,,,,,
5,6,2021,2021,2018,AP,-,-,8026,11/01/2022,-,...,,,,,,,,,,
6,8,2021,2021,2018,AP,-,-,8026,11/01/2022,-,...,,,,,,,,,,
7,10,2022,-,2019,AP,-,-,8413,-,-,...,,,,,,,,,,
8,11,2023,-,2019,AP,-,-,8413,-,27/07/2021,...,,,,,,,,,,
9,12,2022,-,2018,AP,-,-,8413,-,10/04/2018,...,,,,,,,,,,


In [4]:
merge2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46650 entries, 0 to 46649
Columns: 140 entries, Unnamed: 0 to ASREMT
dtypes: float64(7), int64(6), object(127)
memory usage: 49.8+ MB


In [5]:
# Importando a biblioteca NumPy, que contém a representação de NaN
import numpy as np

# Criando a função que substitui "-" por NaN no DataFrame
def replace_dash_with_nan(df):
    """
    Substitui todos os valores que são iguais a "-" por NaN em um DataFrame.
    
    Parâmetros:
        df (pandas.DataFrame): O DataFrame no qual a substituição será realizada.
    
    Retorna:
        pandas.DataFrame: O DataFrame após a substituição.
    """
    return df.replace("-", np.nan)

# Aplicando a função ao conjunto de dados
data_clean = replace_dash_with_nan(merge2018)

# Mostrando as primeiras linhas do conjunto de dados após a aplicação da função
data_clean.head()


Unnamed: 0.1,Unnamed: 0,Ano Letivo de Previsão de Conclusão,Ano de Conclusão,Ano de Ingresso,Campus,Cota MEC,Cota Sistec,Código Curso,Data de Conclusão de Curso,Data do Último Procedimento,...,LOCAL_RN,LOCAL_DESLOC,LOCAL_DESLOC_DIST,LOCAL_UF,LOCAL_UF_CIDADE,LOCAL_PAIS,LOCAL_DESLOC_MOTIVO,PAE_AVALIACAO,PAE_PRELECAO,ASREMT
0,0,2024,,2023,AP,,,8079,,,...,,,,,,,,,,
1,1,2021,2021.0,2018,AP,,,8401,11/01/2022,,...,,,,,,,,,,
2,2,2020,,2018,AP,,,8407,,03/09/2018,...,,,,,,,,,,
3,4,2022,,2020,AP,,,8428,,16/06/2021,...,,,,,,,,,,
4,5,2022,2022.0,2019,AP,,,8427,17/02/2023,,...,,,,,,,,,,


In [6]:
# Criando a função que extrai o ano da coluna 'Data do Último Procedimento'
# e cria uma nova coluna chamada 'ano_ultimo_procedimento'
def extract_year_from_last_procedure(df):
    """
    Cria uma nova coluna 'ano_ultimo_procedimento' que contém o ano extraído 
    da coluna 'Data do Último Procedimento'.
    
    Parâmetros:
        df (pandas.DataFrame): O DataFrame no qual a operação será realizada.
    
    Retorna:
        pandas.DataFrame: O DataFrame após a criação da nova coluna.
    """
    # Convertendo a coluna 'Data do Último Procedimento' para o tipo datetime
    df['Data do Último Procedimento'] = pd.to_datetime(df['Data do Último Procedimento'], errors='coerce')
    
    # Extraindo o ano da coluna 'Data do Último Procedimento' 
    # e criando a nova coluna 'ano_ultimo_procedimento'
    df['ano_ultimo_procedimento'] = df['Data do Último Procedimento'].dt.year
    
    return df

# Aplicando a função ao conjunto de dados
data_with_year = extract_year_from_last_procedure(data_clean)

# Mostrando as primeiras linhas do conjunto de dados após a aplicação da função
data_with_year[['Data do Último Procedimento', 'ano_ultimo_procedimento']].head()


  df['ano_ultimo_procedimento'] = df['Data do Último Procedimento'].dt.year


Unnamed: 0,Data do Último Procedimento,ano_ultimo_procedimento
0,NaT,
1,NaT,
2,2018-03-09,2018.0
3,NaT,
4,NaT,


In [7]:
# Criando a função que limpa e converte as colunas especificadas
def clean_and_convert_columns(df):
    """
    Limpa e converte as colunas especificadas.
    1. Remove os pontos das strings, se existirem.
    2. Substitui as vírgulas por pontos.
    3. Converte as strings em números de ponto flutuante (float).
    
    Parâmetros:
        df (pandas.DataFrame): O DataFrame no qual a operação será realizada.
    
    Retorna:
        pandas.DataFrame: O DataFrame após a limpeza e conversão das colunas.
    """
    # Lista de colunas a serem transformadas
    columns_to_convert = ['Frequência no Período', 'I.R.A.', 'Percentual de Progresso', 'Renda Per Capita']
    
    # Loop para aplicar as transformações em cada coluna especificada
    for col in columns_to_convert:
        if col in df.columns:
            # Removendo os pontos e substituindo as vírgulas por pontos
            df[col] = df[col].str.replace('.', '', regex=False)
            df[col] = df[col].str.replace(',', '.', regex=False)
            # Convertendo as strings em float
            df[col] = df[col].astype(float)
    
    return df

# Aplicando a função ao conjunto de dados
data_cleaned_and_converted = clean_and_convert_columns(data_with_year)

# Mostrando as primeiras linhas do conjunto de dados após a aplicação da função
data_cleaned_and_converted[['Frequência no Período', 'I.R.A.', 'Percentual de Progresso', 'Renda Per Capita']].head()


Unnamed: 0,Frequência no Período,I.R.A.,Percentual de Progresso,Renda Per Capita
0,81.53,0.0,,0.17
1,99.36,83.36,100.0,0.61
2,0.0,32.3,0.61,0.26
3,0.0,90.86,6.53,0.32
4,95.45,82.7,100.0,1.32


In [8]:
# Criando a função que normaliza a coluna 'Renda Per Capita'
def normalize_renda_per_capita(df):
    """
    Normaliza a coluna 'Renda Per Capita' do DataFrame:
    1. Transforma os valores negativos em positivos (tornando-os seus valores absolutos).
    2. Se o valor for maior que 10, atribui o valor de 10 a essa entrada.
    
    Parâmetros:
        df (pandas.DataFrame): O DataFrame no qual a operação será realizada.
    
    Retorna:
        pandas.DataFrame: O DataFrame após a normalização da coluna 'Renda Per Capita'.
    """
    # Transformando valores negativos em positivos
    df['Renda Per Capita'] = df['Renda Per Capita'].abs()
    
    # Atribuindo o valor de 10 se o valor da coluna for maior que 10
    df.loc[df['Renda Per Capita'] > 10, 'Renda Per Capita'] = 10
    
    return df

# Aplicando a função ao conjunto de dados
data_normalized_renda = normalize_renda_per_capita(data_cleaned_and_converted)

# Mostrando as primeiras linhas do conjunto de dados após a aplicação da função
data_normalized_renda['Renda Per Capita'].head()


0    0.17
1    0.61
2    0.26
3    0.32
4    1.32
Name: Renda Per Capita, dtype: float64

In [9]:
# Atualizando a função que limpa a coluna 'Descrição do Curso' e cria um novo atributo 'curso'
def clean_curso_description(df):
    """
    Cria um novo atributo 'curso' no DataFrame que contém o conteúdo limpo da coluna 'Descrição do Curso':
    1. Remove o texto "de Nivel Médio" e "de Nível Médio" da descrição do curso, se presente.
    2. Verifica se a descrição contém uma vírgula ",", um parêntese "(" 
       ou um colchete "[", e, caso positivo, mantém apenas o conteúdo antes desses caracteres.
    
    Parâmetros:
        df (pandas.DataFrame): O DataFrame no qual a operação será realizada.
    
    Retorna:
        pandas.DataFrame: O DataFrame após a criação do novo atributo 'curso'.
    """
    # Copiando a coluna 'Descrição do Curso' para a nova coluna 'curso'
    df['curso'] = df['Descrição do Curso'].copy()
    
    # Removendo as diferentes variações do texto
    df['curso'] = df['curso'].str.replace('de Nivel Médio ', '', regex=False)
    df['curso'] = df['curso'].str.replace('de Nível Médio ', '', regex=False)
    
    # Mantendo apenas o conteúdo antes de uma vírgula, parêntese ou colchete
    df['curso'] = df['curso'].str.split(',|\(|\[', expand=True)[0]
    
    # Removendo espaços em branco extras no final das strings
    df['curso'] = df['curso'].str.strip()
    
    return df

# Aplicando a função atualizada ao conjunto de dados
data_with_curso = clean_curso_description(data_normalized_renda)

# Mostrando as primeiras linhas do conjunto de dados após a aplicação da função atualizada
data_with_curso[['Descrição do Curso', 'curso']].head()




  df['curso'] = df['Descrição do Curso'].copy()


Unnamed: 0,Descrição do Curso,curso
0,"Técnico de Nivel Médio em Agropecuária, na For...",Técnico em Agropecuária
1,"Técnico de Nivel Médio em Informática, na Form...",Técnico em Informática
2,Técnico de Nível Médio em Manutenção e Suporte...,Técnico em Manutenção e Suporte em Informática
3,"Técnico de Nível Médio em Química, na Forma Su...",Técnico em Química
4,"Técnico de Nível Médio em Biocombustíveis, na ...",Técnico em Biocombustíveis


In [11]:
#data_with_curso.to_excel('merge2018-tratado.xlsx', index=False)
data_with_curso.to_csv('merge2018-tratado.csv', index=False)