## 📁 Tratamento dos dados da Base Original (sem acréscimo das subcategorias de estratégias)

### 1️⃣ Visão Geral dos Dados

In [1]:
import pandas as pd

# Lê o arquivo Excel
df = pd.read_excel('dados_UFV_comp_original.xlsx', engine='openpyxl')

# Visualiza as primeiras linhas
df.head()

Unnamed: 0,Ano_Nascimento,Sexo,Campus,Curso,UF_Nascimento,Admissao,Saida,Situacao_Aluno_Agrupada,Modalidade_Inscrita,ENEM,Num_Reprovacoes,Raca,CRA,Regiao_Nascimento
0,1996,M,CAV,CAV - Ciência da Computação,MG,2015/1,2023/2,Evasão,1.0,671.0,20,Preto(a),56.0,Sudeste
1,1996,F,CAV,CAV - Ciência da Computação,MG,2016/1,2022/2,Conclusão,9.0,683.0,9,Preto(a),63.0,Sudeste
2,1982,M,CAV,CAV - Ciência da Computação,MG,2017/1,2017/1,Evasão,9.0,706.0,5,Preto(a),0.0,Sudeste
3,1993,M,CAV,CAV - Ciência da Computação,BA,2011/1,2011/1,Evasão,0.0,,1,Informação não disponível,66.0,Nordeste
4,1996,M,CAV,CAV - Ciência da Computação,MG,2015/1,2021/2,Conclusão,9.0,,21,Branco(a),58.0,Sudeste


### 2️⃣ Tratamento de Dados

In [2]:
# Quantidade e porcentagem de nulos por coluna
nulos = df.isnull().sum()
porcentagem = (nulos / len(df)) * 100

# Junta tudo em um DataFrame bonitinho
pd.DataFrame({'Nulos': nulos, 'Porcentagem (%)': porcentagem.round(2)})

Unnamed: 0,Nulos,Porcentagem (%)
Ano_Nascimento,0,0.0
Sexo,0,0.0
Campus,0,0.0
Curso,0,0.0
UF_Nascimento,20,0.61
Admissao,0,0.0
Saida,0,0.0
Situacao_Aluno_Agrupada,0,0.0
Modalidade_Inscrita,442,13.53
ENEM,869,26.61


In [3]:
# Remover linhas com valores nulos na coluna 'CRA'
df = df.dropna(subset=['CRA'])

In [4]:
# Remover linhas com valores nulos na coluna 'UF_Nascimento'
df = df.dropna(subset=['UF_Nascimento'])

In [5]:
# Remover linhas com valores nulos na coluna 'Regiao_Nascimento'
df = df.dropna(subset=['Regiao_Nascimento'])

In [6]:
# Quantidade e porcentagem de nulos por coluna
nulos = df.isnull().sum()
porcentagem = (nulos / len(df)) * 100

# Junta tudo em um DataFrame bonitinho
pd.DataFrame({'Nulos': nulos, 'Porcentagem (%)': porcentagem.round(2)})

Unnamed: 0,Nulos,Porcentagem (%)
Ano_Nascimento,0,0.0
Sexo,0,0.0
Campus,0,0.0
Curso,0,0.0
UF_Nascimento,0,0.0
Admissao,0,0.0
Saida,0,0.0
Situacao_Aluno_Agrupada,0,0.0
Modalidade_Inscrita,439,13.53
ENEM,860,26.5


Notem que removi os nulos apenas das colunas em que esse número era muito baixo (não chegando nem a 1%). Não fiz a remoção em Modalidade_Inscrita e ENEM pois são muitas linhas e isso pode acabar influenciando o modelo... Além disso, os nulos nessas duas colunas indicam, provavelmente, os alunos que ingressaram quando o ENEM ainda não era utilizado. Os nulos dessas colunas serão tratados na parte 3 - Engenharia de Atributos.

In [7]:
# Verificar o número de linhas do DF
print(df.shape[0])  

3245


In [8]:
# Mostra os valores únicos de cada coluna
for col in df.columns:
    print(f"Coluna: {col}")
    print(df[col].unique())
    print("-" * 40)

Coluna: Ano_Nascimento
[1996 1982 1993 1991 1990 1986 2001 2005 2004 1995 1988 2002 2000 1981
 1992 1999 1994 1987 1997 1998 1985 1984 1983 1978 2003 1989 1958 1980
 1979 1977 1974 1971 1955 1976 1975 1970 1973 1967 1972 1964 1969 1962]
----------------------------------------
Coluna: Sexo
['M' 'F']
----------------------------------------
Coluna: Campus
['CAV' 'CAF' 'CRP']
----------------------------------------
Coluna: Curso
['CAV - Ciência da Computação' 'CAF - Ciência da Computação'
 'CRP - Sistemas de Informação - Integral'
 'CRP - Sistemas de Informação - Noturno']
----------------------------------------
Coluna: UF_Nascimento
['MG' 'BA' 'ES' 'RJ' 'RS' 'SP' 'MS' 'DF' 'GO' 'PR' 'CE' 'RO' 'PA' 'MA'
 'SE' 'AM' 'RR' 'PE' 'AP' 'AL' 'RN' 'MT']
----------------------------------------
Coluna: Admissao
['2015/1' '2016/1' '2017/1' '2011/1' '2002/1' '2012/1' '2009/1' '2020/1'
 '2023/1' '2022/1' '2013/1' '2006/1' '2001/1' '2018/1' '2000/1' '2010/1'
 '2007/2' '2014/1' '2006/2' '2003/1' '200

In [9]:
# Tipos de dados de cada coluna
print(df.dtypes)

Ano_Nascimento               int64
Sexo                        object
Campus                      object
Curso                       object
UF_Nascimento               object
Admissao                    object
Saida                       object
Situacao_Aluno_Agrupada     object
Modalidade_Inscrita        float64
ENEM                       float64
Num_Reprovacoes              int64
Raca                        object
CRA                        float64
Regiao_Nascimento           object
dtype: object


In [10]:
for col in df.columns:
    print(f"\nColuna: {col}")
    print(df[col].value_counts(dropna=False))  # dropna=False inclui contagem de NaN
    print("-" * 50)


Coluna: Ano_Nascimento
Ano_Nascimento
1995    208
1996    195
1997    190
1993    184
1994    178
1992    175
1991    174
2000    169
1999    166
1998    160
2003    158
2002    149
2001    148
2004    132
1989    116
1990    106
1988     80
1987     75
1986     72
1984     64
1985     60
2005     58
1983     50
1982     44
1981     43
1980     23
1979     15
1978     12
1977      8
1971      6
1976      5
1967      5
1974      3
1975      2
1970      2
1973      2
1969      2
1962      2
1958      1
1955      1
1972      1
1964      1
Name: count, dtype: int64
--------------------------------------------------

Coluna: Sexo
Sexo
M    2769
F     476
Name: count, dtype: int64
--------------------------------------------------

Coluna: Campus
Campus
CRP    1520
CAV    1101
CAF     624
Name: count, dtype: int64
--------------------------------------------------

Coluna: Curso
Curso
CAV - Ciência da Computação                1101
CRP - Sistemas de Informação - Noturno      795
CRP - Siste

### 3️⃣ Engenharia de Atributos

In [11]:
# Mapear valores da coluna 'Sexo' para inteiros
df['Sexo'] = df['Sexo'].map({'F': 0, 'M': 1})

In [12]:
# Mapear valores da coluna 'Campus' para inteiros
df['Campus'] = df['Campus'].map({'CAV': 0, 'CAF': 1, 'CRP':2})

In [13]:
# Criar um dicionário para mapear os valores únicos da coluna 'Curso' para inteiros
curso_unicos = df['Curso'].unique()
curso_map = {curso: idx for idx, curso in enumerate(curso_unicos)}

# Aplicar o mapeamento à coluna 'Curso'
df['Curso'] = df['Curso'].map(curso_map)

print("Dicionário de mapeamento da coluna Curso:", curso_map)

Dicionário de mapeamento da coluna Curso: {'CAV - Ciência da Computação': 0, 'CAF - Ciência da Computação': 1, 'CRP - Sistemas de Informação - Integral': 2, 'CRP - Sistemas de Informação - Noturno': 3}


In [14]:
# Criar um dicionário para mapear os valores únicos da coluna 'UF-Nascimento' para inteiros
uf_unicos = df['UF_Nascimento'].unique()  
uf_map = {uf: idx for idx, uf in enumerate(uf_unicos)}

# Aplicar o mapeamento à coluna 'UF_Nascimento'
df['UF_Nascimento'] = df['UF_Nascimento'].map(uf_map)

print("Dicionário de mapeamento da coluna UF_Nascimento:", uf_map)

Dicionário de mapeamento da coluna UF_Nascimento: {'MG': 0, 'BA': 1, 'ES': 2, 'RJ': 3, 'RS': 4, 'SP': 5, 'MS': 6, 'DF': 7, 'GO': 8, 'PR': 9, 'CE': 10, 'RO': 11, 'PA': 12, 'MA': 13, 'SE': 14, 'AM': 15, 'RR': 16, 'PE': 17, 'AP': 18, 'AL': 19, 'RN': 20, 'MT': 21}


In [15]:
# Criar um dicionário para mapear os valores únicos da coluna 'Admissao' para inteiros
admissao_unicos = df['Admissao'].unique()
admissao_map = {valor: idx for idx, valor in enumerate(admissao_unicos)}

# Aplicar o mapeamento à coluna 'Admissao'
df['Admissao'] = df['Admissao'].map(admissao_map)

print("Dicionário de mapeamento da coluna Admissao:", admissao_map)

Dicionário de mapeamento da coluna Admissao: {'2015/1': 0, '2016/1': 1, '2017/1': 2, '2011/1': 3, '2002/1': 4, '2012/1': 5, '2009/1': 6, '2020/1': 7, '2023/1': 8, '2022/1': 9, '2013/1': 10, '2006/1': 11, '2001/1': 12, '2018/1': 13, '2000/1': 14, '2010/1': 15, '2007/2': 16, '2014/1': 17, '2006/2': 18, '2003/1': 19, '2008/1': 20, '2007/1': 21, '2004/1': 22, '2019/1': 23, '2021/1': 24, '2005/1': 25, '2009/2': 26, '2011/2': 27, '2002/2': 28, '2003/2': 29, '2018/2': 30, '2017/2': 31, '2016/2': 32, '2004/2': 33, '2010/2': 34, '2005/2': 35, '2008/2': 36, '2019/2': 37, '2022/2': 38, '2023/2': 39}


In [16]:
# Criar um dicionário para mapear os valores únicos da coluna 'Saida' para inteiros
saida_unicos = df['Saida'].unique()
saida_map = {valor: idx for idx, valor in enumerate(saida_unicos)}

# Aplicar o mapeamento à coluna 'Saida'
df['Saida'] = df['Saida'].map(saida_map)

print("Dicionário de mapeamento da coluna Saida:", saida_map)

Dicionário de mapeamento da coluna Saida: {'2023/2': 0, '2022/2': 1, '2017/1': 2, '2011/1': 3, '2021/2': 4, '2005/2': 5, '2014/2': 6, '2010/2': 7, '2017/2': 8, '0': 9, '2013/1': 10, '2010/1': 11, '2005/1': 12, '2023/1': 13, '2003/2': 14, '2012/2': 15, '2013/2': 16, '2020/2': 17, '2007/2': 18, '2016/2': 19, '2008/2': 20, '2003/1': 21, '2018/2': 22, '2015/2': 23, '2004/1': 24, '2019/2': 25, '2006/2': 26, '2002/2': 27, '2009/2': 28, '2018/1': 29, '2014/1': 30, '2009/1': 31, '2007/1': 32, '2021/1': 33, '2016/1': 34, '2004/2': 35, '2011/2': 36, '2006/1': 37, '2008/1': 38, '2012/1': 39, '2015/1': 40, '2022/1': 41, '2019/1': 42, '2002/1': 43, '2000/1': 44, '2001/2': 45, '2020/1': 46, '2000/2': 47}


In [17]:
# Criar um dicionário para mapear os valores únicos da coluna 'Situacao_Aluno_Agrupada' para inteiros
situacao_map = {valor: idx for idx, valor in enumerate(df['Situacao_Aluno_Agrupada'].unique())}

# Aplicar o mapeamento à coluna 'Situacao_Aluno_Agrupada'
df['Situacao_Aluno_Agrupada'] = df['Situacao_Aluno_Agrupada'].map(situacao_map)

print("Dicionário de mapeamento da coluna Situacao_Aluno_Agrupada:", situacao_map)

Dicionário de mapeamento da coluna Situacao_Aluno_Agrupada: {'Evasão': 0, 'Conclusão': 1, 'Retenção': 2, 'Matriculado': 3}


In [18]:
# Criar um dicionário para mapear os valores únicos da coluna 'Raca' a inteiros
raca_map = {valor: idx for idx, valor in enumerate(df['Raca'].unique())}

# Aplicar o mapeamento à coluna 'Raca'
df['Raca'] = df['Raca'].map(raca_map)

print("Dicionário de mapeamento da coluna Raca:", raca_map)

Dicionário de mapeamento da coluna Raca: {'Preto(a)': 0, 'Informação não disponível': 1, 'Branco(a)': 2, 'Pardo(a)': 3, 'Indígena': 4, 'Amarelo(a)': 5}


In [19]:
# Preencher valores NaN da coluna 'Modalidade_Inscrita' com -1
df['Modalidade_Inscrita'] = df['Modalidade_Inscrita'].fillna(-1)

# Mapeamento direto dos valores, pois já são inteiros
modalidade_map = {valor: int(valor) for valor in df['Modalidade_Inscrita'].unique()}

# Aplicar o mapeamento à coluna 'Modalidade_Inscrita'
df['Modalidade_Inscrita'] = df['Modalidade_Inscrita'].map(modalidade_map)

print("Dicionário de mapeamento da coluna Modalidade_Inscrita:", modalidade_map)

Dicionário de mapeamento da coluna Modalidade_Inscrita: {1.0: 1, 9.0: 9, 0.0: 0, 8.0: 8, 7.0: 7, 5.0: 5, -1.0: -1, 3.0: 3, 4.0: 4, 6.0: 6, 2.0: 2}


In [20]:
# Mapeamento da coluna 'Regiao_Nascimento' para inteiros
regiao_map = {
    'Sudeste': 1,
    'Nordeste': 2,
    'Norte': 3,
    'Sul': 4,
    'Centro-Oeste': 5
}

# Aplicando o mapeamento à coluna 'Regiao_Nascimento'
df['Regiao_Nascimento'] = df['Regiao_Nascimento'].map(regiao_map)

print("Dicionário de mapeamento da coluna Regiao_Nascimento:", regiao_map)

Dicionário de mapeamento da coluna Regiao_Nascimento: {'Sudeste': 1, 'Nordeste': 2, 'Norte': 3, 'Sul': 4, 'Centro-Oeste': 5}


In [21]:
# Preenchendo os NaN da coluna 'ENEM' com a mediana dos valores
df['ENEM'] = df['ENEM'].fillna(df['ENEM'].median())

In [22]:
# Quantidade e porcentagem de nulos por coluna
nulos = df.isnull().sum()
porcentagem = (nulos / len(df)) * 100

# Junta tudo em um DataFrame bonitinho
pd.DataFrame({'Nulos': nulos, 'Porcentagem (%)': porcentagem.round(2)})

Unnamed: 0,Nulos,Porcentagem (%)
Ano_Nascimento,0,0.0
Sexo,0,0.0
Campus,0,0.0
Curso,0,0.0
UF_Nascimento,0,0.0
Admissao,0,0.0
Saida,0,0.0
Situacao_Aluno_Agrupada,0,0.0
Modalidade_Inscrita,0,0.0
ENEM,0,0.0


In [23]:
# Tipos de dados de cada coluna
print(df.dtypes)

Ano_Nascimento               int64
Sexo                         int64
Campus                       int64
Curso                        int64
UF_Nascimento                int64
Admissao                     int64
Saida                        int64
Situacao_Aluno_Agrupada      int64
Modalidade_Inscrita          int64
ENEM                       float64
Num_Reprovacoes              int64
Raca                         int64
CRA                        float64
Regiao_Nascimento            int64
dtype: object


In [24]:
# Salvar a base de dados tratada em um novo arquivo Excel
df.to_excel('dados_UFV_comp_original_tratados.xlsx', index=False)