# Análise de Candidatos ao Vestibular da UEA

-  Análise exploratória
    - [X] Verificar existência de dados nulos
    - [X] Formatar ``datanasc`` de str para datetime
    - [X] Formatar ``classificacao`` de float para int
    - [X] Criar atributo ``idade``
    - [X] Formatar atributo ``id_referencia_grupo``
    - [ ] Ordenar (na ordem que aparece na leitura do PDF) dataframe considerando: 
        1. Por ``ano``
        2. Por ``curso_nome_referencia``
        3. Por ``id_curso_referencia``
        4. Por ``classificacao`` 


## Pré-processamento dos dados

In [64]:
import numpy as np 
import pandas as pd

from datetime import datetime

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd


### Carregando o dataset

In [65]:
data = pd.read_csv('./data/csv/2023_candidates_info.csv', sep=',', encoding='utf-8')

In [None]:
data.head(5)

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,disc1,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano
0,6354130-0,EDIJANE PINHEIRO MARTINS,04/03/92,313.0,No,No,No,31161,19048,19048,3,5,6,2800,1527,43273,4069,4069,Odontologia - Integral - Manaus,2019
1,6318761-2,JOEL DOS SANTOS DE SOUZA,09/03/97,314.0,No,No,No,31154,29762,29762,3,1,4,1600,1655,32545,4069,4069,Odontologia - Integral - Manaus,2019
2,6379123-4,CARINA DAS CHAGAS SEIXAS,23/10/96,315.0,No,No,No,31154,29762,29762,3,3,2,1600,1655,32545,4069,4069,Odontologia - Integral - Manaus,2019
3,6549853-4,IRLA DA SILVA PEREIRA,07/02/01,316.0,No,No,No,31113,30952,30952,4,0,4,1600,1527,31273,4069,4069,Odontologia - Integral - Manaus,2019
4,6393350-0,IVANIR LIMA PEREIRA,11/03/91,317.0,No,No,No,31113,30952,30952,2,3,3,1600,1527,31273,4069,4069,Odontologia - Integral - Manaus,2019


## Análise exploratória dos dados

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 184389 entries, 0 to 184388
Data columns (total 20 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   numinscricao           184389 non-null  object 
 1   nome                   184389 non-null  object 
 2   datanasc               184389 non-null  object 
 3   classificacao          184389 non-null  float64
 4   opcao_curso_2          184389 non-null  object 
 5   opcao_3_curso          184389 non-null  object 
 6   habilidades            184389 non-null  object 
 7   nota_final             184389 non-null  object 
 8   nota_cg                184389 non-null  object 
 9   nota_etapa_1           184389 non-null  object 
 10  disc1                  184389 non-null  int64  
 11  disc2                  184389 non-null  int64  
 12  disc3                  184389 non-null  int64  
 13  nota_ce                184389 non-null  object 
 14  nota_redacao           184389 non-nu

#### Verificando a existência de colunas com dados nulos

In [None]:
data.isnull().sum()

numinscricao             0
nome                     0
datanasc                 0
classificacao            0
opcao_curso_2            0
opcao_3_curso            0
habilidades              0
nota_final               0
nota_cg                  0
nota_etapa_1             0
disc1                    0
disc2                    0
disc3                    0
nota_ce                  0
nota_redacao             0
nota_etapa_2             0
opcao_curso_1            0
id_referencia_curso      0
nome_referencia_curso    0
ano                      0
dtype: int64

#### Formatando coluna 'datanasc' para o formato date

In [67]:
data.sample(2)

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,disc1,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano
5239,5261271-6,EIDRA DA GAMA ALENCAR,24/09/89,21,2045,3045,No,35766,35714,35714,4,3,2,18,1782,35818,1045,1045,Licenciatura em Letras - Língua Portuguesa - M...,2023
4184,5158308-9,PEDRO ANAEL BARBOSA DA SILVA,11/09/05,82,2025,3025,No,36939,33333,33333,5,4,3,24,1655,40545,1025,1025,Engenharia Mecânica - Integral - Manaus,2023


## Criando novos atributos

In [69]:
def adjuste_year(year):
    if year <= 24:
        return 2000 + year
    else:
        return 1900 + year

def calculate_age(row):
    data_str = row['datanasc']
    current_year = row['ano']
    
    data = datetime.strptime(data_str, '%d/%m/%y')
    born_year = adjuste_year(data.year % 100)
    idade = current_year - born_year
    
    return idade

data['idade'] = data.apply(calculate_age, axis=1)

In [70]:
data[data['idade'] < 0]

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,...,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade


In [71]:
data.sample(2)

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,...,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade
6641,4959103-7,ELIAS EDSON ALVES DA SILVA,09/11/05,175,2066,3066,No,37403,35714,35714,...,2,3,20,1909,39091,1066,1066,Sistemas de Informação - Integral - Manaus,2023,18
35878,4893545-0,WALCLERC MACEDO ALVES JUNIOR,19/08/04,594,No,No,No,42635,36905,36905,...,2,5,28,2036,48364,4063,4063,Medicina - Integral - Manaus,2023,19


#### Padronizando as colunas referentes a opção de curso

In [74]:
data['opcao_curso_1'] = data['opcao_curso_1'].astype(str)
data['id_referencia_curso'] = data['id_referencia_curso'].astype(str)

In [75]:
data['opcao_3_curso'] = data['opcao_3_curso'].apply(lambda x: x[1:] if str(x).startswith('0') else x)
data['opcao_curso_2'] = data['opcao_curso_2'].apply(lambda x: x[1:] if str(x).startswith('0') else x)

In [76]:
data.head(8)

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,...,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade
0,5272408-5,LEANDRO VITOR DE SOUZA PRAIA,15/11/06,1,2001,3001,No,66639,63095,63095,...,4,11,46,2418,70182,1001,1001,Administração - Noturno - Manaus,2023,17
1,4873733-0,YANA KATRINE PEDROSO ESPINDULA,26/07/01,2,2001,3001,No,59818,50,50,...,7,7,48,2164,69636,1001,1001,Administração - Noturno - Manaus,2023,22
2,5014911-3,ELBER LUCAS VIEIRA RODRIGUES,17/09/05,3,2001,3001,No,59199,54762,54762,...,5,9,42,2164,63636,1001,1001,Administração - Noturno - Manaus,2023,18
3,4931578-1,ANA LIZ ASAEL FREITAS RIBEIRO,17/07/05,4,2001,3001,No,58091,50,50,...,6,8,42,2418,66182,1001,1001,Administração - Noturno - Manaus,2023,18
4,4949027-3,ALVARO FRANCISCO PIMENTEL DE OLIVEIRA JUNIOR,17/04/04,5,2001,3001,No,57712,58333,58333,...,3,9,38,1909,57091,1001,1001,Administração - Noturno - Manaus,2023,19
5,5241586-4,LOHANNE DE SOUZA RANGEL BAPTISTA,10/01/06,6,2001,3001,No,56413,5119,5119,...,4,8,40,2164,61636,1001,1001,Administração - Noturno - Manaus,2023,17
6,4994885-7,ELISA BRITO OMENA,24/01/06,7,2001,3001,No,56373,52381,52381,...,7,6,40,2036,60364,1001,1001,Administração - Noturno - Manaus,2023,17
7,4925609-2,JHULIANO MAIA SARAIVA,12/07/05,8,2001,3001,No,56199,54762,54762,...,4,8,36,2164,57636,1001,1001,Administração - Noturno - Manaus,2023,18


In [77]:
data.dtypes

numinscricao             object
nome                     object
datanasc                 object
classificacao             int64
opcao_curso_2            object
opcao_3_curso            object
habilidades              object
nota_final               object
nota_cg                  object
nota_etapa_1             object
disc1                     int64
disc2                     int64
disc3                     int64
nota_ce                   int64
nota_redacao             object
nota_etapa_2             object
opcao_curso_1            object
id_referencia_curso      object
nome_referencia_curso    object
ano                       int64
idade                     int64
dtype: object

In [78]:
year_dataframes = {}
for year in data["ano"].unique():
    df_year = data.loc[data["ano"] == year]
    year_dataframes[year] = df_year

In [79]:
ordered_classifications = {}

for year, df_year in year_dataframes.items():
    year_info = {}
    for course_id in df_year['id_referencia_curso'].unique():
        df_course_year = df_year.loc[df_year['id_referencia_curso'] == course_id]
        df_course_year = df_course_year.sort_values("classificacao")
        year_info[course_id] = df_course_year
    ordered_classifications[year] = year_info

In [80]:
del year_info

In [81]:
dataframes_year = []

for ano, id_group in ordered_classifications.items():
    for id in id_group:
      df_year = pd.DataFrame.from_dict(id_group[id])
      dataframes_year.append(df_year)
full_df = pd.concat(dataframes_year, ignore_index=True)
# full_df.to_csv("../data/csv/lista_classificacao_vestibular_completo.csv", index=False)


In [82]:
del id, id_group, df_year

In [85]:
dados_vaga = pd.read_csv('./data/csv/2023_approved_candidates.csv', sep=',', encoding='utf-8')

In [86]:
full_df['aprovado'] = full_df['nome'].isin(dados_vaga['nome'].values).astype(int)

In [87]:
years_full_df = full_df['ano'].unique()
years_dados_vaga = dados_vaga['ano'].unique()

for year in years_full_df:
    if year in years_dados_vaga:
        full_df_year = full_df[full_df['ano'] == year]
        dados_vaga_year = dados_vaga[dados_vaga['ano'] == year]

        full_df.loc[full_df_year.index, 'aprovado'] = full_df_year['nome'].isin(dados_vaga_year['nome'].values).astype(int)
        full_df['aprovado'] = full_df['aprovado'].astype(int)

In [88]:
def prefix(row):
  prefixo = row[0]
  return 1 if prefixo in ['1', '5'] else 0

full_df['egresso_publica'] = full_df['opcao_curso_1'].apply(prefix)

## Formatando Dataset para treino

In [90]:
columns = ['nota_final', 'nota_ce', 'nota_cg', 'nota_etapa_1', 'nota_etapa_2', 'nota_redacao']

for column in columns:
    full_df[column] = full_df[column].astype(str).str.replace(',', '.').astype(float)

In [91]:
full_df.sample(2)

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,...,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade,aprovado,egresso_publica
47101,4883941-8,YASMIN GABRIELLA FERNANDES FERREIRA,08/05/04,945,7063,No,No,67.002,63.095,63.095,...,48.0,22.91,70.909,6063,7063,Medicina - Integral - Manaus,2023,19,0,0
32019,4873968-5,JUAN DA SILVA FIGUEIRA,01/12/01,26,2104,3104,No,33.957,38.095,38.095,...,12.0,17.82,29.818,1104,3104,Licenciatura em Geografia - Matutino - Parintins,2023,22,1,1


In [92]:
full_df

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,...,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade,aprovado,egresso_publica
0,5272408-5,LEANDRO VITOR DE SOUZA PRAIA,15/11/06,1,2001,3001,No,66.639,63.095,63.095,...,46.0,24.18,70.182,1001,1001,Administração - Noturno - Manaus,2023,17,1,1
1,4873733-0,YANA KATRINE PEDROSO ESPINDULA,26/07/01,2,2001,3001,No,59.818,50.000,50.000,...,48.0,21.64,69.636,1001,1001,Administração - Noturno - Manaus,2023,22,1,1
2,5014911-3,ELBER LUCAS VIEIRA RODRIGUES,17/09/05,3,2001,3001,No,59.199,54.762,54.762,...,42.0,21.64,63.636,1001,1001,Administração - Noturno - Manaus,2023,18,1,1
3,4931578-1,ANA LIZ ASAEL FREITAS RIBEIRO,17/07/05,4,2001,3001,No,58.091,50.000,50.000,...,42.0,24.18,66.182,1001,1001,Administração - Noturno - Manaus,2023,18,1,1
4,4949027-3,ALVARO FRANCISCO PIMENTEL DE OLIVEIRA JUNIOR,17/04/04,5,2001,3001,No,57.712,58.333,58.333,...,38.0,19.09,57.091,1001,1001,Administração - Noturno - Manaus,2023,19,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
52082,4977888-9,ELZIARA CONCEICAO RAMOS,25/02/00,1,No,No,No,44.165,45.238,45.238,...,24.0,19.09,43.091,9139,9139,Tecnologia em Gestão Hospitalar - Matutino - P...,2023,23,1,0
52083,4962753-8,MANOEL CARVALHO MACARIO,03/09/95,1,No,No,No,31.004,26.190,26.190,...,18.0,17.82,35.818,9140,9140,Licenciatura em Geografia - Noturno - Santo,2023,28,1,0
52084,5008913-7,JOAO FELIPE NOGUEIRA DE DEUS,23/10/00,1,No,No,No,41.593,38.095,38.095,...,26.0,19.09,45.091,9144,9144,Tecnologia em Gestão Hospitalar - Matutino - Tefé,2023,23,1,0
52085,4944854-4,LUIZ DOUGLAS GAMA MARQUES,06/11/94,1,No,No,No,45.165,45.238,45.238,...,26.0,19.09,45.091,9145,9145,Licenciatura em Matemática - Noturno - Urucuri...,2023,29,1,0


In [93]:
full_df.drop(columns=['nome', 'disc1', 'disc2', 'disc3', 'habilidades', 'datanasc'], inplace=True)

In [95]:
full_df.to_csv('./data/2023_dataset.csv', index=False)