# Análise de Candidatos ao Vestibular da UEA

-  Análise exploratória
    - [X] Verificar existência de dados nulos
    - [X] Formatar ``datanasc`` de str para datetime
    - [X] Formatar ``classificacao`` de float para int
    - [X] Criar atributo ``idade``
    - [X] Formatar atributo ``id_referencia_grupo``
    - [ ] Ordenar (na ordem que aparece na leitura do PDF) dataframe considerando: 
        1. Por ``ano``
        2. Por ``curso_nome_referencia``
        3. Por ``id_curso_referencia``
        4. Por ``classificacao`` 


## Pré-processamento dos dados

In [1]:
import numpy as np 
import pandas as pd

from datetime import datetime

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd


Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


### Carregando o dataset

In [2]:
data = pd.read_csv('../data/csv/candidates_info.csv', sep=',', encoding='utf-8')

In [3]:
data.head(5)

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,disc1,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano
0,6354130-0,EDIJANE PINHEIRO MARTINS,04/03/92,313.0,No,No,No,31161,19048,19048,3,5,6,2800,1527,43273,4069,4069,Odontologia - Integral - Manaus,2019
1,6318761-2,JOEL DOS SANTOS DE SOUZA,09/03/97,314.0,No,No,No,31154,29762,29762,3,1,4,1600,1655,32545,4069,4069,Odontologia - Integral - Manaus,2019
2,6379123-4,CARINA DAS CHAGAS SEIXAS,23/10/96,315.0,No,No,No,31154,29762,29762,3,3,2,1600,1655,32545,4069,4069,Odontologia - Integral - Manaus,2019
3,6549853-4,IRLA DA SILVA PEREIRA,07/02/01,316.0,No,No,No,31113,30952,30952,4,0,4,1600,1527,31273,4069,4069,Odontologia - Integral - Manaus,2019
4,6393350-0,IVANIR LIMA PEREIRA,11/03/91,317.0,No,No,No,31113,30952,30952,2,3,3,1600,1527,31273,4069,4069,Odontologia - Integral - Manaus,2019


## Análise exploratória dos dados

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 184389 entries, 0 to 184388
Data columns (total 20 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   numinscricao           184389 non-null  object 
 1   nome                   184389 non-null  object 
 2   datanasc               184389 non-null  object 
 3   classificacao          184389 non-null  float64
 4   opcao_curso_2          184389 non-null  object 
 5   opcao_3_curso          184389 non-null  object 
 6   habilidades            184389 non-null  object 
 7   nota_final             184389 non-null  object 
 8   nota_cg                184389 non-null  object 
 9   nota_etapa_1           184389 non-null  object 
 10  disc1                  184389 non-null  int64  
 11  disc2                  184389 non-null  int64  
 12  disc3                  184389 non-null  int64  
 13  nota_ce                184389 non-null  object 
 14  nota_redacao           184389 non-nu

#### Verificando a existência de colunas com dados nulos

In [5]:
data.isnull().sum()

numinscricao             0
nome                     0
datanasc                 0
classificacao            0
opcao_curso_2            0
opcao_3_curso            0
habilidades              0
nota_final               0
nota_cg                  0
nota_etapa_1             0
disc1                    0
disc2                    0
disc3                    0
nota_ce                  0
nota_redacao             0
nota_etapa_2             0
opcao_curso_1            0
id_referencia_curso      0
nome_referencia_curso    0
ano                      0
dtype: int64

#### Formatando coluna 'datanasc' para o formato date

In [5]:
data['classificacao'] = data['classificacao'].astype(int)

In [7]:
data.sample(2)

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,disc1,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano
141813,2441930-3,GABRIEL FELIPE DOS SANTOS OLIVEIRA,18/02/03,20,2020,3020,No,42743,41667,41667,4,4,5,2600,1782,43818,1020,1020,Engenharia de Controle e Automação - Integral ...,2022
181373,2457025-7,EUDSON BERNARDO MENDES DA SILVA,13/09/96,2,6063,7063,No,31385,30952,30952,1,2,4,1400,1782,31818,5063,7063,Medicina - Integral - Manaus,2022


## Criando novos atributos

In [6]:
def adjuste_year(year):
    if year <= 24:
        return 2000 + year
    else:
        return 1900 + year

def calculate_age(row):
    data_str = row['datanasc']
    current_year = row['ano']
    
    data = datetime.strptime(data_str, '%d/%m/%y')
    born_year = adjuste_year(data.year % 100)
    idade = current_year - born_year
    
    return idade

data['idade'] = data.apply(calculate_age, axis=1)

In [7]:
data[data['idade'] < 0]

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,...,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade


In [11]:
data.sample(2)

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,...,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade
125270,1168829-7,SONIA DE OLIVEIRA TAVARES,19/08/97,12.0,3098,No,No,50866,38095,38095,...,9,7,4200,2164,63636,2098,3098,Direito - Noturno - São,2021,24
155481,2340091-9,DIEDA GORJAO MORAES,27/10/02,43.0,2082,03082,No,32624,21429,21429,...,6,4,2600,1782,43818,1082,2082,Licenciatura em Geografia - Noturno - Boa,2022,20


#### Padronizando as colunas referentes a opção de curso

In [8]:
data['opcao_curso_1'] = data['opcao_curso_1'].astype(str)
data['id_referencia_curso'] = data['id_referencia_curso'].astype(str)

In [9]:
data['opcao_3_curso'] = data['opcao_3_curso'].apply(lambda x: x[1:] if str(x).startswith('0') else x)
data['opcao_curso_2'] = data['opcao_curso_2'].apply(lambda x: x[1:] if str(x).startswith('0') else x)

In [10]:
data.head(8)

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,...,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade
0,6354130-0,EDIJANE PINHEIRO MARTINS,04/03/92,313,No,No,No,31161,19048,19048,...,5,6,2800,1527,43273,4069,4069,Odontologia - Integral - Manaus,2019,27
1,6318761-2,JOEL DOS SANTOS DE SOUZA,09/03/97,314,No,No,No,31154,29762,29762,...,1,4,1600,1655,32545,4069,4069,Odontologia - Integral - Manaus,2019,22
2,6379123-4,CARINA DAS CHAGAS SEIXAS,23/10/96,315,No,No,No,31154,29762,29762,...,3,2,1600,1655,32545,4069,4069,Odontologia - Integral - Manaus,2019,23
3,6549853-4,IRLA DA SILVA PEREIRA,07/02/01,316,No,No,No,31113,30952,30952,...,0,4,1600,1527,31273,4069,4069,Odontologia - Integral - Manaus,2019,18
4,6393350-0,IVANIR LIMA PEREIRA,11/03/91,317,No,No,No,31113,30952,30952,...,3,3,1600,1527,31273,4069,4069,Odontologia - Integral - Manaus,2019,28
5,6612916-8,LAISA DOS SANTOS GALVAO,10/02/03,318,No,No,No,31046,25000,25000,...,2,3,1800,1909,37091,4069,4069,Odontologia - Integral - Manaus,2019,16
6,6424859-3,ELCIA NEVES DOS SANTOS,26/12/01,319,No,No,No,31046,25000,25000,...,3,1,1800,1909,37091,4069,4069,Odontologia - Integral - Manaus,2019,18
7,6386972-1,LAIZA DE FARIAS MAKLOUF,21/10/02,320,No,No,No,31004,26190,26190,...,3,2,1800,1782,35818,4069,4069,Odontologia - Integral - Manaus,2019,17


In [15]:
data.dtypes

numinscricao              object
nome                      object
datanasc                  object
classificacao            float64
opcao_curso_2             object
opcao_3_curso             object
habilidades               object
nota_final                object
nota_cg                   object
nota_etapa_1              object
disc1                      int64
disc2                      int64
disc3                      int64
nota_ce                   object
nota_redacao              object
nota_etapa_2              object
opcao_curso_1             object
id_referencia_curso       object
nome_referencia_curso     object
ano                        int64
idade                      int64
dtype: object

## Relacionado as informações sobre o curso com cada candidato

Seguindo o padrão observado na extração de dados, id_referencia curso é composto por **XXYYY**. Onde:
- XX: grupo relacionado ao curso
- YY: código do curso

Para conseguir comparar o dataset de candidatos com o de vagas, iremos utilizar somente as informações do grupo (XX) na coluna: 

In [16]:
# data['id_referencia_curso'] = data['id_referencia_curso'].apply(lambda x: x[:1])

In [17]:
data.sample(4)

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,...,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade
117031,1174013-2,KAMILA JENNIFER BARBOSA DA SILVA,22/05/04,451.0,2014,3014,No,39808,34524,34524,...,6,1,2600,1909,45091,1014,3014,Direito - Noturno - Manaus,2021,17
135984,1233529-0,ANTONY ELISIO JESUS PERNA DINIZ,31/07/02,1.789,No,No,No,43611,42857,42857,...,4,4,2400,2036,44364,7063,7063,Medicina - Integral - Manaus,2021,19
118328,1275360-2,LILIAN IAZZAI DE SOUZA OLIVEIRA,21/09/04,36.0,2018,3018,No,71020,67857,67857,...,8,8,5000,2418,74182,1018,3018,Engenharia da Computação - Integral - Manaus,2021,17
5932,6369266-0,CLIVIA FERREIRA CALMONT,17/06/01,1.01,6016,7016,No,29946,22619,22619,...,2,4,2200,1527,37273,5016,6016,Enfermagem - Integral - Manaus,2019,18


Agora, vamos ordenar o dataset por ano, id_referencia_curso e classificação

In [11]:
year_dataframes = {}
for year in data["ano"].unique():
    df_year = data.loc[data["ano"] == year]
    year_dataframes[year] = df_year

In [12]:
ordered_classifications = {}

for year, df_year in year_dataframes.items():
    year_info = {}
    for course_id in df_year['id_referencia_curso'].unique():
        df_course_year = df_year.loc[df_year['id_referencia_curso'] == course_id]
        df_course_year = df_course_year.sort_values("classificacao")
        year_info[course_id] = df_course_year
    ordered_classifications[year] = year_info

In [17]:
del year_info

In [19]:
dataframes_year = []

for ano, id_group in ordered_classifications.items():
    for id in id_group:
      df_year = pd.DataFrame.from_dict(id_group[id])
      dataframes_year.append(df_year)
full_df = pd.concat(dataframes_year, ignore_index=True)
# full_df.to_csv("../data/csv/lista_classificacao_vestibular_completo.csv", index=False)


In [23]:
del id, id_group, df_year

In [24]:
dados_vaga = pd.read_csv('../data/csv/approved_candidates.csv', sep=',', encoding='utf-8')

In [25]:
full_df['aprovado'] = full_df['nome'].isin(dados_vaga['nome'].values).astype(int)

In [28]:
years_full_df = full_df['ano'].unique()
years_dados_vaga = dados_vaga['ano'].unique()

for year in years_full_df:
    if year in years_dados_vaga:
        full_df_year = full_df[full_df['ano'] == year]
        dados_vaga_year = dados_vaga[dados_vaga['ano'] == year]

        full_df.loc[full_df_year.index, 'aprovado'] = full_df_year['nome'].isin(dados_vaga_year['nome'].values).astype(int)
        full_df['aprovado'] = full_df['aprovado'].astype(int)

## Formatando Dataset para treino

In [29]:
columns = ['nota_final', 'nota_ce', 'nota_cg', 'nota_etapa_1', 'nota_etapa_2', 'nota_redacao']

for column in columns:
    full_df[column] = full_df[column].str.replace(',', '.').astype(float)


In [36]:
full_df.sample(2)

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,...,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade,aprovado
14226,6593022-3,MARCELO EMANUEL CAVALCANTE DOLZANE,30/05/99,1,6067,7067,No,52.206,44.048,44.048,...,9,40.0,20.36,60.364,5067,7067,Medicina - Integral - Manaus,2019,20,0
164722,2390588-3,GILSARA DE FIGUEREDO ALBUQUERQUE,15/05/79,8,2060,3060,No,40.022,30.952,30.952,...,3,30.0,19.09,49.091,1060,3060,Licenciatura em Química - Noturno - Parintins,2022,43,1


In [37]:
full_df.drop(columns=['nome', 'disc1', 'disc2', 'disc3', 'habilidades'], inplace=True)
full_df.sample(2)

Unnamed: 0,numinscricao,datanasc,classificacao,opcao_curso_2,opcao_3_curso,nota_final,nota_cg,nota_etapa_1,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade,aprovado
94847,8309924-7,23/09/01,139,6037,7037,33.814,23.81,23.81,26.0,17.82,43.818,5037,7037,Licenciatura em Educação Física - Vespertino -...,2020,19,0
168756,2452624-0,19/03/05,459,No,No,40.849,33.333,33.333,28.0,20.36,48.364,4063,4063,Medicina - Integral - Manaus,2022,17,0


In [None]:
full_df.to_csv('../data/dataset.csv', index=False)