# Análise de Candidatos ao Vestibular da UEA

-  Análise exploratória
    - [X] Verificar existência de dados nulos
    - [X] Formatar ``datanasc`` de str para datetime
    - [X] Formatar ``classificacao`` de float para int
    - [X] Criar atributo ``idade``
    - [X] Formatar atributo ``id_referencia_grupo``
    - [ ] Ordenar (na ordem que aparece na leitura do PDF) dataframe considerando: 
        1. Por ``ano``
        2. Por ``curso_nome_referencia``
        3. Por ``id_curso_referencia``
        4. Por ``classificacao`` 


## Pré-processamento dos dados

In [85]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.metrics.pairwise import cosine_similarity
from scipy.spatial.distance import euclidean

from datetime import datetime, date

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

### Carregando o dataset

In [86]:
data = pd.read_csv('../data/csv/candidates_info.csv', sep=',', encoding='utf-8')

In [87]:
data.head(5)

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,disc1,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano
0,6354130-0,EDIJANE PINHEIRO MARTINS,04/03/92,313.0,No,No,No,31161,19048,19048,3,5,6,2800,1527,43273,4069,4069,Odontologia - Integral - Manaus,2019
1,6318761-2,JOEL DOS SANTOS DE SOUZA,09/03/97,314.0,No,No,No,31154,29762,29762,3,1,4,1600,1655,32545,4069,4069,Odontologia - Integral - Manaus,2019
2,6379123-4,CARINA DAS CHAGAS SEIXAS,23/10/96,315.0,No,No,No,31154,29762,29762,3,3,2,1600,1655,32545,4069,4069,Odontologia - Integral - Manaus,2019
3,6549853-4,IRLA DA SILVA PEREIRA,07/02/01,316.0,No,No,No,31113,30952,30952,4,0,4,1600,1527,31273,4069,4069,Odontologia - Integral - Manaus,2019
4,6393350-0,IVANIR LIMA PEREIRA,11/03/91,317.0,No,No,No,31113,30952,30952,2,3,3,1600,1527,31273,4069,4069,Odontologia - Integral - Manaus,2019


## Análise exploratória dos dados

In [88]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 184389 entries, 0 to 184388
Data columns (total 20 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   numinscricao           184389 non-null  object 
 1   nome                   184389 non-null  object 
 2   datanasc               184389 non-null  object 
 3   classificacao          184389 non-null  float64
 4   opcao_curso_2          184389 non-null  object 
 5   opcao_3_curso          184389 non-null  object 
 6   habilidades            184389 non-null  object 
 7   nota_final             184389 non-null  object 
 8   nota_cg                184389 non-null  object 
 9   nota_etapa_1           184389 non-null  object 
 10  disc1                  184389 non-null  int64  
 11  disc2                  184389 non-null  int64  
 12  disc3                  184389 non-null  int64  
 13  nota_ce                184389 non-null  object 
 14  nota_redacao           184389 non-nu

#### Verificando a existência de colunas com dados nulos

In [89]:
data.isnull().sum()

numinscricao             0
nome                     0
datanasc                 0
classificacao            0
opcao_curso_2            0
opcao_3_curso            0
habilidades              0
nota_final               0
nota_cg                  0
nota_etapa_1             0
disc1                    0
disc2                    0
disc3                    0
nota_ce                  0
nota_redacao             0
nota_etapa_2             0
opcao_curso_1            0
id_referencia_curso      0
nome_referencia_curso    0
ano                      0
dtype: int64

#### Formatando coluna 'datanasc' para o formato date

In [90]:
data['datanasc'] = pd.to_datetime(data['datanasc'], format='%d/%m/%y')
data.head(4)

Unnamed: 0,numinscricao,nome,datanasc,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,disc1,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano
0,6354130-0,EDIJANE PINHEIRO MARTINS,1992-03-04,313.0,No,No,No,31161,19048,19048,3,5,6,2800,1527,43273,4069,4069,Odontologia - Integral - Manaus,2019
1,6318761-2,JOEL DOS SANTOS DE SOUZA,1997-03-09,314.0,No,No,No,31154,29762,29762,3,1,4,1600,1655,32545,4069,4069,Odontologia - Integral - Manaus,2019
2,6379123-4,CARINA DAS CHAGAS SEIXAS,1996-10-23,315.0,No,No,No,31154,29762,29762,3,3,2,1600,1655,32545,4069,4069,Odontologia - Integral - Manaus,2019
3,6549853-4,IRLA DA SILVA PEREIRA,2001-02-07,316.0,No,No,No,31113,30952,30952,4,0,4,1600,1527,31273,4069,4069,Odontologia - Integral - Manaus,2019


In [116]:
data['classificacao'] = data['classificacao'].astype(int)

In [118]:
data.sample(2)

Unnamed: 0,numinscricao,nome,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,disc1,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade
147456,2610498-9,WENDERSON DA SILVA PEIXOTO,203,2002,3002,No,35873,27381,27381,3,5,4,2400,2036,44364,1002,2,Administração - Vespertino - Manaus,2022,23
28843,6362974-7,VICTORIA CORREA LIMA,50,2015,3015,No,71438,64286,64286,10,8,9,5400,2459,78589,1015,3,Direito - Vespertino - Manaus,2019,17


## Criando novos atributos

In [91]:
def calculate_age(row) -> int:
    born = row['datanasc']
    year = row['ano']
    age = year - born.year
    return age

In [92]:
data['idade'] = data.apply(calculate_age, axis=1)
data.drop(columns=['datanasc'], axis=1, inplace=True)
data.head(5)

Unnamed: 0,numinscricao,nome,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,disc1,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade
0,6354130-0,EDIJANE PINHEIRO MARTINS,313.0,No,No,No,31161,19048,19048,3,5,6,2800,1527,43273,4069,4069,Odontologia - Integral - Manaus,2019,27
1,6318761-2,JOEL DOS SANTOS DE SOUZA,314.0,No,No,No,31154,29762,29762,3,1,4,1600,1655,32545,4069,4069,Odontologia - Integral - Manaus,2019,22
2,6379123-4,CARINA DAS CHAGAS SEIXAS,315.0,No,No,No,31154,29762,29762,3,3,2,1600,1655,32545,4069,4069,Odontologia - Integral - Manaus,2019,23
3,6549853-4,IRLA DA SILVA PEREIRA,316.0,No,No,No,31113,30952,30952,4,0,4,1600,1527,31273,4069,4069,Odontologia - Integral - Manaus,2019,18
4,6393350-0,IVANIR LIMA PEREIRA,317.0,No,No,No,31113,30952,30952,2,3,3,1600,1527,31273,4069,4069,Odontologia - Integral - Manaus,2019,28


In [93]:
data.sample(8)

Unnamed: 0,numinscricao,nome,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,disc1,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade
129614,1351521-7,ANA LUIZA JAFRA CORDEIRO,7.0,6016,7016,No,65366,63095,63095,8,7,8,4600,2164,67636,5016,6016,Enfermagem - Integral - Manaus,2021,19
100850,1280554-8,EDUARDA MARFIZA GUIMARAES LOBATO,195.0,2015,3015,No,44145,27381,27381,7,7,5,3800,2291,60909,1015,1015,Direito - Vespertino - Manaus,2021,17
26427,6325165-5,ALBERTA KELLEN TEIXEIRA ABITBOL,44.0,2010,3010,No,41916,39286,39286,1,5,8,2800,1655,44545,1010,3010,Ciências Contábeis - Matutino - Manaus,2019,30
139515,2411812-5,EMANUEL SOARES AMBROSIO,128.0,2010,3010,No,28433,19048,19048,3,1,6,2000,1782,37818,1010,1010,Ciências Contábeis - Matutino - Manaus,2022,17
101269,1180547-1,LAISSA DA SILVA MENDONCA,115.0,2017,3017,No,27492,22619,22619,1,1,4,1200,2036,32364,1017,1017,Engenharia Civil - Integral - Manaus,2021,18
93910,8331790-2,LORRANY CAROLINE ARAUJO DA SILVA,416.0,6065,7065,No,33468,28571,28571,2,2,5,1800,2036,38364,5065,6065,Odontologia - Integral - Manaus,2020,17
75654,8437853-0,ANNA RAFAELLA BASTOS DE OLIVEIRA,158.0,2018,3018,No,45271,36905,36905,3,2,11,3200,2164,53636,1018,2018,Engenharia da Computação - Integral - Manaus,2020,18
13266,6332035-5,MARCELLA NAYARA LEMOS SOUZA,554.0,6037,7037,No,20169,21429,21429,3,1,1,1000,891,18909,5037,7037,Licenciatura em Educação Física - Vespertino -...,2019,20


#### Padronizando as colunas referentes a opção de curso

In [94]:
data['opcao_curso_1'] = data['opcao_curso_1'].astype(str)
data['id_referencia_curso'] = data['id_referencia_curso'].astype(str)

In [95]:
data['opcao_3_curso'] = data['opcao_3_curso'].apply(lambda x: x[1:] if str(x).startswith('0') else x)
data['opcao_curso_2'] = data['opcao_curso_2'].apply(lambda x: x[1:] if str(x).startswith('0') else x)

In [96]:
data.head(8)

Unnamed: 0,numinscricao,nome,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,disc1,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade
0,6354130-0,EDIJANE PINHEIRO MARTINS,313.0,No,No,No,31161,19048,19048,3,5,6,2800,1527,43273,4069,4069,Odontologia - Integral - Manaus,2019,27
1,6318761-2,JOEL DOS SANTOS DE SOUZA,314.0,No,No,No,31154,29762,29762,3,1,4,1600,1655,32545,4069,4069,Odontologia - Integral - Manaus,2019,22
2,6379123-4,CARINA DAS CHAGAS SEIXAS,315.0,No,No,No,31154,29762,29762,3,3,2,1600,1655,32545,4069,4069,Odontologia - Integral - Manaus,2019,23
3,6549853-4,IRLA DA SILVA PEREIRA,316.0,No,No,No,31113,30952,30952,4,0,4,1600,1527,31273,4069,4069,Odontologia - Integral - Manaus,2019,18
4,6393350-0,IVANIR LIMA PEREIRA,317.0,No,No,No,31113,30952,30952,2,3,3,1600,1527,31273,4069,4069,Odontologia - Integral - Manaus,2019,28
5,6612916-8,LAISA DOS SANTOS GALVAO,318.0,No,No,No,31046,25000,25000,4,2,3,1800,1909,37091,4069,4069,Odontologia - Integral - Manaus,2019,16
6,6424859-3,ELCIA NEVES DOS SANTOS,319.0,No,No,No,31046,25000,25000,5,3,1,1800,1909,37091,4069,4069,Odontologia - Integral - Manaus,2019,18
7,6386972-1,LAIZA DE FARIAS MAKLOUF,320.0,No,No,No,31004,26190,26190,4,3,2,1800,1782,35818,4069,4069,Odontologia - Integral - Manaus,2019,17


In [97]:
data.dtypes

numinscricao              object
nome                      object
classificacao            float64
opcao_curso_2             object
opcao_3_curso             object
habilidades               object
nota_final                object
nota_cg                   object
nota_etapa_1              object
disc1                      int64
disc2                      int64
disc3                      int64
nota_ce                   object
nota_redacao              object
nota_etapa_2              object
opcao_curso_1             object
id_referencia_curso       object
nome_referencia_curso     object
ano                        int64
idade                      int64
dtype: object

## Relacionado as informações sobre o curso com cada candidato

Seguindo o padrão observado na extração de dados, id_referencia curso é composto por **XXYYY**. Onde:
- XX: grupo relacionado ao curso
- YY: código do curso

Para conseguir comparar o dataset de candidatos com o de vagas, iremos utilizar somente as informações do grupo (XX) na coluna: 

In [101]:
data['id_referencia_curso'] = data['id_referencia_curso'].apply(lambda x: x[:1])

In [119]:
data.sample(4)

Unnamed: 0,numinscricao,nome,classificacao,opcao_curso_2,opcao_3_curso,habilidades,nota_final,nota_cg,nota_etapa_1,disc1,disc2,disc3,nota_ce,nota_redacao,nota_etapa_2,opcao_curso_1,id_referencia_curso,nome_referencia_curso,ano,idade
160016,2358393-2,ERIKA ROCHA DA SILVA COSTA,601,2015,3015,No,37699,29762,29762,2,5,5,2400,2164,45636,1015,3,Direito - Vespertino - Manaus,2022,17
137854,1148706-2,GEOVANNA DUARTE SOARES,1,No,No,No,53437,45238,45238,3,6,11,4000,2164,61636,8037,8,Licenciatura em Educação Física - Vespertino -...,2021,18
116224,1281975-1,NATHALIE KELLY GOMES ROSA,27,2010,3010,No,42611,42857,42857,1,4,6,2200,2036,42364,1010,3,Ciências Contábeis - Matutino - Manaus,2021,17
125661,1180267-7,MARCELA ALVES DE LIMA,119,No,No,No,35022,30952,30952,3,3,4,2000,1909,39091,4016,4,Enfermagem - Integral - Manaus,2021,18


Agora, vamos ordenar o dataset por ano, id_referencia_curso e classificação