# Data Preprocessing notebook
* We will use this notebook to preprocess the data we are going to use in our optimization problem.

## Importing packages needed

In [6]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Reading our database

In [54]:
df = pd.read_csv("test_data/students.csv")
df.head()

Unnamed: 0,Assessor,Aluno,tempo,Idade,Gênero,Quão compatível com seu assessor você se considera?,Onde fez/faz ensino médio?,Alguma religião?,Gosta de esportes?,Como foi/está sendo a qualidade de seu ensino médio?,...,Quão sensível você é?,Você gosta de ser cobrado?,Você é competitivo?,Você é aberto a mudanças? ou é mais resistente?,Você gosta de fazer simulado?,Você recebe apoio da sua família?,Você gostaria de falar sobre a vida pessoal com o assessor ou só estudos?,Quão motivado você está?,Qual é seu maior problema?,Você prefere um assessor do mesmo sexo?
0,Ariel,Adriel Ribeiro,3,18.0,Masculino,8.0,Motiva,Cristianismo,Sim,5.0,...,3.0,Não,Talvez,Aberto,Sim,Sim,Os dois,8.0,Procrastinação,"sim, fico mais confortável"
1,Ariel,Alyce Dantas,4,,,,,,,,...,,,,,,,,,,
2,Ariel,Barbara Camargo,2,,,,,,,,...,,,,,,,,,,
3,Ariel,Breno Alves Amorim,2,19.0,Masculino,10.0,Outro em João Pessoa,Cristianismo,Sim,3.0,...,7.0,Sim,Sim,Aberto,Sim,mais ou menos,Os dois,10.0,Procrastinação,Indiferente
4,Ariel,Caio Paiva,3,,,,,,,,...,,,,,,,,,,


* We can see that the data is ok.

In [55]:
df.shape #we have 209 examples with 36 columns each

(219, 36)

In [56]:
df.describe()

Unnamed: 0,tempo,Quão compatível com seu assessor você se considera?,Como foi/está sendo a qualidade de seu ensino médio?,Quantas vezes já fez enem? (sem contar como treineiro),Quão sensível você é?,Quão motivado você está?
count,219.0,157.0,157.0,157.0,157.0,157.0
mean,4.105023,9.165605,3.694268,1.541401,7.159236,7.089172
std,1.032909,1.042969,0.938236,1.411902,1.926567,1.614739
min,1.0,5.0,0.0,0.0,2.0,3.0
25%,4.0,9.0,3.0,0.0,6.0,6.0
50%,4.0,9.0,4.0,1.0,7.0,7.0
75%,5.0,10.0,4.0,2.0,9.0,8.0
max,5.0,10.0,5.0,6.0,10.0,10.0


* The variable *tempo* (**time**) is in a scale such as these are the corresponding(in minutes):
<table border = "1">

    <tr>
        <td>Till 5</td>
        <td>between 5 e 10</td>
        <td>between 10 e 15</td>
        <td>between 15 e 20</td>
        <td>between 20 e 25</td>
        <td>25+</td>
    </tr>
    
    <tr>
        <td>0</td>
        <td>1</td>
        <td>2</td>
        <td>3</td>
        <td>4</td>
        <td>5</td>
    </tr>
</table>

In [57]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 219 entries, 0 to 218
Data columns (total 36 columns):
 #   Column                                                                            Non-Null Count  Dtype  
---  ------                                                                            --------------  -----  
 0   Assessor                                                                          219 non-null    object 
 1   Aluno                                                                             219 non-null    object 
 2   tempo                                                                             219 non-null    int64  
 3   Idade                                                                             157 non-null    object 
 4   Gênero                                                                            157 non-null    object 
 5   Quão compatível com seu assessor você se considera?                               157 non-null    float64
 6   On

* Althought there are 219 rows with different students data, we have some missing data as we can see bellow:

In [58]:
df.isnull().sum()/df.shape[0] * 100

Assessor                                                                             0.000000
Aluno                                                                                0.000000
tempo                                                                                0.000000
Idade                                                                               28.310502
Gênero                                                                              28.310502
Quão compatível com seu assessor você se considera?                                 28.310502
Onde fez/faz ensino médio?                                                          28.310502
Alguma religião?                                                                    28.310502
Gosta de esportes?                                                                  28.310502
Como foi/está sendo a qualidade de seu ensino médio?                                28.310502
Você se envolve com política?                               

* In almost every variable besides time, name and assessor we have 28% of missing data. It does influence in the result but we will solve this by two different means.

## Distributions

In [59]:
#overall compatibility
df["Quão compatível com seu assessor você se considera?"].describe()

count    157.000000
mean       9.165605
std        1.042969
min        5.000000
25%        9.000000
50%        9.000000
75%       10.000000
max       10.000000
Name: Quão compatível com seu assessor você se considera?, dtype: float64

In [60]:
compatibility = {}
for assessor in df["Assessor"].unique():
    mean = df[df["Assessor"] == assessor]["Quão compatível com seu assessor você se considera?"].mean()
    compatibility[assessor] = mean;

In [61]:
# mean compatibility
pd.DataFrame(compatibility.values(),index=compatibility.keys()).sort_values(by=0).describe()

Unnamed: 0,0
count,15.0
mean,9.166296
std,0.478565
min,8.285714
25%,8.925
50%,9.0
75%,9.577778
max,9.833333


In [62]:
df.tempo.describe()

count    219.000000
mean       4.105023
std        1.032909
min        1.000000
25%        4.000000
50%        4.000000
75%        5.000000
max        5.000000
Name: tempo, dtype: float64

* We are aiming to maximize the overall compatibility while minimizing the work the employees have

## Reading the assessors data

In [65]:
df_assessores = pd.read_csv("test_data/assessores.csv")
df_assessores.head()

Unnamed: 0,Quem é você?,Idade,Gênero,Onde fez ensino médio?,Alguma religião?,Gosta de esportes?,Como foi a qualidade de seu ensino médio?,Você se envolve com política?,Como se considera politicamente?,Que área compreende o curso que deseja fazer/faz na faculdade?,...,Quão sensível você é?,Você costuma cobrar seus alunos?,Você é competitivo?,Você é aberto a mudanças? ou é mais resistente?,Você costuma passar simulados pros alunos?,Você recebe apoio da sua família?,você costuma conversar com seus alunos sobre a vida pessoal deles ou só estudos?,Quão bom você é em motivar seus alunos?,Qual problema você é mais apto a ajudar os seus alunos a resolver?,Você tem problemas em receber alunos de sexo diferente?
0,Davi,20,Masculino,Motiva,Cristianismo,Sim,5,"Não, prefiro focar em outras coisas.",Centro,Saúde,...,5,Sim,Talvez,Aberto,Sim,Sim,Os dois,8,Procrastinação,Não
1,Lorena,20,Feminino,Motiva,Agnóstico,Sim,4,"Não, prefiro focar em outras coisas.",Esquerda,Saúde,...,7,Sim,Sim,Aberto,Sim,mais ou menos,Os dois,9,Procrastinação,Não
2,Rayssa,23,Feminino,Motiva,Cristianismo,Não,5,"Não, prefiro focar em outras coisas.",Direita,Saúde,...,6,Sim,Sim,Aberto,Sim,Sim,Os dois,5,Dedicação,Não
3,Débora,20,Feminino,Outro em João Pessoa,Cristianismo,Sim,3,"Sim, acho importante.",Esquerda,Saúde,...,4,Sim,Sim,Aberto,Sim,Sim,Os dois,7,Dedicação,Não
4,Glaucielle,24+,Feminino,Outro em João Pessoa,Cristianismo,Sim,3,"Sim, acho importante.",Esquerda,Saúde,...,8,Sim,Talvez,Aberto,Sim,Sim,Os dois,9,Procrastinação,Não


## Creating the compatibility matrix

* This matrix is a result of the compatibility between Students and assessores. This will be the heaviest part of this application case.

In [71]:
# creating a matrix with all 0
pd.DataFrame(0, columns = df.Assessor.unique(), index = df.Aluno)

Unnamed: 0_level_0,Ariel,Carolzinha,Catharina,Davi,Débora,Eduardo,Fabiana,Gelielison,Glaucielle,Itamar,Lorenna,Mateus Tavares,Patriota,Rayssa,Rodrigo
Aluno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Adriel Ribeiro,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Alyce Dantas,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Barbara Camargo,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Breno Alves Amorim,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Caio Paiva,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Nathan Marlon Ferreira Carreiro,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Rita de Cassia Cunha,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Rodrigo Moura,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Sophia Adelino Xavier Pontes de Freitas,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


## Creating the compatibility metric

In [74]:
df.head(1)

Unnamed: 0,Assessor,Aluno,tempo,Idade,Gênero,Quão compatível com seu assessor você se considera?,Onde fez/faz ensino médio?,Alguma religião?,Gosta de esportes?,Como foi/está sendo a qualidade de seu ensino médio?,...,Quão sensível você é?,Você gosta de ser cobrado?,Você é competitivo?,Você é aberto a mudanças? ou é mais resistente?,Você gosta de fazer simulado?,Você recebe apoio da sua família?,Você gostaria de falar sobre a vida pessoal com o assessor ou só estudos?,Quão motivado você está?,Qual é seu maior problema?,Você prefere um assessor do mesmo sexo?
0,Ariel,Adriel Ribeiro,3,18,Masculino,8.0,Motiva,Cristianismo,Sim,5.0,...,3.0,Não,Talvez,Aberto,Sim,Sim,Os dois,8.0,Procrastinação,"sim, fico mais confortável"


In [75]:
df_assessores.head(1)

Unnamed: 0,Quem é você?,Idade,Gênero,Onde fez ensino médio?,Alguma religião?,Gosta de esportes?,Como foi a qualidade de seu ensino médio?,Você se envolve com política?,Como se considera politicamente?,Que área compreende o curso que deseja fazer/faz na faculdade?,...,Quão sensível você é?,Você costuma cobrar seus alunos?,Você é competitivo?,Você é aberto a mudanças? ou é mais resistente?,Você costuma passar simulados pros alunos?,Você recebe apoio da sua família?,você costuma conversar com seus alunos sobre a vida pessoal deles ou só estudos?,Quão bom você é em motivar seus alunos?,Qual problema você é mais apto a ajudar os seus alunos a resolver?,Você tem problemas em receber alunos de sexo diferente?
0,Davi,20,Masculino,Motiva,Cristianismo,Sim,5,"Não, prefiro focar em outras coisas.",Centro,Saúde,...,5,Sim,Talvez,Aberto,Sim,Sim,Os dois,8,Procrastinação,Não


* First of all we will need to name the equivalent columns as the same

In [86]:
df_columns = df.columns
df_assessores_columns = df_assessores.columns

* The attributes Aluno,tempo and compatibility are specific for the students. We are only going to use the attributes that are common to both.

In [87]:
df_columns

Index(['Assessor', 'Aluno', 'tempo', 'Idade', 'Gênero',
       'Quão compatível com seu assessor você se considera?',
       'Onde fez/faz ensino médio?', 'Alguma religião?', 'Gosta de esportes?',
       'Como foi/está sendo a qualidade de seu ensino médio?',
       'Você se envolve com política?', 'Como se considera politicamente?',
       'Que área compreende o curso que deseja fazer na faculdade?',
       'Qual sua área preferida no ENEM?', 'Quantos irmãos você tem?',
       'Tem ou já teve algum problema de saúde físico?',
       'Tem ou já teve algum problema de saúde mental?',
       'Pretende fazer faculdade na paraíba?',
       'Pratica atividade física com frequência?',
       'Introvertido ou extrovertido?', 'No tempo livre prefere:',
       'Tem facilidade em fazer amizades?',
       'Que tipo de assessor prefere? mais técnico ou que lide melhor com seu emocional?',
       'Quantas vezes já fez enem? (sem contar como treineiro)',
       'Você se considera uma pessoa paciente

In [88]:
df_assessores_columns

Index(['Quem é você?', 'Idade', 'Gênero', 'Onde fez ensino médio?',
       'Alguma religião?', 'Gosta de esportes?',
       'Como foi a qualidade de seu ensino médio?',
       'Você se envolve com política?', 'Como se considera politicamente?',
       'Que área compreende o curso que deseja fazer/faz na faculdade?',
       'Qual sua área preferida no ENEM?', 'Quantos irmãos você tem?',
       'Tem ou já teve algum problema de saúde físico?',
       'Tem ou já teve algum problema de saúde mental?',
       'tem experiência com vestibulares mais tradicionais e de outros estados?',
       'Pratica atividade física com frequência?',
       'Introvertido ou extrovertido?', 'No tempo livre prefere:',
       'Tem facilidade em fazer amizades?', 'Que tipo de assessor você é?',
       'Quantas vezes já fez enem? (sem contar como treineiro)',
       'Você se considera uma pessoa paciente?', 'Você é organizado?',
       'Quão sensível você é?', 'Você costuma cobrar seus alunos?',
       'Você é co

* to make it easier, we will use numbers instead of questions

In [85]:
df_columns_new = [0, 'Aluno', 'tempo', 1, 2,
       'Quão compatível com seu assessor você se considera?',
       3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27,
              28, 29, 30, 31, 32]

In [84]:
df_assessores_columns_new = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19,
                        20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32]

* Adding the new columns to the previous dataframes

In [89]:
df.columns = df_columns_new

In [90]:
df_assessores.columns = df_assessores_columns_new

In [91]:
df.head(1)

Unnamed: 0,0,Aluno,tempo,1,2,Quão compatível com seu assessor você se considera?,3,4,5,6,...,23,24,25,26,27,28,29,30,31,32
0,Ariel,Adriel Ribeiro,3,18,Masculino,8.0,Motiva,Cristianismo,Sim,5.0,...,3.0,Não,Talvez,Aberto,Sim,Sim,Os dois,8.0,Procrastinação,"sim, fico mais confortável"


In [93]:
df_assessores.head(1)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,23,24,25,26,27,28,29,30,31,32
0,Davi,20,Masculino,Motiva,Cristianismo,Sim,5,"Não, prefiro focar em outras coisas.",Centro,Saúde,...,5,Sim,Talvez,Aberto,Sim,Sim,Os dois,8,Procrastinação,Não


## creating the correlations between both quiz responses in order to compute the compability

* In this section we will examine column by column how the variables relate to each other. Some of them have are positive if both are the same and some are not.