# Data Preprocessing notebook
* We will use this notebook to preprocess the data we are going to use in our optimization problem.

## Importing packages needed

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Reading our database

In [2]:
df = pd.read_csv("test_data/students.csv")
df.head()

Unnamed: 0,Assessor,Aluno,tempo,Idade,Gênero,Quão compatível com seu assessor você se considera?,Onde fez/faz ensino médio?,Alguma religião?,Gosta de esportes?,Como foi/está sendo a qualidade de seu ensino médio?,...,Quão sensível você é?,Você gosta de ser cobrado?,Você é competitivo?,Você é aberto a mudanças? ou é mais resistente?,Você gosta de fazer simulado?,Você recebe apoio da sua família?,Você gostaria de falar sobre a vida pessoal com o assessor ou só estudos?,Quão motivado você está?,Qual é seu maior problema?,Você prefere um assessor do mesmo sexo?
0,Ariel,Adriel Ribeiro,3,18.0,Masculino,8.0,Motiva,Cristianismo,Sim,5.0,...,3.0,Não,Talvez,Aberto,Sim,Sim,Os dois,8.0,Procrastinação,"sim, fico mais confortável"
1,Ariel,Alyce Dantas,4,,,,,,,,...,,,,,,,,,,
2,Ariel,Barbara Camargo,2,,,,,,,,...,,,,,,,,,,
3,Ariel,Breno Alves Amorim,2,19.0,Masculino,10.0,Outro em João Pessoa,Cristianismo,Sim,3.0,...,7.0,Sim,Sim,Aberto,Sim,mais ou menos,Os dois,10.0,Procrastinação,Indiferente
4,Ariel,Caio Paiva,3,,,,,,,,...,,,,,,,,,,


* We can see that the data is ok.

In [3]:
df.shape #we have 209 examples with 36 columns each

(219, 36)

In [4]:
df.describe()

Unnamed: 0,tempo,Idade,Quão compatível com seu assessor você se considera?,Como foi/está sendo a qualidade de seu ensino médio?,Quantas vezes já fez enem? (sem contar como treineiro),Quão sensível você é?,Quão motivado você está?
count,219.0,157.0,157.0,157.0,157.0,157.0,157.0
mean,4.105023,18.210191,9.165605,3.694268,1.541401,7.159236,7.089172
std,1.032909,1.908254,1.042969,0.938236,1.411902,1.926567,1.614739
min,1.0,15.0,5.0,0.0,0.0,2.0,3.0
25%,4.0,17.0,9.0,3.0,0.0,6.0,6.0
50%,4.0,18.0,9.0,4.0,1.0,7.0,7.0
75%,5.0,19.0,10.0,4.0,2.0,9.0,8.0
max,5.0,24.0,10.0,5.0,6.0,10.0,10.0


* The variable *tempo* (**time**) is in a scale such as these are the corresponding(in minutes):
<table border = "1">

    <tr>
        <td>Till 5</td>
        <td>between 5 e 10</td>
        <td>between 10 e 15</td>
        <td>between 15 e 20</td>
        <td>between 20 e 25</td>
        <td>25+</td>
    </tr>
    
    <tr>
        <td>0</td>
        <td>1</td>
        <td>2</td>
        <td>3</td>
        <td>4</td>
        <td>5</td>
    </tr>
</table>

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 219 entries, 0 to 218
Data columns (total 36 columns):
 #   Column                                                                            Non-Null Count  Dtype  
---  ------                                                                            --------------  -----  
 0   Assessor                                                                          219 non-null    object 
 1   Aluno                                                                             219 non-null    object 
 2   tempo                                                                             219 non-null    int64  
 3   Idade                                                                             157 non-null    float64
 4   Gênero                                                                            157 non-null    object 
 5   Quão compatível com seu assessor você se considera?                               157 non-null    float64
 6   On

* Althought there are 219 rows with different students data, we have some missing data as we can see bellow:

In [6]:
df.isnull().sum()/df.shape[0] * 100

Assessor                                                                             0.000000
Aluno                                                                                0.000000
tempo                                                                                0.000000
Idade                                                                               28.310502
Gênero                                                                              28.310502
Quão compatível com seu assessor você se considera?                                 28.310502
Onde fez/faz ensino médio?                                                          28.310502
Alguma religião?                                                                    28.310502
Gosta de esportes?                                                                  28.310502
Como foi/está sendo a qualidade de seu ensino médio?                                28.310502
Você se envolve com política?                               

* In almost every variable besides time, name and assessor we have 28% of missing data. It does influence in the result but we will solve this by two different means.

## Distributions

In [7]:
#overall compatibility
df["Quão compatível com seu assessor você se considera?"].describe()

count    157.000000
mean       9.165605
std        1.042969
min        5.000000
25%        9.000000
50%        9.000000
75%       10.000000
max       10.000000
Name: Quão compatível com seu assessor você se considera?, dtype: float64

In [8]:
compatibility = {}
for assessor in df["Assessor"].unique():
    mean = df[df["Assessor"] == assessor]["Quão compatível com seu assessor você se considera?"].mean()
    compatibility[assessor] = mean;

In [9]:
# mean compatibility
pd.DataFrame(compatibility.values(),index=compatibility.keys()).sort_values(by=0).describe()

Unnamed: 0,0
count,15.0
mean,9.166296
std,0.478565
min,8.285714
25%,8.925
50%,9.0
75%,9.577778
max,9.833333


In [10]:
df.tempo.describe()

count    219.000000
mean       4.105023
std        1.032909
min        1.000000
25%        4.000000
50%        4.000000
75%        5.000000
max        5.000000
Name: tempo, dtype: float64

* We are aiming to maximize the overall compatibility while minimizing the work the employees have

## Reading the assessors data

In [11]:
df_assessores = pd.read_csv("test_data/assessores.csv").drop(15)
df_assessores

Unnamed: 0,Quem é você?,Idade,Gênero,Onde fez ensino médio?,Alguma religião?,Gosta de esportes?,Como foi a qualidade de seu ensino médio?,Você se envolve com política?,Como se considera politicamente?,Que área compreende o curso que deseja fazer/faz na faculdade?,...,Quão sensível você é?,Você costuma cobrar seus alunos?,Você é competitivo?,Você é aberto a mudanças? ou é mais resistente?,Você costuma passar simulados pros alunos?,Você recebe apoio da sua família?,você costuma conversar com seus alunos sobre a vida pessoal deles ou só estudos?,Quão bom você é em motivar seus alunos?,Qual problema você é mais apto a ajudar os seus alunos a resolver?,Você tem problemas em receber alunos de sexo diferente?
0,Davi,20,Masculino,Motiva,Cristianismo,Sim,5,"Não, prefiro focar em outras coisas.",Centro,Saúde,...,5,Sim,Talvez,Aberto,Sim,Sim,Os dois,8,Procrastinação,Não
1,Lorenna,20,Feminino,Motiva,Agnóstico,Sim,4,"Não, prefiro focar em outras coisas.",Esquerda,Saúde,...,7,Sim,Sim,Aberto,Sim,mais ou menos,Os dois,9,Procrastinação,Não
2,Rayssa,23,Feminino,Motiva,Cristianismo,Não,5,"Não, prefiro focar em outras coisas.",Direita,Saúde,...,6,Sim,Sim,Aberto,Sim,Sim,Os dois,5,Dedicação,Não
3,Débora,20,Feminino,Outro em João Pessoa,Cristianismo,Sim,3,"Sim, acho importante.",Esquerda,Saúde,...,4,Sim,Sim,Aberto,Sim,Sim,Os dois,7,Dedicação,Não
4,Glaucielle,24,Feminino,Outro em João Pessoa,Cristianismo,Sim,3,"Sim, acho importante.",Esquerda,Saúde,...,8,Sim,Talvez,Aberto,Sim,Sim,Os dois,9,Procrastinação,Não
5,Patriota,22,Masculino,Motiva,Cristianismo,Sim,3,"Sim, acho importante.",Esquerda,Saúde,...,8,Talvez,Sim,Aberto,Sim,Sim,Os dois,8,Dedicação,Não
6,Ariel,21,Masculino,Motiva,Ateísmo,Sim,4,"Sim, acho importante.",Esquerda,Saúde,...,7,Sim,Sim,Aberto,Sim,Sim,Os dois,10,Concentração,Não
7,Rodrigo,19,Masculino,Outra fora de João Pessoa,Cristianismo,Sim,4,"Não, prefiro focar em outras coisas.",Apolítico,Saúde,...,9,Talvez,Não,Aberto,Sim,Não,Os dois,7,Concentração,Não
8,Carolzinha,24,Feminino,Outra fora de João Pessoa,Cristianismo,Sim,4,"Sim, acho importante.",Esquerda,Saúde,...,8,Sim,Não,Aberto,Sim,Sim,Os dois,9,Dedicação,Não
9,Eduardo,24,Masculino,Motiva,Cristianismo,Sim,4,"Sim, acho importante.",Esquerda,Saúde,...,7,Talvez,Talvez,Aberto,Sim,Sim,Os dois,9,Ansiedade,Não


## Removing missing values

In [12]:
df_students_answered = df[~df.Idade.isna()]

In [13]:
df_students_answered.isnull().sum()

Assessor                                                                            0
Aluno                                                                               0
tempo                                                                               0
Idade                                                                               0
Gênero                                                                              0
Quão compatível com seu assessor você se considera?                                 0
Onde fez/faz ensino médio?                                                          0
Alguma religião?                                                                    0
Gosta de esportes?                                                                  0
Como foi/está sendo a qualidade de seu ensino médio?                                0
Você se envolve com política?                                                       0
Como se considera politicamente?                      

* showing all the ones that still have missing data

In [14]:
df_students_answered.loc[df_students_answered["Qual é seu maior problema?"].isnull()]

Unnamed: 0,Assessor,Aluno,tempo,Idade,Gênero,Quão compatível com seu assessor você se considera?,Onde fez/faz ensino médio?,Alguma religião?,Gosta de esportes?,Como foi/está sendo a qualidade de seu ensino médio?,...,Quão sensível você é?,Você gosta de ser cobrado?,Você é competitivo?,Você é aberto a mudanças? ou é mais resistente?,Você gosta de fazer simulado?,Você recebe apoio da sua família?,Você gostaria de falar sobre a vida pessoal com o assessor ou só estudos?,Quão motivado você está?,Qual é seu maior problema?,Você prefere um assessor do mesmo sexo?
110,Gelielison,Isadora Ferraz,5,17.0,Feminino,10.0,Outra fora de João Pessoa,Cristianismo,Sim,4.0,...,8.0,Sim,Sim,Resistente,Não,Sim,Os dois,7.0,,Indiferente


* Here and in all subsequent cases we will replace the nans with the mode of the column or with a variable that wont result in any restriction in the end

In [15]:
df_students_answered["Qual é seu maior problema?"].value_counts()

Procrastinação                                                                                            67
Concentração                                                                                              48
Velocidade                                                                                                18
Dedicação                                                                                                  5
Falta força de vontade também                                                                              1
Alguns problemas pessoais tem afetado.                                                                     1
Resiliência                                                                                                1
Na quarentena to precisando lidar com responsabilidades (mudança de apto, procura de móveis, reforma)      1
Estresse                                                                                                   1
Procrastinação e Co

In [16]:
df_students_answered["Qual é seu maior problema?"][110] = "Procrastinação"

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  exec(code_obj, self.user_global_ns, self.user_ns)


In [17]:
df_students_answered.loc[df_students_answered["No tempo livre prefere:"].isnull()]

Unnamed: 0,Assessor,Aluno,tempo,Idade,Gênero,Quão compatível com seu assessor você se considera?,Onde fez/faz ensino médio?,Alguma religião?,Gosta de esportes?,Como foi/está sendo a qualidade de seu ensino médio?,...,Quão sensível você é?,Você gosta de ser cobrado?,Você é competitivo?,Você é aberto a mudanças? ou é mais resistente?,Você gosta de fazer simulado?,Você recebe apoio da sua família?,Você gostaria de falar sobre a vida pessoal com o assessor ou só estudos?,Quão motivado você está?,Qual é seu maior problema?,Você prefere um assessor do mesmo sexo?
107,Gelielison,Eduardo Paulo Queiroz Torres,4,16.0,Masculino,8.0,Motiva,Cristianismo,Sim,4.0,...,5.0,Sim,Sim,Aberto,Sim,Sim,Os dois,8.0,Procrastinação,"sim, fico mais confortável"


In [18]:
df_students_answered["No tempo livre prefere:"].value_counts()

comer ou cinema                 58
ficar em casa/assistir série    45
balada                          41
esporte                         12
Name: No tempo livre prefere:, dtype: int64

In [19]:
df_students_answered["No tempo livre prefere:"][107] = "comer ou cinema"

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  exec(code_obj, self.user_global_ns, self.user_ns)


In [20]:
df_students_answered.loc[df_students_answered["Como se considera politicamente?"].isnull()]

Unnamed: 0,Assessor,Aluno,tempo,Idade,Gênero,Quão compatível com seu assessor você se considera?,Onde fez/faz ensino médio?,Alguma religião?,Gosta de esportes?,Como foi/está sendo a qualidade de seu ensino médio?,...,Quão sensível você é?,Você gosta de ser cobrado?,Você é competitivo?,Você é aberto a mudanças? ou é mais resistente?,Você gosta de fazer simulado?,Você recebe apoio da sua família?,Você gostaria de falar sobre a vida pessoal com o assessor ou só estudos?,Quão motivado você está?,Qual é seu maior problema?,Você prefere um assessor do mesmo sexo?
104,Gelielison,Adrya Catharinne Santos Sousa da Silva,5,17.0,Feminino,9.0,Outro em João Pessoa,Cristianismo,Não,4.0,...,10.0,Sim,Sim,Aberto,Sim,Sim,Os dois,8.0,Procrastinação,Indiferente
137,Itamar,Gabriel Bandeira,3,19.0,Masculino,8.0,Outra fora de João Pessoa,Cristianismo,Não,4.0,...,8.0,Não,Sim,Aberto,Sim,mais ou menos,Os dois,7.0,"no momento é o barulho em casa, fora isso eu a...",Indiferente


In [21]:
df_students_answered["Como se considera politicamente?"].value_counts()

Centro       53
Direita      46
Apolítico    29
Esquerda     27
Name: Como se considera politicamente?, dtype: int64

In [22]:
df_students_answered["Como se considera politicamente?"][[104,137]] = "Centro"

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._set_labels(key, value)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  exec(code_obj, self.user_global_ns, self.user_ns)


## Creating the compatibility matrix

* This matrix is a result of the compatibility between Students and assessores. This will be the heaviest part of this application case.

In [23]:
# creating a matrix with all 0
compatibility_matrix = pd.DataFrame(0, columns = df.Assessor.unique(), index = df_students_answered.Aluno)

## Creating the compatibility metric

In [24]:
df_students_answered.head(1)

Unnamed: 0,Assessor,Aluno,tempo,Idade,Gênero,Quão compatível com seu assessor você se considera?,Onde fez/faz ensino médio?,Alguma religião?,Gosta de esportes?,Como foi/está sendo a qualidade de seu ensino médio?,...,Quão sensível você é?,Você gosta de ser cobrado?,Você é competitivo?,Você é aberto a mudanças? ou é mais resistente?,Você gosta de fazer simulado?,Você recebe apoio da sua família?,Você gostaria de falar sobre a vida pessoal com o assessor ou só estudos?,Quão motivado você está?,Qual é seu maior problema?,Você prefere um assessor do mesmo sexo?
0,Ariel,Adriel Ribeiro,3,18.0,Masculino,8.0,Motiva,Cristianismo,Sim,5.0,...,3.0,Não,Talvez,Aberto,Sim,Sim,Os dois,8.0,Procrastinação,"sim, fico mais confortável"


In [25]:
df_assessores.head(1)

Unnamed: 0,Quem é você?,Idade,Gênero,Onde fez ensino médio?,Alguma religião?,Gosta de esportes?,Como foi a qualidade de seu ensino médio?,Você se envolve com política?,Como se considera politicamente?,Que área compreende o curso que deseja fazer/faz na faculdade?,...,Quão sensível você é?,Você costuma cobrar seus alunos?,Você é competitivo?,Você é aberto a mudanças? ou é mais resistente?,Você costuma passar simulados pros alunos?,Você recebe apoio da sua família?,você costuma conversar com seus alunos sobre a vida pessoal deles ou só estudos?,Quão bom você é em motivar seus alunos?,Qual problema você é mais apto a ajudar os seus alunos a resolver?,Você tem problemas em receber alunos de sexo diferente?
0,Davi,20,Masculino,Motiva,Cristianismo,Sim,5,"Não, prefiro focar em outras coisas.",Centro,Saúde,...,5,Sim,Talvez,Aberto,Sim,Sim,Os dois,8,Procrastinação,Não


* First of all we will need to name the equivalent columns as the same

In [26]:
df_columns = df_students_answered.columns
df_assessores_columns = df_assessores.columns

* The attributes Aluno,tempo and compatibility are specific for the students. We are only going to use the attributes that are common to both.

In [27]:
df_columns

Index(['Assessor', 'Aluno', 'tempo', 'Idade', 'Gênero',
       'Quão compatível com seu assessor você se considera?',
       'Onde fez/faz ensino médio?', 'Alguma religião?', 'Gosta de esportes?',
       'Como foi/está sendo a qualidade de seu ensino médio?',
       'Você se envolve com política?', 'Como se considera politicamente?',
       'Que área compreende o curso que deseja fazer na faculdade?',
       'Qual sua área preferida no ENEM?', 'Quantos irmãos você tem?',
       'Tem ou já teve algum problema de saúde físico?',
       'Tem ou já teve algum problema de saúde mental?',
       'Pretende fazer faculdade na paraíba?',
       'Pratica atividade física com frequência?',
       'Introvertido ou extrovertido?', 'No tempo livre prefere:',
       'Tem facilidade em fazer amizades?',
       'Que tipo de assessor prefere? mais técnico ou que lide melhor com seu emocional?',
       'Quantas vezes já fez enem? (sem contar como treineiro)',
       'Você se considera uma pessoa paciente

In [28]:
df_assessores_columns

Index(['Quem é você?', 'Idade', 'Gênero', 'Onde fez ensino médio?',
       'Alguma religião?', 'Gosta de esportes?',
       'Como foi a qualidade de seu ensino médio?',
       'Você se envolve com política?', 'Como se considera politicamente?',
       'Que área compreende o curso que deseja fazer/faz na faculdade?',
       'Qual sua área preferida no ENEM?', 'Quantos irmãos você tem?',
       'Tem ou já teve algum problema de saúde físico?',
       'Tem ou já teve algum problema de saúde mental?',
       'tem experiência com vestibulares mais tradicionais e de outros estados?',
       'Pratica atividade física com frequência?',
       'Introvertido ou extrovertido?', 'No tempo livre prefere:',
       'Tem facilidade em fazer amizades?', 'Que tipo de assessor você é?',
       'Quantas vezes já fez enem? (sem contar como treineiro)',
       'Você se considera uma pessoa paciente?', 'Você é organizado?',
       'Quão sensível você é?', 'Você costuma cobrar seus alunos?',
       'Você é co

* Since all the advisors questions are in order, we will use it as a dictionary to know which question we are dealing with.

In [29]:
questions_dict = dict(zip(range(len(df_assessores_columns)), df_assessores_columns))
questions_dict

{0: 'Quem é você?',
 1: 'Idade',
 2: 'Gênero',
 3: 'Onde fez ensino médio?',
 4: 'Alguma religião?',
 5: 'Gosta de esportes?',
 6: 'Como foi a qualidade de seu ensino médio?',
 7: 'Você se envolve com política?',
 8: 'Como se considera politicamente?',
 9: 'Que área compreende o curso que deseja fazer/faz na faculdade?',
 10: 'Qual sua área preferida no ENEM?',
 11: 'Quantos irmãos você tem?',
 12: 'Tem ou já teve algum problema de saúde físico?',
 13: 'Tem ou já teve algum problema de saúde mental?',
 14: 'tem experiência com vestibulares mais tradicionais e de outros estados?',
 15: 'Pratica atividade física com frequência?',
 16: 'Introvertido ou extrovertido?',
 17: 'No tempo livre prefere:',
 18: 'Tem facilidade em fazer amizades?',
 19: 'Que tipo de assessor você é?',
 20: 'Quantas vezes já fez enem? (sem contar como treineiro)',
 21: 'Você se considera uma pessoa paciente?',
 22: 'Você é organizado?',
 23: 'Quão sensível você é?',
 24: 'Você costuma cobrar seus alunos?',
 25: 'V

* to make it easier, we will use numbers instead of questions

In [30]:
df_columns_new = [0, 'Aluno', 'tempo', 1, 2,
       'Quão compatível com seu assessor você se considera?',
       3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27,
              28, 29, 30, 31, 32]

In [31]:
df_assessores_columns_new = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19,
                        20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32]

* Adding the new columns to the previous dataframes

In [32]:
df_students_answered.columns = df_columns_new

In [33]:
df_assessores.columns = df_assessores_columns_new

In [34]:
df_students_answered.head(1)

Unnamed: 0,0,Aluno,tempo,1,2,Quão compatível com seu assessor você se considera?,3,4,5,6,...,23,24,25,26,27,28,29,30,31,32
0,Ariel,Adriel Ribeiro,3,18.0,Masculino,8.0,Motiva,Cristianismo,Sim,5.0,...,3.0,Não,Talvez,Aberto,Sim,Sim,Os dois,8.0,Procrastinação,"sim, fico mais confortável"


* adding the aluno colum as index

In [35]:
df_students_answered.index = df_students_answered.Aluno

In [36]:
df_students_answered.head(1)

Unnamed: 0_level_0,0,Aluno,tempo,1,2,Quão compatível com seu assessor você se considera?,3,4,5,6,...,23,24,25,26,27,28,29,30,31,32
Aluno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Adriel Ribeiro,Ariel,Adriel Ribeiro,3,18.0,Masculino,8.0,Motiva,Cristianismo,Sim,5.0,...,3.0,Não,Talvez,Aberto,Sim,Sim,Os dois,8.0,Procrastinação,"sim, fico mais confortável"


In [37]:
df_assessores.head(1)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,23,24,25,26,27,28,29,30,31,32
0,Davi,20,Masculino,Motiva,Cristianismo,Sim,5,"Não, prefiro focar em outras coisas.",Centro,Saúde,...,5,Sim,Talvez,Aberto,Sim,Sim,Os dois,8,Procrastinação,Não


* adding the 0 index (advisor) column as index

In [38]:
df_assessores.index = df_assessores[0]

In [39]:
df_assessores.head()

Unnamed: 0_level_0,0,1,2,3,4,5,6,7,8,9,...,23,24,25,26,27,28,29,30,31,32
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Davi,Davi,20,Masculino,Motiva,Cristianismo,Sim,5,"Não, prefiro focar em outras coisas.",Centro,Saúde,...,5,Sim,Talvez,Aberto,Sim,Sim,Os dois,8,Procrastinação,Não
Lorenna,Lorenna,20,Feminino,Motiva,Agnóstico,Sim,4,"Não, prefiro focar em outras coisas.",Esquerda,Saúde,...,7,Sim,Sim,Aberto,Sim,mais ou menos,Os dois,9,Procrastinação,Não
Rayssa,Rayssa,23,Feminino,Motiva,Cristianismo,Não,5,"Não, prefiro focar em outras coisas.",Direita,Saúde,...,6,Sim,Sim,Aberto,Sim,Sim,Os dois,5,Dedicação,Não
Débora,Débora,20,Feminino,Outro em João Pessoa,Cristianismo,Sim,3,"Sim, acho importante.",Esquerda,Saúde,...,4,Sim,Sim,Aberto,Sim,Sim,Os dois,7,Dedicação,Não
Glaucielle,Glaucielle,24,Feminino,Outro em João Pessoa,Cristianismo,Sim,3,"Sim, acho importante.",Esquerda,Saúde,...,8,Sim,Talvez,Aberto,Sim,Sim,Os dois,9,Procrastinação,Não


## creating the correlations between both quiz responses in order to compute the compability

* In this section we will examine column by column how the variables relate to each other. Some of them have are positive if both are the same and some are not.

### Age

In [40]:
questions_dict[1]

'Idade'

* In this first section we are going to use it as a restriction. As no advisor should be responsible for a student that is 2 years older than him. So, in any case that this is not satisfacted, we will put a negative compatibility.

In order to do so, we will use the following dataframes:
1. compatibility_matrix
2. df
3. df_assessores

In [41]:
compatibility_matrix['Ariel']["Adriel Ribeiro"]

0

In [42]:
int(df_students_answered.loc['Adriel Ribeiro'][1]) == 18

True

In [43]:
df_assessores.loc['Eduardo'][1]

24

In [44]:
for advisor in df_assessores[0]:
    advisor_age = int(df_assessores.loc[advisor][1])
    for student in df_students_answered.Aluno:
        student_age = int(df_students_answered.loc[student][1])
        if advisor_age >= 22:
            print(advisor,student)
            if student_age < 17:
                compatibility_matrix[advisor][student] = -1
        else:
            if (advisor_age + 1 < student_age):
                compatibility_matrix[advisor][student] = -1

Rayssa Adriel Ribeiro
Rayssa Breno Alves Amorim
Rayssa Gabriel Almeida
Rayssa Ivinyn Pessoa Freire Soares
Rayssa Mariana Amorim
Rayssa Natália de Brito Lima
Rayssa Renan Vieira Costa
Rayssa Rivaldo Ferreira de Freitas Filho
Rayssa Alice de Oliveira Maia
Rayssa Ana Karenina Barreto Amorim Pessoa
Rayssa Anne Gabrielle de Sousa Diniz
Rayssa Beatriz Diniz
Rayssa Camilla Ellen Crispim de Felix Nobrega
Rayssa Camilla Queiroz Ferreira
Rayssa Gabriella Gomes Ferreira gadelha
Rayssa Manuella Freire
Rayssa Myllena Enmyly Ferreira de Almeida
Rayssa Rafaela Maria Ribera Gonçalves de Souza
Rayssa Vitória Gouveia Gomes
Rayssa maria eduarda sarmento lucena
Rayssa Anna Beatriz de S.Ayres
Rayssa Daniela Freitas
Rayssa João Manoel Medeiros Oliveira Di Lorenzo
Rayssa Maitê Maria de Souza Veras
Rayssa Maria Fernanda Rodrigues Gomes
Rayssa Maria Laura de Carvalho Pinto
Rayssa Rebeca Ferrer Cruz
Rayssa Ana Luísa Campos Porpino
Rayssa Antonio Inacio Pimentel Rodrigues de Lemos Filho
Rayssa Arthur Moreira Mei

Carolzinha Anne Gabrielle de Sousa Diniz
Carolzinha Beatriz Diniz
Carolzinha Camilla Ellen Crispim de Felix Nobrega
Carolzinha Camilla Queiroz Ferreira
Carolzinha Gabriella Gomes Ferreira gadelha
Carolzinha Manuella Freire
Carolzinha Myllena Enmyly Ferreira de Almeida
Carolzinha Rafaela Maria Ribera Gonçalves de Souza
Carolzinha Vitória Gouveia Gomes
Carolzinha maria eduarda sarmento lucena
Carolzinha Anna Beatriz de S.Ayres
Carolzinha Daniela Freitas
Carolzinha João Manoel Medeiros Oliveira Di Lorenzo
Carolzinha Maitê Maria de Souza Veras
Carolzinha Maria Fernanda Rodrigues Gomes
Carolzinha Maria Laura de Carvalho Pinto
Carolzinha Rebeca Ferrer Cruz
Carolzinha Ana Luísa Campos Porpino
Carolzinha Antonio Inacio Pimentel Rodrigues de Lemos Filho
Carolzinha Arthur Moreira Meirelles
Carolzinha Caio robson gomes luna cruz
Carolzinha Elio Ribeiro de Morais Filho
Carolzinha Joao Paulo Rodrigues
Carolzinha José Vicente Abrantes Gadelha Neto
Carolzinha Maria Eduarda Sales Freire
Carolzinha Mat

In [45]:
compatibility_matrix

Unnamed: 0_level_0,Ariel,Carolzinha,Catharina,Davi,Débora,Eduardo,Fabiana,Gelielison,Glaucielle,Itamar,Lorenna,Mateus Tavares,Patriota,Rayssa,Rodrigo
Aluno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Adriel Ribeiro,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Breno Alves Amorim,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Gabriel Almeida,0,0,0,0,0,0,0,0,0,0,0,-1,0,0,-1
Ivinyn Pessoa Freire Soares,-1,0,-1,-1,-1,0,0,-1,0,-1,-1,-1,0,0,-1
Mariana Amorim,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Gabriela Rocha Jorge,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Luana Maria Teixeira de Carvalho Pessoa de Souza,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Maria Fernanda Aguiar R Coutinho,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Nathan Marlon Ferreira Carreiro,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


* Com isso conseguimos limitar a compatibilidade com os assessores

### Gender

* Here we will compare two columns, the gender and the answer to the question if the person feels comfortable with an advisor of the oposite sex

* Gender is 2 and the question is 32

In [46]:
df_students_answered[2].value_counts()/df_students_answered.shape[0] * 100 #percentage

Feminino     69.426752
Masculino    30.573248
Name: 2, dtype: float64

In [47]:
df_students_answered[32].value_counts()/df_students_answered.shape[0] * 100 

Indiferente                   64.33121
sim, fico mais confortável    35.66879
Name: 32, dtype: float64

* 35.66% said they rather stay with an advisor of the same sex

In [48]:
from sklearn.preprocessing import LabelEncoder #we are using to keep it simple 

In [49]:
le = LabelEncoder()
le.fit(df_students_answered[32])
print(le.classes_)

['Indiferente' 'sim, fico mais confortável']


In [50]:
df_students_answered[32] = le.transform(df_students_answered[32])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [51]:
df_students_answered.head(3)

Unnamed: 0_level_0,0,Aluno,tempo,1,2,Quão compatível com seu assessor você se considera?,3,4,5,6,...,23,24,25,26,27,28,29,30,31,32
Aluno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Adriel Ribeiro,Ariel,Adriel Ribeiro,3,18.0,Masculino,8.0,Motiva,Cristianismo,Sim,5.0,...,3.0,Não,Talvez,Aberto,Sim,Sim,Os dois,8.0,Procrastinação,1
Breno Alves Amorim,Ariel,Breno Alves Amorim,2,19.0,Masculino,10.0,Outro em João Pessoa,Cristianismo,Sim,3.0,...,7.0,Sim,Sim,Aberto,Sim,mais ou menos,Os dois,10.0,Procrastinação,0
Gabriel Almeida,Ariel,Gabriel Almeida,2,21.0,Masculino,10.0,Motiva,Cristianismo,Sim,5.0,...,6.0,Sim,Não,Aberto,Sim,mais ou menos,Estudos,8.0,Procrastinação,1


* We can see in column 32 that despite the warning, it works just fine.

In [52]:
# its clear that we could do all the iterations with the previous loop and some of the next ones, but our goal here
# is to make it more compreensive
for advisor in df_assessores[0]:
    advisor_sex = df_assessores.loc[advisor][2]
    for student in df_students_answered.Aluno:
        student_sex = df_students_answered.loc[student][2]
        student_preference = df_students_answered.loc[student][32]
        
        if student_sex != advisor_sex and student_preference:
            compatibility_matrix[advisor][student] = -1

In [53]:
compatibility_matrix

Unnamed: 0_level_0,Ariel,Carolzinha,Catharina,Davi,Débora,Eduardo,Fabiana,Gelielison,Glaucielle,Itamar,Lorenna,Mateus Tavares,Patriota,Rayssa,Rodrigo
Aluno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Adriel Ribeiro,0,-1,-1,0,-1,0,-1,0,-1,0,-1,0,0,-1,0
Breno Alves Amorim,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Gabriel Almeida,0,-1,-1,0,-1,0,-1,0,-1,0,-1,-1,0,-1,-1
Ivinyn Pessoa Freire Soares,-1,0,-1,-1,-1,0,0,-1,0,-1,-1,-1,0,0,-1
Mariana Amorim,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Gabriela Rocha Jorge,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Luana Maria Teixeira de Carvalho Pessoa de Souza,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Maria Fernanda Aguiar R Coutinho,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Nathan Marlon Ferreira Carreiro,0,-1,-1,0,-1,0,-1,0,-1,0,-1,0,0,-1,0


In [54]:
del questions_dict[1]
del questions_dict[2]
del questions_dict[32]

### Examining the next and deleting columns
* Lets see

In [55]:
questions_dict

{0: 'Quem é você?',
 3: 'Onde fez ensino médio?',
 4: 'Alguma religião?',
 5: 'Gosta de esportes?',
 6: 'Como foi a qualidade de seu ensino médio?',
 7: 'Você se envolve com política?',
 8: 'Como se considera politicamente?',
 9: 'Que área compreende o curso que deseja fazer/faz na faculdade?',
 10: 'Qual sua área preferida no ENEM?',
 11: 'Quantos irmãos você tem?',
 12: 'Tem ou já teve algum problema de saúde físico?',
 13: 'Tem ou já teve algum problema de saúde mental?',
 14: 'tem experiência com vestibulares mais tradicionais e de outros estados?',
 15: 'Pratica atividade física com frequência?',
 16: 'Introvertido ou extrovertido?',
 17: 'No tempo livre prefere:',
 18: 'Tem facilidade em fazer amizades?',
 19: 'Que tipo de assessor você é?',
 20: 'Quantas vezes já fez enem? (sem contar como treineiro)',
 21: 'Você se considera uma pessoa paciente?',
 22: 'Você é organizado?',
 23: 'Quão sensível você é?',
 24: 'Você costuma cobrar seus alunos?',
 25: 'Você é competitivo?',
 26: '

In [56]:
df_assessores[29].value_counts() # all the same

Os dois    15
Name: 29, dtype: int64

In [57]:
del questions_dict[29]

## Non constraining questions

In [58]:
questions_dict

{0: 'Quem é você?',
 3: 'Onde fez ensino médio?',
 4: 'Alguma religião?',
 5: 'Gosta de esportes?',
 6: 'Como foi a qualidade de seu ensino médio?',
 7: 'Você se envolve com política?',
 8: 'Como se considera politicamente?',
 9: 'Que área compreende o curso que deseja fazer/faz na faculdade?',
 10: 'Qual sua área preferida no ENEM?',
 11: 'Quantos irmãos você tem?',
 12: 'Tem ou já teve algum problema de saúde físico?',
 13: 'Tem ou já teve algum problema de saúde mental?',
 14: 'tem experiência com vestibulares mais tradicionais e de outros estados?',
 15: 'Pratica atividade física com frequência?',
 16: 'Introvertido ou extrovertido?',
 17: 'No tempo livre prefere:',
 18: 'Tem facilidade em fazer amizades?',
 19: 'Que tipo de assessor você é?',
 20: 'Quantas vezes já fez enem? (sem contar como treineiro)',
 21: 'Você se considera uma pessoa paciente?',
 22: 'Você é organizado?',
 23: 'Quão sensível você é?',
 24: 'Você costuma cobrar seus alunos?',
 25: 'Você é competitivo?',
 26: '

### Where completed high school or is studying

In [59]:
df_assessores[3].value_counts()

Motiva                       8
Outro em João Pessoa         3
Outra fora de João Pessoa    3
Geo                          1
Name: 3, dtype: int64

In [60]:
df_students_answered[3].value_counts()

Motiva                       65
Outro em João Pessoa         36
Outra fora de João Pessoa    23
Evolução                     20
Geo                           9
Cidade Viva                   4
Name: 3, dtype: int64

In [61]:
for advisor in df_assessores[0]:
    advisor_school = df_assessores.loc[advisor][3]
    for student in df_students_answered.Aluno:
        if compatibility_matrix[advisor][student] == -1:
            continue
        
        student_school = df_students_answered.loc[student][3]
        #print(advisor, student, student_school, advisor_school)
        if student_school == advisor_school:
            compatibility_matrix[advisor][student] = 1

In [62]:
compatibility_matrix

Unnamed: 0_level_0,Ariel,Carolzinha,Catharina,Davi,Débora,Eduardo,Fabiana,Gelielison,Glaucielle,Itamar,Lorenna,Mateus Tavares,Patriota,Rayssa,Rodrigo
Aluno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Adriel Ribeiro,1,-1,-1,1,-1,1,-1,0,-1,1,-1,1,1,-1,0
Breno Alves Amorim,0,0,0,0,1,0,1,0,1,0,0,0,0,0,0
Gabriel Almeida,1,-1,-1,1,-1,1,-1,0,-1,1,-1,-1,1,-1,-1
Ivinyn Pessoa Freire Soares,-1,0,-1,-1,-1,1,0,-1,0,-1,-1,-1,1,1,-1
Mariana Amorim,1,0,0,1,0,1,0,0,0,1,1,1,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Gabriela Rocha Jorge,0,0,0,0,1,0,1,0,1,0,0,0,0,0,0
Luana Maria Teixeira de Carvalho Pessoa de Souza,1,0,0,1,0,1,0,0,0,1,1,1,1,1,0
Maria Fernanda Aguiar R Coutinho,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Nathan Marlon Ferreira Carreiro,1,-1,-1,1,-1,1,-1,0,-1,1,-1,1,1,-1,0


In [63]:
del questions_dict[3]

### function to compute the rest

In [64]:
questions_dict

{0: 'Quem é você?',
 4: 'Alguma religião?',
 5: 'Gosta de esportes?',
 6: 'Como foi a qualidade de seu ensino médio?',
 7: 'Você se envolve com política?',
 8: 'Como se considera politicamente?',
 9: 'Que área compreende o curso que deseja fazer/faz na faculdade?',
 10: 'Qual sua área preferida no ENEM?',
 11: 'Quantos irmãos você tem?',
 12: 'Tem ou já teve algum problema de saúde físico?',
 13: 'Tem ou já teve algum problema de saúde mental?',
 14: 'tem experiência com vestibulares mais tradicionais e de outros estados?',
 15: 'Pratica atividade física com frequência?',
 16: 'Introvertido ou extrovertido?',
 17: 'No tempo livre prefere:',
 18: 'Tem facilidade em fazer amizades?',
 19: 'Que tipo de assessor você é?',
 20: 'Quantas vezes já fez enem? (sem contar como treineiro)',
 21: 'Você se considera uma pessoa paciente?',
 22: 'Você é organizado?',
 23: 'Quão sensível você é?',
 24: 'Você costuma cobrar seus alunos?',
 25: 'Você é competitivo?',
 26: 'Você é aberto a mudanças? ou é

In [65]:
df_students_answered[24]

Aluno
Adriel Ribeiro                                         Não
Breno Alves Amorim                                     Sim
Gabriel Almeida                                        Sim
Ivinyn Pessoa Freire Soares                         Talvez
Mariana Amorim                                         Sim
                                                     ...  
Gabriela Rocha Jorge                                Talvez
Luana Maria Teixeira de Carvalho Pessoa de Souza    Talvez
Maria Fernanda Aguiar R Coutinho                       Sim
Nathan Marlon Ferreira Carreiro                        Não
Sophia Adelino Xavier Pontes de Freitas                Sim
Name: 24, Length: 157, dtype: object

In [66]:
df_assessores[24]

0
Davi                 Sim
Lorenna              Sim
Rayssa               Sim
Débora               Sim
Glaucielle           Sim
Patriota          Talvez
Ariel                Sim
Rodrigo           Talvez
Carolzinha           Sim
Eduardo           Talvez
Mateus Tavares    Talvez
Fabiana           Talvez
Catharina            Sim
Itamar               Sim
Gelielison           Sim
Name: 24, dtype: object

In [67]:
def compute_compability(list_of_proportional, compatibility_matrix, df_assessores, df_students_answered):
    """
        args:
            list_of_proportional -> list with the columns that the function must act in
            
        return:
            compatibility matrix
    """
    for column in list_of_proportional:
        for advisor in df_assessores[0]:
            advisor_variable = df_assessores.loc[advisor][column]
            for student in df_students_answered.Aluno:
                if compatibility_matrix[advisor][student] == -1:
                    continue

                student_variable = df_students_answered.loc[student][column]
                #print(advisor, student, student_school, advisor_school)
                if advisor_variable == student_variable:
                    compatibility_matrix[advisor][student] += 1
    return compatibility_matrix

In [68]:
proportion_list = [4,5,8,9,10,12,13,14,15,17,19,24,25,27,28,31]
compute_compability(proportion_list, compatibility_matrix, df_assessores, df_students_answered)

Unnamed: 0_level_0,Ariel,Carolzinha,Catharina,Davi,Débora,Eduardo,Fabiana,Gelielison,Glaucielle,Itamar,Lorenna,Mateus Tavares,Patriota,Rayssa,Rodrigo
Aluno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Adriel Ribeiro,8,-1,-1,11,-1,9,-1,10,-1,11,-1,9,10,-1,6
Breno Alves Amorim,8,8,6,9,10,6,8,9,11,10,10,10,9,8,7
Gabriel Almeida,8,-1,-1,11,-1,7,-1,10,-1,12,-1,-1,9,-1,-1
Ivinyn Pessoa Freire Soares,-1,7,-1,-1,-1,9,6,-1,10,-1,-1,-1,9,6,-1
Mariana Amorim,7,10,6,11,8,9,7,9,9,8,5,7,6,6,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Gabriela Rocha Jorge,8,6,5,6,8,8,9,10,6,7,7,8,10,7,4
Luana Maria Teixeira de Carvalho Pessoa de Souza,8,8,9,7,9,11,10,7,8,8,8,8,9,7,7
Maria Fernanda Aguiar R Coutinho,9,10,7,6,9,8,4,11,10,7,10,5,8,7,7
Nathan Marlon Ferreira Carreiro,5,-1,-1,8,-1,6,-1,7,-1,7,-1,7,7,-1,6


In [69]:
for column in proportion_list:
    del questions_dict[column]

In [70]:
questions_dict

{0: 'Quem é você?',
 6: 'Como foi a qualidade de seu ensino médio?',
 7: 'Você se envolve com política?',
 11: 'Quantos irmãos você tem?',
 16: 'Introvertido ou extrovertido?',
 18: 'Tem facilidade em fazer amizades?',
 20: 'Quantas vezes já fez enem? (sem contar como treineiro)',
 21: 'Você se considera uma pessoa paciente?',
 22: 'Você é organizado?',
 23: 'Quão sensível você é?',
 26: 'Você é aberto a mudanças? ou é mais resistente?',
 30: 'Quão bom você é em motivar seus alunos?'}