# Desafio Murabei

### Contexto

Esse desafio é parte do processo de seleção para o cargo de Cientista de Dados da empresa Murabei. Os dados foram disponibilizados via email, assim como o texto com a explicação do desafio.


**Objetivo Geral**: Prever o resultado no exame normalizado(variável normexam), a partir de características dos alunos e das escolas. O modelo deve ser capaz de responder quais do tipo de escola (gênero misto, só de homens ou só de mulheres) é mais eficiente na formação de seus alunos de acordo com o resultado do exame normalizado.


**Objetivo do Notebook 1**: Realizar a leitura, o tratamento e a limpeza dos dados disponibilizados. 


**Passos**:

 - [X] Leitura dos dados;
 - [X] Tratamento dos dados;
 - [X] Limpeza dos dados;
 - [X] Salvar os dados limpos e tratados;

## Base de Dados

A base de dados fornecida foi extraída do curso de modelagem de [Harvard](http://tutorials.iq.harvard.edu/R/Rstatistics/Rstatistics.html) e está organizada em quatro arquivos diferentes:

 - cat_school_data.csv --> Variáveis categóricas que são aplicadas às escolas;
 - num_school_data.csv --> Variáveis numéricas que são aplicadas às escolas;
 - cat_student_data.csv --> Variáveis categóricas que são aplicadas aos estudantes;
 - num_student_data.csv --> Variáveis numéricas que são aplicadas aos estudantes;

As tabelas de estudantes e escola são cruzadas através do campo **school**, os ids dos estudantes são únicos para cada escola.

*O texto acima foi retirado do arquivo de explicação do desafio, disponibilizado pela própria empresa.*

## Bibliotecas

In [1]:
%load_ext autoreload
%autoreload 2

import os
import sys

import numpy as np
import pandas as pd

sys.path.append(os.path.abspath(os.path.pardir))
from src import settings, personalized_functions

from IPython.core.display import HTML, display

pd.set_option('display.max_rows', None)
pd.set_option("display.max_columns", None)
pd.set_option('max_colwidth', 150)

## Leitura e Tratamento dos Dados

In [2]:
# Criar estrutura de diretórios, caso não exista
if not os.path.exists(settings.DATA_PATH):
    os.makedirs(settings.DATA_PATH)


PATH = os.path.join(settings.DATA_PATH)

In [3]:
cat_school_df = pd.read_csv(f'{PATH}/cat_school_data.csv', delimiter = ';')
num_school_df = pd.read_csv(f'{PATH}/num_school_data.csv', delimiter = ';')
cat_student_df = pd.read_csv(f'{PATH}/cat_student_data.csv', delimiter = ';')
num_student_df = pd.read_csv(f'{PATH}/num_student_data.csv', delimiter = ';')

In [4]:
cat_school_df.head(2)

Unnamed: 0,school,variable,value
0,1,schgend,mixed
1,2,schgend,girls


In [5]:
num_school_df.head(2)

Unnamed: 0,school,variable,value
0,1,schavg,1661752
1,2,schavg,3951492


In [6]:
cat_student_df.head(2)

Unnamed: 0,school,student,variable,value
1,1,143,intake,bottom 25%
2,1,145,intake,mid 50%


In [7]:
num_student_df.head(2)

Unnamed: 0,school,student,variable,value
1,1,143.0,normexam,2613242
2,1,145.0,normexam,1340672


Para criarmos um único conjunto de dados com todas as características dos alunos e das escolas, será necessário uma reestruturação das tabelas. 

In [8]:
pivot_cat_school_df = (cat_school_df.pivot(index='school',
                                     columns='variable',
                                     values='value')
                              .reset_index()
                              .rename_axis(None, axis=1)
                )

In [9]:
pivot_cat_school_df.head(2)

Unnamed: 0,school,schgend,type
0,1,mixed,Mxd
1,2,girls,Sngl


In [10]:
pivot_cat_school_df.isnull().sum()

school     0
schgend    0
type       0
dtype: int64

In [11]:
pivot_num_school_df = (num_school_df.pivot(index='school',
                                     columns='variable',
                                     values='value')
                              .reset_index()
                              .rename_axis(None, axis=1)
                )

In [12]:
pivot_num_school_df.head(2)

Unnamed: 0,school,schavg
0,1,1661752
1,2,3951492


In [13]:
pivot_num_school_df.isnull().sum()

school    0
schavg    0
dtype: int64

In [14]:
pivot_cat_student_df = (cat_student_df.pivot_table(index=['school','student'],
                                             columns='variable',
                                             values='value',
                                             aggfunc='first')
                                .reset_index()
                                .rename_axis(None, axis=1)
                 )

In [15]:
pivot_cat_student_df.head(2)

Unnamed: 0,school,student,intake,sex,vr
0,1,1,bottom 25%,F,mid 50%
1,1,4,mid 50%,F,mid 50%


In [16]:
pivot_cat_student_df.isnull().sum()

school      0
student     0
intake     67
sex        95
vr         52
dtype: int64

In [17]:
pivot_num_student_df = (num_student_df.pivot_table(index=['school','student'],
                                             columns='variable', 
                                             values='value', 
                                             aggfunc='first')
                                .reset_index()
                                .rename_axis(None, axis=1)
                 )

In [18]:
pivot_num_student_df.head(2)

Unnamed: 0,school,student,normexam,standLRT
0,1,1.0,15061852,7843622
1,1,4.0,-555112,-103397


In [19]:
pivot_num_student_df.isnull().sum()

school       0
student      0
normexam    70
standLRT    29
dtype: int64

In [20]:
list_of_dfs = [pivot_cat_school_df, pivot_num_school_df, pivot_cat_student_df, pivot_num_student_df]

In [21]:
for each in list_of_dfs:
    print(each.shape)

(65, 3)
(65, 2)
(4010, 5)
(4010, 4)


In [22]:
school_student_df = (pivot_cat_school_df.merge(pivot_num_school_df,on='school',how='outer')
                                        .merge(pivot_cat_student_df,on='school',how='outer')
                                        .merge(pivot_num_student_df, on=['school','student'],how='outer')
                    )

In [23]:
school_student_df.head(5)

Unnamed: 0,school,schgend,type,schavg,student,intake,sex,vr,normexam,standLRT
0,1,mixed,Mxd,1661752,1,bottom 25%,F,mid 50%,15061852,7843622
1,1,mixed,Mxd,1661752,4,mid 50%,F,mid 50%,-555112,-103397
2,1,mixed,Mxd,1661752,6,mid 50%,M,mid 50%,-1335315,-951318
3,1,mixed,Mxd,1661752,7,top 25%,M,mid 50%,-555112,-2356393
4,1,mixed,Mxd,1661752,13,mid 50%,M,mid 50%,-197611,-290107


In [24]:
school_student_df.shape

(4010, 10)

In [25]:
school_student_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4010 entries, 0 to 4009
Data columns (total 10 columns):
school      4010 non-null int64
schgend     4010 non-null object
type        4010 non-null object
schavg      4010 non-null object
student     4010 non-null int64
intake      3943 non-null object
sex         3915 non-null object
vr          3958 non-null object
normexam    3940 non-null object
standLRT    3981 non-null object
dtypes: int64(2), object(8)
memory usage: 344.6+ KB


In [26]:
school_student_df[['schavg','normexam','standLRT']] = (school_student_df[['schavg','normexam','standLRT']]
                                                       .apply(lambda x: x.str.replace(',','.'))
                                                      )

In [27]:
school_student_df[['schavg','normexam','standLRT']] = (school_student_df[['schavg','normexam','standLRT']]
                                                      .astype('float')
                                                      )

In [28]:
school_student_df.head()

Unnamed: 0,school,schgend,type,schavg,student,intake,sex,vr,normexam,standLRT
0,1,mixed,Mxd,0.166175,1,bottom 25%,F,mid 50%,1.506185,0.784362
1,1,mixed,Mxd,0.166175,4,mid 50%,F,mid 50%,-0.555112,-1.03397
2,1,mixed,Mxd,0.166175,6,mid 50%,M,mid 50%,-1.335315,-0.951318
3,1,mixed,Mxd,0.166175,7,top 25%,M,mid 50%,-0.555112,-2.356393
4,1,mixed,Mxd,0.166175,13,mid 50%,M,mid 50%,-0.197611,-0.290107


# Tratamento dos Dados Faltantes

In [29]:
school_student_df.isnull().sum()

school       0
schgend      0
type         0
schavg       0
student      0
intake      67
sex         95
vr          52
normexam    70
standLRT    29
dtype: int64

Temos algumas variáveis com dados faltantes no dataset. A variável *sex*, representa o gênero do aluno. A variável *schgend* representa o gênero da escola na qual o aluno estuda. Podemos preencher alguns dados faltantes, com base nessa coluna do gênero da escola.

In [30]:
school_student_df.loc[(school_student_df['sex'].isnull())&(school_student_df['schgend']=='girls'), 'sex'] = 'F'
school_student_df.loc[(school_student_df['sex'].isnull())&(school_student_df['schgend']=='boys'), 'sex'] = 'M'

In [31]:
school_student_df[school_student_df['sex'].isnull()].shape[0]

55

Os dados da feature *sex* diminuíram de 95 para 55 dados faltantes. Esses dados que ainda constam como *NaN* na coluna gênero, são alunos pertencentes à escola de gênero misto, podendo ser de qualquer um dos gêneros. Por ora, os valores iguais a *NaN*, e olharemos para as outras features com dados faltantes.

As variaveis *intake* e *vr*, representam a faixa de pontuação de admisão do aluno, e a faixa de pontuação do raciocínio verbal no nível do aluno na admissão, respectivamente. 

Abaixo, é mostrado quais são os valores únicos assumidos por ambas as variáveis, sua contagem de ocorrências dentro do conjunto de dados e a porcentagem que isso representa.

In [32]:
unique_values_intake = school_student_df['intake'].unique()
df1 = pd.DataFrame(school_student_df['intake'].value_counts())
df1['%'] = df1['intake']/school_student_df.shape[0]
unique_values_vr = school_student_df['vr'].unique()
df2 = pd.DataFrame(school_student_df['vr'].value_counts())
df2['%'] = df2['vr']/school_student_df.shape[0]

print(f'Valores únicos da variável intake: {unique_values_intake}')
print(f'Valores únicos da variável vr: {unique_values_intake}')
display(HTML('<h3>Contagem de cada valor único<h3>'))
personalized_functions.display_side_by_side(df1,df2, titles=['intake','vr'])



del unique_values_intake, df1, unique_values_vr, df2

Valores únicos da variável intake: ['bottom 25%' 'mid 50%' 'top 25%' nan]
Valores únicos da variável vr: ['bottom 25%' 'mid 50%' 'top 25%' nan]


Unnamed: 0,intake,%
mid 50%,2293,0.57182
bottom 25%,1132,0.282294
top 25%,518,0.129177

Unnamed: 0,vr,%
mid 50%,2205,0.549875
top 25%,1136,0.283292
bottom 25%,617,0.153865


O conjunto de dados é bem balanceado em relação à quantidade de cada faixa de valores para as variáveis *intake* e *vr*. Para prosseguir com a avaliação da possibilidade de inferir os *NaN* dessas variáveis, será necessário analisarmos também as contagens das combinações de ambas as variáveis, e além disso, como as variáveis numéricas do tipo *float64* se comportam.

A tabela a seguir mostra a todas as possíveis combinações de valores de ambas as variáveis:

| intake | vr |
|---|---|
| bottom 25% | bottom 25% |
| bottom 25% | mid 50% |  
| bottom 25% | top 25% |  
|||
| mid 50% | bottom 25% |  
| mid 50% | mid 50% |  
| mid 50% | top 25% |  
|||
| top 25% | bottom 25% |  
| top 25% | mid 50% |  
| top 25% | top 25% |  

In [33]:
shape_comb1 = (school_student_df[(school_student_df['intake']=='bottom 25%')&
                                 (school_student_df['vr']=='bottom 25%')].shape[0]
              )
shape_comb2 = (school_student_df[(school_student_df['intake']=='bottom 25%')&
                                 (school_student_df['vr']=='mid 50%')].shape[0]
              )
shape_comb3 = (school_student_df[(school_student_df['intake']=='bottom 25%')&
                                 (school_student_df['vr']=='top 25%')].shape[0]
              )
shape_comb4 = (school_student_df[(school_student_df['intake']=='mid 50%')&
                                 (school_student_df['vr']=='mid 50%')].shape[0]
              )
shape_comb5 = (school_student_df[(school_student_df['intake']=='mid 50%')&
                                 (school_student_df['vr']=='mid 50%')].shape[0]
              )
shape_comb6 = (school_student_df[(school_student_df['intake']=='mid 50%')&
                                 (school_student_df['vr']=='top 25%')].shape[0]
              )
shape_comb7 = (school_student_df[(school_student_df['intake']=='top 25%')&
                                 (school_student_df['vr']=='mid 50%')].shape[0]
              )
shape_comb8 = (school_student_df[(school_student_df['intake']=='top 25%')&
                                 (school_student_df['vr']=='mid 50%')].shape[0]
              )
shape_comb9 = (school_student_df[(school_student_df['intake']=='top 25%')&
                                 (school_student_df['vr']=='top 25%')].shape[0]
              )

In [34]:
comb1 = (pd.DataFrame(school_student_df[(school_student_df['intake']=='bottom 25%')&
                                        (school_student_df['vr']=='bottom 25%')]
                      [['normexam','standLRT']].describe())
        )

comb2 = (pd.DataFrame(school_student_df[(school_student_df['intake']=='bottom 25%')&
                                        (school_student_df['vr']=='mid 50%')]
                      [['normexam','standLRT']].describe())
        )
comb3 = (pd.DataFrame(school_student_df[(school_student_df['intake']=='bottom 25%')&
                                        (school_student_df['vr']=='top 25%')]
                      [['normexam','standLRT']].describe())
        )
comb4 = (pd.DataFrame(school_student_df[(school_student_df['intake']=='mid 50%')&
                                        (school_student_df['vr']=='bottom 25%')]
                      [['normexam','standLRT']].describe())
        )

comb5 = (pd.DataFrame(school_student_df[(school_student_df['intake']=='mid 50%')&
                                        (school_student_df['vr']=='mid 50%')]
                      [['normexam','standLRT']].describe())
        )
comb6 = (pd.DataFrame(school_student_df[(school_student_df['intake']=='mid 50%')&
                                        (school_student_df['vr']=='top 25%')]
                      [['normexam','standLRT']].describe())
        )
comb7 = (pd.DataFrame(school_student_df[(school_student_df['intake']=='top 25%')&
                                        (school_student_df['vr']=='bottom 25%')]
                      [['normexam','standLRT']].describe())
        )

comb8 = (pd.DataFrame(school_student_df[(school_student_df['intake']=='top 25%')&
                                        (school_student_df['vr']=='mid 50%')]
                      [['normexam','standLRT']].describe())
        )
comb9 = (pd.DataFrame(school_student_df[(school_student_df['intake']=='top 25%')&
                                        (school_student_df['vr']=='top 25%')]
                      [['normexam','standLRT']].describe())
        )

In [35]:
display(HTML('<h2>Tabelas mostrando a quantidade de registros para cada combinação e as estatísticas descritivas \
                  para as variáveis normexam e standLRT:</h2>'))

display(HTML('<h3>Variável intake fixada em bottom 25%<h3>'))
print(f'Quantidades de registros para vr = bottom 25% :{shape_comb1}')
print(f'Quantidades de registros para vr = mid 50% :{shape_comb2}')
print(f'Quantidades de registros para vr = top 25% :{shape_comb3}')
personalized_functions.display_side_by_side(comb1,comb2,comb3, titles=['vr = bottom 25%','vr = mid 50%', 'vr = top 25%'])


display(HTML('<h3>Variável intake fixada em mid 50%<h3>'))
print(f'Quantidades de registros para vr = bottom 25% :{shape_comb4}')
print(f'Quantidades de registros para vr = mid 50% :{shape_comb5}')
print(f'Quantidades de registros para vr = top 25% :{shape_comb6}')
personalized_functions.display_side_by_side(comb4,comb5,comb6, titles=['vr = bottom 25%','vr = mid 50%', 'vr = top 25%'])


display(HTML('<h3>Variável intake fixada em top 25%<h3>'))
print(f'Quantidades de registros para vr = bottom 25% :{shape_comb7}')
print(f'Quantidades de registros para vr = mid 50% :{shape_comb8}')
print(f'Quantidades de registros para vr = top 25% :{shape_comb9}')
personalized_functions.display_side_by_side(comb7,comb8,comb9, titles=['vr = bottom 25%','vr = mid 50%', 'vr = top 25%'])


del (shape_comb1,shape_comb2,shape_comb3,shape_comb4,shape_comb5,shape_comb6,shape_comb7,shape_comb8,shape_comb9,
     comb1,comb2,comb3,comb4,comb5,comb6,comb7,comb8,comb9
    )

Quantidades de registros para vr = bottom 25% :97
Quantidades de registros para vr = mid 50% :570
Quantidades de registros para vr = top 25% :447


Unnamed: 0,normexam,standLRT
count,95.0,97.0
mean,0.388914,0.602018
std,0.700851,0.716969
min,-1.335315,-1.695182
25%,-0.129085,0.12315
50%,0.402669,0.536408
75%,0.896566,1.032317
max,1.900335,2.850649

Unnamed: 0,normexam,standLRT
count,559.0,568.0
mean,0.633237,0.901209
std,0.822166,0.691039
min,-2.291731,-1.447227
25%,0.073536,0.453756
50%,0.678759,0.867014
75%,1.175849,1.362922
max,2.532352,3.015952

Unnamed: 0,normexam,standLRT
count,440.0,445.0
mean,0.947641,1.022844
std,0.886642,0.677045
min,-1.438662,-1.447227
25%,0.328072,0.619059
50%,0.967586,0.949665
75%,1.57922,1.445574
max,3.666091,2.850649


Quantidades de registros para vr = bottom 25% :1310
Quantidades de registros para vr = mid 50% :1310
Quantidades de registros para vr = top 25% :597


Unnamed: 0,normexam,standLRT
count,353.0,359.0
mean,-0.355809,-0.380816
std,0.769189,0.70506
min,-2.75266,-2.934953
25%,-0.85267,-0.786016
50%,-0.338842,-0.372758
75%,0.134067,0.12315
max,1.813827,1.528225

Unnamed: 0,normexam,standLRT
count,1289.0,1296.0
mean,-0.155101,-0.168808
std,0.798125,0.678453
min,-2.510121,-2.934953
25%,-0.699505,-0.620713
50%,-0.129085,-0.124804
75%,0.402669,0.288453
max,2.408692,2.272089

Unnamed: 0,normexam,standLRT
count,589.0,594.0
mean,0.023616,0.043421
std,0.892663,0.667491
min,-2.291731,-1.860484
25%,-0.555112,-0.45541
50%,0.004322,0.040499
75%,0.610729,0.453756
max,2.701801,2.272089


Quantidades de registros para vr = bottom 25% :278
Quantidades de registros para vr = mid 50% :278
Quantidades de registros para vr = top 25% :79


Unnamed: 0,normexam,standLRT
count,149.0,151.0
mean,-1.050563,-1.55232
std,0.813234,0.750017
min,-3.059543,-2.934953
25%,-1.526653,-2.108439
50%,-1.029067,-1.61253
75%,-0.492781,-1.075296
max,1.506185,0.288453

Unnamed: 0,normexam,standLRT
count,273.0,275.0
mean,-1.008088,-1.318892
std,0.849863,0.667628
min,-3.666072,-2.934953
25%,-1.62373,-1.860484
50%,-1.029067,-1.281924
75%,-0.419801,-0.868667
max,1.661806,0.288453

Unnamed: 0,normexam,standLRT
count,77.0,78.0
mean,-0.757865,-0.872905
std,0.766242,0.864796
min,-2.510121,-2.521696
25%,-1.335315,-1.364576
50%,-0.776109,-0.992644
75%,-0.197611,-0.372758
max,1.039608,2.106786


Analisando as estatísticas descritivas das variáveis númericas *normexam* e *standLRT* para todas as combinações, observamos que todas apresentam um desvio padrão alto. Dessa forma, talvez não seja possível inferir uma faixa de valor das variáveis *intake* e *vr* com a mesma confiança que foi feito para a variável *sex*.

Quanto as outras variáveis faltantes, poderíamos tentar inferí-las também. Um ponto de atenção aqui, é que ao inferir uma varíavel numérica, poderíamos estar enviesando a variação dos dados. 

Como os dados faltantes representam uma parcela pequena em relação ao total de dados, e foi observado na análise acima que as combinações são bem balanceadas, os dados faltantes serão excluídos do conjunto de dados.

In [36]:
school_student_df.dropna(axis=0, inplace=True)

In [37]:
school_student_df.isnull().sum()

school      0
schgend     0
type        0
schavg      0
student     0
intake      0
sex         0
vr          0
normexam    0
standLRT    0
dtype: int64

# Salvando os dados tratados

In [38]:
school_student_df.to_csv(f'{PATH}/clean_data.csv', index = False)