___
# Exercício: <p> <center> Análise Exploratória - Variáveis Quantitativas
___

## Aula 05

___
<div id="indice"></div>

## Índice

- [PERFOMANCE DE ESTUDANTES EM EXAMES](#students)

    
- [Base de dados e Dicionário das variáveis](#dados)
- [Leitura da base de dados](#leitura)
- [Preparo da base de dados](#preparo)


- [Exercício 1](#ex1) 
- [Exercício 2](#ex2) 

In [2]:
%matplotlib inline
import math
import os

import matplotlib.pyplot as plt
import numpy as np
from numpy import arange
import pandas as pd

from scipy import stats #importa apenas as funções de estatísticas da biblioteca SciPy.

from IPython.display import display  # Para ter melhor print.

___
<div id="students"></div>

# PERFORMANCE DE ESTUDANTES EM EXAMES

<img src="data/students.jpg" height="400">

Fonte: extraído da internet

<div id="dados"></div>

## Base de dados e Dicionário das variáveis:

A base de dados foi extraída da plataforma [Kaggle](https://www.kaggle.com/spscientist/students-performance-in-exams) intitulado “Students Performance in Exams”, cujo objetivo principal é verificar a performance do estudante considerando seu *background*. Ainda, para essa avaliação, a base de dados original passou por algumas transformações, como acréscimo de novas variáveis.

Essa base de dados possui informação de $1.000$ estudantes.

As variáveis apresentadas na base de dados `StudentsPerformance.csv` são:
 * `gender`: categozido em ['female', 'male'];
 * `race/ethnicity`: categorizado em ['group A', 'group B', 'group C', 'group D', 'group E'];
 * `parental level of education`: categorizado em ['some high school', 'high school', 'some college', 'associate's degree', 'bachelor's degree', 'master's degree'], respeitando essa ordem natural;
 * `lunch`: categorizado em ['free/reduced', 'standard'];
 * `test preparation course`: categorizado em ['completed', 'none'];
 * `math score`: nota obtida em matemática, com valor de $0$ a $100$;
 * `reading score`: nota obtida em leitura, com valor de $0$ a $100$; e
 * `writing score`: nota obtida em escrita, com valor de $0$ a $100$.
 
<br> 

Ainda, foram criadas as seguintes variáveis a partir das notas em cada prova:
 * `Xm`: se a nota de matemática for >= 80, vale 1; caso contrário, vale 0;
 * `Xr`: se a nota de leitura for >= 80, vale 1; caso contrário, vale 0;
 * `Xw`: se a nota de escrita for >= 80, vale 1; caso contrário, vale 0;
 * `Performance`: é definida pela soma de Xm, Xr e Xw. Assim, por exemplo, se `Perfomance` para um estudante for igual a 2, então esse estudante teve score >= 80 nas duas dessas três provas; e de forma análoga para demais caso.
 
Essas quatro últimas variáveis serão criadas rodando alguns códigos a seguir.

[Volta ao Índice](#indice)

<div id="leitura"></div>

## Leitura da base de dados

In [3]:
print("Esperamos trabalhar no diretório")
print(os.getcwd())

Esperamos trabalhar no diretório
/Users/cauedagostinho/Documents/Insper/2˚sem/Cdados


In [4]:
filename = 'StudentsPerformance.csv'

if filename in os.listdir():
    print(f'Parece que o arquivo {filename} está na mesma pasta do notebook da avaliação, yay!\n')
    
else:
    print(f'Não encontrei o arquivo {filename}.\n'
          f'O notebook e os arquivos de dados desta avaliação devem ser salvos dentro da mesma pasta no seu computador.\n')

Não encontrei o arquivo StudentsPerformance.csv.
O notebook e os arquivos de dados desta avaliação devem ser salvos dentro da mesma pasta no seu computador.



In [5]:
# Carregando os dados
dados = pd.read_csv('data/StudentsPerformance.csv')
dados.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


[Volta ao Índice](#indice)

<div id="preparo"></div>

## Preparo da base de dados

**IMPORTANTE:** Executem, por favor, todos os comandos a seguir antes de chegar de iniciar a resoluçao dos exercícios.

In [6]:
# Transforma as cinco primeiras colunas da base de dados como categóricas
dados.iloc[:,0:5]=dados.iloc[:,0:5].astype('category')

# Faz apenas essa ser ordinal respeitando a ordem das categorias definidas em categories
dados['parental level of education'] = pd.Categorical(dados['parental level of education'], 
                                                     categories=['some high school', 'high school',
                                                                 'some college',
                                                                 "associate's degree","bachelor's degree","master's degree"],
                                                      ordered=True)

# Visualização das categorias dessas variáveis
(lambda mostra_categorias: list(map(lambda x: dados.iloc[:,x].cat.categories,
                                    mostra_categorias)))([0,1,2,3,4])

[Index(['female', 'male'], dtype='object'),
 Index(['group A', 'group B', 'group C', 'group D', 'group E'], dtype='object'),
 Index(['some high school', 'high school', 'some college', 'associate's degree',
        'bachelor's degree', 'master's degree'],
       dtype='object'),
 Index(['free/reduced', 'standard'], dtype='object'),
 Index(['completed', 'none'], dtype='object')]

In [8]:
# Quantifica como 1, se notas >= 80; caso contrário, como 0
umzero = lambda x: 1 if x >= 80 else 0
dados['Xm'] = dados['math score'].apply(umzero)
dados['Xr'] = dados['reading score'].apply(umzero)
dados['Xw'] = dados['writing score'].apply(umzero)

In [15]:
# Performance: número de provas com score >= 80 entre as 3 provas avaliadas
dados['Performance'] = dados.iloc[:,8:11].sum(axis=1)

In [16]:
# Conteúdo das 5 primeiras linhas da base de dados
dados.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score,Xm,Xr,Xw,Performance
0,female,group B,bachelor's degree,standard,none,72,72,74,0,0,0,0
1,female,group C,some college,standard,completed,69,90,88,0,1,1,2
2,female,group B,master's degree,standard,none,90,95,93,1,1,1,3
3,male,group A,associate's degree,free/reduced,none,47,57,44,0,0,0,0
4,male,group C,some college,standard,none,76,78,75,0,0,0,0


In [17]:
dados.dtypes

gender                         category
race/ethnicity                 category
parental level of education    category
lunch                          category
test preparation course        category
math score                        int64
reading score                     int64
writing score                     int64
Xm                                int64
Xr                                int64
Xw                                int64
Performance                       int64
dtype: object

[Volta ao Índice](#indice)

<div id="ex1"></div>

## Exercício 1 - Classificação das variáveis contidas na base de dados

Faça a classificação de cada variável escolhendo um entre os quatro tipos possíveis:
 * Qualitativa Nominal
 * Qualitativa Ordinal
 * Quantitativa Discreta
 * Quantitativa Contínua

[Volta ao Índice](#indice)

<div id="ex2"></div>

## Exercício 2 - Análise exploratória dos dados

O objetivo principal que norteia a manipulação dessa base de dados é compreender quais as características do estudante que podem ser responsáveis pela performance do estudante nos testes.

Nesse caso, utilize ferramentas estatísticas numéricos e gráficas que permitam explorar o conjunto de dados.


In [None]:
# ESCREVA SUA RESPOSTA AQUI

In [18]:
df = dados.copy()

### Verificar a relação entre gênero e notas separadas

In [39]:
# Criar dois dataframes com os gêneros diferentes
df_female = df.loc[df['gender'] == 'female']
df_male = df.loc[df['gender'] == 'male']

df['gender'].value_counts().to_frame()

Unnamed: 0,gender
female,518
male,482


In [47]:
# Relacionando com a nota de matemática
(round((df_male['Performance'].value_counts(normalize=True)), 3) * 100).to_frame()

Unnamed: 0,Performance
0,72.4
1,10.6
3,10.2
2,6.8


In [50]:
df_male.groupby(by='race/ethnicity')['Performance'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
race/ethnicity,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
group A,53.0,0.377358,0.903549,0.0,0.0,0.0,0.0,3.0
group B,86.0,0.476744,0.966823,0.0,0.0,0.0,0.0,3.0
group C,139.0,0.460432,0.972567,0.0,0.0,0.0,0.0,3.0
group D,133.0,0.548872,0.980616,0.0,0.0,0.0,1.0,3.0
group E,71.0,0.929577,1.112577,0.0,0.0,0.0,2.0,3.0


In [55]:
round(pd.crosstab(df_male['race/ethnicity'], df_male['Performance'], margins=True, normalize=True), 3) * 100

Performance,0,1,2,3,All
race/ethnicity,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
group A,9.1,0.4,0.6,0.8,11.0
group B,13.9,0.8,1.7,1.5,17.8
group C,22.4,2.7,0.6,3.1,28.8
group D,19.5,3.7,1.7,2.7,27.6
group E,7.5,2.9,2.3,2.1,14.7
All,72.4,10.6,6.8,10.2,100.0


[Volta ao Índice](#indice)