___
# Exercício: Análise Exploratória - Variáveis Quantitativas
___

## Aula 03


## Índice

- [PERFOMANCE DE ESTUDANTES EM EXAMES](#students)

    
- [Base de dados e Dicionário das variáveis](#dados)
- [Leitura da base de dados](#leitura)
- [Preparo da base de dados](#preparo)


- [Exercício 1](#ex1) 
- [Exercício 2](#ex2) 

In [None]:
%matplotlib inline
import math
import os

import matplotlib.pyplot as plt
import numpy as np
from numpy import arange
import pandas as pd

from scipy import stats #importa apenas as funções de estatísticas da biblioteca SciPy.

from IPython.display import display  # Para ter melhor print.

___
<div id="students"></div>

# PERFORMANCE DE ESTUDANTES EM EXAMES

<img src="students.jpg" height="400">

Fonte: extraído da internet

<div id="dados"></div>

## Base de dados e Dicionário das variáveis:

A base de dados foi extraída da plataforma [Kaggle](https://www.kaggle.com/spscientist/students-performance-in-exams) intitulado “Students Performance in Exams”, cujo objetivo principal é verificar a performance do estudante considerando seu *background*. Ainda, para essa avaliação, a base de dados original passou por algumas transformações, como acréscimo de novas variáveis.

Essa base de dados possui informação de $1.000$ estudantes.

As variáveis apresentadas na base de dados `StudentsPerformance.csv` são:
 * `gender`: categozido em ['female', 'male'];
 * `race/ethnicity`: categorizado em ['group A', 'group B', 'group C', 'group D', 'group E'];
 * `parental level of education`: categorizado em ['some high school', 'high school', 'some college', 'associate's degree', 'bachelor's degree', 'master's degree'], respeitando essa ordem natural;
 * `lunch`: categorizado em ['free/reduced', 'standard'];
 * `test preparation course`: categorizado em ['completed', 'none'];
 * `math score`: nota obtida em matemática, com valor de $0$ a $100$;
 * `reading score`: nota obtida em leitura, com valor de $0$ a $100$; e
 * `writing score`: nota obtida em escrita, com valor de $0$ a $100$.
 
<br> 

Ainda, foram criadas as seguintes variáveis a partir das notas em cada prova:
 * `Xm`: se a nota de matemática for >= 80, vale 1; caso contrário, vale 0;
 * `Xr`: se a nota de leitura for >= 80, vale 1; caso contrário, vale 0;
 * `Xw`: se a nota de escrita for >= 80, vale 1; caso contrário, vale 0;
 * `Performance`: é definida pela soma de Xm, Xr e Xw. Assim, por exemplo, se `Perfomance` para um estudante for igual a 2, então esse estudante teve score >= 80 nas duas dessas três provas; e de forma análoga para demais caso.
 
Essas quatro últimas variáveis serão criadas rodando alguns códigos a seguir.

[Volta ao Índice](#indice)

<div id="leitura"></div>

## Leitura da base de dados

In [None]:
print("Esperamos trabalhar no diretório")
print(os.getcwd())

In [None]:
filename = 'StudentsPerformance.csv'

if filename in os.listdir():
    print(f'Parece que o arquivo {filename} está na mesma pasta do notebook da avaliação, yay!\n')
    
else:
    print(f'Não encontrei o arquivo {filename}.\n'
          f'O notebook e os arquivos de dados desta avaliação devem ser salvos dentro da mesma pasta no seu computador.\n')

In [None]:
# Carregando os dados
dados = pd.read_csv('StudentsPerformance.csv')
dados.head()

[Volta ao Índice](#indice)

<div id="preparo"></div>

## Preparo da base de dados

**IMPORTANTE:** Executem, por favor, todos os comandos a seguir antes de chegar de iniciar a resoluçao dos exercícios.

In [None]:
# Transforma as cinco primeiras colunas da base de dados como categóricas
dados.iloc[:,0:5]=dados.iloc[:,0:5].astype('category')

# Faz apenas essa ser ordinal respeitando a ordem das categorias definidas em categories
dados['parental level of education'] = pd.Categorical(dados['parental level of education'], 
                                                     categories=['some high school', 'high school',
                                                                 'some college',
                                                                 "associate's degree","bachelor's degree","master's degree"],
                                                      ordered=True)

# Visualização das categorias dessas variáveis
(lambda mostra_categorias: list(map(lambda x: dados.iloc[:,x].cat.categories,
                                    mostra_categorias)))([0,1,2,3,4])

In [None]:
# Quantifica como 1, se notas >= 80; caso contrário, como 0
umzero = lambda x: 1 if x >= 80 else 0
dados['Xm'] = dados['math score'].apply(umzero)
dados['Xr'] = dados['reading score'].apply(umzero)
dados['Xw'] = dados['writing score'].apply(umzero)

In [None]:
# Performance: número de provas com score >= 80 entre as 3 provas avaliadas
dados['Performance'] = dados.iloc[:,8:11].sum(axis=1)

In [None]:
# Conteúdo das 5 primeiras linhas da base de dados
dados.head()

In [None]:
dados.dtypes

[Volta ao Índice](#indice)

<div id="ex1"></div>

## Exercício 1 - Classificação das variáveis contidas na base de dados

Faça a classificação de cada variável escolhendo um entre os quatro tipos possíveis:
 * Qualitativa Nominal
 * Qualitativa Ordinal
 * Quantitativa Discreta
 * QuantitativA Contínua

<div id="ex2"></div>

## Exercício 2 - Análise exploratória dos dados

O objetivo principal que norteia a manipulação dessa base de dados é compreender quais as características do estudante que podem ser responsáveis pela performance do estudante nos testes.

Nesse caso, utilize ferramentas estatísticas numéricos e gráficas que permitam explorar o conjunto de dados.


In [None]:
# ESCREVA SUA RESPOSTA AQUI