# Desafio 4

Neste desafio, vamos praticar um pouco sobre testes de hipóteses. Utilizaremos o _data set_ [2016 Olympics in Rio de Janeiro](https://www.kaggle.com/rio2016/olympic-games/), que contém dados sobre os atletas das Olimpíadas de 2016 no Rio de Janeiro.

Esse _data set_ conta com informações gerais sobre 11538 atletas como nome, nacionalidade, altura, peso e esporte praticado. Estaremos especialmente interessados nas variáveis numéricas altura (`height`) e peso (`weight`). As análises feitas aqui são parte de uma Análise Exploratória de Dados (EDA).

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns


In [2]:
#%matplotlib inline

from IPython.core.pylabtools import figsize


figsize(12, 8)

sns.set()

In [3]:
athletes = pd.read_csv("athletes.csv")

In [4]:
def get_sample(df, col_name, n=100, seed=42):
   
    np.random.seed(seed)
    
    random_idx = np.random.choice(df[col_name].dropna().index, size=n, replace=False)
    
    return df.loc[random_idx, col_name]

## Inicia sua análise a partir daqui

In [5]:
# Sua análise começa aqui.
athletes.head()




Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,A Jesus Garcia,ESP,male,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,A Lam Shin,KOR,female,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,Aaron Brown,CAN,male,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,Aaron Cook,MDA,male,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,Aaron Gate,NZL,male,11/26/90,1.81,71.0,cycling,0,0,0


In [6]:
athletes.shape

(11538, 11)

In [7]:
#athletes.hist()

In [8]:
aux = get_sample(athletes, 'height', 3000)
aux.sort_values()



3429     1.33
1080     1.37
8312     1.38
11124    1.40
9630     1.42
3570     1.44
1221     1.45
370      1.47
10026    1.47
6404     1.48
3177     1.48
10365    1.49
3115     1.49
3426     1.50
7565     1.50
8348     1.50
3148     1.50
8198     1.51
9534     1.51
8945     1.51
11230    1.51
5899     1.51
2653     1.51
2588     1.51
4154     1.52
7441     1.52
9156     1.52
6337     1.52
772      1.52
2839     1.52
         ... 
10582    2.04
8089     2.04
1255     2.04
6117     2.04
8526     2.05
2280     2.05
3200     2.05
5693     2.05
7266     2.05
3790     2.05
5030     2.05
2784     2.05
9896     2.06
3802     2.06
8592     2.06
1246     2.06
10805    2.06
1711     2.06
7136     2.06
2076     2.07
823      2.07
2415     2.07
2215     2.08
2682     2.08
1644     2.08
1145     2.08
7978     2.11
5749     2.11
4882     2.13
8486     2.15
Name: height, Length: 3000, dtype: float64

In [9]:
aux.shape

(3000,)

## Questão 1

Considerando uma amostra de tamanho 3000 da coluna `height` obtida com a função `get_sample()`, execute o teste de normalidade de Shapiro-Wilk com a função `scipy.stats.shapiro()`. Podemos afirmar que as alturas são normalmente distribuídas com base nesse teste (ao nível de significância de 5%)? Responda com um boolean (`True` ou `False`).

In [10]:
def q1():
    stats, p_value = sct.shapiro(aux)
    return bool(p_value > 0.05)
    
q1()    

False

In [11]:
#athletes.height.hist(bins = 25)

In [12]:

#sct.probplot(athletes.height, dist ='norm', plot =plt)

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Plote o qq-plot para essa variável e a analise.
* Existe algum nível de significância razoável que nos dê outro resultado no teste? (Não faça isso na prática. Isso é chamado _p-value hacking_, e não é legal).

## Questão 2

Repita o mesmo procedimento acima, mas agora utilizando o teste de normalidade de Jarque-Bera através da função `scipy.stats.jarque_bera()`. Agora podemos afirmar que as alturas são normalmente distribuídas (ao nível de significância de 5%)? Responda com um boolean (`True` ou `False`).

In [13]:
def q2():
    stats, p_value = sct.jarque_bera(aux)
    return bool(p_value > 0.05)
    
q2()    

False

__Para refletir__:

* Esse resultado faz sentido?

## Questão 3

Considerando agora uma amostra de tamanho 3000 da coluna `weight` obtida com a função `get_sample()`. Faça o teste de normalidade de D'Agostino-Pearson utilizando a função `scipy.stats.normaltest()`. Podemos afirmar que os pesos vêm de uma distribuição normal ao nível de significância de 5%? Responda com um boolean (`True` ou `False`).

In [14]:
sample_weight = get_sample(athletes, 'weight', 3000)

In [15]:
#?sct.normaltest

In [16]:
def q3():
    stats, p_value = sct.normaltest(sample_weight)
    return bool(p_value > 0.05)
    
q3()    

False

In [17]:
#athletes.weight.hist(bins = 25)

In [18]:
#sns.boxplot(athletes.weight)

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Um _box plot_ também poderia ajudar a entender a resposta.

## Questão 4

Realize uma transformação logarítmica em na amostra de `weight` da questão 3 e repita o mesmo procedimento. Podemos afirmar a normalidade da variável transformada ao nível de significância de 5%? Responda com um boolean (`True` ou `False`).

In [19]:
sample_weight_q4 = get_sample(athletes, 'weight', 3000)

In [20]:
aux_q4 = np.log(sample_weight_q4)

In [21]:
aux_q4

2162     4.382027
3450     4.248495
6886     4.234107
3871     4.189655
6383     4.406719
7345     4.077537
4350     4.290459
7859     4.143135
8939     4.007333
36       4.276666
8643     4.007333
11293    4.234107
11447    4.127134
10602    4.499810
3345     4.219508
8764     4.394449
5718     4.394449
2349     4.394449
9756     4.219508
3814     4.595120
1219     4.077537
8085     4.094345
10454    4.248495
3908     4.127134
5868     4.025352
4660     4.442651
7715     3.891820
4198     4.174387
517      4.276666
1526     4.043051
           ...   
2133     4.488636
728      4.521789
5206     4.521789
5301     4.174387
3032     4.094345
3259     4.465908
70       4.060443
10238    4.234107
9223     4.094345
3367     4.077537
2541     4.248495
4665     4.442651
54       4.290459
33       4.553877
8493     4.382027
5344     4.248495
6149     3.871201
1562     4.700480
1766     4.174387
1508     4.430817
3621     4.700480
2498     4.382027
7108     4.127134
3651     4.204693
11401    4

In [22]:
def q4():
    stats, p_value = sct.normaltest(aux_q4)
    return bool(p_value > 0.05)
    
q4()    

False

In [23]:
#aux_q4.hist(bins = 25)

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Você esperava um resultado diferente agora?

> __Para as questão 5 6 e 7 a seguir considere todos testes efetuados ao nível de significância de 5%__.

## Questão 5

Obtenha todos atletas brasileiros, norte-americanos e canadenses em `DataFrame`s chamados `bra`, `usa` e `can`,respectivamente. Realize um teste de hipóteses para comparação das médias das alturas (`height`) para amostras independentes e variâncias diferentes com a função `scipy.stats.ttest_ind()` entre `bra` e `usa`. Podemos afirmar que as médias são estatisticamente iguais? Responda com um boolean (`True` ou `False`).

In [24]:
nacionalidade_bra = ['BRA']
s_bra = athletes[athletes.nationality.isin(nacionalidade_bra)]
nacionalidade_usa = ['USA']
s_usa = athletes[athletes.nationality.isin(nacionalidade_usa)]
nacionalidade_can = ['CAN']
s_can = athletes[athletes.nationality.isin(nacionalidade_can)]




In [25]:
def q5():
    aux_q5 = sct.ttest_ind(s_bra.height, s_usa.height, equal_var = False, nan_policy = 'omit' )
    stats_q5, p_value_q5 = aux_q5
    return bool(p_value_q5 > 0.05)
q5()

False

## Questão 6

Repita o procedimento da questão 5, mas agora entre as alturas de `bra` e `can`. Podemos afimar agora que as médias são estatisticamente iguais? Reponda com um boolean (`True` ou `False`).

In [33]:
def q6():
    aux_q6 = sct.ttest_ind(s_bra.height, s_can.height, equal_var = False, nan_policy = 'omit' )
    stats_q6, p_value_q6 = aux_q6
    return bool(p_value_q6 > 0.05)
q6()

True

## Questão 7

Repita o procedimento da questão 6, mas agora entre as alturas de `usa` e `can`. Qual o valor do p-valor retornado? Responda como um único escalar arredondado para oito casas decimais.

In [36]:
def q7():
    ttest=sct.ttest_ind(s_usa.height, s_can.height, equal_var=False, nan_policy='omit')
    
    return float(ttest.pvalue.round(8))
q7()

0.00046601

__Para refletir__:

* O resultado faz sentido?
* Você consegue interpretar esse p-valor?
* Você consegue chegar a esse valor de p-valor a partir da variável de estatística?