# Desafio 4

Neste desafio, vamos praticar um pouco sobre testes de hipóteses. Utilizaremos o _data set_ [2016 Olympics in Rio de Janeiro](https://www.kaggle.com/rio2016/olympic-games/), que contém dados sobre os atletas das Olimpíadas de 2016 no Rio de Janeiro.

Esse _data set_ conta com informações gerais sobre 11538 atletas como nome, nacionalidade, altura, peso e esporte praticado. Estaremos especialmente interessados nas variáveis numéricas altura (`height`) e peso (`weight`). As análises feitas aqui são parte de uma Análise Exploratória de Dados (EDA).

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns

In [2]:
#%matplotlib inline

#from IPython.core.pylabtools import figsize


#figsize(12, 8)

#sns.set()

In [3]:
athletes = pd.read_csv("athletes.csv")

In [4]:
def get_sample(df, col_name, n=100, seed=42):
    """Get a sample from a column of a dataframe.
    
    It drops any numpy.nan entries before sampling. The sampling
    is performed without replacement.
    
    Example of numpydoc for those who haven't seen yet.
    
    Parameters
    ----------
    df : pandas.DataFrame
        Source dataframe.
    col_name : str
        Name of the column to be sampled.
    n : int
        Sample size. Default is 100.
    seed : int
        Random seed. Default is 42.
    
    Returns
    -------
    pandas.Series
        Sample of size n from dataframe's column.
    """
    np.random.seed(seed)
    
    random_idx = np.random.choice(df[col_name].dropna().index, size=n, replace=False)
    
    return df.loc[random_idx, col_name]

## Inicia sua análise a partir daqui

In [13]:
# Sua análise começa aqui.
s = get_sample(athletes, 'height', n=3000)
s

1811     1.79
7962     1.81
10280    1.83
317      1.68
6989     2.01
         ... 
1483     1.75
2586     1.78
2949     1.60
10268    1.75
5892     1.76
Name: height, Length: 3000, dtype: float64

In [15]:
#Shapiro Wilk test
sh_stat, sh_pval = sct.shapiro(s)

In [16]:
sh_stat

0.9961519837379456

In [18]:
sh_pval

5.681722541339695e-07

In [19]:
sh_pval > .05

False

In [20]:
brazil = athletes.query('nationality == "BRA"')

In [21]:
brazil

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
79,236523132,Adam Imer,BRA,male,8/18/89,1.82,88.0,hockey,0,0,0
106,993710181,Adenizia da Silva,BRA,female,12/18/86,1.87,65.0,volleyball,0,0,0
109,930618704,Adilson da Silva,BRA,male,1/24/72,1.70,79.0,golf,0,0,0
114,787208883,Adrian Baches,BRA,male,4/7/90,1.84,83.0,aquatics,0,0,0
128,80367651,Adriana Aparecida da Silva,BRA,female,7/22/81,1.66,52.0,athletics,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
11052,9403852,Xavier Vela Maggi,BRA,male,8/7/89,1.78,71.0,rowing,0,0,0
11136,599927932,Yane Marcia Marques,BRA,female,1/7/84,1.66,55.0,modern pentathlon,0,0,0
11228,586074732,Ygor Coelho de Oliveira,BRA,male,11/24/96,1.83,78.0,badminton,0,0,0
11404,409923311,Yuri van der Heijden,BRA,male,7/20/90,1.78,76.0,hockey,0,0,0


In [25]:
USa = athletes.query('nationality == "USA"')

In [23]:
canada = athletes.query("nationality == 'CAN'")

In [24]:
canada

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
2,435962603,Aaron Brown,CAN,male,5/27/92,1.98,79.0,athletics,0,0,1
77,136977152,Adam Froese,CAN,male,8/13/91,1.82,81.0,hockey,0,0,0
92,983411298,Adam van Koeverden,CAN,male,1/29/82,1.82,85.0,canoe,0,0,0
238,769580282,Akeem Haynes,CAN,male,3/11/92,1.68,71.0,athletics,0,0,1
332,84230211,Alena Sharp,CAN,female,3/7/81,1.68,69.0,golf,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
10871,646986835,Vincent Riendeau,CAN,male,12/13/96,1.78,68.0,aquatics,0,0,0
11002,202043393,Will Crothers,CAN,male,6/14/87,1.95,95.0,rowing,0,0,0
11003,212657714,Will Dean,CAN,male,6/10/87,1.95,95.0,rowing,0,0,0
11156,982324748,Yann Candele,CAN,male,3/11/71,1.73,82.0,equestrian,0,0,0


In [27]:
t, p = sct.ttest_ind(USa['height'], canada['height'], equal_var = False, nan_policy = 'omit')

In [28]:
t

3.516987632488539

In [29]:
p

0.0004660129347389851

In [30]:
round(float(p),8)

0.00046601

In [32]:
s_w = get_sample(athletes, 'weight', n=3000)
log = np.log(s_w)
w, pv = sct.normaltest(log)

In [47]:
s_w

2162      80.0
3450      70.0
6886      69.0
3871      66.0
6383      82.0
         ...  
11255     63.0
9790      61.0
4127     125.0
463       54.0
6664      62.0
Name: weight, Length: 3000, dtype: float64

In [46]:
log

2162     4.382027
3450     4.248495
6886     4.234107
3871     4.189655
6383     4.406719
           ...   
11255    4.143135
9790     4.110874
4127     4.828314
463      3.988984
6664     4.127134
Name: weight, Length: 3000, dtype: float64

In [33]:
w

45.91534331977353

In [54]:
pv

1.0705572101256944e-10

In [35]:
media, desvio = s_w.mean(), s_w.std()

In [36]:
media

72.12266666666666

In [38]:
desvio

16.366741977861043

In [42]:
normalizado = (s_w - media)/desvio
normalizado

2162     0.481301
3450    -0.129694
6886    -0.190793
3871    -0.374092
6383     0.603500
           ...   
11255   -0.557391
9790    -0.679590
4127     3.230779
463     -1.107286
6664    -0.618490
Name: weight, Length: 3000, dtype: float64

In [43]:
w2, pv2 = sct.normaltest(normalizado)

In [44]:
w2

510.24655809881074

In [45]:
pv2

1.5898922918037703e-111

## Questão 1

Considerando uma amostra de tamanho 3000 da coluna `height` obtida com a função `get_sample()`, execute o teste de normalidade de Shapiro-Wilk com a função `scipy.stats.shapiro()`. Podemos afirmar que as alturas são normalmente distribuídas com base nesse teste (ao nível de significância de 5%)? Responda com um boolean (`True` ou `False`).

In [6]:
def q1():
    # Retorne aqui o resultado da questão 1.
    sample_height = get_sample(athletes, 'height', n=3000)
    W_and_pvalue_height = sct.shapiro(sample_height)
    pvalue_height =  W_and_pvalue_height[1]
    alpha = 0.05
    return bool(pvalue_height > alpha)
q1()

False

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Plote o qq-plot para essa variável e a analise.
* Existe algum nível de significância razoável que nos dê outro resultado no teste? (Não faça isso na prática. Isso é chamado _p-value hacking_, e não é legal).

## Questão 2

Repita o mesmo procedimento acima, mas agora utilizando o teste de normalidade de Jarque-Bera através da função `scipy.stats.jarque_bera()`. Agora podemos afirmar que as alturas são normalmente distribuídas (ao nível de significância de 5%)? Responda com um boolean (`True` ou `False`).

In [7]:
def q2():
    # Retorne aqui o resultado da questão 2.
    sample_height = get_sample(athletes, 'height', n=3000)
    JB_and_pvalue_height = sct.jarque_bera(sample_height)
    pvalue_height =  JB_and_pvalue_height[1]
    alpha = 0.05
    return bool(pvalue_height > alpha)
q2()

False

__Para refletir__:

* Esse resultado faz sentido?

## Questão 3

Considerando agora uma amostra de tamanho 3000 da coluna `weight` obtida com a função `get_sample()`. Faça o teste de normalidade de D'Agostino-Pearson utilizando a função `scipy.stats.normaltest()`. Podemos afirmar que os pesos vêm de uma distribuição normal ao nível de significância de 5%? Responda com um boolean (`True` ou `False`).

In [8]:
def q3():
    # Retorne aqui o resultado da questão 3.
    sample_weight = get_sample(athletes, 'weight', n=3000)
    T_and_pvalue_weight = sct.normaltest(sample_weight)
    pvalue_weight =  T_and_pvalue_weight[1]
    alpha = 0.05
    return bool(pvalue_weight > alpha)
q3()

False

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Um _box plot_ também poderia ajudar a entender a resposta.

## Questão 4

Realize uma transformação logarítmica em na amostra de `weight` da questão 3 e repita o mesmo procedimento. Podemos afirmar a normalidade da variável transformada ao nível de significância de 5%? Responda com um boolean (`True` ou `False`).

In [9]:
def q4():
    # Retorne aqui o resultado da questão 4.
    sample_weight = get_sample(athletes, 'weight', n=3000)
    log_s_weight = np.log(sample_weight)
    W_and_pvalue_weight = sct.normaltest(log_s_weight)
    pvalue_weight =  W_and_pvalue_weight[1]
    alpha = 0.05
    return bool(pvalue_weight > alpha)
q4()

False

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Você esperava um resultado diferente agora?

> __Para as questão 5 6 e 7 a seguir considere todos testes efetuados ao nível de significância de 5%__.

## Questão 5

Obtenha todos atletas brasileiros, norte-americanos e canadenses em `DataFrame`s chamados `bra`, `usa` e `can`,respectivamente. Realize um teste de hipóteses para comparação das médias das alturas (`height`) para amostras independentes e variâncias diferentes com a função `scipy.stats.ttest_ind()` entre `bra` e `usa`. Podemos afirmar que as médias são estatisticamente iguais? Responda com um boolean (`True` ou `False`).

In [10]:
def q5():
    # Retorne aqui o resultado da questão 5.
    bra = athletes.query('nationality == "BRA"')
    usa = athletes.query('nationality == "USA"')
    T_and_pvalue_BraUSA = sct.ttest_ind(bra.height, usa.height, equal_var = False, nan_policy = 'omit')
    pvalue_BraUSA = T_and_pvalue_BraUSA[1]
    alpha = 0.05
    return bool(pvalue_BraUSA > alpha)
q5()

False

## Questão 6

Repita o procedimento da questão 5, mas agora entre as alturas de `bra` e `can`. Podemos afimar agora que as médias são estatisticamente iguais? Reponda com um boolean (`True` ou `False`).

In [11]:
def q6():
    # Retorne aqui o resultado da questão 6.
    bra = athletes.query('nationality == "BRA"')
    can = athletes.query('nationality == "CAN"')
    T_and_pvalue_BraCAN = sct.ttest_ind(bra.height, can.height, equal_var = False, nan_policy = 'omit')
    pvalue_BraCAN = T_and_pvalue_BraCAN[1]
    alpha = 0.05
    return bool(pvalue_BraCAN > alpha)
q6()

True

## Questão 7

Repita o procedimento da questão 6, mas agora entre as alturas de `usa` e `can`. Qual o valor do p-valor retornado? Responda como um único escalar arredondado para oito casas decimais.

In [12]:
def q7():
    # Retorne aqui o resultado da questão 7.
    usa = athletes.query('nationality == "USA"')
    can = athletes.query('nationality == "CAN"')
    T_and_pvalue_USACan = sct.ttest_ind(usa.height, can.height, equal_var = False, nan_policy = 'omit')
    pvalue_USACan = T_and_pvalue_USACan[1]
    return round(float(pvalue_USACan), 8)
q7()

0.00046601

__Para refletir__:

* O resultado faz sentido?
* Você consegue interpretar esse p-valor?
* Você consegue chegar a esse valor de p-valor a partir da variável de estatística?