# Desafio 4

Neste desafio, vamos praticar um pouco sobre testes de hipóteses. Utilizaremos o _data set_ [2016 Olympics in Rio de Janeiro](https://www.kaggle.com/rio2016/olympic-games/), que contém dados sobre os atletas das Olimpíadas de 2016 no Rio de Janeiro.

Esse _data set_ conta com informações gerais sobre 11538 atletas como nome, nacionalidade, altura, peso e esporte praticado. Estaremos especialmente interessados nas variáveis numéricas altura (`height`) e peso (`weight`). As análises feitas aqui são parte de uma Análise Exploratória de Dados (EDA).

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns

In [3]:
'''%matplotlib inline

from IPython.core.pylabtools import figsize


figsize(12, 8)

sns.set()'''

'%matplotlib inline\n\nfrom IPython.core.pylabtools import figsize\n\n\nfigsize(12, 8)\n\nsns.set()'

In [4]:
athletes = pd.read_csv("athletes.csv")

In [5]:
def get_sample(df, col_name, n=100, seed=42):
    """Get a sample from a column of a dataframe.
    
    It drops any numpy.nan entries before sampling. The sampling
    is performed without replacement.
    
    Example of numpydoc for those who haven't seen yet.
    
    Parameters
    ----------
    df : pandas.DataFrame
        Source dataframe.
    col_name : str
        Name of the column to be sampled.
    n : int
        Sample size. Default is 100.
    seed : int
        Random seed. Default is 42.
    
    Returns
    -------
    pandas.Series
        Sample of size n from dataframe's column.
    """
    np.random.seed(seed)
    
    random_idx = np.random.choice(df[col_name].dropna().index, size=n, replace=False)
    
    return df.loc[random_idx, col_name]

## Inicia sua análise a partir daqui

In [6]:
athletes.columns

Index(['id', 'name', 'nationality', 'sex', 'dob', 'height', 'weight', 'sport',
       'gold', 'silver', 'bronze'],
      dtype='object')

In [7]:
nacionalidade = athletes['nationality']
print(nacionalidade)

0        ESP
1        KOR
2        CAN
3        MDA
4        NZL
5        AUS
6        USA
7        AUS
8        ESP
9        ETH
10       ETH
11       BRN
12       IOA
13       USA
14       USA
15       GBR
16       UZB
17       RSA
18       NZL
19       EGY
20       MAR
21       QAT
22       SUD
23       EGY
24       MAR
25       ESP
26       SUD
27       ALG
28       ALG
29       ALG
        ... 
11508    AUS
11509    GBR
11510    NZL
11511    GBR
11512    ISR
11513    ALG
11514    MAR
11515    GRE
11516    UZB
11517    HUN
11518    HUN
11519    SRB
11520    BRN
11521    CIV
11522    KAZ
11523    HUN
11524    HUN
11525    HUN
11526    HUN
11527    HUN
11528    HUN
11529    HUN
11530    HUN
11531    GEO
11532    GEO
11533    CUB
11534    CZE
11535    CHN
11536    VIE
11537    RSA
Name: nationality, Length: 11538, dtype: object


In [8]:
athletes.isna().sum()

id               0
name             0
nationality      0
sex              0
dob              1
height         330
weight         659
sport            0
gold             0
silver           0
bronze           0
dtype: int64

In [9]:
altura = athletes['height']

In [10]:
peso = athletes['weight']

In [11]:
altura

0        1.72
1        1.68
2        1.98
3        1.83
4        1.81
5        1.80
6        2.05
7        1.93
8        1.80
9        1.65
10       1.70
11       1.75
12        NaN
13       1.61
14       1.78
15       1.76
16       1.61
17       1.75
18       1.75
19       2.10
20       1.73
21       1.85
22       1.77
23       1.76
24       1.90
25       1.75
26       1.81
27       1.85
28       1.86
29       1.86
         ... 
11508    1.68
11509    1.76
11510    1.83
11511    1.72
11512    1.78
11513    1.78
11514    1.65
11515    1.65
11516    1.68
11517    1.84
11518    2.04
11519    1.68
11520    1.75
11521    1.75
11522    1.65
11523    1.75
11524    1.64
11525    1.64
11526    1.70
11527    1.80
11528    1.58
11529    1.95
11530    1.85
11531    1.83
11532    1.71
11533    1.64
11534    1.73
11535    1.85
11536    1.60
11537    1.85
Name: height, Length: 11538, dtype: float64

In [12]:
peso

0         64.0
1         56.0
2         79.0
3         80.0
4         71.0
5         67.0
6         98.0
7        100.0
8         62.0
9         54.0
10        63.0
11        66.0
12         NaN
13        49.0
14        68.0
15        71.0
16        57.0
17        64.0
18        68.0
19        88.0
20        57.0
21        80.0
22        65.0
23        80.0
24        72.0
25        67.0
26        72.0
27        75.0
28         NaN
29        70.0
         ...  
11508     50.0
11509     70.0
11510     74.0
11511     58.0
11512     61.0
11513      NaN
11514      NaN
11515     47.0
11516     61.0
11517      NaN
11518    132.0
11519     90.0
11520     69.0
11521     57.0
11522     67.0
11523     80.0
11524     89.0
11525     53.0
11526     54.0
11527     58.0
11528     49.0
11529     95.0
11530     70.0
11531     75.0
11532     68.0
11533     58.0
11534     63.0
11535    100.0
11536     56.0
11537     70.0
Name: weight, Length: 11538, dtype: float64

In [13]:
#amostra aleatória de tamanho 3000
amostra = get_sample(athletes, 'height', 3000, 42)
print(amostra.count())

3000


## Questão 1

Considerando uma amostra de tamanho 3000 da coluna `height` obtida com a função `get_sample()`, execute o teste de normalidade de Shapiro-Wilk com a função `scipy.stats.shapiro()`. Podemos afirmar que as alturas são normalmente distribuídas com base nesse teste (ao nível de significância de 5%)? Responda com um boolean (`True` ou `False`).

In [14]:
def q1():
    # Retorne aqui o resultado da questão 1.    
    #teste de normalidade shapiro-wilk
    teste_shapiro = sct.shapiro(amostra) #retorno da função do shapiro = (estatística de teste, p-valor)
    print(teste_shapiro)
    
    #Para afirmar ou refutar se as alturas são distribuídas normalmente com nível de significancia 5%(alpha)
    alpha = 0.05
    p_valor = teste_shapiro[1]
    print('Valor do p-valor=', p_valor)
    
    if p_valor > alpha:
        return True
    else:
        return False
    
    pass

In [15]:
q1()

(0.9961519837379456, 5.681722541339695e-07)
Valor do p-valor= 5.681722541339695e-07


False

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Plote o qq-plot para essa variável e a analise.
* Existe algum nível de significância razoável que nos dê outro resultado no teste? (Não faça isso na prática. Isso é chamado _p-value hacking_, e não é legal).

## Questão 2

Repita o mesmo procedimento acima, mas agora utilizando o teste de normalidade de Jarque-Bera através da função `scipy.stats.jarque_bera()`. Agora podemos afirmar que as alturas são normalmente distribuídas (ao nível de significância de 5%)? Responda com um boolean (`True` ou `False`).

In [16]:
def q2():
    # Retorne aqui o resultado da questão 2.
    #teste de normalidade shapiro-wilk
    teste_jarque = sct.jarque_bera(amostra) #retorno da função do jaruqe = (estatística de teste, p-valor)
    print(teste_jarque)
    
    #Para afirmar ou refutar se as alturas são distribuídas normalmente com nível de significancia 5%(alpha)
    alpha = 0.05
    p_valor = teste_jarque[1]
    print('Valor do p-valor=', p_valor)
    
    if p_valor > alpha:
        return True
    else:
        return False
    pass

In [17]:
q2()

(13.03363513594265, 0.001478366424594868)
Valor do p-valor= 0.001478366424594868


False

__Para refletir__:

* Esse resultado faz sentido?

In [18]:
amostra_2 = get_sample(athletes, 'weight', 3000, 42)

## Questão 3

Considerando agora uma amostra de tamanho 3000 da coluna `weight` obtida com a função `get_sample()`. Faça o teste de normalidade de D'Agostino-Pearson utilizando a função `scipy.stats.normaltest()`. Podemos afirmar que os pesos vêm de uma distribuição normal ao nível de significância de 5%? Responda com um boolean (`True` ou `False`).

In [19]:
def q3():
    # Retorne aqui o resultado da questão 3.
    #teste de normalidade shapiro-wilk
    teste_agostino = sct.normaltest(amostra_2) #retorno da função do d'agostino-pearson =
    # = (estatística de teste, p-valor)
    print(teste_agostino)
    
    #Para afirmar ou refutar se as alturas são distribuídas normalmente com nível de significancia 5%(alpha)
    alpha = 0.05
    p_valor = teste_agostino[1]
    print('Valor do p-valor=', p_valor)
    
    if p_valor > alpha:
        return True
    else:
        return False
    pass

In [20]:
q3()

NormaltestResult(statistic=510.24655809881176, pvalue=1.5898922918029537e-111)
Valor do p-valor= 1.5898922918029537e-111


False

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Um _box plot_ também poderia ajudar a entender a resposta.

## Questão 4

Realize uma transformação logarítmica em na amostra de `weight` da questão 3 e repita o mesmo procedimento. Podemos afirmar a normalidade da variável transformada ao nível de significância de 5%? Responda com um boolean (`True` ou `False`).

In [30]:
def q4():
    # Retorne aqui o resultado da questão 4.
    amostra_log = np.log(amostra) #função que realiza transformação logarítmica
    
    teste_agostino = sct.normaltest(amostra_log) #retorno da função do d'agostino-pearson =
    # = (estatística de teste, p-valor)
    print(teste_agostino)
    
    #Para afirmar ou refutar se as alturas são distribuídas normalmente com nível de significancia 5%(alpha)
    alpha = 0.05
    p_valor = teste_agostino[1]
    print('Valor do p-valor=', p_valor)
    
    if p_valor > alpha:
        return True
    else:
        return False
    
    pass

In [31]:
q4()

NormaltestResult(statistic=0.4945127034081015, pvalue=0.7809404724480906)
Valor do p-valor= 0.7809404724480906


True

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Você esperava um resultado diferente agora?

> __Para as questão 5 6 e 7 a seguir considere todos testes efetuados ao nível de significância de 5%__.

## Questão 5

Obtenha todos atletas brasileiros, norte-americanos e canadenses em `DataFrame`s chamados `bra`, `usa` e `can`,respectivamente. Realize um teste de hipóteses para comparação das médias das alturas (`height`) para amostras independentes e variâncias diferentes com a função `scipy.stats.ttest_ind()` entre `bra` e `usa`. Podemos afirmar que as médias são estatisticamente iguais? Responda com um boolean (`True` ou `False`).

In [23]:
bra = athletes[(athletes['nationality'] == "BRA")] 
usa = athletes[(athletes['nationality'] == "USA")] 
can = athletes[(athletes['nationality'] == "CAN")] 

In [24]:
def q5():
    # Retorne aqui o resultado da questão 5.
    teste_hip = sct.ttest_ind(bra['height'], usa['height'], equal_var = False, nan_policy='omit')
    #retorno da função ttest_ind é (estatística, pvalor)
    print(teste_hip)
    
    alpha = 0.05
    p_valor = teste_hip[1]
    print('Valor do p-valor=', p_valor)
    
    if p_valor > alpha:
        return True
    else:
        return False
    
    pass

In [25]:
q5()

Ttest_indResult(statistic=-3.2232436467501855, pvalue=0.0013080041830140115)
Valor do p-valor= 0.0013080041830140115


False

## Questão 6

Repita o procedimento da questão 5, mas agora entre as alturas de `bra` e `can`. Podemos afimar agora que as médias são estatisticamente iguais? Reponda com um boolean (`True` ou `False`).

In [26]:
def q6():
    # Retorne aqui o resultado da questão 6.
    
    teste_hip = sct.ttest_ind(bra['height'], can['height'], equal_var = False, nan_policy='omit')
    #retorno da função ttest_ind é (estatística, pvalor)
    print(teste_hip)
    
    alpha = 0.05
    p_valor = teste_hip[1]
    print('Valor do p-valor=', p_valor)
    
    if p_valor > alpha:
        return True
    else:
        return False
    pass

In [27]:
q6()

Ttest_indResult(statistic=0.6389304914365109, pvalue=0.5230827295440921)
Valor do p-valor= 0.5230827295440921


True

## Questão 7

Repita o procedimento da questão 6, mas agora entre as alturas de `usa` e `can`. Qual o valor do p-valor retornado? Responda como um único escalar arredondado para oito casas decimais.

In [28]:
def q7():
    # Retorne aqui o resultado da questão 7.
    teste_hip = sct.ttest_ind(usa['height'], can['height'], equal_var = False, nan_policy='omit')
    #retorno da função ttest_ind é (estatística, pvalor)
    print(teste_hip)
    
    p_valor = teste_hip[1]
    print('Valor do p-valor=', p_valor)
    return float(round(p_valor, 8))
    
    pass

In [29]:
q7()

Ttest_indResult(statistic=3.516987632488539, pvalue=0.0004660129347389851)
Valor do p-valor= 0.0004660129347389851


0.00046601

__Para refletir__:

* O resultado faz sentido?
* Você consegue interpretar esse p-valor?
* Você consegue chegar a esse valor de p-valor a partir da variável de estatística?