# Desafio 4

Neste desafio, vamos praticar um pouco sobre testes de hipóteses. Utilizaremos o _data set_ [2016 Olympics in Rio de Janeiro](https://www.kaggle.com/rio2016/olympic-games/), que contém dados sobre os atletas das Olimpíadas de 2016 no Rio de Janeiro.

Esse _data set_ conta com informações gerais sobre 11538 atletas como nome, nacionalidade, altura, peso e esporte praticado. Estaremos especialmente interessados nas variáveis numéricas altura (`height`) e peso (`weight`). As análises feitas aqui são parte de uma Análise Exploratória de Dados (EDA).

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns

In [3]:
# %matplotlib inline

from IPython.core.pylabtools import figsize


figsize(12, 8)

sns.set()

In [4]:
athletes = pd.read_csv("athletes.csv")

In [5]:
def get_sample(df, col_name, n=100, seed=42):
    """Get a sample from a column of a dataframe.
    
    It drops any numpy.nan entries before sampling. The sampling
    is performed without replacement.
    
    Example of numpydoc for those who haven't seen yet.
    
    Parameters
    ----------
    df : pandas.DataFrame
        Source dataframe.
    col_name : str
        Name of the column to be sampled.
    n : int
        Sample size. Default is 100.
    seed : int
        Random seed. Default is 42.
    
    Returns
    -------
    pandas.Series
        Sample of size n from dataframe's column.
    """
    np.random.seed(seed)
    
    random_idx = np.random.choice(df[col_name].dropna().index, size=n, replace=False)
    
    return df.loc[random_idx, col_name]

## Inicia sua análise a partir daqui

In [144]:
# Sua análise começa aqui.
nanf = athletes.query("height != height") 
nanf.query("nationality == 'BRA' | nationality == 'USA'| nationality == 'CAM'")

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
1701,100675394,Cale Simmons,USA,male,2/5/91,,,athletics,0,0,0
2512,996704082,Deajah Stevens,USA,female,5/19/95,,,athletics,0,0,0
3334,426841600,Felipe AMARAL,BRA,male,10/9/90,,,equestrian,0,0,0
3341,619195032,Felipe Carmo,BRA,male,3/12/97,,,football,0,0,0
3392,201491381,Fernando Prass,BRA,male,7/9/78,,,football,0,0,0
3855,833430291,Gustavo Vernes,BRA,male,3/24/93,,,football,0,0,0
4334,22127464,Inika McPherson,USA,female,9/29/86,,,athletics,0,0,0
4715,344886355,Jean Paulo Fernandes Filho,BRA,male,10/26/95,,,football,0,0,0
6155,237908464,Lexi Weeks,USA,female,11/20/96,,,athletics,0,0,0
6866,267541302,Mariana Ramalho,BRA,female,8/17/87,,,rugby sevens,0,0,0


## Questão 1

Considerando uma amostra de tamanho 3000 da coluna `height` obtida com a função `get_sample()`, execute o teste de normalidade de Shapiro-Wilk com a função `scipy.stats.shapiro()`. Podemos afirmar que as alturas são normalmente distribuídas com base nesse teste (ao nível de significância de 5%)? Responda com um boolean (`True` ou `False`).

In [7]:
def q1():
    # Retorne aqui o resultado da questão 1.
    weight_samples = get_sample(athletes, "weight", 3000)
    shapiro_test = sct.shapiro(weight_samples)
    return bool(shapiro_test[1] >= 0.05)
q1()

False

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Plote o qq-plot para essa variável e a analise.
* Existe algum nível de significância razoável que nos dê outro resultado no teste? (Não faça isso na prática. Isso é chamado _p-value hacking_, e não é legal).

## Questão 2

Repita o mesmo procedimento acima, mas agora utilizando o teste de normalidade de Jarque-Bera através da função `scipy.stats.jarque_bera()`. Agora podemos afirmar que as alturas são normalmente distribuídas (ao nível de significância de 5%)? Responda com um boolean (`True` ou `False`).

In [8]:
def q2():
    # Retorne aqui o resultado da questão 2.
    weight_samples = get_sample(athletes, "weight", 3000)
    jarqueBera_test = sct.jarque_bera(weight_samples)
    return bool(jarqueBera_test[1] >= 0.5)
q2()

False

__Para refletir__:

* Esse resultado faz sentido?

## Questão 3

Considerando agora uma amostra de tamanho 3000 da coluna `weight` obtida com a função `get_sample()`. Faça o teste de normalidade de D'Agostino-Pearson utilizando a função `scipy.stats.normaltest()`. Podemos afirmar que os pesos vêm de uma distribuição normal ao nível de significância de 5%? Responda com um boolean (`True` ou `False`).

In [9]:
def q3():
    # Retorne aqui o resultado da questão 3.
    weight_samples = get_sample(athletes, "weight", 3000)
    dAgostino_test = sct.normaltest(weight_samples)
    return bool(dAgostino_test.pvalue >= 0.05)
q3()

False

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Um _box plot_ também poderia ajudar a entender a resposta.

## Questão 4

Realize uma transformação logarítmica em na amostra de `weight` da questão 3 e repita o mesmo procedimento. Podemos afirmar a normalidade da variável transformada ao nível de significância de 5%? Responda com um boolean (`True` ou `False`).

In [10]:
def q4():
    # Retorne aqui o resultado da questão 4.
    weight_samples = get_sample(athletes, "weight", 3000)
    weight_samples_log = np.log(weight_samples)
    dAgostino_test = sct.normaltest(weight_samples)
    return bool(dAgostino_test.pvalue >= 0.05)
q4()

False

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Você esperava um resultado diferente agora?

> __Para as questão 5 6 e 7 a seguir considere todos testes efetuados ao nível de significância de 5%__.

## Questão 5

Obtenha todos atletas brasileiros, norte-americanos e canadenses em `DataFrame`s chamados `bra`, `usa` e `can`,respectivamente. Realize um teste de hipóteses para comparação das médias das alturas (`height`) para amostras independentes e variâncias diferentes com a função `scipy.stats.ttest_ind()` entre `bra` e `usa`. Podemos afirmar que as médias são estatisticamente iguais? Responda com um boolean (`True` ou `False`).

In [136]:
bra = athletes.query("nationality == 'BRA'")
usa = athletes.query("nationality == 'USA'")
can = athletes.query("nationality == 'CAN'")

bra.shape[0], usa.shape[0], can.shape[0]

(485, 567, 321)

In [145]:
bra_s = get_sample(bra, "height")
usa_s = get_sample(usa, "height")
can_s = get_sample(can, "height")

print(f"""BRA - Mean: {bra_s.mean():.3}, Variance: {bra_s.var():.3}
USA - Mean: {usa_s.mean():.3}, Variance: {usa_s.var():.3}
CAN - Mean: {can_s.mean():.3}, Variance: {can_s.var():.3}""")

BRA - Mean: 1.75, Variance: 0.0163
USA - Mean: 1.79, Variance: 0.0108
CAN - Mean: 1.75, Variance: 0.0146


In [156]:
(bra_s.isna()*1).sum(), (usa_s.isna()*1).sum(), (can_s.isna()*1).sum()

(0, 0, 0)

In [138]:
def q5():
    # Retorne aqui o resultado da questão 5.
    ttest_bra_usa = sct.ttest_ind(bra_s, usa_s, equal_var=False)
    return bool(ttest_bra_usa.pvalue >= 0.05)
q5()

False

## Questão 6

Repita o procedimento da questão 5, mas agora entre as alturas de `bra` e `can`. Podemos afimar agora que as médias são estatisticamente iguais? Reponda com um boolean (`True` ou `False`).

In [133]:
def q6():
    # Retorne aqui o resultado da questão 6.
    ttest_bra_can = sct.ttest_ind(bra_s, can_s, equal_var=False)
    return bool(ttest_bra_can.pvalue >= 0.05)
q6()

True

## Questão 7

Repita o procedimento da questão 6, mas agora entre as alturas de `usa` e `can`. Qual o valor do p-valor retornado? Responda como um único escalar arredondado para oito casas decimais.

In [163]:
def q7():
    # Retorne aqui o resultado da questão 7.
    ttest_usa_can = sct.ttest_ind(usa.height, can.height, equal_var=False, nan_policy="omit")
    return float(round(ttest_usa_can.pvalue, 8))
q7()

0.00046601

__Para refletir__:

* O resultado faz sentido?
* Você consegue interpretar esse p-valor?
* Você consegue chegar a esse valor de p-valor a partir da variável de estatística?