# Desafio 4

Neste desafio, vamos praticar um pouco sobre testes de hipóteses. Utilizaremos o _data set_ [2016 Olympics in Rio de Janeiro](https://www.kaggle.com/rio2016/olympic-games/), que contém dados sobre os atletas das Olimpíadas de 2016 no Rio de Janeiro.

Esse _data set_ conta com informações gerais sobre 11538 atletas como nome, nacionalidade, altura, peso e esporte praticado. Estaremos especialmente interessados nas variáveis numéricas altura (`height`) e peso (`weight`). As análises feitas aqui são parte de uma Análise Exploratória de Dados (EDA).

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns

  import pandas.util.testing as tm


In [2]:
%matplotlib inline

from IPython.core.pylabtools import figsize


figsize(12, 8)

sns.set()

In [4]:
athletes = pd.read_csv("https://raw.githubusercontent.com/flother/rio2016/master/athletes.csv")

In [5]:
def get_sample(df, col_name, n=100, seed=42):
    """Get a sample from a column of a dataframe.
    
    It drops any numpy.nan entries before sampling. The sampling
    is performed without replacement.
    
    Example of numpydoc for those who haven't seen yet.
    
    Parameters
    ----------
    df : pandas.DataFrame
        Source dataframe.
    col_name : str
        Name of the column to be sampled.
    n : int
        Sample size. Default is 100.
    seed : int
        Random seed. Default is 42.
    
    Returns
    -------
    pandas.Series
        Sample of size n from dataframe's column.
    """
    np.random.seed(seed)
    
    random_idx = np.random.choice(df[col_name].dropna().index, size=n, replace=False)
    
    return df.loc[random_idx, col_name]

## Inicia sua análise a partir daqui

In [6]:
# Sua análise começa aqui.
athletes.head()

Unnamed: 0,id,name,nationality,sex,date_of_birth,height,weight,sport,gold,silver,bronze,info
0,736041664,A Jesus Garcia,ESP,male,1969-10-17,1.72,64.0,athletics,0,0,0,
1,532037425,A Lam Shin,KOR,female,1986-09-23,1.68,56.0,fencing,0,0,0,
2,435962603,Aaron Brown,CAN,male,1992-05-27,1.98,79.0,athletics,0,0,1,
3,521041435,Aaron Cook,MDA,male,1991-01-02,1.83,80.0,taekwondo,0,0,0,
4,33922579,Aaron Gate,NZL,male,1990-11-26,1.81,71.0,cycling,0,0,0,


In [7]:
athletes.describe()

Unnamed: 0,id,height,weight,gold,silver,bronze
count,11538.0,11208.0,10879.0,11538.0,11538.0,11538.0
mean,499988500.0,1.76626,72.068205,0.057722,0.056769,0.061016
std,290864800.0,0.112656,16.177334,0.25591,0.239147,0.24332
min,18347.0,1.21,31.0,0.0,0.0,0.0
25%,245099700.0,1.69,60.0,0.0,0.0,0.0
50%,500201100.0,1.76,70.0,0.0,0.0,0.0
75%,753987400.0,1.84,81.0,0.0,0.0,0.0
max,999987800.0,2.18,170.0,5.0,2.0,2.0


In [10]:
athletes.isnull().sum()

id                   0
name                 0
nationality          0
sex                  0
date_of_birth        0
height             330
weight             659
sport                0
gold                 0
silver               0
bronze               0
info             11407
dtype: int64

## Questão 1

Considerando uma amostra de tamanho 3000 da coluna `height` obtida com a função `get_sample()`, execute o teste de normalidade de Shapiro-Wilk com a função `scipy.stats.shapiro()`. Podemos afirmar que as alturas são normalmente distribuídas com base nesse teste (ao nível de significância de 5%)? Responda com um boolean (`True` ou `False`).

In [17]:
def q1():
  athletes_height = get_sample(athletes,'height',3000)
  shapiro_test = sct.shapiro(athletes_height)
  shapiro_bool = shapiro_test[1] > 0.05
  return shapiro_bool

q1()

False

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Plote o qq-plot para essa variável e a analise.
* Existe algum nível de significância razoável que nos dê outro resultado no teste? (Não faça isso na prática. Isso é chamado _p-value hacking_, e não é legal).

## Questão 2

Repita o mesmo procedimento acima, mas agora utilizando o teste de normalidade de Jarque-Bera através da função `scipy.stats.jarque_bera()`. Agora podemos afirmar que as alturas são normalmente distribuídas (ao nível de significância de 5%)? Responda com um boolean (`True` ou `False`).

In [20]:
def q2():
  athletes_height = get_sample(athletes,'height',3000)
  jarque_test = sct.jarque_bera(athletes_height)
  jarque_bool = jarque_test[1] > 0.05
  return jarque_bool

q2()

False

__Para refletir__:

* Esse resultado faz sentido?

## Questão 3

Considerando agora uma amostra de tamanho 3000 da coluna `weight` obtida com a função `get_sample()`. Faça o teste de normalidade de D'Agostino-Pearson utilizando a função `scipy.stats.normaltest()`. Podemos afirmar que os pesos vêm de uma distribuição normal ao nível de significância de 5%? Responda com um boolean (`True` ou `False`).

In [22]:
def q3():
  athletes_weight = get_sample(athletes,'weight',3000)
  normaltest_weight = sct.normaltest(athletes_weight)
  normaltest_bool = normaltest_weight[1]>0.05
  return normaltest_bool

q3()

False

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Um _box plot_ também poderia ajudar a entender a resposta.

## Questão 4

Realize uma transformação logarítmica em na amostra de `weight` da questão 3 e repita o mesmo procedimento. Podemos afirmar a normalidade da variável transformada ao nível de significância de 5%? Responda com um boolean (`True` ou `False`).

In [26]:
def q4():
  log_weight = np.log(get_sample(athletes,'weight',3000))
  normaltest_weight = sct.normaltest(log_weight)
  normaltest_bool = normaltest_weight[1] > 0.05
  return normaltest_bool

q4()

False

__Para refletir__:

* Plote o histograma dessa variável (com, por exemplo, `bins=25`). A forma do gráfico e o resultado do teste são condizentes? Por que?
* Você esperava um resultado diferente agora?

> __Para as questão 5 6 e 7 a seguir considere todos testes efetuados ao nível de significância de 5%__.

In [39]:
brasil = athletes.query("nationality == 'BRA'")
usa = athletes.query("nationality == 'USA'")
canada = athletes.query("nationality == 'CAN'")

In [36]:
brasil.head()

79     1.82
106    1.87
109    1.70
114    1.84
128    1.66
Name: height, dtype: float64

In [33]:
usa.head()

Unnamed: 0,id,name,nationality,sex,date_of_birth,height,weight,sport,gold,silver,bronze,info
6,266237702,Aaron Russell,USA,male,1993-06-04,2.05,98.0,volleyball,0,0,1,
13,376068084,Abbey D'Agostino,USA,female,1992-05-25,1.61,49.0,athletics,0,0,0,
14,162792594,Abbey Weitzeil,USA,female,1996-12-03,1.78,68.0,aquatics,1,1,0,
64,884912136,Abigail Johnston,USA,female,1989-11-16,1.66,61.0,aquatics,0,0,0,
104,259002430,Adeline Maria Gray,USA,female,1991-01-15,1.73,77.0,wrestling,0,0,0,


In [34]:
canada.head()

Unnamed: 0,id,name,nationality,sex,date_of_birth,height,weight,sport,gold,silver,bronze,info
2,435962603,Aaron Brown,CAN,male,1992-05-27,1.98,79.0,athletics,0,0,1,
77,136977152,Adam Froese,CAN,male,1991-08-13,1.82,81.0,hockey,0,0,0,
92,983411298,Adam van Koeverden,CAN,male,1982-01-29,1.82,85.0,canoe,0,0,0,
238,769580282,Akeem Haynes,CAN,male,1992-03-11,1.68,71.0,athletics,0,0,1,
332,84230211,Alena Sharp,CAN,female,1981-03-07,1.68,69.0,golf,0,0,0,


## Questão 5

Obtenha todos atletas brasileiros, norte-americanos e canadenses em `DataFrame`s chamados `bra`, `usa` e `can`,respectivamente. Realize um teste de hipóteses para comparação das médias das alturas (`height`) para amostras independentes e variâncias diferentes com a função `scipy.stats.ttest_ind()` entre `bra` e `usa`. Podemos afirmar que as médias são estatisticamente iguais? Responda com um boolean (`True` ou `False`).

In [41]:
def q5():
  ttest_ind_bra_x_usa_test = sct.ttest_ind(brasil['height'],usa['height'])
  ttest_ind_bra_x_usa_bool = ttest_ind_bra_x_usa_test[1] > 0.05
  return ttest_ind_bra_x_usa_bool

q5()

False

## Questão 6

Repita o procedimento da questão 5, mas agora entre as alturas de `bra` e `can`. Podemos afimar agora que as médias são estatisticamente iguais? Reponda com um boolean (`True` ou `False`).

In [45]:
def q6():
  ttest_ind_bra_x_can_test = sct.ttest_ind(brasil['height'],canada['height'])
  ttest_ind_bra_x_can_bool = ttest_ind_bra_x_can_test[1] > 0.05
  return ttest_ind_bra_x_can_bool

q6()

False

## Questão 7

Repita o procedimento da questão 6, mas agora entre as alturas de `usa` e `can`. Qual o valor do p-valor retornado? Responda como um único escalar arredondado para oito casas decimais.

In [50]:
def q7():
  ttest_ind_usa_x_can_test = sct.ttest_ind(usa['height'],canada['height'])
  ttest_ind_usa_x_can_bool = ttest_ind_usa_x_can_test[1] > 0.05
  return ttest_ind_usa_x_can_bool

q7()

False

__Para refletir__:

* O resultado faz sentido?
* Você consegue interpretar esse p-valor?
* Você consegue chegar a esse valor de p-valor a partir da variável de estatística?