# Desafio 4

Neste desafio, vamos praticar um pouco sobre testes de hipóteses. Utilizaremos o _data set_ [2016 Olympics in Rio de Janeiro](https://www.kaggle.com/rio2016/olympic-games/), que contém dados sobre os atletas das Olimpíadas de 2016 no Rio de Janeiro.

Esse _data set_ conta com informações gerais sobre 11538 atletas como nome, nacionalidade, altura, peso e esporte praticado. Estaremos especialmente interessados nas variáveis numéricas altura (`height`) e peso (`weight`). As análises feitas aqui são parte de uma Análise Exploratória de Dados (EDA).

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [246]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns
import random

In [247]:
#%matplotlib inline

from IPython.core.pylabtools import figsize


figsize(12, 8)

sns.set()

In [248]:
athletes = pd.read_csv("athletes.csv")

In [249]:
def get_sample(df, col_name, n=100, seed=42):
    """Get a sample from a column of a dataframe.
    
    It drops any numpy.nan entries before sampling. The sampling
    is performed without replacement.
    
    Example of numpydoc for those who haven't seen yet.
    
    Parameters
    ----------
    df : pandas.DataFrame
        Source dataframe.
    col_name : str
        Name of the column to be sampled.
    n : int
        Sample size. Default is 100.
    seed : int
        Random seed. Default is 42.
    
    Returns
    -------
    pandas.Series
        Sample of size n from dataframe's column.
    """
    np.random.seed(seed)
    
    random_idx = np.random.choice(df[col_name].dropna().index, size=n, replace=False)
    
    return df.loc[random_idx, col_name]

## Inicia sua análise a partir daqui

In [250]:
# Sua análise começa aqui.
athletes.head()

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,A Jesus Garcia,ESP,male,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,A Lam Shin,KOR,female,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,Aaron Brown,CAN,male,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,Aaron Cook,MDA,male,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,Aaron Gate,NZL,male,11/26/90,1.81,71.0,cycling,0,0,0


## Questão 1

Considerando uma amostra de tamanho 3000 da coluna `height` obtida com a função `get_sample()`, execute o teste de normalidade de Shapiro-Wilk com a função `scipy.stats.shapiro()`. Podemos afirmar que as alturas são normalmente distribuídas com base nesse teste (ao nível de significância de 5%)? Responda com um boolean (`True` ou `False`).

In [251]:
def q1():
    # Criando uma variavel apenas com a coluna height
    height = athletes['height']
    
    # Eliminando os NaN da coluna
    height = height.dropna()
    
    # Estipulando um valor fixo de semente para numeros aleatorios
    np.random.seed(seed=20)
    
    # Salvando em outra variavel uma amostra de 3000 elementos da variavel height
    sampled_height = height.sample(n = 3000)
    
    # Aplicando o teste de normalidade Shapiro Wilk. 
    Shapiro_Wilk = sct.shapiro(sampled_height)
    
    # Salvando o p-valor
    pvalue = sct.shapiro(sampled_height)[1]
    
    # Criando uma condição que verifica se as amostras de altura estão normalmente distribuidas considerando um nível de significancia de 5%
    if pvalue <= 0.05:
        return False
    else:
        return True
    
    

In [252]:
q1()

False

## Questão 2

Repita o mesmo procedimento acima, mas agora utilizando o teste de normalidade de Jarque-Bera através da função `scipy.stats.jarque_bera()`. Agora podemos afirmar que as alturas são normalmente distribuídas (ao nível de significância de 5%)? Responda com um boolean (`True` ou `False`).

In [253]:
def q2():
    # Criando uma variavel apenas com a coluna height
    height = athletes['height']
    
    # Eliminando os NaN da coluna
    height = height.dropna()
    
    # Estipulando um multiplicador fixo de sementes para numeros aleatorios
    np.random.seed(seed=20)
    
    # Salvando em outra variavel uma amostra de 3000 elementos da variavel height
    sampled_height = height.sample(n = 3000)
    
    # Realizando o teste Jarque-Bera e passando o resultado para outra variável
    Jarque_Bera = sct.jarque_bera(sampled_height)
    
    # Salvando o p-valor
    pvalue = sct.jarque_bera(sampled_height)[1]
    
    # Criando uma condição que verifica se as amostras de altura estão normalmente distribuida considerando um nível de significancia de 5%
    if pvalue <= 0.05:
        return False
    else:
        return True

In [254]:
q2()

False

## Questão 3

Considerando agora uma amostra de tamanho 3000 da coluna `weight` obtida com a função `get_sample()`. Faça o teste de normalidade de D'Agostino-Pearson utilizando a função `scipy.stats.normaltest()`. Podemos afirmar que os pesos vêm de uma distribuição normal ao nível de significância de 5%? Responda com um boolean (`True` ou `False`).

In [255]:
def q3():
    # Criando uma variavel apenas com a coluna height
    weight = athletes['weight']

    # Eliminando os NaN da coluna
    weight = weight.dropna()
    
    # Estipulando um multiplicador fixo de sementes para numeros aleatorios
    np.random.seed(seed=20)
    
    # Salvando em outra variavel uma amostra de 3000 elementos da variavel height
    sampled_weight = weight.sample(n = 3000)

    # Realizando o teste Pearson normaltest
    Pearson_test = sct.normaltest(sampled_weight)
    
    # Salvando o p-valor
    pvalue = sct.normaltest(sampled_weight)[1]

    # Verificando se os pesos vêm de uma distribuição normal considerando um nível de significancia de 5%
    if pvalue <= 0.05:
        return False
    else:
        return True

In [256]:
q3()

False

## Questão 4

Realize uma transformação logarítmica em na amostra de `weight` da questão 3 e repita o mesmo procedimento. Podemos afirmar a normalidade da variável transformada ao nível de significância de 5%? Responda com um boolean (`True` ou `False`).

In [333]:
def q4():
    # Criando uma variavel apenas com a coluna height
    weight = athletes['weight']

    # Eliminando os NaN da coluna
    weight = weight.dropna()
    
    # Salvando em outra variavel uma amostra de 3000 elementos da variavel height
    sampled_weight = weight.sample(n = 3000)
    
    # Realizando a transformação logarítmica da amostra weight
    sampled_weight_log = np.log(sampled_weight)

    # Realizando o teste Pearson normaltest
    Pearson_test_log = sct.normaltest(sampled_weight_log)
    
    # Salvando o p-valor
    Pvalue = sct.normaltest(sampled_weight_log)[1]

    # Verificando se os pesos vêm de uma distribuição normal considerando um nível de significancia de 5%
    if Pvalue <= 0.05:
        return False
    else:
        return True

In [258]:
q4()

False

> __Para as questão 5 6 e 7 a seguir considere todos testes efetuados ao nível de significância de 5%__.

## Questão 5

Obtenha todos atletas brasileiros, norte-americanos e canadenses em `DataFrame`s chamados `bra`, `usa` e `can`,respectivamente. Realize um teste de hipóteses para comparação das médias das alturas (`height`) para amostras independentes e variâncias diferentes com a função `scipy.stats.ttest_ind()` entre `bra` e `usa`. Podemos afirmar que as médias são estatisticamente iguais? Responda com um boolean (`True` ou `False`).

In [259]:
def q5():
   # Separando as variaveis
    bra = athletes[(athletes.nationality == 'BRA')]
    usa = athletes[(athletes.nationality == 'USA')]

    # Calculando media e desvio padrao de bra e usa
    bra_mean = bra.height.mean()
    usa_mean = usa.height.mean()
    bra_std = bra.height.std()
    usa_std = usa.height.std()
    
    # Estipulando um valor fixo de semente para numeros aleatorios
    np.random.seed(seed=20)

    # Realizando o ttest para comparar médias
    rvs_bra = sct.norm.rvs(loc=bra_mean,scale=bra_std,size=500)
    rvs_usa = sct.norm.rvs(loc=usa_mean,scale=usa_std,size=500)
    sct.ttest_ind(rvs_bra,rvs_usa, equal_var= False)
    
    # Salvando o p-valor
    pvalue = sct.ttest_ind(rvs_bra,rvs_usa, equal_var= False)[1]  
    
    # Verificando se as médias são estatisticamente iguais
    if pvalue <= 0.05:
         return False
    else:
        return True

In [260]:
q5()

False

## Questão 6

Repita o procedimento da questão 5, mas agora entre as alturas de `bra` e `can`. Podemos afimar agora que as médias são estatisticamente iguais? Reponda com um boolean (`True` ou `False`).

In [261]:
def q6():
    # Separando as variaveis
    bra = athletes[(athletes.nationality == 'BRA')]
    can = athletes[(athletes.nationality == 'CAN')]

    # Calculando media e desvio padrao de bra e can
    bra_mean = bra.height.mean()
    can_mean = can.height.mean()
    bra_std = bra.height.std()
    can_std = can.height.std()
    
    # Estipulando um valor fixo de semente para numeros aleatorios
    np.random.seed(seed=20)

    # Realizando o ttest para comparar médias
    rvs_bra = sct.norm.rvs(loc=bra_mean,scale=bra_std,size=500)
    rvs_can = sct.norm.rvs(loc=can_mean,scale=can_std,size=500)
    sct.ttest_ind(rvs_bra,rvs_can, equal_var= False)
    
    # Salvando o p-valor
    pvalue = sct.ttest_ind(rvs_bra,rvs_can, equal_var= False)[1]

    # Verificando se as médias são estatisticamente iguais
    if pvalue <= 0.05:
        return False
    else:
        return True 

In [262]:
q6()

True

## Questão 7

Repita o procedimento da questão 6, mas agora entre as alturas de `usa` e `can`. Qual o valor do p-valor retornado? Responda como um único escalar arredondado para oito casas decimais.

In [326]:
def q7():
    # Separando as variaveis
    usa = athletes[(athletes.nationality == 'USA')]
    can = athletes[(athletes.nationality == 'CAN')]

    # Calculando direto o p-valor
    pvalue = sct.ttest_ind(usa["height"], can["height"], equal_var=False, nan_policy="omit")[1]
    pvalue = float(pvalue)
    return round(pvalue,8)


In [327]:
q7()

0.00046601