<font size="10" color="black">Teste de Hipótese</font>

Eduardo Chaves Ferreira

## O que será tratado no curso

Teste de hipótese

## Importação de bibliotecas usadas nos exemplos

In [None]:
'''
As bibliotecas usadas são:
random
statistic
numpy.random
scipy.stats
pandas
matplotlib
statsmodels
pandas-profiling
'''

import numpy as np
import matplotlib.pyplot as plt
import math
import random
import pandas as pd
import scipy.stats as stat

import os

path = os.environ['PATH']

if path.startswith('C'):
    IN_KAGGLE = False
else:
    IN_KAGGLE = True

## Mantendo a reprodutibilidade dos resultados

Antes da geração de números aleatórios é importante inicializar o gerador de números para que os resultados sejam os mesmos

In [None]:
# Para uso com funções da biblioteca standard (ex random.randint)
random.seed(1)
# Para uso com funções da biblioteca numpy (ex np.random.randint)
np.random.seed(1)

# Quando for passada como parâmetro a seed
random_state = 1

## Funções gerais usadas nos exemplos

In [None]:
# Permutação: possibilidades de colocação de n objetos em n posições = n!
def permutacao (n):
    return math.factorial(n)

# Arranjo: p objetos em n posições, ordem importa = n!/(n-p)!
def arranjo (n,p):
    return math.factorial(n)/math.factorial(n-p)

# Combinação: p objetos em n posições, ordem não importa = n!/(n-p)!p!
def combinacao (n,p):
    return math.factorial(n)/(math.factorial(n-p)*math.factorial(p))

# Variações possíveis havendo n slots e p possibilidades para cada um
def possibilidades(n,p):
    return p**n

In [None]:
from scipy.stats import norm

mean = 0
std = 1
rv = norm(loc=mean, scale=std)
print('Desvios que englobam 95% dos pontos {}'.format(rv.interval(0.95)    ))
#ponto = 1.959963984540054
ponto = 1.092
print('Probabilidade de ter um ponto além de {} desvios {}'.format(ponto,rv.sf(ponto)))

print('Probabilidade de ter um ponto além ou aquem de {} desvios {}'.format(ponto,2*rv.sf(ponto)))

In [None]:
from scipy.stats import norm

# desvios que contêm 95% dos pontos
mean = 0
std = 1
rvt = t(df=(100-1))
print('Desvios que englobam 95% dos pontos {}'.format(rvt.interval(0.95)    ))
#ponto = 1.959963984540054
ponto = 1.092
print('Probabilidade de ter um ponto além de {} desvios {}'.format(ponto,rvt.sf(ponto)))

print('Probabilidade de ter um ponto além ou aquem de {} desvios {}'.format(ponto,2*rvt.sf(ponto)))



In [None]:
#A população é normal com média 0 e desvio 1
#Criando amostra com 100 elementos

import numpy as np
from scipy.stats import t

amostra = rv.rvs(size=100)
#Cria a distribuição das amostras
desvio_distribuicao_amostras = std/np.sqrt(100)
dist_amostras = norm(loc=mean, scale=desvio_distribuicao_amostras)
dist_amostras_t = t(100-1,loc=mean, scale=desvio_distribuicao_amostras)

media_amostra = amostra.mean()

numero_desvios_amostra = np.abs( (media_amostra-0)/desvio_distribuicao_amostras )

print('Media {} numero_desvios_amostra {} amostra'.format(media_amostra,
                                                                    numero_desvios_amostra))

In [None]:
print('Probabilidade de ter um ponto além ou aquem de numero_desvios_amostra {}'.format(
    2*rv.sf(numero_desvios_amostra)))

In [None]:
print('Probabilidade de ter um ponto além ou aquem de numero_desvios_amostra {}'.format(
    2*rvt.sf(numero_desvios_amostra)))

In [None]:
from scipy import stats

# Two sided
stats.ttest_1samp(amostra,0)


<font size="6" color="red">Teste de Hipótese</font>

Fonte: https://machinelearningmastery.com/statistical-hypothesis-tests-in-python-cheat-sheet/

O teste de hipótese refere-se à comparação entre uma hipótese nula (H0) e uma hipótese alternativa (H1).

Queremos garantir que, dado que H0 esteja correta, a probabilidade de aceitar H1 seja reduzida, normalmente fixada em 0,05 ou 0,01. A esse valor chamamos p value (nível de significância).

Não rejeitamos H0 quando p>0.05. Rejeitamos H0 quando p<=0.05. Veja que não rejeitar não significa que H0 esteja totalmente certa, apenas não temos argumentos para rejeitá-la.

Sempre haverá possibilidade de erro, ou seja, podemos aceitar H1 mesmo quando H0 esteja correta. Porém a probabilidade do erro deve ser baixa.

As hipóteses são normalmente de dois tipos: 

- 1 sided: o valor de uma distribuição é maior ou menor que outra

- 2 sided: o valor de uma distribuição é diferente de outra, ou seja, é maior ou menor que outra 



## Vamos estudar um exemplo passo-a-passo para compreender o conceito

Em 30 lançamentos de uma moeda HONESTA, espera-se que ocorram 15 caras, com desvio padrão de 2,73

Veja o cálculo:

In [None]:
from scipy.stats import binom
tentativas = 30
rv_honesta = binom(tentativas, 1/2)
populacao_honesta = rv_honesta.rvs(size=1000000, random_state=random_state)
print(rv_honesta.mean())
print(rv_honesta.std())


Supondo agora que nos foi dada uma amostra com o 100 resultados (número de caras) de 30 lançamentos, cuja média foi 11,76.

Dado que a média foi menor do que seria esperado de uma moeda HONESTA, podemos afirmar que os resultados foram obtidos com uma moeda não honesta?

In [None]:
rv = binom(tentativas, 1/2.5)
resultado = rv.rvs(size=100, random_state=random_state)
print(np.mean(resultado))

A hipótese nula (H0) é que a moeda seja realmente honesta e que a diferença deva-se a mero acaso.

A hipótese alternativa (H1) é que a moeda não seja honesta.

Como já aprendemos no teorema do limite central, as amostras de uma moeda HONESTA deveria ter média 15 e desvio igual ao desvio da população dividido pela raiz do tamanho da amosta. Veja o cálculo:

In [None]:
amostras = 500
medias = np.zeros((amostras,1))
np.random.seed(1)
for i in range(0,amostras,1):
    medias[i]=np.mean(populacao_honesta[np.random.randint(0, len(populacao_honesta),100)])

print(medias.mean())
print(medias.std())    

fig, axs = plt.subplots(1, 1, figsize=(14,6))


axs.hist(medias, density=True, facecolor='g', alpha=0.75, bins=50)
axs.grid(True)
axs.set_title('Distribuição das médias')

plt.show()

In [None]:
rv_norm = stat.norm(loc=medias.mean(), scale=medias.std())

Conforme previsto, a média das amostras (14,98) corresponde à media da população e o desvio das amostras é o da população dividido por 10.

Agora, sendo a moeda honesta, qual a chance de obtermos uma amostra com média 11.76?

Vamos calcular a probabilidade de obtermos um valor que seja 11.76 ou menor com uma moeda honesta:

In [None]:
rv_norm.cdf(11.76)

Pelo resultado acimq, a chance de uma moeda honesta produzir uma amostra cuja média seja 11.76 ou menor é extremamente pequena.

Se estabelecermos nosso nível de significância em 5% (admitirmos no máximo 5% de possibilidade de erro), podemos afirmar que a moeda é desonesta, ou seja, podemos recusar H0 (p=8.72e-29 <= 0.05).


## Vamos estudar um segundo exemplo 

In [None]:
if IN_KAGGLE:
    df = pd.read_csv("../input/2016.csv")
else:
    df = pd.read_csv("2016.csv")
df.head(20)

In [None]:
df.Region.unique()

In [None]:
dfWE = df.loc[df.Region == 'Western Europe',['Country', 'Region', 'Happiness Rank', 'Happiness Score',
       'Lower Confidence Interval', 'Upper Confidence Interval',
       'Economy (GDP per Capita)', 'Family', 'Health (Life Expectancy)',
       'Freedom', 'Trust (Government Corruption)', 'Generosity',
       'Dystopia Residual']]

dfLC = df.loc[df.Region == 'Latin America and Caribbean',['Country', 'Region', 'Happiness Rank', 'Happiness Score',
       'Lower Confidence Interval', 'Upper Confidence Interval',
       'Economy (GDP per Capita)', 'Family', 'Health (Life Expectancy)',
       'Freedom', 'Trust (Government Corruption)', 'Generosity',
       'Dystopia Residual']]

In [None]:
fig, axs = plt.subplots(1, 2, figsize=(14,6))

axs[0].hist(dfWE['Happiness Score'], density=True, facecolor='g', alpha=0.75)
axs[0].grid(True)
axs[0].set_title('Western Europe')

print(dfWE['Happiness Score'].mean())
print(dfWE['Happiness Score'].std())

axs[1].hist(dfLC['Happiness Score'], density=True, facecolor='g', alpha=0.75)
axs[1].grid(True)
axs[1].set_title('Latin America and Caribbean')

print(dfLC['Happiness Score'].mean())
print(dfLC['Happiness Score'].std())

In [None]:
dfWE

In [None]:
dfLC

In [None]:
from scipy import stats

stats.ttest_ind(dfWE['Happiness Score'].values,dfLC['Happiness Score'].values, equal_var=False)

In [None]:
from scipy import stats 

stats.ttest_ind(dfWE['Happiness Score'].values,dfLC['Happiness Score'].values, equal_var=True)


<font size="6" color="red">Anexo I - Funções Úteis</font>

## Gerando números aleatórios


In [None]:
# Gerando int - biblioteca python standard
print(random.randrange(100, 1000, 2))
print(random.randint(100, 1000))

# Gerando int - biblioteca numpy
print(np.random.randint(100, 1000,2))

# Gerando float - biblioteca python standard
print(random.random())
print(random.uniform(100, 1000))
print(random.normalvariate(1, 1))

# Gerando float - biblioteca numpy
print(np.random.random(5))
print(np.random.randn(5))

np.random.random_sample(size=100)

## Gerando números não aleatórios

In [None]:
print(np.linspace(0.0,1.0,11))
print(np.arange(0.0,10.0,3))
print(np.logspace(0.0,10.0,3))


## Escolha

In [None]:
# Escolha com reposição
# usando numpy np.random.choice(10,size=10,replace=True)


faces = list(range(1,7))
lancamentos = 600
pesos = [1/6,1/6,0.5/6,0.5/6,2/6,1/6]
resultados = random.choices(population=faces, weights=pesos, k=lancamentos)
#print(resultados)
for i in faces:
    print('Face {}, peso {}, vezes {}'.format(i,pesos[i-1],resultados.count(i)))

In [None]:
# Escolha sem reposição
# usando numpy np.random.choice(10,size=10,replace=False)


lista = list(range(1,7))
random.sample(population=lista, k=len(lista))


## Embaralhamento

In [None]:
# Embaralhamento
# usando numpy np.random.choices

lista = list(range(1,7))
random.shuffle(lista)
lista

<font size="6" color="red">Anexo II - Referências</font>

Tutoriais

https://www.youtube.com/watch?v=Iq9DzN6mvYA

https://machinelearningmastery.com/how-to-generate-random-numbers-in-python/

http://nbviewer.jupyter.org/url/norvig.com/ipython/Probability.ipynb

https://www.youtube.com/watch?v=KhAUfqhLakw

https://www.analyticsvidhya.com/blog/2017/09/6-probability-distributions-data-science/

https://www.datacamp.com/community/tutorials/python-statistics-data-science

https://machinelearningmastery.com/


Distribuições de probabilidade

http://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

http://www.math.wm.edu/~leemis/chart/UDR/UDR.html

Cursos

https://courses.edx.org/courses/course-v1:UCSanDiegoX+DSE210x+1T2018/course/#block-v1:UCSanDiegoX+DSE210x+1T2018+type@chapter+block@c1c0e5a497924a40b800bf69e96b4004

Documentação bibliotecas Python

https://docs.python.org/3/library/statistics.html

https://docs.python.org/3/library/random.html

Documentação bibliotecas SciPy

https://docs.scipy.org/doc/scipy/reference/stats.html

Documentação bibliotecas NumPy

https://docs.scipy.org/doc/numpy/reference/routines.random.html

https://docs.scipy.org/doc/numpy/reference/routines.statistics.html

Dataframe

http://pandas.pydata.org/pandas-docs/version/0.13/visualization.html
