#### Teste de hipótese

O teste de hipótese (ou teste de significância) é um método estatístico que permite tomar uma decisão entre duas ou mais hipóteses utilizando os dados observados de um determinado experimento. No caso de duas hipóteses, elas são mutualmente exclusivas e determinam 

Por meio da teoria da probabilidade, é possível inferir sobre quantidades de interesse de uma população a partir de uma amostra observada de um experimento científico. Por exemplo, estimar pontualmente e de forma intervalar um parâmetro de interesse, testar se uma determinada teoria científica deve ser descartada, verificar se um lote de remédios deve ser devolvido por falta de qualidade, entre outros. Por meio do rigor matemático, a inferência estatística pode ser utilizada para auxiliar a tomada de decisões nas mais variadas áreas. Quando dizemos que algo é "estatisticamente significante" por trás utilizamos um teste de hipótese.

Geralmente a hipótese que queremos testar (chamada de *Hipótese Nula* $H_0$) é uma afirmação geral de que não há relação entre dois fenômenos medidos ou nenhuma associação entre grupos. Em outras palavras, é uma suposição básica ou feita com base no domínio ou no conhecimento do problema.

A hipótese alternativa (*Hipótese Nula* $H_1$) é a hipótese usada no teste de hipótese que é contrária à hipótese nula. Geralmente, considera-se que as observações são o resultado de um efeito real (com alguma quantidade de variação aleatória sobreposta).

O nível de significância ($\alpha$) é a probabilidade de rejeitar a hipótese nula quando ela for verdadeira. Por exemplo, um nível de significância de 0,05 indica um risco de 5% de concluir que existe uma diferença quando não há diferença real. Precisamos nos fazer a seguinte pergunta:

“Qual é a chance de observar a estatística de teste, tão extrema, para esta amostra se a hipótese Nula fosse verdadeira?”

<img src="curva-normal.png">

O nível de significância estatística é frequentemente expresso pelo chamado **valor p** entre 0 e 1. Quanto menor o valor p, mais forte é a evidência de que você deve rejeitar a hipótese nula. O valor p é a probabilidade de se obter uma estatística de teste igual ou mais extrema que aquela observada em uma amostra, sob a hipótese nula - a definição de "extremo" depende da hipótese que está sendo testada. O valor p é confrontado com a estatística de teste.

Se o seu valor p for menor do que o nível de significância escolhido, então você rejeita a hipótese nula, ou seja, aceita que sua amostra fornece evidências razoáveis para apoiar a hipótese alternativa. Cuidado. Ela NÃO implica uma diferença “significativa” ou “importante”; cabe a você decidir ao considerar a relevância do seu resultado no mundo real.

Quando rejeitamos a hipótese nula, embora essa hipótese fosse verdadeira chamamos de erro do tipo I. Quando aceitamos a hipótese nula, mas ela é falsa dizemos que cometemos o erro de tipo II.

Quando temos que usar ambos os lados da distribuição de probabilidade, chamamos de teste 'bilateral' ou 'bicaldal'. Nessas situações, a hipótese alternativa é geralmente expressa na forma “x não é igual a y”.

Em outras situações, quando a hipótese trata de questões na forma de “x é maior que y” ou “x é menor que y”, utilizamos apenas um lado das distribuições de probabilidade. Nesse caso chamamos de teste 'unilateral'.

Vamos olhar 4 exemplos de testes de hipóteses:

#### Teste t e teste z

No teste T, queremos medir se duas amostras são diferentes uma da outra. Uma dessas amostras pode ser a população, no entanto, usamos um teste t no lugar de um teste Z se o desvio padrão da população for desconhecido.

Existem algumas suposições semelhantes para os testes t e z: A amostra deve ser aleatória e selecionada independentemente, bem como retirada da distribuição normal. Os valores também devem ser numéricos e contínuos. O tamanho da amostra não precisa ser necessariamente grande.

Calculamos a estatística de teste t e em seguida utilizamos uma tabela de distribuição t para encontrar o valor crítico. A tabela requer seu valor alfa (nível de significância) e seus graus de liberdade. Esta tabela fornece a área sob uma cauda. Se sua estatística t for menor do que esse valor crítico, você não rejeitou a hipótese nula. Se o seu valor crítico for maior do que o valor crítico, você pode rejeitar a hipótese nula e há uma diferença significativa entre a amostra e a população.

Veja o exemplo:

Pergunta: nos anos anteriores, 52% dos pais acreditavam que os eletrônicos e as mídias sociais eram a causa da falta de sono de seus filhos adolescentes. Mais pais hoje acreditam que a falta de sono de seus filhos adolescentes é causada por eletrônicos e mídias sociais?

- População: pais com um adolescente (de 13 a 18 anos)
- Parâmetro de interesse: p (proporção)
- Hipótese nula: p = 0,52
- Hipótese alternativa: p> 0,52 (observe que este é um teste unilateral)
- Dados: 1.018 pessoas foram entrevistadas. 56% dos entrevistados acreditam que a falta de sono de seus adolescentes é causada por eletrônicos e mídias sociais.

Para isso, utilizaremos a função theproportions_ztest() do pacote Statsmodels. Observe o argumento alternative = "larger" indicando um teste unilateral. A função retorna dois valores: a estatística z e o valor p correspondente.

In [1]:
import statsmodels.api as sm
import numpy as np

n = 1018
pnull = 0.52
phat = 0.56

sm.stats.proportions_ztest(phat * n, n, pnull, alternative='larger')

(2.571067795759113, 0.005069273865860533)

Como o valor p calculado (~ 0,005) do teste z é muito pequeno, podemos rejeitar a hipótese nula de que a porcentagem de pais, que acreditam que a falta de sono do filho adolescente é causada por eletrônicos e mídias sociais, é tão igual à estimativa dos anos anteriores, ou seja, 52%.

In [17]:
import pandas as pd
import scipy.stats as ss

data = pd.read_csv('titanic.csv')
male = data.loc[data['Sex'] == 'male'].dropna()
female = data.loc[data['Sex'] == 'female'].dropna()

statistic, pvalue = ss.ttest_ind(male.Age.values, female.Age.values)
pvalue

0.012185117982449867

#### ANOVA (Teste F)

O teste t funciona bem ao lidar com dois grupos, mas às vezes queremos comparar mais de dois grupos ao mesmo tempo. Por exemplo, se quisermos testar se a idade do eleitor difere com base em alguma variável categórica como raça, temos que comparar as médias de cada nível ou agrupar a variável. Poderíamos realizar um teste t separado para cada par de grupos, mas quando você conduz muitos testes, você aumenta as chances de falsos positivos. A análise de variância ou ANOVA é um teste de inferência estatística que permite comparar vários grupos ao mesmo tempo.

F = Variabilidade entre os grupos / Variabilidade dentro do grupo

#### Qui-quadrado (χ²)

O teste de qui-quadrado avalia se duas variáveis categóricas estão relacionadas de alguma forma

Podemos usá-lo nos seguintes cenários:

- Teste se o gênero tem diferença significativa na decisão de compra de supermercado online.
- Em uma pesquisa eleitoral, os eleitores podem ser classificados por gênero (masculino ou feminino) e preferência de voto (partido).

Veja um exemplo simples:

Vamos determinar se uma moeda é viciada ou não com base no número de caras e de coroas ao jogar a moeda.

Baseado na lógica, ao jogar uma moeda não viciada 50 vezes, o melhor caso é que resultem em 25 caras e 25 coroas. Embora esse cenário seja muito difícil de ocorrer, se o resultado fosse 28 caras e 22 coroas, então seria OK admitir que a moeda é não viciada. Por outro lado, se o resultado for 10 caras e 40 coroas, já começamos a olhar de uma forma diferente.

Imaginemos que fizemos o experimento e jogamos a moeda 50 vezes. O resultado foi de 28 caras e 22 coroas. Como o teste de Qui-quadrado avalia este resultado? Para entendermos, vejamos a fórmula da variável qui-quadrado:

$X^2=\frac{(observado-esperado)^2}{esperado}$

Com a informação de $X^2$, a quantidade de graus de liberdade (1) e o nível de confiança (95%), colocamos na fórmula e obtemos um resultado de [0,72<3,84](https://www.google.com/search?q=tabela+qui+quadrado&sxsrf=ALeKk00Lrk9iiNQcG6txiXWIcqwS_ehCww:1606332764859&source=lnms&tbm=isch&sa=X&ved=2ahUKEwi2gdzut57tAhWgHrkGHaUQA1IQ_AUoAXoECA0QAw&biw=1920&bih=969#imgrc=A4GT9jmafcHVLM]).

In [28]:
male = data.loc[data['Sex'] == 'male'].dropna()
female = data.loc[data['Sex'] == 'female'].dropna()
nsurvived_male = len(male.loc[male['Survived'] == True])
nsurvived_female = len(female.loc[female['Survived'] == True])
ss.chisquare([nsurvived_male, nsurvived_female])

Power_divergenceResult(statistic=13.666666666666666, pvalue=0.0002182951000398515)

In [29]:
male.loc[male['Survived'] == True]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
21,22,1,2,"Beesley, Mr. Lawrence",male,34.0,0,0,248698,13.0,D56,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5,A6,S
97,98,1,1,"Greenfield, Mr. William Bertram",male,23.0,0,1,PC 17759,63.3583,D10 D12,C
183,184,1,2,"Becker, Master. Richard F",male,1.0,2,1,230136,39.0,F4,S
193,194,1,2,"Navratil, Master. Michel M",male,3.0,1,1,230080,26.0,F2,S
209,210,1,1,"Blank, Mr. Henry",male,40.0,0,0,112277,31.0,A31,C
224,225,1,1,"Hoyt, Mr. Frederick Maxfield",male,38.0,1,0,19943,90.0,C93,S
248,249,1,1,"Beckwith, Mr. Richard Leonard",male,37.0,1,1,11751,52.5542,D35,S
305,306,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
340,341,1,2,"Navratil, Master. Edmond Roger",male,2.0,1,1,230080,26.0,F2,S


In [30]:
female.loc[female['Survived'] == True]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
52,53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",female,49.0,1,0,PC 17572,76.7292,D33,C
...,...,...,...,...,...,...,...,...,...,...,...,...
853,854,1,1,"Lines, Miss. Mary Conover",female,16.0,0,1,PC 17592,39.4000,D28,S
862,863,1,1,"Swift, Mrs. Frederick Joel (Margaret Welles Ba...",female,48.0,0,0,17466,25.9292,D17,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C


#### Últimos pontos sobre testes de hipótese

- Após de finir seu problema, identifique sua população, parâmetro de interesse e construa uma hipótese nula e alternativa. Pré=determine um limite para o valor p (sempre anteriormente a análise). Frequentemente o mais adequado é 0,05, mas esse limite pode ser revisto de acordo com sua aplicação.

- Depois disso, escolha um teste que se adapte ao tipo de problema de inferência que você tem seja ele o teste t, teste z, teste qui-quadrado ou algo semelhante. Existem funções simples e intuitivas em pacotes Python, como Scipy ou Statsmodels. Dê uma olhada na documentação e execute o teste com a função escolhida e examine o valor p e rejeite / falhe em rejeitar a hipótese nula de acordo.

- Compreenda o verdadeiro significado do valor p. *Nunca aceitamos a hipótese alternativa*, apenas mostramos evidências suficientes / não suficientes a favor da rejeição da hipótese nula.

- Você pode experimentar vários tamanhos de amostra, diferentes tipos de distribuições de probabilidade ou modelos para examinar o impacto deles em sua conclusão. Mas o processo básico permanece o mesmo.

- Tente diferentes testes, modifique o tamanho da sua amostra para identificar possíveis erros do Tipo 1 e do Tipo 2.