# Pré-Modelagem em Ciência de Dados
Prof. Rilder de Sousa Pires<br>
MBA em Ciência de Dados<br>

Laboratório de Ciência de Dados e Inteligência Artificial (LCDIA)<br>
Universidade de Fortaleza

## Testes de hipótese

São testes estatísticos que permitem tomar uma decisão entre duas ou mais hipóteses utilizando os dados de um experimento.

<b>Conceitos:</b><br>
* H0: Hipótese Nula. É a hipótese trivial sobre os dados.
* H1: Hipótese Alternativa. Se rejeitarmos H0, aceitamos essa alternativa como a melhor explicação para o dado.
* Teste estatístico. Calculado dos dados.
* $\alpha$: Nível de significâcia: a probabilidade de se rejeitar a hipótese nula quando ela é verdadeira.

<b>Tipos de Teste:</b><br>
* Unicaudais: Onde escolhemos uma direção para o teste. "significantemente maior"/"significantemente menor"
* Bicaudais: Onde o teste é feito nas duas direções. "significantemente diferente"

OBS: O teste vai permitir que aceitemos uma hipótese assumindo um nível de significância pre-estabelecido.

### Valor-p (p-value)

O valor-p é a probabilidade de se obter um resultado mais extremo que o observado, assumindo-se que a hipotese nula é correta.

Num teste de hipótese o valor-p é comparado com $\alpha$ para se rejeitar a hipótese nula.
> $\alpha$: Nível de significâcia: a probabilidade de se rejeitar a hipótese nula quando ela é verdadeira.

<b>[Erro comum:]</b> Considerar o valor-p como sendo a probabilidade que a hipotese nula seja verdadeira.

### Tipos de Erro

Um teste estatístico não garante que a hipótese HA é verdadeira.

|                  | H0 é verdadeira |   H0 é falsa   |
|------------------|-----------------|----------------|
|Rejeita-se H0     |  Erro (tipo I)  |    sem erro    |
|Não se rejeita H0 |    sem erro     | Erro (tipo II) |

...mas estabelece que H0 pode ser regeitada dentro de um dado nível de significância pre-estabelecido. 


### 2.1 Teste t:
É um teste onde se verifica se a variável $t$ segue uma distribuição "t de Student".

Formula para $t$:
> $\displaystyle t = \frac{\overline{X}-\overline{Y}}{s_p}$

onde $s_p$ é o erro padrão agrupado
> $\displaystyle s_p=\sqrt{\frac{\sigma_X^2}{N_X}+\frac{\sigma_Y^2}{N_Y}}$

#### Distribuição t de Student
Forma:
> $\displaystyle f(t)=\frac{ \Gamma \left(\frac{\nu+1}{2}\right) }{ \sqrt{\nu\pi} \Gamma\left(\frac{\nu}{2}\right) }\left(1+\frac{t^2}{\nu}\right)^{-\left(\frac{\nu+1}{2}\right)}$

onde
> $\displaystyle \nu=\frac{ \left( \frac{\sigma_X^2}{N_X} + \frac{\sigma_Y^2}{N_Y} \right)^2}{ \frac{\sigma_X^4}{N_X^2(N_X-1)} + \frac{\sigma_Y^4}{N_Y^2(N_Y-1)} }$

são os graus de liberdade da distribuição.

<img src="figs/teste-t.png" style="width:50%">

[Exemplo]

Suponha que queremos comparar um tratmento médico para aumentar a expectativa de vida dos pacientes que pussuem uma doença.

O pocedimento consiste em oferecer o tratamento para  𝑛  pessoas e um placebo para  𝑚  pessoas. Seja  𝑋1,…,𝑋𝑛  o número de anos que as pessoas vivem após receber o tratamento e  𝑌1,…,𝑌𝑚  o número de anos que as pessoas vivem após receber o placebo.

A região de rejeição é determinada pelo limiar  𝑡0  onde  𝑃(𝑡>𝑡0)=𝛼

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# Número de anos que as pessoas vivem após receber o tratamento
n=1000;
X = np.random.normal(32.0,10.0,n)
#print("X[ 10 /",n,"]= ",X[0:10])

# Número de anos que as pessoas vivem após receber o placebo
m=1000;
Y = np.random.normal(30.0,10.0,m)
#print("Y[ 10 /",m,"]= ",Y[0:10],"\n")

alpha=0.01

t, p_value = stats.ttest_ind(X,Y,alternative="greater",equal_var = False)
print("t =",t)
print("p_value =",p_value,"\n")

if p_value<alpha:
    print("Rejeitamos H0. H1 passou no teste.")
else:
    print("Não rejeitamos H0. H1 não passou no teste.")

print("\n<X> =",np.mean(X),"anos")
print("<Y> =",np.mean(Y),"anos")

t = 4.538052008440666
p_value = 3.007626717079931e-06 

Rejeitamos H0. H1 passou no teste.

<X> = 32.226103607721654 anos
<Y> = 30.1947594933172 anos


### 2.2 Teste Z:
É um teste onde se verifica se a variável $Z$ segue uma distribuição normal.

Para amostras grandes, devido ao <b>teorema do limite central</b> considera-se que $Z$ é distribuída aproximadamente de forma normal.

Formula para $Z$:
> $\displaystyle Z = \frac{\overline{X}-\mu}{\text{SE}}$

onde $\mu$ é a média da distribuição e SE$\displaystyle=\frac{\sigma}{\sqrt{N}}$ é erro padrão.

OBS: Esse teste é utilizado quando a média e o desvio padrão da distribuição são conhecidos.

#### Teorema do Limite Central:

O Teorema do Limite Central afirma que se somarmos várias variáveis obtidadas independentemente da mesma distribuição o resultado será distribuído de forma aproximadamente normal.

<b>[Exemplo:]</b><br> O nível de cálcio no sangue de adultos jovens saudáveis varia com uma média $\mu=$9.5mg/dL e $\sigma=0.4$mg/dL. Testes clínicos foram feitos para medir o nível de cálcio no sangue de 180 mulheres grávidas na zona rural do Ceará e foi encontrado $\overline{X}$ =9.57mg/dL. Isso é um indicativo que o nível médio de cálcio nessa população difere de 9.5mg/dL?

In [2]:
import numpy as np
import statsmodels.stats.weightstats as sm

X=np.loadtxt(fname='data/calcio.csv', skiprows=1)

mu=9.5
sigma=0.4

alpha=0.05

Xm=X.mean()
print("Xm=",Xm,"\n")
print(X[0:10])

ztest,p_value = sm.ztest(X,value=mu,alternative='two-sided',ddof=0)
print("\np_value=",float(p_value),"\n")

if p_value<alpha:
    print("Rejeitamos H0. H1 passou no teste.")
else:
    print("Não rejeitamos H0. H1 não passou no teste.")

print("\nZ=",ztest)

# s=X.std()/np.sqrt(len(X))
# Z=(Xm-mu)/s
# print("Z*=",Z)

Xm= 9.57 

[ 9.66  9.85 10.11  9.12 10.08  9.38  9.47  8.82  9.69  9.97]

p_value= 0.022429583185323454 

Rejeitamos H0. H1 passou no teste.

Z= 2.2830133298082824
