___
# Atividade: Teste de hip√≥teses para m√©dia populacional 
___

## Aula 22


<div id="indice"></div>

## √çndice

- [Teste de hip√≥teses para m√©dia populacional com vari√¢ncia populacional desconhecida](#th-var-desconhecida)
    - [Passos para constru√ß√£o de um teste de hip√≥teses](#passos)
    - [Decis√£o do teste](#decisao)
        - [Caso Unilateral a Esquerda](#unilateral-esquerda)
        - [Caso Unilateral a Direita](#unilateral-direita)
        - [Caso Bilateral](#bilateral)
    - [Exemplos](#exemplos)
        - [Exemplo 1: Pontua√ß√£o em um exame de ingl√™s](#exemplo1)
        - [Exemplo 2: Conte√∫do de latas de regrigerante](#exemplo2)
- [Base de dados: Precipita√ß√£o Pluviom√©trica](#base)
    - [Exerc√≠cio 1](#ex1)
    - [Exerc√≠cio 2](#ex2)
    - [Exerc√≠cio 3](#ex3)
    - [Exerc√≠cio 4](#ex4)
- [Estimando o tamanho da amostra](#estimando-n)
    - [Estimativa de $n$ com $\sigma$ conhecido](#n-sigma-conhecido)
        - [Exerc√≠cio 5](#ex5)
___

In [1]:
import scipy.stats as stats
from scipy.stats import t, norm, probplot
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from math import sqrt, ceil
from ipywidgets import interact, interactive, fixed, interact_manual
import ipywidgets as widgets
%matplotlib inline

<div id="th-var-desconhecida"></div>

# Teste de hip√≥teses para m√©dia populacional com vari√¢ncia populacional desconhecida

Quando n√£o conhecemos a vari√¢ncia populacional n√£o √© poss√≠vel realizar o teste de hip√≥teses utilizando o TLC. Assim, precisamos de uma nova estat√≠stica de teste. **Importante**: para esta estat√≠stica vamos considerar apenas vari√°veis de interesse com distribui√ß√£o **normal**.

Supondo que uma amostra aleat√≥ria simples foi coletada da popula√ß√£o, podemos utilizar o estimador $S^2$ (vari√¢ncia amostra - calculada a partir de uma amostra) para $\sigma^2$ (vari√¢ncia populacional - desconhecida), obtemos, sob $H_0$, que:

$$t = \frac{\overline{X}-\mu_0}{S/\sqrt{n}}\sim t_{(n-1)}$$

sendo $(n-1)$ os graus de liberdade da distribui√ß√£o t-Student do teste.

<div id="passos"></div>

## Passos para constru√ß√£o de um teste de hip√≥teses

1. Fixe qual a hip√≥tese nula, $H_0$, a ser testada e qual a hip√≥tese alternativa ($H_A$).
2. Use a teoria estat√≠stica e as informa√ß√µes dispon√≠veis para decidir qual **estat√≠stica de teste** ser√° usada sob $H_0$. N√£o se esque√ßa de levantar as propriedades dessa estat√≠stica.
3. Utilize a estat√≠stica para rejeitar, ou n√£o, $H_0$. Para isso temos duas op√ß√µes:
    1. Via Regi√£o Cr√≠tica:
        1. **Fixe a probabilidade $\alpha$** de cometer erro de rejeitar $H_0$, sob $H_0$ verdadeiro, e use este valor para **construir a regi√£o cr√≠tica RC**. Lembre que esta regi√£o √© constru√≠da para a estat√≠stica definida no segundo passo, usando o valor hipotetizado em $H_0$.
        2. Use as informa√ß√µes fornecidas pela amostra para encontrar o **valor observado da estat√≠stica de teste**. 
        3. Se o **valor observado da estat√≠stica de teste pertencer √† regi√£o cr√≠tica, rejeite $H_0$**; caso contr√°rio, n√£o rejeite.
    2. Via valor-p:
        1. Use as informa√ß√µes fornecidas pela amostra para encontrar o **valor observado da estat√≠stica de teste**. 
        2. Use o valor observado da *estat√≠stica de teste* para **encontrar o valor-p**, ou seja, a probabilidade de encontrar valores t√£o ou mais desfavor√°veis √† $H_0$ quanto a *estat√≠stica de teste* observada pela amostra. 
        3. Se o **valor-p for menor do que algum $\alpha$ fixado, rejeite $H_0$**; caso contr√°rio, n√£o rejeite.

<div id="decisao"></div>

## Decis√£o do teste

Vamos considerar a estat√≠stica do teste observada (sob $H_0$): $t_{obs} = \frac{\overline{x}_{obs}-\mu_0}{s/\sqrt{n}}$

<div id="unilateral-esquerda"></div>

### Caso Unilateral a Esquerda

No caso em que a hip√≥tese alternativa est√° exclusivamente √† esquerda da m√©dia, ou seja,

$$H_0: \mu = \mu_0$$
$$H_A: \mu < \mu_0$$

**Via Regi√£o Cr√≠tica**: Obtemos o valor cr√≠tico como: $t_c = \text{stats.t.ppf}(\alpha , \text{df}=n-1)$, pois $\alpha = P(erro~I)$ estar√° na cauda √† esquerda. Assim, rejeitamos $H_0$, ao n√≠vel de signific√¢ncia $\alpha$, se $t_{obs} < t_c$.

**Via valor-p**: √â razo√°vel rejeitar $H_0$ se a m√©dia amostral observada $(\overline{x}_{obs})$ for muito menor que $\mu_0$, ou seja, se $t_{obs}$ for "muito" negativo. Define-se o valor-p em um teste unilateral a esquerda por: $valor\_p = P(t_{(n-1)} < t_{obs} | \mu=\mu_0) = \text{stats.t.cdf}(t_{obs}, \text{df}=n-1)$.

<div id="unilateral-direita"></div>

### Caso Unilateral a Direita

No caso em que a hip√≥tese alternativa est√° exclusivamente √† direita da m√©dia, ou seja,

$$H_0: \mu = \mu_0$$
$$H_A: \mu > \mu_0$$

**Via Regi√£o Cr√≠tica**: Obtemos o valor cr√≠tico como: $t_c = \text{stats.t.ppf}(1-\alpha, \text{df}=n-1)$, pois $\alpha = P(erro~I)$ estar√° na cauda √† direita. Assim, rejeitamos $H_0$, ao n√≠vel de signific√¢ncia $\alpha$, se $t_{obs} > t_c$.

**Via valor-p**: √â razo√°vel rejeitar $H_0$ se a m√©dia amostral observada $(\overline{x}_{obs})$ for muito maior que $\mu_0$, ou seja, se $t_{obs}$ for "muito" positivo. Define-se o valor-p em um teste unilateral a esquerda por: $valor\_p = P(t_{(n-1)} > t_{obs} | \mu=\mu_0) = 1 - \text{stats.t.cdf}(t_{obs}, \text{df}=n-1)$.

<div id="bilateral"></div>

### Caso Bilateral

No caso em que a hip√≥tese alternativa √© diferente da m√©dia, ou seja,

$$H_0: \mu = \mu_0$$
$$H_A: \mu \neq \mu_0$$

**Via Regi√£o Cr√≠tica**: Obtemos o valor cr√≠tico como: $t_c = \text{stats.t.ppf}(1-\alpha/2, df=n-1)$, pois temos $\alpha/2$ em cada cauda. Assim, rejeitamos $H_0$, ao n√≠vel de signific√¢ncia $\alpha$, se $t_{obs} < -t_c$ ou $t_{obs} > t_c$.

**Via valor-p**: √â razo√°vel rejeitar $H_0$ se a m√©dia amostral observada $(\overline{x}_{obs})$ for muito menor ou muito maior que $\mu_0$, ou seja, se $t_{obs}$ for "muito" negativo ou "muito" positivo. Define-se o valor-p em um teste bilateral por: $valor\_p = 2p'$, onde

1. Se $\overline{x}_{obs} < \mu_0$: $p' = P(t_{(n-1)} < t_{obs} | \mu=\mu_0) = \text{stats.t.cdf}(t_{obs}, \text{df}=n-1)$.
2. Se $\overline{x}_{obs} > \mu_0$: $p' = P(t_{(n-1)} > t_{obs} | \mu=\mu_0) = 1 - \text{stats.t.cdf}(t_{obs}, \text{df}=n-1)$.

**Teoria/Geral**
  * erro tipo I: rejeitar $H_0$ quando $H_0$ √© verdadeira
  * erro tipo II: n√£o rejeitar $H_0$ quando $H_0$ √© falsa (ou dizer, rejeitar $H_A$ quando $H_A$ √© verdadeira)

<div id="exemplos"></div>

## Exemplos

Vamos apresentar dois exemplos de teste de hip√≥tese para m√©dia populacional com vari√¢ncia desconhecida.

___

<div id="exemplo1"></div>

## Exemplo 1: Pontua√ß√£o em um exame de ingl√™s

O n√∫mero m√©dio de pontos em um exame de ingl√™s tem sido historicamente igual a 80. Foram sorteados 10 estudantes que fizeram recentemente esse exame e observadas as notas: 65, 70, 76, 86, 59, 81, 75, 72, 81, 83.

Especialistas desconfiam que o rendimento m√©dio dos alunos diminuiu e desejam testar essa afirma√ß√£o por meio de um teste de hip√≥teses, com n√≠vel de signific√¢ncia de 5%. Fazendo as suposi√ß√µes necess√°rias, qual seria a conclus√£o do teste?

### Defini√ß√£o da vari√°vel de interesse

$X$: n√∫mero de pontos que um estudante tira em um exame de ingl√™s.

Aqui, $E(X)=\mu \mbox{ e } Var(X)=\sigma^2$, 
sendo ambos desconhecidos pelo contexto do problema!

### Hip√≥teses em termos do problema e em termos estat√≠sticos

$H_0:$ Desconfian√ßa n√£o procede $\Rightarrow H_0: \mu=80$

$H_1:$ Desconfian√ßa procede que rendimento m√©dio caiu $\Rightarrow H_1: \mu<80$

### Inicializando os par√¢metros

In [2]:
#Dados
amostra=(65,70,76,86,59,81,75,72,81,83)

n=len(amostra)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             
x_obs=np.mean(amostra)
s=np.std(amostra, ddof=1)

print("Tamanho da amostral: n={}".format(n))
print("M√©dia amostral observada: x_obs={}".format(x_obs))
print("Desvio padr√£o amostral observada: s={}".format(s))

Tamanho da amostral: n=10
M√©dia amostral observada: x_obs=74.8
Desvio padr√£o amostral observada: s=8.482662055955993


In [3]:
ùõº=0.05 #n√≠vel de signific√¢ncia fixado para o teste
Œº0=80 #sob a hip√≥tese nula

### Decis√£o via Regi√£o Cr√≠tica: UNICAUDAL a esquerda

In [4]:
#Decis√£o Via Regi√£o Cr√≠tica: UNICAUDAL a esquerda
t_obs=(x_obs-Œº0)/(s/np.sqrt(n))

t_c=stats.t.ppf(ùõº, df=n-1) #valor cr√≠tico na cauda a esquerda

print("t_obs={}".format(t_obs))
print("t_c={}".format(t_c))

print("\nRegra geral: Rejeitamos a hip√≥tese nula H0 se t_obs pertencer a Regi√£o Cr√≠tica (RC)!!\n")
print("RC={{t_obs<({})}}\n".format(t_c))
print("Conclus√£o: Como t_obs pertence a RC, ent√£o h√° evid√™ncias de que desconfian√ßa procede, com 95% de confian√ßa!!")


t_obs=-1.9385239827313108
t_c=-1.8331129326536337

Regra geral: Rejeitamos a hip√≥tese nula H0 se t_obs pertencer a Regi√£o Cr√≠tica (RC)!!

RC={t_obs<(-1.8331129326536337)}

Conclus√£o: Como t_obs pertence a RC, ent√£o h√° evid√™ncias de que desconfian√ßa procede, com 95% de confian√ßa!!


### Decis√£o via Valor-p: UNICAUDAL a esquerda

In [5]:
#Decis√£o Via Valor-p: UNICAUDAL a esquerda
t_obs=(x_obs-Œº0)/(s/np.sqrt(n))

valor_p=stats.t.cdf(t_obs, df=n-1) 

print("ùõº={}".format(ùõº))
print("Valor-p={}".format(valor_p))

print("\nRegra geral: Rejeitamos a hip√≥tese nula H0 se valor-p < ùõº!!\n")

print("Conclus√£o: Como nos resultados acima vemos que valor-p < ùõº, ent√£o h√° evid√™ncias de que desconfian√ßa procede, com 95% de confian√ßa!!")



ùõº=0.05
Valor-p=0.042254614967800266

Regra geral: Rejeitamos a hip√≥tese nula H0 se valor-p < ùõº!!

Conclus√£o: Como nos resultados acima vemos que valor-p < ùõº, ent√£o h√° evid√™ncias de que desconfian√ßa procede, com 95% de confian√ßa!!


___

<div id="exemplo2"></div>

## Exemplo 2: Conte√∫do de latas de regrigerante

As latas de certa marca de refrigerante apresentam em seu r√≥tulo o volume de 350 ml. O fabricante deseja testar se o conte√∫do m√©dio das latas √© igual a 350 ml, como anunciado no r√≥tulo. Isto equivale a verificar se a m√°quina est√° regulada para colocar 350 ml, ou n√£o, nas latas. 

Para averiguar a afirma√ß√£o do fabricante, foi coletada uma amostra de 36 latas do refrigerante em pontos de comercializa√ß√£o e mediu-se o conte√∫do destas latas. Os resultados obtidos na amostra foram: $\overline{x} = 347~\text{ml}$ e $s = 10,5~\text{ml}$

Ser√° que as latas cont√™m 350 ml de l√≠quido com 95% de confian√ßa?

### Defini√ß√£o da vari√°vel de interesse

$X$: quantidade de refrigerante dentro de uma lata.

Aqui, $E(X)=\mu \mbox{ e } Var(X)=\sigma^2$, 
sendo ambos desconhecidos pelo contexto do problema!

### Hip√≥teses em termos do problema e em termos estat√≠sticos

$H_0:$ M√°quina est√° regulada $\Rightarrow H_0: \mu=350$

$H_1:$ M√°quina n√£o est√° regulada $\Rightarrow H_1: \mu\neq350$

### Inicializando os par√¢metros

In [6]:
#Dados
n=36                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             
x_obs=347
s=10.5

print("Tamanho da amostral: n={}".format(n))
print("M√©dia amostral observada: x_obs={}".format(x_obs))
print("Desvio padr√£o amostral observada: s={}".format(s))

Tamanho da amostral: n=36
M√©dia amostral observada: x_obs=347
Desvio padr√£o amostral observada: s=10.5


In [7]:
ùõº=0.05 #n√≠vel de signific√¢ncia fixado para o teste
Œº0=350 #sob a hip√≥tese nula

### Decis√£o via Regi√£o Cr√≠tica: BICAUDAL

In [8]:
# ESCREVA SEU C√ìDIGO AQUI

### Decis√£o via Valor-p: BICAUDAL

In [9]:
# ESCREVA SEU C√ìDIGO AQUI

___

<div id="base"></div>

## Base de dados: Precipita√ß√£o Pluviom√©trica

Montgomery ‚Äì Adaptado do Exerc√≠cio 9-34

Semear nuvens tem sido estudado durante muitas d√©cadas como um procedimento de mudan√ßa do tempo (veja refer√™ncia da pesquisa no livro). Algumas nuvens foram selecionadas aleatoriamente e semeadas com nitrato de prata. A precipita√ß√£o pluviom√©trica, em acre-p√©, foi medida e registrada no arquivo `precipitacao.csv`.

Suspeita-se que a precipita√ß√£o m√©dia das nuvens semeadas excede 25 acres-p√©s.

In [10]:
# Carregando os dados
dados = pd.read_csv('precipitacao.csv', header=None)
dados.columns = ['precipitacao']
precipitacao = dados['precipitacao']
dados.head()

Unnamed: 0,precipitacao
0,18.0
1,30.7
2,19.8
3,27.1
4,22.3


___
<div id="ex1"></div>

### EXERC√çCIO 1

Formule as hip√≥teses em termos do problema e em termos do par√¢metro.

In [11]:
# ESCREVA SUA RESPOSTA AQUI

<div id="ex2"></div>

### EXERC√çCIO 2

Interprete os erros do tipo I e II relacionados ao teste acima, em termos do problema em quest√£o. 

In [12]:
# ESCREVA SUA RESPOSTA AQUI

<div id="ex3"></div>

### EXERC√çCIO 3

Verifique se a afirma√ß√£o procede, considerando n√≠vel de signific√¢ncia de 1%. Tome a decis√£o via regi√£o cr√≠tica e valor-p.

*Valores de refer√™ncia para a resposta: t_obs=0.9673747735077124, RC={t_obs< 2.539483190622288} e Valor-p=0.1727550662376527*

In [13]:
# ESCREVA SEU C√ìDIGO AQUI

<div id="ex4"></div>

### EXERC√çCIO 4

Verifique se a precipita√ß√£o √© normalmente distribu√≠da. Lembre-se que s√≥ podemos realizar o teste do [exerc√≠cio 3](#ex3) se a precipita√ß√£o seguir uma distribui√ß√£o normal. **Dica**: use `probplot`.

In [14]:
# ESCREVA SEU C√ìDIGO AQUI

___
<div id="estimando-n"></div>

# Estimando o tamanho da amostra

Vamos aprender a estimar um tamanho da amostra com limite para o erro m√°ximo da amostra com probabilidade $\gamma$. Lembrando que $\gamma$ √© o complemento do n√≠vel de signific√¢ncia, ou seja, $\gamma = 1 - \alpha$.

<div id="n-sigma-conhecido"></div>

## Estimativa de $n$ com $\sigma$ conhecido

Passo 1: Precisamos encontrar na normal padr√£o o valor de $z_{\gamma/2}$ que faz com que a probabilidade $\gamma$ esteja cercando a origem. Utilize a simula√ß√£o a seguir para encontrar o valor de $z_{\gamma/2}$ para $\gamma = 95\%$. 

In [15]:
zŒ≥2 = 0
prob = 0.9
x = np.linspace(-5, 5, 500)
y = norm.pdf(x)

#Fun√ß√£o que utiliza o pywidget
@interact(z = (1.0, 2.6, 0.02))
def f(z=0.2):
    global zŒ≥2
    global prob
    plt.plot(x,y)
    plt.fill_between(x,y,where=(x>-z)&(x<z), color="wheat")
    cdfs = norm.cdf([-z,z])
    area = cdfs[1]-cdfs[0]
    plt.text(-0.7, 0.25*norm.pdf(0), "$\gamma={:.2f}\%$".format(area*100), fontsize=16)
    plt.title("Valor $z$ que delimita probabilidade $\gamma$ na $N(0,1)$")
    zŒ≥2 = z
    prob = area

interactive(children=(FloatSlider(value=1.0, description='z', max=2.6, min=1.0, step=0.02), Output()), _dom_cl‚Ä¶

In [16]:
print('z(ùõæ/2)={} com gamma={}'.format(zŒ≥2, prob))

z(ùõæ/2)=1.0 com gamma=0.6826894921370859


Voc√™ tamb√©m pode obter esse valor utilizando `stats.norm.ppf`, sem a necessidade de intera√ß√£o:

In [17]:
print('Calculando diretamente')
gamma = 0.95
alpha = 1 - gamma
z_gamma2 = stats.norm.ppf(1 - alpha / 2)  # N√£o precisa de loc e scale porque Z √© a normal padr√£o
print('z(ùõæ/2)={} com gamma={}'.format(z_gamma2, gamma))

Calculando diretamente
z(ùõæ/2)=1.959963984540054 com gamma=0.95


Agora, com o $z_{\gamma/2}$ encontrado acima, vamos encontrar $n$ tal que este valor seja menor que uma certa toler√¢ncia dada por par√¢metros do problema. Suponha que gostar√≠amos de estimar uma amostra que em `prob` $\%$ das vezes est√° a uma dist√¢ncia m√°xima $d$ da m√©dia amostral (essa dist√¢ncia $\varepsilon$ deve ser definida por quem est√° conduzindo a an√°lise, assim como o $\gamma$). 

Precisamos ent√£o projetar uma curva normal estreita o suficiente. Para isso, o valor $d$ precisa corresponder ao $z_{\gamma/2}$ encontrado acima.

Para este exemplo vamos utilizar o exemplo dos resistores. Vamos supor que $\sigma=50\Omega$. Qual o tamanho $n$ da amostra precisar√≠amos ter para que em $95\%$ das vezes estiv√©ssemos a uma dist√¢ncia de no m√°ximo $\varepsilon=20\Omega$ da m√©dia populacional $\mu$?

In [18]:
œÉ = 50
ùúÄ = 20

#Fun√ß√£o que utiliza o pywidget
@interact(n = (1, 80, 1), mu=(950, 1050, 2), ùúÄ = (10, 40, 2))
def funcao_Xbar(n=1, mu=1000, ùúÄ=15):
    plt.xlim(mu-50, mu+50)
    d_amostral = œÉ/sqrt(n)
    x_amostral = np.linspace(mu - 4*d_amostral, mu+4*d_amostral, 100)
    y_X = norm.pdf(x_amostral, loc=mu, scale=d_amostral)
    plt.plot(x_amostral, y_X)
    plt.axvline(mu + ùúÄ, color="red")
    plt.axvline(mu - ùúÄ, color="red")
    x_equiv = zŒ≥2*d_amostral
    cdfs = norm.cdf([mu-ùúÄ,mu+ùúÄ], loc=mu, scale=d_amostral)
    area = cdfs[1]-cdfs[0]
    plt.fill_between(x_amostral, y_X, where=((x_amostral >= (mu - x_equiv))&(x_amostral <= (mu + x_equiv)) ), color="wheat")
    plt.text(mu, 0.5*norm.pdf(mu), "$\gamma={:.2f}\%$".format(area*100), fontsize=12)
    plt.title("$\overline{X}$ e linhas com erro m√°ximo desejado (probabilidade $\gamma$)")

interactive(children=(IntSlider(value=1, description='n', max=80, min=1), IntSlider(value=1000, description='m‚Ä¶

Note, no exemplo acima, que a m√©dia $\mu$ espec√≠fica n√£o importa. O tamanho da amostra determina a vari√¢ncia da distribui√ß√£o amostral, e a probabilidade ser√° $\gamma$ de conter o valor da m√©dia qualquer que seja ela.

Baseado nas propriedades de vari√°veis aleat√≥rias, isso pode ser representado da seguinte forma:

$N(\mu, \sigma^2) = \mu + N(0, \sigma^2)$

### Resumindo

Os passos para encontrar um tamanho de amostra $n$ que contenha a m√©dia com erro m√°ximo $d$ e probabilidade $\gamma$ s√£o:

Encontrar $z_{\gamma/2}$ na normal padr√£o $Z \sim N(0,1)$

Vamos usar a f√≥rmula de padroniza√ß√£o na normal de $\overline{X}$: $z_{\gamma/2} = \frac{\overline{x} - \mu}{\frac{\sigma}{\sqrt{n}}}$

Lembremos que estamos interessados numa dist√¢ncia em rela√ß√£o √† m√©dia populacional $\mu$, ou seja:

$\varepsilon = \overline{x} - \mu$

Temos ent√£o:

$z_{\gamma/2} = \frac{\varepsilon}{\frac{\sigma}{\sqrt{n}}}$


Isolando o $n$, encontramos:

$n = ( z_{\gamma/2}\frac{\sigma}{\varepsilon} )^2$

Utilizando a f√≥rmula acima devemos obter o mesmo valor (ou pr√≥ximo) encontrado na vers√£o interativa.

In [19]:
n = (z_gamma2 * œÉ / ùúÄ)**2
print("n={}".format(n))
print("Mas n deve ser um n√∫mero inteiro, ent√£o: n={}".format(ceil(n)))

n=24.009117629338277
Mas n deve ser um n√∫mero inteiro, ent√£o: n=25


___
<div id="ex5"></div>

### EXERC√çCIO 5

Uma f√°brica de mantas de chumbo para prote√ß√£o em radiografias precisa garantir que suas mantas t√™m uma certa espessura. Sabe-se que o desvio padr√£o √© de $0.6mm$.

Qual o tamanho da amostra √© preciso ter para garantir que a m√©dia amostral $\overline{x}$ esteja a uma dist√¢ncia m√°xima de $0.2mm$ da m√©dia $\mu$? Considere 0,1% de signific√¢ncia.

*Valores de refer√™ncia para a resposta: z=3.2905267314918945, n=98*

In [20]:
# ESCREVA SEU C√ìDIGO AQUI