___
# Atividade: Teste de hipóteses para média populacional 
___

## Aula 19 - Atividade

<div id="indice"></div>

## Índice

- [Introdução teórica](#introducao)
    - [Afirmações em termos do problema e em termos do parâmetro $\mu$](#intro1)
    - [Nomeando as hipóteses em $H_0$ (hipótese nula) e $H_A$ (hipótese alternativa)](#intro2)
    - [Exemplos](#intro3)
    - [Uso da Distribuição de $\overline{X}\sim N\left(\mu; \frac{\sigma^2}{n}\right)$](#intro4)
    - [$\alpha$: Probabilidade de erro do tipo I associado à decisão](#intro5)
- [Passos para o teste de hipóteses](#passos)
    - [Passo 1](#passo1)
    - [Passo 2](#passo2)
    - [Passo 3](#passo3)
    - [Passo 4](#passo4)
    - [Passo 5](#passo5)
- [Valor-$p$](#valorp)
- [Erros tipo 1 e tipo 2](#erros)
- [Base de Dados: Máquinas de Cartão](#base-de-dados)
    - [Exercício 1](#ex1)
    - [Exercício 2](#ex2)
    - [Exercício 3](#ex3)
    - [Exercício 4](#ex4)
    - [Exercício 5](#ex5)
- [Respostas](#respostas)
___

In [None]:
from scipy import stats
import numpy as np
import pandas as pd
import math
import matplotlib.pyplot as plt
%matplotlib inline


<div id="introducao"></div>

## Introdução

Em muitas situações, usualmente, existem duas afirmações competitivas acerca do valor de um parâmetro (valor verdadeiro no contexto populacional) e o engenheiro precisa tomar uma decisão sob uma dessas afirmativas.

Essas afirmações são chamadas de **hipóteses** e o procedimento de tomada de decisão sobre a hipótese é chamado de **Teste de Hipóteses**.

*Exemplo de hipóteses:*

 * Comprar lote de resistores
 * Não comprar lote de resistores
 
<div id="intro1"></div>
 
### Afirmações em termos do problema e em termos do parâmetro $\mu$

É importante ressaltar que **as hipóteses são sempre afirmações sobre a população** $X$ e não afirmações sobre a amostra.


Cada hipótese em termos do problema deve estar um valor para um parâmetro especificado para a população (por exemplo $\mu$).


Assim, deve-se estabelecer um valor para a média populacional $\mu$ considerando cada afirmação em termos do problema.

<div id="intro2"></div>

### Nomeando as hipóteses em $H_0$ (hipótese nula) e $H_A$ (hipótese alternativa)

O procedimento básico de um teste de hipóteses consiste em **supor verdadeira uma das hipóteses em questão, nomeada de hipótese nula $H_0$**.

E verificar se a amostra observada leva à rejeição ou não desta hipótese, ou seja, verificar se os dados coletados trazem evidências a favor ou não de uma hipótese formulada.


**Dica:** A hipótese nula sempre será aquela cuja afirmação trazer a igualdade de um valor atribuído ao parâmetro $\mu$.

<div id="intro3"></div>
 
### Exemplos:

**Obrigatoriamente**, a afirmação que carrega a **igualdade** de um valor atribuído ao parâmetro $\mu$
será nomeada de hipótese nula.

$\;$

$\qquad
\begin{array}{lcl}
  H_0:\mbox{Garrafas de refrigerantes possuem, em média, com 2 litros} & \Rightarrow & H_0: \mu=2 \\
  H_A:\mbox{Garrafas de refrigerantes não possuem, em média, com 2 litros} & \Rightarrow & H_A: \mu\neq2 \\
\end{array}$

$\;$

$\qquad
\begin{array}{lcl}
  H_0:\mbox{Duração de uma bateria não excede, em média, 40 horas} & \Rightarrow & H_0: \mu\leq40 \\
  H_A:\mbox{Duração de uma bateria excede, em média, 40 horas} & \Rightarrow & H_A: \mu>40 \\
\end{array}$

<div id="intro4"></div>

### Uso da Distribuição de $\overline{X}\sim N\left(\mu; \frac{\sigma^2}{n}\right)$

Para verificar se $\overline{x}$: *média observada na amostra* leva à rejeição ou não de $H_0$, deve-se recorrer a distribuição de $\overline{X}$.

$\;$

**Lembrando:** 

Assuma que $X$: *variável de interesse* e $E(X)=\mu$: *média populacional* e $Var(X)=\sigma^2$: *variância populacional*.
  * Se $X$ segue a distribuição $Normal$, então $\overline{X}\sim Normal$ de forma exata;
  * Se $X$ **não** segue a distribuição $Normal$, então $\overline{X}\sim Normal$ via TLC, se $n$ for suficientemente grande.
  * Ainda, pode-se para um $n$ relativamente pequeno realizar o `probplot` e verificar se é razoável supor que $X$ segue uma distribuição normal

<div id="intro5"></div>

### $\alpha$: Probabilidade de erro do tipo I associado à decisão:

A teoria do teste de hipóteses fornece métodos para a tomada de decisão a respeito de hipóteses formuladas, porém o erro de decisão não pode ser evitado. 

Nesse caso, deve-se estabelecer um valor para $\alpha$: *probabilidade de rejeitar $H_0$ dado essa ser verdadeira*, ou seja,

$$\alpha=\mbox{P(rejeitar }H_0 \mbox{ | } H_0 \mbox{ ser verdadeira)}$$.

Isso permite buscar uma regra de decisão (construção de uma região crítica) que aponte quais resultados amostrais te levam a rejeição de $H_0$, ou seja, te levam a concluir pelo descrito na hipótese alternativa $H_A$.

Usualmente, esses valores são fixados em 1%, 5% ou 10% e é chamado de **nível de significância**.

___

<div id="passos"></div>

## Passos para o teste de hipótese:

<div id="passo1"></div>

###  Passo 1

Fixar a hipótese nula, $H_0$ a ser testada e a hipótese alternativa ($H_A$)

Em geral a hipótese alternativa denota algo notável ou efeito anômalo que se queira testar (por exemplo resistores fora de conformidade)

<div id="passo2"></div>

### Passo 2

Defina qual estatística será usada para julgar a hipótese $H_0$.

Lembre-se:

* Estatística é calculada na **amostra**
* A hipótese diz respeito à **população** de onde veio a amostra

**Importante:** usar $\overline{x}$ (valor estimado na amostra) e  a distribuição de $\overline{X}$ (distribuição de médias amostrais) para inferir (tomar decisão) algo sobre $\mu$ (média populacional).

<div id="passo3"></div>

### Passo 3

Decida qual $\alpha$ utilizar e defina a Região Crítica (RC) segundo $H_0$.

Sobre $\alpha$:

* $\alpha$ é a probabilidade de rejeitar $H_0$ mesmo que ela seja verdadeira.
* $\alpha$ é chamado de nível de significância.
* Tipicamente $\alpha$ é fixado em $1\%$, $5\%$ ou $10\%$ 
* $1 - \alpha$  é chamado de nível de confiança (ou coeficiente de confiança).

#### Exemplos de região crítica:

a. Direita:

$H_0: \mu = \mu_0$

$H_1: \mu > \mu_0$

$x_{crítico}$ à direita:
<img src=xcritico_direita1.png width=40%>

b. Esquerda 

Para:

$H_0: \mu = \mu_0$

$H_1: \mu < \mu_0$

$x_{crítico}$ à esquerda:
<img src=xcritico_esquerda.png width=40%>

c. Bicaudal 

Para: 

$H_0: \mu = \mu_0$

$H_1: \mu \neq \mu_0$


$x_{crítico}$ em ambas as caudas:
<img src=bicaudal_xc1_xc2.png width=40%>

<div id="passo4"></div>

### Passo 4

Calcule a estatística da amostra. Por exemplo $\overline{x}$.

<div id="passo5"></div>

### Passo 5

Se o valor da estatística estiver na região crítica, rejeite $H_0$; caso contrário, **não rejeite** (nunca aceite) $H_0$.

___

<div id="valorp"></div>

## Valor-$p$

O valor-$p$ é a probabilidade de obter um resultado **igual ao da amostra ou mais extremo**, sob $H_0$ verdadeira.

Note que se o teste for bicaudal a definição de *mais extremo* vai nos fazer considerar valores simétricos nas duas pontas

<img src=valor_p_direita.png width=60%>

___

<div id="erros"></div>

## Erros tipo 1 e tipo 2


|       &nbsp;                        | $H_0$ é Verdadeiro       | $H_0$ é Falso                   |
|:---|:-----|:-----|
| Rejeito $H_0$     | * Erro tipo 1           | * Decisão Correta               |
|       &nbsp;            | * Falso Positivo        |     &nbsp;                                    |
|         &nbsp;          | * Probabilidade $\alpha$ |     &nbsp;                                    |
| Não Rejeito $H_0$ | * Decisão Correta        | * Erro tipo 2                  |
|       &nbsp;                   |   &nbsp;                              | * Falso Negativo               |
|       &nbsp;                 |            &nbsp;                     | * Probabilidade $\beta$     |
|        &nbsp;            

<img src="figura_gravida.png" width=50%>

Fonte: The essential guide to effect sizes. Statistical Power, Meta-analysis and Interpretation of Results. Paul D. Ellis. pg. 50


___

<div id="base-de-dados"></div>

# Base de Dados: Máquinas de Cartão

Uma empresa de serviços na área de soluções de pagamentos eletrônicos fornece máquinas a estabelecimentos comerciais para processarem o pagamento por cartão de crédito efetuado por seus clientes. Entretanto, os donos desses estabelecimentos comerciais reclamaram que o tempo de processamento das transações de cartão de crédito nessas máquinas estava, em média, muito alto.

Para evitar a perda de clientes, a empresa estabeleceu como meta reduzir o tempo médio de processamento das transações de cartão de crédito para menos do que 4 segundos até o fim do semestre (assuma $\sigma$ conhecido e igual a 1 segundo). 

Após a realização de diversas modificações, a empresa gostaria de checar se a meta foi atingida.

Para isso, foram medidos os tempos de processamento de uma amostra aleatória de transações. Os tempos medidos estão no arquivo `tempos.csv`.

In [None]:
# Carregando os dados
dados = pd.read_csv('tempos.csv', header=None)
dados.columns = ['tempo']
tempos = dados['tempo']
dados.head()

<div id="ex1"></div>

### EXERCÍCIO 1

Queremos saber se a empresa conseguiu atingir a meta de diminuir o tempo médio de processamento das transações de cartão de crétido para menos do que 4 segundos. Calcule a média da amostra. A partir desse valor já é possível tirar alguma conclusão?

[Respostas](#respostas)

In [None]:
# ESCREVA SEU CÓDIGO AQUI

<div id="ex2"></div>

### EXERCÍCIO 2

Gere o histograma dos dados coletados. Qual é a sua intuição a partir dessa visualização?

In [None]:
# ESCREVA SEU CÓDIGO AQUI

<div id="ex3"></div>

### EXERCÍCIO 3

Quais são as hipóteses nula e alternativa para este problema? Dica: consulte o [passo 1](#passo1).

[Respostas](#respostas)

In [None]:
# ESCREVA SUA RESPOSTA AQUI

<div id="ex4"></div>

### EXERCÍCIO 4

Você sabe qual é a distribuição de probabilidades das médias amostrais ($\overline{X}$)? Se não, é possível fazer alguma suposição? Admitindo $H_0$, quais são os parâmetros dessa distribuição?

[Respostas](#respostas)

In [None]:
# ESCREVA SUA RESPOSTA AQUI

<div id="ex5"></div>

### EXERCÍCIO 5

Calcule a região crítica (RC) segundo $H_0$ para o nível de significância de 1%. Dica: consulte o [passo 3](#passo3).

[Respostas](#respostas)

In [None]:
# ESCREVA SEU CÓDIGO AQUI

<div id="ex6"></div>

### EXERCÍCIO 6

Baseado nos resultados anteriores, qual é a sua conclusão sobre a meta da empresa? Ela foi atingida ou não? Justifique.

[Respostas](#respostas)

In [None]:
# ESCREVA SUA RESPOSTA AQUI

<div id="respostas"></div>

# Respostas

### [Exercício 1](#ex1)

A média amostral é 3.632092780943135 s

O fato da média ser menor do que 4 não é suficiente para afirmar que a meta foi atingida. 
É necessário definir o nível de significância e então verificar se essa média pertence à região crítica

### [Exercício 3](#ex3)

H0: mu = 4
HA: mu < 4

### [Exercício 4](#ex4)

Vamos supor que 49 é um valor suficientemente grande para valer o Teorema Central do Limite. Então: $\overline{X}\sim Normal(4, 0.02040816326530612)$.

### [Exercício 5](#ex5)

RC = {xbarra_obs < 3.667664589422737}

### [Exercício 6](#ex6)

Como a média amostral é menor do que 3.66, rejeitamos H0. Assim, concluimos que a meta da empresa foi atingida, ou seja, o tempo médio de processamento das transações é menor do que 4 s.