# Testes de Hipósteses
---

## Teoria:
---
  É uma metodologia estatística que nos auxilia a tomar decisões sobre uma ou mais populações baseado na informação obtida da amostra.
Nos permite verificar se os dados amostrais trazem evidências que apoiem ou não uma hipótese estatística formulada.
Ao tentarmos tomar decisões, é conveniente a formulação de suposições ou de conjecturas sobre as populações de interesse, que, em geral, consistem em **considerações sobre parâmetros** ($\mu , \sigma^2, p$) das mesmas. Essas suposições, que podem ser ou não verdadeiras, são denominadas de **Hipóteses Estatísticas**. Em muitas situações práticas o interesse do pesquisador é verificar a veracidade sobre um ou mais parâmetros populacionais ($\mu , \sigma^2, p$) ou sobre a distribuição de uma variável aleatória.

### Objetivo:
---
* O objetivo de um teste estatístico de hipóteses é fornecer ferramentas que nos permitam aceitar ou rejeitar uma hipótese estatística através dos resultados de uma amostra.

### Conceitos fundamentais:
---
* Hipótese nula ($H_0$): é a hipótese assumida com verdadeira para a contstrução do teste. É a teoria, o efeito ou a alternativa que se está interessado em testar
* Hipótese alternativa ($H_1$): é considerada quando a hipótese nula não tem evidência estatística.
* Erro do tipo I ($\alpha$): é a probabilidade de se rejeitar a hipótese nula quando ela é verdadeira.
* Erro do tipo II: é a probabilidade de se rejeitar a hipótese alternativa quando ela é verdadeira.

<table>
  <thead>
    <tr>
      <th></th>
      <th>Hipótese nula $H_0$ é verdadeira</th>
      <th>Hipótese nula $H_0$ é falsa</th>  
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>Hipótese nula $H_0$ é rejeitada</td>
      <td>Erro do tipo I</td>
      <td>Não há erro</td>  
    </tr>
    <tr>
      <td>Hipótese nula $H_0$ não é rejeitada</td>
      <td>Não há erro</td>
      <td>Erro do tipo II</td>  
    </tr>
  </tbody>
</table>

### Definição 1:
---
* **Teste de hipótese**: um teste de hipótese estatística é uma regra ou procedimento para decidir se rejeitamos ou não $H_0$.
### Definição 2:
---
* **Região Crítica**: é o conjunto de valores com os quais rejeitamos $H_0$. Notação RC.
### Definição 3.
---
* **Nível de Significância**: o nível de significância de um teste é definido como $\alpha = P(Erro \ \ tipo\ \  I) = P(Rejeitar \ \ H_0 \ \ dado \ \ que \ \ H_0  \ \ é \ \  Verdadeiro)$

### Estatísticas de teste comuns
---
* **Teste de hipóteses com uma amostra**: é apropriado para comparar a amostra com a população a partir da hipótese. As características da população são conhecidas a partir da teoria ou são calculadas a partir da população.

* **Teste de hipóteses com duas amostras**: é apropriado para comparar duas amostras, tipicamente amostra experimental e amostra de controle a partir de um experimento cientificamente controlado.

* **Teste pareado**: é apropriado para comparar duas amostras quando é impossível controlar variáveis importantes. Em vez de comparar dois conjuntos, os componentes são pareados entre amostras. Então, a diferença entre os componentes se torna a amostra. Tipicamente a média das diferenças é comparada a 0. O cenário comum de exemplo para quando o teste pareado é apropriado é quando um único conjunto de sujeitos de teste tem algo aplicado a eles e o teste destina-se a verificar um efeito.

* **Teste Z**: é apropriado para comparar médias por meio de condições mais rigorosas em relação à normalidade a um desvio padrão conhecido.

* **Teste t**: ´é apropriado para comparar médias por meio de condições mais relaxadas.

* **Teste de proporção**: é análogo aos teste de médias (proporção de 50%).

* **Testes qui quadrado**: usam os mesmos cálculos e a mesma distribuição de probabilidade para diferentes aplicações:
    * Testes qui quadrado para variância são usados para determinar se uma população normal tem uma variância específica. A hipótese nula é que a população normal tem a variância específica.
    * Testes ui quadrado para independência são usados para decidir se duas variáveis são associadas ou independentes. As variáveis são categóricas em vez de numéricas. A hipótese nula é que as variáveis são independentes. Os números usados no cálculo são as frequências observadas e esperadas de ocorrência (a partir de tabelas de contingência).
    * Testes qui quadrado de bondade de ajuste são usados para determinar a adequação das curvas ajustadas aos dados. A hipótese nula é que a curva ajustada é adequada. É comum determinar formatos de curvas para minimizar o erro quadrático médio. Então, é apropriado que o cálculo de bondade de ajuste some os erros quadráticos.
* Teste F: é comumente usado para decidir se agrupamentos de dados por categorias são significativos. A hipótese nula é que duas variâncias são as mesmas. Então, o agrupamento proposto não é significativo.

<table>
    <thead>
        <tr>
            <th>Teste</th>
            <th>Fórmula</th>
            <th>Notas</th> 
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>Teste Z para uma amostra</td>
            <td>$$z = \frac{\overline{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}$$</td>
            <td>
                <li>População normal ou $n>30 \ \ e \ \ \sigma$ conhecido</li>
                <li>$z$ é a distância a partir da média em relação ao desvio padrão da média.</li>
                <li>Para distribuições não normais é possível calcular uma proporção mínima para um população, que caia dentro de $k$ desvios padrão para qualquer $k$</li>
            </td>  
        </tr>
        <tr>
            <td>Teste Z para duas amostras</td>
            <td>$$z=\frac{(\overline{x}_1 - \overline{x}_2 )-d_0}{\sqrt{\frac{\sigma^2_1}{n_1}} + \frac{\sigma^2_2}{n_2}}$$</td>
            <td><li>População normal e observações independentes e ${\sigma _{1}}$ e ${\sigma _{2}}$ são conhecidos.</li></td>  
        </tr>
        <tr>
            <td> Teste t para uma amostra </td>
            <td> $${t = {\frac {{\overline {x}}-\mu _{0}}{({\frac {s}{\sqrt {n}}})}},}{df=n-1\ }$$ </td>
            <td> <li>${n<30}$ e $\sigma$ desconhecido.</li></td>
        </tr> 
        <tr>
            <td> Teste pareado </td> 
            <td> ${t={\frac {{\overline {d}}-d_{0}}{({\frac {s_{d}}{\sqrt {n}}})}},}{df=n-1\ }$ </td> 
            <td> <li>População normal ou ${n>30}$ e $\sigma$ desconhecido ou amostra de tamanho pequeno ${n<30}$ </li></td> 
        </tr> 
                <tr>
            <td> Teste t combinado para duas amostras com variâncias iguais </td> 
            <td> $${t={\frac {({\overline {x}}_{1}-{\overline {x}}_{2})-d_{0}}{s_{p}{\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}}},}$$

$${s_{p}^{2}={\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}},}$$

$${df=n_{1}+n_{2}-2\ }$$ </td> 
            <td> <li>População normal ou ${n_{1}+n_{2}>40}$ e observações independentes e ${\displaystyle \sigma _{1}=\sigma _{2}}$ desconhecidos </li></td> 
        </tr> 
                <tr>
            <td> Teste t não combinado para duas amostras com variâncias desiguais (Teste t de Welch) </td> 
            <td> $${ t={\frac {({\overline {x}}_{1}-{\overline {x}}_{2})-d_{0}}{\sqrt {{\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}},}$$ 
                    $${df={\frac {\left({\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}\right)^{2}}{{\frac {\left({\frac {s_{1}^{2}}{n_{1}}}\right)^{2}}{n_{1}-1}}+{\frac {\left({\frac {s_{2}^{2}}{n_{2}}}\right)^{2}}{n_{2}-1}}}}}$$</td> 
            <td> <li>População normal ou ${n_{1}+n_{2}>40}$ e observações independentes e ${\sigma _{1}\neq \sigma _{2}}$ desconhecidos.</li> </td> 
        </tr> 
                <tr>
            <td> Teste Z de uma proporção </td> 
            <td> $${z={\frac {{\hat {p}}-p_{0}}{\sqrt {p_{0}(1-p_{0})}}}{\sqrt {n}}}$$ </td> 
            <td> <li>${ n\times p_{0}>10}$ e ${ n(1-p_{0})>10}$ e é uma amostragem aleatória simples.</li> </td> 
        </tr> 
                <tr>
            <td> Teste Z de duas proporções combinado para ${H_{0}\colon p_{1}=p_{2}}$ </td> 
            <td> $${z={\frac {({\hat {p}}_{1}-{\hat {p}}_{2})}{\sqrt {{\hat {p}}(1-{\hat {p}})({\frac {1}{n_{1}}}+{\frac {1}{n_{2}}})}}}}$$
                    $${{\hat {p}}={\frac {x_{1}+x_{2}}{n_{1}+n_{2}}}}$$</td> 
            <td> <li> ${n_{1}\times p_{1}>5}$ e $n_{1}(1-p_{1}) > 5$ e ${n_{2}\times p_{2}>5}$ e ${n_{2}(1-p_{2})>5}$ e observações independentes.</li> </td> 
        </tr> 
                <tr>
            <td> Teste Z de duas proporções não combinado para ${|d_{0}|>0}$ </td> 
            <td> $${z={\frac {({\hat {p}}_{1}-{\hat {p}}_{2})-d_{0}}{\sqrt {{\frac {{\hat {p}}_{1}(1-{\hat {p}}_{1})}{n_{1}}}+{\frac {{\hat {p}}_{2}(1-{\hat {p}}_{2})}{n_{2}}}}}}}$$ </td> 
            <td> <li> ${n_{1}\times p_{1}>5}$ e $n_{1}(1-p_{1}) > 5$ e ${n_{2}\times p_{2}>5}$ e ${n_{2}(1-p_{2})>5}$ e observações independentes.</li>
            </td> 
        </tr> 
                <tr>
            <td> Teste qui quadrado para variância </td> 
            <td> $${\chi ^{2}=(n-1){\frac {s^{2}}{\sigma _{0}^{2}}}}$$ </td> 
            <td> <li> $df=k-1-$ **número de parâmetros estimados**, e um deles deve ser mantido</li>
                 <li> Todas as contagens esperadas são pelo menos 5 </li>
                 <li> Todas as contagens são mais que 1 e não mais que 20% das contagens esperadas são menores que 5 </li>
            </td>
            <tr>
            <td> Teste qui quadrado de bondade de ajuste </td> 
            <td> $${\chi ^{2}=\sum ^{k}{\frac {({\text{observado}}-{\text{esperado}})^{2}}{\text{esperado}}}}$$ </td> 
            <td> <li> ${df=k-1-{\text{número de parâmetros estimados}}}$, e um deles deve ser mantido. </li>
                <li> Todas as contagens esperadas são pelo menos 5. </li>
                <li> Todas as contagens são mais que 1 e não mais que 20% das contagens esperadas são menores que 5.</li> 
           </td> 
        </tr> 
        </tr> 
        <tr>
            <td> Teste F para duas amostras para igualdade de variâncias </td> 
            <td> $${ F={\frac {s_{1}^{2}}{s_{2}^{2}}}}$$ </td> 
                    <td> <li> População normal </li>
                         <li> Determina–se ${s_{1}^{2}\geq s_{2}^{2}}$ e rejeita–se $H_0$ para ${ F>F({\frac {\alpha }{2}},n_{1}-1,n_{2}-1)}$ </td> 
        </tr> 
        <tr>
            <td> Test t de regressão para ${H_{0}\colon R^{2}=0}$ </td> 
            <td> $${t={\sqrt {\frac {R^{2}(n-k-1^{*})}{1-R^{2}}}}}$$ </td> 
            <td> <li> Rejeita–se ${ H_{0}}$ para ${ t>t({\frac {\alpha }{2}},{n - k - 1} )}$. Subtrai–se 1 para interceptar. </li>
                 <li> $k$ termos contem variáveis independentes.</li></td> 
        </tr> 
        
  </tr>
      <tr>
      <td colspan = "3">Em geral, o subscrito 0 indica um valor extraído da hipótese nula (${\displaystyle H_{0}}$), que deveria ser usado o máximo possível na construção do seu teste estatístico.
<p>Definição de outros símbolos:</p>

<li>$\alpha$ = probabilidade do erro de tipo I (rejeitando a hipótese nula ${H_{0}}$  quando ela é verdadeira)</li>
<li>${n}$ = tamanho da amostra</li>
<li>${n_{1}}$ = tamanho da amostra 1</li>
<li>${n_{2}}$ = tamanho da amostra 2</li>
<li>${{\overline {x}}}$ = média da amostra</li>
<li>${\mu _{0}}$ = média populacional hipotética</li>
<li>${\mu _{1}}$ = média da população 1</li>
<li>${\mu _{2}}$ = média da população 2</li>
<li>${\sigma }$ = desvio padrão populacional</li>
<li>${\sigma ^{2}}$ = variância populacional</li>
<li>${s}$ = desvio padrão amostral
<li>${\sum ^{k}}$ = soma (${k}$ números)</li>
<li>${s^{2}}$ = variância amostral</li>
<li>${s_{1}}$ = desvio padrão da amostra 1</li>
<li>${s_{2}}$ = desvio padrão da amostra 2</li>
<li>${t}$ = estatística t</li>
<li>${df}{\displaystyle df}$ = graus de liberdade</li>
<li>${{\overline {d}}}$ = média amostral das diferenças</li>
<li>${d_{0}}$ = diferença da média populacional hipotética</li>
<li>${s_{d}}$ = desvio padrão das diferenças</li>
<li>${\chi ^{2}}$ = estatística qui quadrado</li>
<li>${{\hat {p}}}$ = ${{\frac {x}{n}}}$ = proporção amostral, a menos que especificado de outra forma
<li>${p_{0}}$ = proporção da população hipotética</li>
<li>${p_{1}}$ = proporção 1</li>
<li>${p_{2}}$ = proporção 2</li>
<li>${d_{p}}$ = diferença hipotética na proporção</li>
<li>${\min\{n_{1},n_{2}\}}$ = mínimo de ${n_{1}}n_{1}$ e ${n_{2}}$</li>
<li>${x_{1}=n_{1}p_{1}}$</li>
<li>${x_{2}=n_{2}p_{2}}$</li>
<li>${F}$ = estatística F</td></li>
  </tr>
    
  </tbody>
</table>


<table border="1">
  <tr>
    <th scope="col">Header</th>
    <th scope="col">Header</th>
    <th scope="col" colspan="2">Header</th>
  </tr>
  <tr>
    <th scope="row">&nbsp;</th>
    <td>&nbsp;</td>
    <!-- The following two cells will appear under the same header -->
    <td>Col 1</td>
    <td>Col 2</td>
  </tr>
</table>