# Estatística parte II

# Amostra e População

### Definição:

>- População é o conjunto de todos os elementos ou resultados sob investigação. 
>- Amostra é qualquer subconjunto da população

# Teste de Hipóteses

### Motivação:

Introduziremos a ideia de teste de hipóteses por meio de um exemplo "não estatístico".

Suponha que ocorreu um cirme e o detetive responsável pela investigação suspeita do mordomo.

.                 | detetive (decisão) culpado | detetive (decisão) inocente
------------------|------------------|------------------
mordomo culpado  |     acerto       |    erro *tipo II*
mordomo inocente  |   erro *tipo I*  |      acerto

A primeira coisa que devemos ter clara é a afirmação (hipótese) a ser testada. Neste caso, o detetive deve testar a hipótese
>- $H_0$: "o mordomo é inocente"

A hipótese a ser testada é chamada de hipótese nula (geralmente, escolhemos como hipótese nula aquela que gostaríamos de rejeitar).

Caso H0 seja rejeitado, consideramos que uma hipótese alternativa deve ser viável. Para este caso, temos como hipótese alternativa
>- $H_1$: "o mordome é culpado"

Independente das hipóteses, temos sempre duas formas de errar. Definindo assim dois tipos de erros:

>- erro tipo I: rejeitar $H_0$ quando $H_0$ é verdadeiro.
>- erro tipo II: não rejeitar $H_0$ quando $H_0$ é falso.

No nosso exemplo, o **erro tipo I** seria o detetive concluir que o mordomo é *culpado* sendo na verdade *inocente* e o **erro tipo II** seria o detetive concluir que o mordomo é *inocente* quando na verdade é *culpado*.

O objetivo do **Teste de Hipóteses** é testar hipóteses sobre parâmetros populacionais ($p, μ, σ^2$), determinando se a hipótese nula ($H_0$) é provável que seja verdadeira com base nos dados de amostra. Caso tenha pouca evidência contra $H_0$, aceitamos $H_0$. Se a hipótese nula é improvável, com base nos dados, podemos rejeitar $H_0$ a favor da hipótese alternativa ($H_1$).

$$
H_0 \text{ (hipótese nula) vs } H_1 \text{ (hipótese alternativa)}.
$$

#### Nível de significância
Definimos como Nível de significância de um teste (geralmente denotado pela letra grega α) a probabilidade do erro tipo 1, ou seja,

$$
α \text{ = P(erro tipo 1) = P(rejeitar } H_0  | H_0 \text{ é verdadeiro).}
$$

Em geral é escolhido um dos seguintes valores para α: 1%, 5% e 10%.

#### Valor p (p-valor)

O p-valor é a probabilidade de que a estatística do teste tenha valor extremo em relação ao valor observado quando a hipótese$ H_0$ é verdadeira.

Para exemplificar a definição de p-valor, considere um teste de hipótese para a média no qual o valor da estatística é dado por $Z_{\text{obs}}$, ou seja,

![](img/z_obs.png)

Denotando o nível de significância como $α$, rejeitaremos $ H_0 $ se $ Z_{\text{obs}} < Z_{\alpha/2} $ ou se $ Z_{\text{obs}} > Z_{\alpha/2} $. 

As figuras a seguir representam, respectivamente, o p-valor nos casos em que temos um teste de hipóteses bilateral com rejeição da hipótese nula e sem rejeição da hipótese nula.

![](img/pvalor_bilateral.png)

Para os testes de hipóteses unilaterais, utilizaremos $ Z_{\alpha} $ para definir a região de rejeição. Para exemplificar, abaixo temos as figuras de um teste de hipóteses unilateral para média. Na primeira figura rejeitamos a hipótese nula e na segunda não rejeitamos.

![](img/pvalor_unilateral.png)

#### Poder do teste

O Poder do teste tem como objetivo determinar o quanto um teste de hipótese controla o erro tipo II (geralmente o erro tipo II é denotado pela letra grega β). Assim,

$$
\text{ Poder = 1 - β = 1 - P(não rejeitar } H_0|H_0 \text{ é falso.}
$$

Definidos o erro tipo I ($α$) e o erro tipo II ($β$) o ideal seria minimizar os 2 tipos de erros, a situação ideal é aquela em que ambas as probabilidades, $ α $ e $ β $, são próximas de zero. No entanto, podemos ver que a medida que diminuímos $ α $, $ β $ aumenta. A Figura a seguir apresenta esta relação.

![](img/erros_tipo_I_e_II.png)

Como não é uma tarefa trivial, pois para diminuir a chance de um tipo de erro devemos mudar a nossa regra de decisão, o que automaticamente aumenta a chance do outro tipo de erro acontecer. Assim, no decorrer de nossos estudos sobre Teste de Hipóteses iremos controlar apenas o erro tipo I ($α$).

## Teste de Hipósteses para uma população

### Teste de Hipótese para média com variância desconhecida

Seja $X_1, X_2, ..., X_n$ uma amostra aleatória de uma população normal com média μ e variância $σ^2$ desconhecidas. Suponha que queremos testar as seguintes hipóteses:

$$
H_0: μ = μ_0 \\
\text{vs} \\
H_1: μ < μ_0 \text{ ou } μ > μ_0 \text{ ou } μ \neq μ_0, \text{ onde } μ_0 \in \mathbb{R}.
$$

Utilizaremos o **teste t** para verificar se a média da amostra é estatisticamente diferente da média populacional conhecida ou hipotética.

Vamos executar um exemplo simples.

In [1]:
import numpy as np
import scipy.stats as stats

In [2]:
# Criando um vetor de tamanho 100 com distribuição normal
vetor = np.random.normal(size = 100)

print(vetor)

[ 1.81255241e+00 -6.78232453e-01  6.46688291e-01 -1.87563533e+00
 -1.14747985e+00  1.87634684e+00  5.61947229e-01  1.07129145e+00
  4.28173665e-01 -7.20461473e-01  4.88723086e-01  1.56409527e-02
 -4.20670311e-01  2.32905439e+00  1.23917224e+00  9.92113347e-02
 -7.59950941e-01  8.21080572e-01 -1.83142996e+00 -2.51006363e-01
 -5.95529100e-01  1.25124110e+00 -5.34030706e-01  1.20487021e+00
  8.39710471e-01  9.38563506e-01 -7.37882274e-01 -1.35406158e+00
  3.37117869e-01  1.06448058e+00  1.68562782e+00  1.83119415e-02
  5.07505544e-01 -1.97562079e+00  5.32639119e-01  2.85974104e-01
 -1.19203841e+00 -2.53815040e-01 -7.55462067e-01 -2.62158423e+00
  6.29468822e-01 -2.01382367e-01  5.60262996e-01  1.19278726e-01
  1.10909394e+00  1.53945223e-02  3.37677593e-01 -1.55888081e+00
 -1.97691505e-01  3.14389430e-01  6.28384418e-03  1.25225416e+00
  1.36931569e+00  1.86199637e-03 -2.39655705e-01 -8.17455265e-01
  8.95517818e-01  1.22581092e+00  6.25761267e-01  6.12793780e-01
  1.37663458e+00  1.35754

Neste exemplo, queremos testar nossas seguintes hipóteses:

$$
H_0: μ = 0 \text{ vs } H_1: μ \neq 0
$$

Para realizar um teste teste t de uma amostra no python podemos usar a função ``stats.ttest_1samp()``:

In [3]:
print("Saída do teste: ", stats.ttest_1samp(vetor, popmean = 0)) # popmean é o valor que queremos testar

Saída do teste:  Ttest_1sampResult(statistic=1.5398104018948437, pvalue=0.1267968761753285)


### Teste de Hipóteses utilizando o R no Python

Como a função ``stats.ttest_1samp()`` permite apenas realizar teste bilateral e o teste de hipóteses no python não é muito informativo, utilizaremos o R através do Python para realizar nossos testes.

In [4]:
import rpy2.robjects.packages as rpackages

**Salvaremos toda a biblioteca "stats" do R**

O comando ``dir()``, a seguir, é interessante para saber quais são as funções que estão presentes. Usaremos ``len(dir())`` para saber quantas funções foram importadas do pacote stats do R.

In [5]:
stats = rpackages.importr('stats')

print(len(dir(stats)))

1144


Vamos executar um exemplo simples similar ao anterior para testar a funcionalidade do pacote.

Nossas hipóteses são:

$$
H_0: μ = 0 \text{ vs } H_1: μ \neq 0
$$

In [6]:
vetor = stats.rnorm(100)

print("Saída do teste: ", stats.t_test(vetor, mu=0)) # mu é o valor que queremos testar

Saída do teste:  

	One Sample t-test



data:  c(1.65577859425148, 0.512720382001657, 0.106460866720666, -0.369286321654655, 0.401591286285018, 0.0762428772952065, 1.19149907497513, -0.005554047284127, 0.84616309504795, 0.713479694694544, 0.108788610436768, -1.47521770923959, -0.982335105211715, -0.572426018522172, 0.142838142093078, -0.463331929042201, -0.991741005358932, -1.56866455108727, -0.271207805477048, 0.514517399289889, 0.235385772450397, 0.88554950562397, -0.641200501057994, 1.93473626062037, 0.570289342783608, 0.204043435968891, -0.556641186193432, 0.0947482166612849, -0.0418297442334411, -1.7982402016964, -0.596216383558034, -0.584882873205308, 1.25775969055763, 1.03983296477335, -0.626748982372082, 1.64866387536748, 0.473884185222657, 1.52516864218267, -0.144569286200588, 1.86637073717298, -1.37201149523935, 1.48799371291615, 0.138295621277684, -2.12270268422493, 0.920320470932079, -1.3805327169551, -1.42605059553613, 1.76683627034344, -0.510135221586331, 0.9182322811

Se não indicar o parâmetro ``alt`` (hipótese alternativa), o R faz um teste bilateral. Para realizar um teste unilateral a direita devemos usar o parâmetro ``alt`` = "greater" e para um teste unilateral a esquerda deve-se usar alternative = "less".

In [7]:
teste_t = stats.t_test(vetor, mu=0, alt = "greater")

print("Saída do teste: ", teste_t)

Saída do teste:  

	One Sample t-test



data:  c(1.65577859425148, 0.512720382001657, 0.106460866720666, -0.369286321654655, 0.401591286285018, 0.0762428772952065, 1.19149907497513, -0.005554047284127, 0.84616309504795, 0.713479694694544, 0.108788610436768, -1.47521770923959, -0.982335105211715, -0.572426018522172, 0.142838142093078, -0.463331929042201, -0.991741005358932, -1.56866455108727, -0.271207805477048, 0.514517399289889, 0.235385772450397, 0.88554950562397, -0.641200501057994, 1.93473626062037, 0.570289342783608, 0.204043435968891, -0.556641186193432, 0.0947482166612849, -0.0418297442334411, -1.7982402016964, -0.596216383558034, -0.584882873205308, 1.25775969055763, 1.03983296477335, -0.626748982372082, 1.64866387536748, 0.473884185222657, 1.52516864218267, -0.144569286200588, 1.86637073717298, -1.37201149523935, 1.48799371291615, 0.138295621277684, -2.12270268422493, 0.920320470932079, -1.3805327169551, -1.42605059553613, 1.76683627034344, -0.510135221586331, 0.9182322811850

A variável *teste_t* pode ser tratada como uma lista do python. Assim, por exemplo, para obter apenas o p-valor do teste, bastar buscar o elemento na posição 2 do objeto.

In [8]:
print("O p-valor obtido foi: ",teste_t[2])

O p-valor obtido foi:  [1] 0.5928871



### Teste de hipótese para proporção populacional

Seja $X_1, X_2,..., X_n$ uma amostra aleatória tal que

$$
X_i = \left\{ \begin{array}{ll} 1 & \text{,  se o i-ésimo elemento possui a característica de estudo } \\ 0 & \hbox{,  caso contrário.} \end{array} \right.
$$

e seja $p \in$ (0, 1) a proporção populacional da característica. Suponha que estamos interessados em testar as hipóteses

$$
H_0: p = p_0 \\
\text{vs} \\
H_1: p < p_0 \text{ ou } p > p_0 \text{ ou } p \neq p_0, \text{ onde } p_0 \in \text{ (0, 1)}.
$$

Considerando o banco de dados ``basesaude.csv``, vamos verificar se a proporção de indivíduos com 60 kg ou menos
é igual a 20%.

Nossas hipóteses são:

$$
H_0: p = 20\% \text{ vs } H_1: p \neq 20\%
$$

In [9]:
import pandas as pd

base = pd.read_csv("data/basesaude.csv")

print(base)

   Codigo   Datacol  Sexo  Idade  Peso  Estatura  HIV  Escol  DST  Tipo
0    AB01  14/10/15     1   20.0  61.2      1.60    1    3.0    1   2.0
1    AB02  09/02/16     0   30.0  60.0      1.55    0    5.0    0   NaN
2    AB03  01/03/10     0   50.0  80.0      1.83    1    2.0    1   3.0
3    AB04  04/05/13     0   43.0  83.0      1.90    1    NaN    1   2.0
4    AB05  20/05/14     0   22.0  75.3      1.75    0    2.0    1   3.0
5    AB06  30/01/11     1   15.0  70.2      1.70    1    6.0    0   NaN
6    AB07  05/08/15     1   22.0  60.0      1.65    1    5.0    1   3.0
7    AB08  08/12/13     1   25.0  62.0      1.55    0    1.0    0   2.0
8    AB09  03/11/10     1   32.0  61.0      1.62    1    4.0    1   1.0
9    AB10  10/10/10     1   33.0  55.0      1.55    1    5.0    1   NaN
10   AB11  05/08/15     0   39.0   NaN       NaN    0    5.0    1   NaN
11   AB12  09/08/14     0   60.0  78.0      1.77    0    4.0    1   2.0
12   AB13  07/07/15     0    NaN  70.0      1.65    0    1.0    

In [10]:
x = len(base[base["Peso"]<=60])       # Número de indivíduos que possuem 60kg ou menos
n = len(base.dropna(subset=["Peso"])) # Tamanho da amostra

print("x =", x, "n =", n)

x = 8 n = 29


In [11]:
teste_prop = stats.prop_test(x, n ,p=0.2, alt="two.sided")

print("Saída do teste: ", teste_prop)

Saída do teste:  

	1-sample proportions test with continuity correction



data:  8L out of 29L, null probability 0.2

X-squared = 0.62284, df = 1, p-value = 0.43

alternative hypothesis: true p is not equal to 0.2

95 percent confidence interval:

 0.1344590 0.4748512

sample estimates:

        p 

0.2758621 





## Referências

[numpy.random.normal](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.random.normal.html)

[scipy.stats.ttest_1samp](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html)

[rpy2](https://rpy2.readthedocs.io/en/version_2.8.x/)

MORETTIN, Pedro Alberto; BUSSAB, Wilton de Oliveira. Estatística básica. 6. ed. rev. atual. São Paulo: Saraiva, São Paulo: Saraiva, c2014.

[Erros cometidos nos testes de hipóteses](http://www.portalaction.com.br/inferencia/511-erros-cometidos-nos-testes-de-hipoteses)

[Cálculo e interpretação do p-valor](http://www.portalaction.com.br/inferencia/512-calculo-e-interpretacao-do-p-valor)