# Estatística parte II

# Amostra e População

### Definição:

>- População é o conjunto de todos os elementos ou resultados sob investigação. 
>- Amostra é qualquer subconjunto da população

# Teste de Hipóteses

### Motivação:

Introduziremos a ideia de teste de hipóteses por meio de um exemplo "não estatístico".

Suponha que ocorreu um cirme e o detetive responsável pela investigação suspeita do mordomo.

.                 | detetive (decisão) culpado | detetive (decisão) inocente
------------------|------------------|------------------
mordomo culpado  |     acerto       |    erro *tipo II*
mordomo inocente  |   erro *tipo I*  |      acerto

A primeira coisa que devemos ter clara é a afirmação (hipótese) a ser testada. Neste caso, o detetive deve testar a hipótese
>- $H_0$: "o mordomo é inocente"

A hipótese a ser testada é chamada de hipótese nula (geralmente, escolhemos como hipótese nula aquela que gostaríamos de rejeitar).

Caso H0 seja rejeitado, consideramos que uma hipótese alternativa deve ser viável. Para este caso, temos como hipótese alternativa
>- $H_1$: "o mordome é culpado"

Independente das hipóteses, temos sempre duas formas de errar. Definindo assim dois tipos de erros:

>- erro tipo I: rejeitar $H_0$ quando $H_0$ é verdadeiro.
>- erro tipo II: não rejeitar $H_0$ quando $H_0$ é falso.

No nosso exemplo, o **erro tipo I** seria o detetive concluir que o mordomo é *culpado* sendo na verdade *inocente* e o **erro tipo II** seria o detetive concluir que o mordomo é *inocente* quando na verdade é *culpado*.

O objetivo do **Teste de Hipóteses** é testar hipóteses sobre parâmetros populacionais ($p, μ, σ^2$), determinando se a hipótese nula ($H_0$) é provável que seja verdadeira com base nos dados de amostra. Caso tenha pouca evidência contra $H_0$, aceitamos $H_0$. Se a hipótese nula é improvável, com base nos dados, podemos rejeitar $H_0$ a favor da hipótese alternativa ($H_1$).

$$
H_0 \text{ (hipótese nula) vs } H_1 \text{ (hipótese alternativa)}.
$$

#### Nível de significância
Definimos como Nível de significância de um teste (geralmente denotado pela letra grega α) a probabilidade do erro tipo 1, ou seja,

$$
α \text{ = P(erro tipo 1) = P(rejeitar } H_0  | H_0 \text{ é verdadeiro).}
$$

Em geral é escolhido um dos seguintes valores para α: 1%, 5% e 10%.

#### Valor p (p-valor)

O p-valor é o menor valor que o nível de significância deve ter para o teste rejeitar $H_0$.

#### Poder do teste

O Poder do teste tem como objetivo determinar o quanto um teste de hipótese controla o erro tipo II (geralmente o erro tipo II é denotado pela letra grega β). Assim,

$$
\text{ Poder = 1 - β = 1 - P(não rejeitar } H_0|H_0 \text{ é falso.}
$$

Definidos o erro tipo I ($α$) e o erro tipo II ($β$) o ideal seria minimizar os 2 tipos de erros, porém não é uma tarefa trivial, pois para diminuir a chance de um tipo de erro devemos mudar a nossa regra de decisão, o que automaticamente aumenta a chance de outro tipo de erro acontecer. Assim, no decorrer de nossos estudos sobre Teste de Hipóteses iremos controlar apenas o erro tipo I ($α$).

## Teste de Hipósteses para uma população

### Teste de Hipótese para média com variância desconhecida

Seja $X_1, X_2, ..., X_n$ uma amostra aleatória de uma população normal com média μ e variância $σ^2$ desconhecidas. Suponha que queremos testar as seguintes hipóteses:

$$
H_0: μ = μ_0 \\
\text{vs} \\
H_1: μ < μ_0 \text{ ou } μ > μ_0 \text{ ou } μ \neq μ_0, \text{ onde } μ_0 \in \mathbb{R}.
$$

Utilizaremos o **teste t** para verificar se a média da amostra é estatisticamente diferente da média populacional conhecida ou hipotética.

Vamos executar um exemplo simples.

In [1]:
import numpy as np
import scipy.stats as stats

In [2]:
# Criando um vetor de tamanho 100 com distribuição normal
vetor = np.random.normal(size = 100)

print(vetor)

[-0.6633772   2.65508967 -0.16426886 -0.31256017 -2.02567976  0.4140043
 -0.60313654 -0.14187143 -0.98695047 -1.61813483 -0.64933465 -0.13576387
 -1.2523542   0.84659248  0.01429853  0.24983534  1.09841236  1.59038663
  0.36003183  0.19228469 -0.82953846  0.07584931  0.45317952  0.92191403
  0.5281047   0.17389138  1.10368864  0.3937058  -0.55800116  0.95539891
 -2.41409875  1.53027701  0.95196047 -0.60394396 -0.11622954  0.77253012
  1.40122642 -1.31647841  0.92536819  0.48030532  0.25210373 -0.28515743
  1.59179143 -1.36586711 -1.01262066 -1.20886203 -0.67571568 -0.26257128
 -0.42080623  1.01202593 -1.79948199  0.64069641  0.07458277 -0.98565084
 -0.43622583 -0.12673014 -0.01058754 -0.09561055 -0.28663293  0.31768816
 -0.36456601  1.16375875  1.88198032 -0.42343744  0.57217672  1.06902957
  0.59567946  0.05864887  0.11364137 -1.47991074 -0.09168768 -1.63345878
  1.04332032 -1.49823488 -0.76261038  1.68369241 -0.60076322 -0.29739693
  0.29596823  0.36562928 -1.38024681  1.71795824 -0.

Neste exemplo, queremos testar nossas seguintes hipóteses:

$$
H_0 = 0 \text{ vs } H_1 \neq 0
$$

Para realizar um teste teste t de uma amostra no python podemos usar a função ``stats.ttest_1samp()``:

In [3]:
print("Saída do teste: ", stats.ttest_1samp(vetor, popmean = 0)) # popmean é o valor que queremos testar

Saída do teste:  Ttest_1sampResult(statistic=-0.10875711188013369, pvalue=0.913615272542448)


### Teste de Hipóteses utilizando o R no Python

Como a função ``stats.ttest_1samp()`` permite apenas realizar teste bilateral e o teste de hipóteses no python não é muito informativo, utilizaremos o R através do Python para realizar nossos testes.

In [4]:
import rpy2.robjects.packages as rpackages

**Salvaremos toda a biblioteca "stats" do R**

O comando ``dir()``, a seguir, é interessante para saber quais são as funções que estão presentes. Usaremos ``len(dir())`` para saber quantas funções foram importadas do pacote stats do R.

In [5]:
stats = rpackages.importr('stats')

print(len(dir(stats)))

1144


Vamos executar um exemplo simples similar ao anterior para testar a funcionalidade do pacote.

Nossas seguintes hipóteses são:

$$
H_0 = 0 \text{ vs } H_1 \neq 0
$$

In [6]:
vetor = stats.rnorm(100)

print("Saída do teste: ", stats.t_test(vetor, mu=0)) # mu é o valor que queremos testar

Saída do teste:  

	One Sample t-test



data:  c(-0.610974339687812, 1.14562790498605, -0.492385981691778, -1.01483471129105, 1.0916787131773, 0.932059530917895, -0.0484152041417524, -1.01986481007985, 0.447225700483876, -0.0896711822874532, 0.375099549352683, 0.974902233954429, 1.19763599482923, 0.255664190853298, -0.0289011364138974, 1.31612336639605, -0.12790919255655, -0.924249450154886, 1.193191589867, -0.0782801873751895, -0.157886780665913, -0.999823404674486, 0.598154823867902, -0.682434876473722, -1.20968347690269, -1.28675922796579, 2.14061750048681, 1.62225181273266, 0.230188695967308, 1.20662455023801, -0.575805975134584, 1.12148234138488, 0.715287409509881, 0.0427783060827249, -0.516606153390278, -1.32480504323359, -0.354070008398187, -0.898834158223542, 0.167596603123081, 0.462265345438818, -0.576287877139693, 1.32631779321677, 0.569789615078469, -1.5349150393328, 0.286299939705744, -1.68701297843994, -0.960042404094557, 0.842980261970266, -0.610363943567184, -1.30907

Se não indicar o parâmetro ``alt`` (hipótese alternativa), o R faz um teste bilateral. Para realizar um teste unilateral a direita devemos usar o parâmetro ``alt`` = "greater" e para um teste unilateral a esquerda deve-se usar alternative = "less".

In [7]:
teste_t = stats.t_test(vetor, mu=0, alt = "greater")

print("Saída do teste: ", teste_t)

Saída do teste:  

	One Sample t-test



data:  c(-0.610974339687812, 1.14562790498605, -0.492385981691778, -1.01483471129105, 1.0916787131773, 0.932059530917895, -0.0484152041417524, -1.01986481007985, 0.447225700483876, -0.0896711822874532, 0.375099549352683, 0.974902233954429, 1.19763599482923, 0.255664190853298, -0.0289011364138974, 1.31612336639605, -0.12790919255655, -0.924249450154886, 1.193191589867, -0.0782801873751895, -0.157886780665913, -0.999823404674486, 0.598154823867902, -0.682434876473722, -1.20968347690269, -1.28675922796579, 2.14061750048681, 1.62225181273266, 0.230188695967308, 1.20662455023801, -0.575805975134584, 1.12148234138488, 0.715287409509881, 0.0427783060827249, -0.516606153390278, -1.32480504323359, -0.354070008398187, -0.898834158223542, 0.167596603123081, 0.462265345438818, -0.576287877139693, 1.32631779321677, 0.569789615078469, -1.5349150393328, 0.286299939705744, -1.68701297843994, -0.960042404094557, 0.842980261970266, -0.610363943567184, -1.30907480

A variável *teste_t* pode ser tratada como uma lista do python. Assim, por exemplo, para obter apenas o p-valor do teste, bastar buscar o elemento na posição 2 do objeto.

In [8]:
print("O p-valor obtido foi: ",teste_t[2])

O p-valor obtido foi:  [1] 0.5869993



### Teste de hipótese para proporção populacional

Seja $X_1, X_2,..., X_n$ uma amostra aleatória tal que

$$
X_i = \left\{ \begin{array}{ll} 1 & \text{,  se o i-ésimo elemento possui a característica de estudo } \\ 0 & \hbox{,  caso contrário.} \end{array} \right.
$$

e seja $p \in$ (0, 1) a proporção populacional da característica. Suponha que estamos interessados em testar as hipóteses

$$
H_0: p = p_0 \\
\text{vs} \\
H_1: p < p_0 \text{ ou } p > p_0 \text{ ou } p \neq p_0, \text{ onde } p_0 \in \text{ (0, 1)}.
$$

## Referências

[numpy.random.normal](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.random.normal.html)

[scipy.stats.ttest_1samp](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html)

[rpy2](https://rpy2.readthedocs.io/en/version_2.8.x/)

MORETTIN, Pedro Alberto; BUSSAB, Wilton de Oliveira. Estatística básica. 6. ed. rev. atual. São Paulo: Saraiva, São Paulo: Saraiva, c2014.