# Estatística parte II

# Amostra e População

### Definição:

>- População é o conjunto de todos os elementos ou resultados sob investigação. 
>- Amostra é qualquer subconjunto da população

# Teste de Hipóteses

### Motivação:

Introduziremos a ideia de teste de hipóteses por meio de um exemplo "não estatístico".

Suponha que ocorreu um cirme e o detetive responsável pela investigação suspeita do mordomo.

.                 | detetive (decisão) culpado | detetive (decisão) inocente
------------------|------------------|------------------
mordomo culpado  |     acerto       |    erro *tipo II*
mordomo inocente  |   erro *tipo I*  |      acerto

A primeira coisa que devemos ter clara é a afirmação (hipótese) a ser testada. Neste caso, o detetive deve testar a hipótese
>- $H_0$: "o mordomo é inocente"

A hipótese a ser testada é chamada de hipótese nula (geralmente, escolhemos como hipótese nula aquela que gostaríamos de rejeitar).

Caso H0 seja rejeitado, consideramos que uma hipótese alternativa deve ser viável. Para este caso, temos como hipótese alternativa
>- $H_1$: "o mordome é culpado"

Independente das hipóteses, temos sempre duas formas de errar. Definindo assim dois tipos de erros:

>- erro tipo I: rejeitar $H_0$ quando $H_0$ é verdadeiro.
>- erro tipo II: não rejeitar $H_0$ quando $H_0$ é falso.

No nosso exemplo, o **erro tipo I** seria o detetive concluir que o mordomo é *culpado* sendo na verdade *inocente* e o **erro tipo II** seria o detetive concluir que o mordomo é *inocente* quando na verdade é *culpado*.

O objetivo do **Teste de Hipóteses** é testar hipóteses sobre parâmetros populacionais ($p, μ, σ^2$), determinando se a hipótese nula ($H_0$) é provável que seja verdadeira com base nos dados de amostra. Caso tenha pouca evidência contra $H_0$, aceitamos $H_0$. Se a hipótese nula é improvável, com base nos dados, podemos rejeitar $H_0$ a favor da hipótese alternativa ($H_1$).

$$
H_0 \text{ (hipótese nula) vs } H_1 \text{ (hipótese alternativa)}.
$$

#### Nível de significância
Definimos como Nível de significância de um teste (geralmente denotado pela letra grega α) a probabilidade do erro tipo 1, ou seja,

$$
α \text{ = P(erro tipo 1) = P(rejeitar } H_0  | H_0 \text{ é verdadeiro).}
$$

Em geral é escolhido um dos seguintes valores para α: 1%, 5% e 10%.

#### Valor p (p-valor)

O p-valor é a probabilidade de que a estatística do teste tenha valor extremo em relação ao valor observado quando a hipótese$ H_0$ é verdadeira.

Para exemplificar a definição de p-valor, considere um teste de hipótese para a média no qual o valor da estatística é dado por $Z_{\text{obs}}$, ou seja,

![](img/z_obs.png)

Denotando o nível de significância como $α$, rejeitaremos $ H_0 $ se $ Z_{\text{obs}} < Z_{\alpha/2} $ ou se $ Z_{\text{obs}} > Z_{\alpha/2} $. 

As figuras a seguir representam, respectivamente, o p-valor nos casos em que temos um teste de hipóteses bilateral com rejeição da hipótese nula e sem rejeição da hipótese nula.

![](img/pvalor_bilateral.png)

Para os testes de hipóteses unilaterais, utilizaremos $ Z_{\alpha} $ para definir a região de rejeição. Para exemplificar, abaixo temos as figuras de um teste de hipóteses unilateral para média. Na primeira figura rejeitamos a hipótese nula e na segunda não rejeitamos.

![](img/pvalor_unilateral.png)

#### Poder do teste

O Poder do teste tem como objetivo determinar o quanto um teste de hipótese controla o erro tipo II (geralmente o erro tipo II é denotado pela letra grega β). Assim,

$$
\text{ Poder = 1 - β = 1 - P(não rejeitar } H_0|H_0 \text{ é falso.}
$$

Definidos o erro tipo I ($α$) e o erro tipo II ($β$) o ideal seria minimizar os 2 tipos de erros, a situação ideal é aquela em que ambas as probabilidades, $ α $ e $ β $, são próximas de zero. No entanto, podemos ver que a medida que diminuímos $ α $, $ β $ aumenta. A Figura a seguir apresenta esta relação.

![](img/erros_tipo_I_e_II.png)

Como não é uma tarefa trivial, pois para diminuir a chance de um tipo de erro devemos mudar a nossa regra de decisão, o que automaticamente aumenta a chance do outro tipo de erro acontecer. Assim, no decorrer de nossos estudos sobre Teste de Hipóteses iremos controlar apenas o erro tipo I ($α$).

## Teste de Hipósteses para uma população

### Teste de Hipótese para média com variância desconhecida

Seja $X_1, X_2, ..., X_n$ uma amostra aleatória de uma população normal com média μ e variância $σ^2$ desconhecidas. Suponha que queremos testar as seguintes hipóteses:

$$
H_0: μ = μ_0 \\
\text{vs} \\
H_1: μ < μ_0 \text{ ou } μ > μ_0 \text{ ou } μ \neq μ_0, \text{ onde } μ_0 \in \mathbb{R}.
$$

Utilizaremos o **teste t** para verificar se a média da amostra é estatisticamente diferente da média populacional conhecida ou hipotética.

Vamos executar um exemplo simples.

In [1]:
import numpy as np
import scipy.stats as stats

In [2]:
# Criando um vetor de tamanho 100 com distribuição normal
vetor = np.random.normal(size = 100)

print(vetor)

[-0.79121497  0.08947847  0.05381515 -0.32968649  1.5422642   0.13963039
 -0.37352028 -0.89603235 -1.43333685  1.92722713 -1.63139871 -0.91298097
 -1.10659339 -0.18308458 -1.16593734 -1.07732041 -0.43974573  0.52784444
  1.43287726 -0.05712939 -0.82315935 -0.96111075  1.06893709  1.02191603
  1.22864265 -0.00381867  0.60513259  0.99063456 -0.14819431 -1.41092188
 -0.01243306  0.47562508 -0.80941957  1.34786538 -1.49086906  1.04383123
  2.28852501 -0.09755589 -0.75991441  0.22533626  0.24917353  2.34739349
 -0.69014608  1.05391955 -0.43888732 -0.32114709  0.90680328 -1.84448548
  0.00677777 -0.31742036  0.68533989  0.32195231  0.38131553 -0.12152896
 -0.77984227  0.44732285 -0.00420128 -0.32949875  0.48899918  0.27313033
  0.26384167 -1.46890323  0.16707234  1.11934793 -0.29194144 -0.12741707
 -0.0036711  -0.9531059  -0.73426037 -1.56159185 -0.21300032 -0.19296129
 -1.08025068 -0.36710428  2.03201808  1.14219467  0.72592749  0.98914468
 -1.08240134 -0.28536298 -2.39411815  0.36146865  0

Neste exemplo, queremos testar nossas seguintes hipóteses:

$$
H_0: μ = 0 \text{ vs } H_1: μ \neq 0
$$

Para realizar um teste teste t de uma amostra no python podemos usar a função ``stats.ttest_1samp()``:

In [3]:
print("Saída do teste: ", stats.ttest_1samp(vetor, popmean = 0)) # popmean é o valor que queremos testar

Saída do teste:  Ttest_1sampResult(statistic=-0.9259746906484936, pvalue=0.35671091748170813)


### Teste de Hipóteses utilizando o R no Python

Como a função ``stats.ttest_1samp()`` permite apenas realizar teste bilateral e o teste de hipóteses no python não é muito informativo, utilizaremos o R através do Python para realizar nossos testes.

In [4]:
import rpy2.robjects.packages as rpackages

**Salvaremos toda a biblioteca "stats" do R**

O comando ``dir()``, a seguir, é interessante para saber quais são as funções que estão presentes. Usaremos ``len(dir())`` para saber quantas funções foram importadas do pacote stats do R.

In [5]:
stats = rpackages.importr('stats')

print(len(dir(stats)))

1144


Vamos executar um exemplo simples similar ao anterior para testar a funcionalidade do pacote.

Nossas hipóteses são:

$$
H_0: μ = 0 \text{ vs } H_1: μ \neq 0
$$

In [6]:
vetor = stats.rnorm(100)

print("Saída do teste: ", stats.t_test(vetor, mu=0)) # mu é o valor que queremos testar

Saída do teste:  

	One Sample t-test



data:  c(0.205392674963188, 1.35672692270478, -1.30388931931883, 0.577280991617229, 0.20354248682124, -0.0609202119466411, -0.437124961826704, 1.45944359279997, -1.57043325976464, -0.423852605169066, -1.84187831210726, 1.6651505996821, 0.669915009628828, 0.0598801537419362, -1.79585539653983, -0.494386209428961, -0.242268076390275, -1.02230731967058, -0.947967356620408, -0.703217383770239, -0.326307405996917, -0.793082371928891, 1.34916369176888, -0.47616230279798, -0.926780505305102, 1.40516675727581, 0.584943490413757, 1.15080383996695, 0.928616966742981, 1.04671952035684, -0.339803616941365, 0.514851595002963, 1.55921986433988, 0.954553106306674, 1.67895322668485, -0.55899554457938, -0.814740286770277, 0.160252179904525, -1.32559343823553, 1.71314571191202, 0.715116979450397, -1.01182933675178, 0.877687672703985, 1.39026981723086, -1.38490339595095, -0.750509534460878, 0.425635508118496, -1.53857716306572, -0.00339859249337606, 0.736142616

Se não indicar o parâmetro ``alt`` (hipótese alternativa), o R faz um teste bilateral. Para realizar um teste unilateral a direita devemos usar o parâmetro ``alt`` = "greater" e para um teste unilateral a esquerda deve-se usar alternative = "less".

In [7]:
teste_t = stats.t_test(vetor, mu=0, alt = "greater")

print("Saída do teste: ", teste_t)

Saída do teste:  

	One Sample t-test



data:  c(0.205392674963188, 1.35672692270478, -1.30388931931883, 0.577280991617229, 0.20354248682124, -0.0609202119466411, -0.437124961826704, 1.45944359279997, -1.57043325976464, -0.423852605169066, -1.84187831210726, 1.6651505996821, 0.669915009628828, 0.0598801537419362, -1.79585539653983, -0.494386209428961, -0.242268076390275, -1.02230731967058, -0.947967356620408, -0.703217383770239, -0.326307405996917, -0.793082371928891, 1.34916369176888, -0.47616230279798, -0.926780505305102, 1.40516675727581, 0.584943490413757, 1.15080383996695, 0.928616966742981, 1.04671952035684, -0.339803616941365, 0.514851595002963, 1.55921986433988, 0.954553106306674, 1.67895322668485, -0.55899554457938, -0.814740286770277, 0.160252179904525, -1.32559343823553, 1.71314571191202, 0.715116979450397, -1.01182933675178, 0.877687672703985, 1.39026981723086, -1.38490339595095, -0.750509534460878, 0.425635508118496, -1.53857716306572, -0.00339859249337606, 0.736142616

A variável *teste_t* pode ser tratada como uma lista do python. Assim, por exemplo, para obter apenas o p-valor do teste, bastar buscar o elemento na posição 2 do objeto.

In [8]:
print("O p-valor obtido foi: ",teste_t[2])

O p-valor obtido foi:  [1] 0.6286713



### Teste de hipótese para proporção populacional

Seja $X_1, X_2,..., X_n$ uma amostra aleatória tal que

$$
X_i = \left\{ \begin{array}{ll} 1 & \text{,  se o i-ésimo elemento possui a característica de estudo } \\ 0 & \hbox{,  caso contrário.} \end{array} \right.
$$

e seja $p \in$ (0, 1) a proporção populacional da característica. Suponha que estamos interessados em testar as hipóteses

$$
H_0: p = p_0 \\
\text{vs} \\
H_1: p < p_0 \text{ ou } p > p_0 \text{ ou } p \neq p_0, \text{ onde } p_0 \in \text{ (0, 1)}.
$$

Para realizar o teste de hipótese aproximado basta utilizar a função ``prop.test()``.

$$
stats.prop\_test(x, n, p, alt)
$$

Argumentos:
- x: número de sucessos;
- n: tamanho da amostra;
- p: p0 da hipótese nula;
- alt: hipótese alternativa.

Considerando o banco de dados ``basesaude.csv``, vamos verificar se a proporção de indivíduos com 60 kg ou menos
é igual a 20%.

Nossas hipóteses são:

$$
H_0: p = 20\% \text{ vs } H_1: p \neq 20\%
$$

In [9]:
import pandas as pd

df = pd.read_csv("data/basesaude.csv")

print(df)

   Codigo   Datacol  Sexo  Idade  Peso  Estatura  HIV  Escol  DST  Tipo
0    AB01  14/10/15     1   20.0  61.2      1.60    1    3.0    1   2.0
1    AB02  09/02/16     0   30.0  60.0      1.55    0    5.0    0   NaN
2    AB03  01/03/10     0   50.0  80.0      1.83    1    2.0    1   3.0
3    AB04  04/05/13     0   43.0  83.0      1.90    1    NaN    1   2.0
4    AB05  20/05/14     0   22.0  75.3      1.75    0    2.0    1   3.0
5    AB06  30/01/11     1   15.0  70.2      1.70    1    6.0    0   NaN
6    AB07  05/08/15     1   22.0  60.0      1.65    1    5.0    1   3.0
7    AB08  08/12/13     1   25.0  62.0      1.55    0    1.0    0   2.0
8    AB09  03/11/10     1   32.0  61.0      1.62    1    4.0    1   1.0
9    AB10  10/10/10     1   33.0  55.0      1.55    1    5.0    1   NaN
10   AB11  05/08/15     0   39.0   NaN       NaN    0    5.0    1   NaN
11   AB12  09/08/14     0   60.0  78.0      1.77    0    4.0    1   2.0
12   AB13  07/07/15     0    NaN  70.0      1.65    0    1.0    

In [10]:
x = len(df[df["Peso"]<=60])       # Número de indivíduos que possuem 60kg ou menos
n = len(df.dropna(subset=["Peso"])) # Tamanho da amostra

print("x =", x, "n =", n)

x = 8 n = 29


In [11]:
teste_prop = stats.prop_test(x, n , p=0.2, alt="two.sided")

print("Saída do teste: ", teste_prop)

Saída do teste:  

	1-sample proportions test with continuity correction



data:  8L out of 29L, null probability 0.2

X-squared = 0.62284, df = 1, p-value = 0.43

alternative hypothesis: true p is not equal to 0.2

95 percent confidence interval:

 0.1344590 0.4748512

sample estimates:

        p 

0.2758621 





### Teste de hipótese para comparação de duas proporções

Sejam $X_1, X_2,..., X_{n1}$ e $Y_1, Y_2,..., Y_{n2}$ duas amostra aleatórias independentes de duas populações com distribuição bernoulli com parâmetros $p_1$ e $p_2$, respectivamente.

Suponha que estamos interessados em verificar as seguintes hipóteses

$$
H_0: p_1 = p_2 \\
\text{vs} \\
H_1: p_1 < p_2 \text{ ou } p_1 > p_2 \text{ ou } p_1 \neq p_2
$$

Para realizar o teste para comparação de proporções no R, utilize o comando ``prop.test()``.

$$
stats.prop\_test(x, n, alt)
$$

Argumentos:
- x: vetor com os números de sucessos para cada amostra;
- n: vetor com os tamanhos das amostras;
- alt: tipo da hipótese alternativa.

Considerando o banco de dados ``basesaude.csv``, suponha que estamos interessados em verificar se a proporção de pacientes com HIV é igual a proporção de pacientes com DST.

Nossas hipóteses são:

$$
H_0: p_{HIV} = p_{DST} \text{ vs } H_1: p_{HIV} \neq p_{DST}
$$

In [12]:
import pandas as pd

df = pd.read_csv("data/basesaude.csv")

print(df)

   Codigo   Datacol  Sexo  Idade  Peso  Estatura  HIV  Escol  DST  Tipo
0    AB01  14/10/15     1   20.0  61.2      1.60    1    3.0    1   2.0
1    AB02  09/02/16     0   30.0  60.0      1.55    0    5.0    0   NaN
2    AB03  01/03/10     0   50.0  80.0      1.83    1    2.0    1   3.0
3    AB04  04/05/13     0   43.0  83.0      1.90    1    NaN    1   2.0
4    AB05  20/05/14     0   22.0  75.3      1.75    0    2.0    1   3.0
5    AB06  30/01/11     1   15.0  70.2      1.70    1    6.0    0   NaN
6    AB07  05/08/15     1   22.0  60.0      1.65    1    5.0    1   3.0
7    AB08  08/12/13     1   25.0  62.0      1.55    0    1.0    0   2.0
8    AB09  03/11/10     1   32.0  61.0      1.62    1    4.0    1   1.0
9    AB10  10/10/10     1   33.0  55.0      1.55    1    5.0    1   NaN
10   AB11  05/08/15     0   39.0   NaN       NaN    0    5.0    1   NaN
11   AB12  09/08/14     0   60.0  78.0      1.77    0    4.0    1   2.0
12   AB13  07/07/15     0    NaN  70.0      1.65    0    1.0    

In [13]:
x = [df['HIV'].sum(skipna = True), df['DST'].sum(skipna = True)]

n = [len(df['HIV']), len(df['DST'])]

Importaremos o pacote ``rpy2`` para converter ``x`` e ``y`` em vetores ``R`` para poder utilizar a função ``prop_test``.

In [14]:
import rpy2

x = rpy2.robjects.vectors.IntVector(x)
n = rpy2.robjects.vectors.IntVector(n)

teste_prop = stats.prop_test(x,n,alt="tw")

print("Saída do teste: ", teste_prop)

Saída do teste:  

	2-sample test for equality of proportions with continuity correction



data:  21:20 out of c(30L, 30L)

X-squared = 3.7975e-33, df = 1, p-value = 1

alternative hypothesis: two.sided

95 percent confidence interval:

 -0.2352562  0.3019228

sample estimates:

   prop 1    prop 2 

0.7000000 0.6666667 





### Teste para comparação das Variâncias de Duas Populações Normais

Sejam $X_1, X_2,..., X_{n1}$ e $Y_1, Y_2, ..., Y_{n2}$ duas amostras aleatória independentes de duas populações normais.

Suponha que estamos interessados nas seguintes hipóteses

$$
H0 : \sigma_1^2 = \sigma_2^2 = \sigma^2 \\
\text{vs} \\
H_1: \sigma_1^2 \neq \sigma_2^2
$$

### Teste para comparação de duas médias populacionais

Sejam $X_1, X_2,..., X_{n1}$ e $Y_1, Y_2, ..., Y_{n2}$ duas amostras aleatória independentes de duas populações normais.

Suponha que estamos interessados nas seguintes hipóteses

$$
H0 : μ_X = μ_Y \\
\text{vs} \\
H_1: μ_X < μ_Y \text{ ou } μ_X > μ_Y \text{ ou } μ_X \neq μ_Y
$$

Para realizar o teste para comparação de duas médias basta utilizar o comando ``t.test()``.

$$
stats.t\_test(x, y, alt)
$$

Argumentos:
- x, y: amostra 1 e amostra 2, respectivamente;
- alt: tipo de hipótese alternativa;

Vamos executar um exemplo simples, criando 2 vetores supondo informações de pesos de duas populações entre 50kg e 150kg e testando se a média são iguais ou diferentes.

Nossas hipóteses são:

$$
H_0: μ_X = μ_Y \text{ vs } H_1: μ_X \neq μ_Y
$$

In [15]:
idades1 = stats.runif(20, 50, 150)
print(idades1)

 [1] 145.44613 109.43849 135.79751 133.53702  53.39387  74.54471 107.46020

 [8] 115.73116 108.94496  51.88179  56.47705  74.01589  51.59624 130.05752

[15] 107.42389  88.54280 145.98832  83.06837  77.87476  53.11707



In [16]:
idades2 = stats.runif(20, 50, 150)
print(idades2)

 [1] 101.63593 144.46325 133.92320 142.85127  68.70773 121.40917  78.50213

 [8]  71.72743  70.51294 135.92549 107.90040  80.25382  56.50425 147.15310

[15]  79.53017 141.48487  60.69100 100.84005 120.08266 104.42386



In [17]:
teste_t = stats.t_test(idades1, idades2, alt="tw")

print("Saída do teste: ", teste_t)

Saída do teste:  

	Welch Two Sample t-test



data:  c(145.446132798679, 109.438490285538, 135.797508666292, 133.537024026737,  and c(101.635926961899, 144.463253230788, 133.923196326941, 142.85127283074, 53.3938725246117, 74.5447070570663, 107.460195850581, 115.731160715222,  and 68.7077320879325, 121.409173239954, 78.5021298797801, 71.7274339171126, 108.944958844222, 51.8817851087078, 56.4770517172292, 74.0158863598481,  and 70.5129370326176, 135.925491293892, 107.900404999964, 80.2538190037012, 51.5962369507179, 130.057522165589, 107.423892943189, 88.5428026551381,  and 56.5042516915128, 147.153103398159, 79.5301733072847, 141.484865662642, 145.988318091258, 83.0683705862612, 77.8747629607096, 53.1170660164207 and 60.6910003582016, 100.840051402338, 120.08266071789, 104.42385522183) and )

t = -0.81053, df = 37.851, p-value = 0.4227

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

 -28.71535  12.29685

sample estimates:


### Teste para comparação de duas médias - Amostras Pareadas

Agora suponha que estamos interessados em comparar as médias de duas populações dependentes, ou seja, duas populações que dependem uma da outra de alguma maneira.

**Exemplo:** Uma pesquisa foi realizada para demonstrar que *Finasteride* inibe a perda de cabelo. Para isto, utilizaram dois grupos de tratamento: um recebeu o tratamento com *Finasteride* e o outro grupo *placebo*. A diferença desta pesquisa está na utilização de gêmeos idênticos para formação das duas amostras (tratamento e controle). Note que as amostras são dependentes, também conhecidas como amostra **pareadas**.

Se duas amostras $X_1, X_2,..., X_n$ e $Y_1, Y_2, ..., Y_n$ são pareadas, tal que $X_1 − Y_1, ..., X_n − Y_n$ sejam normalmente distribuídas.

E suponha que queremos testar as hipóteses

$$
H0 : μ_X = μ_Y \\
\text{vs} \\
H_1: μ_X < μ_Y \text{ ou } μ_X > μ_Y \text{ ou } μ_X \neq μ_Y
$$

Para realizar o teste para comparação de duas médias em amostras pareadas basta utilizar o comando ``t.test()`` com o argumento ``paired``.

$$
stats.t\_test(x, y, alt, paired)
$$

Argumentos:
- x, y: amostra 1 e amostra 2, respectivamente;
- alt: tipo de hipótese alternativa;
- paired: TRUE se as amostras são pareadas (dependentes).

## Referências

CASELLA, George; BERGER, Roger. **Statistical Inference**. Duxbury, 2. ed., 2001.

[numpy.random.normal](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.random.normal.html)

[scipy.stats.ttest_1samp](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html)

[rpy2](https://rpy2.readthedocs.io/en/version_2.8.x/)

[Erros cometidos nos testes de hipóteses](http://www.portalaction.com.br/inferencia/511-erros-cometidos-nos-testes-de-hipoteses)

[Cálculo e interpretação do p-valor](http://www.portalaction.com.br/inferencia/512-calculo-e-interpretacao-do-p-valor)
