# Estatística parte II

# Amostra e População

### Definição:

>- População é o conjunto de todos os elementos ou resultados sob investigação. 
>- Amostra é qualquer subconjunto da população

# Teste de Hipóteses

### Motivação:

Introduziremos a ideia de teste de hipóteses por meio de um exemplo "não estatístico".

Suponha que ocorreu um cirme e o detetive responsável pela investigação suspeita do mordomo.

.                 | detetive (decisão) culpado | detetive (decisão) inocente
------------------|------------------|------------------
mordomo culpado  |     acerto       |    erro *tipo II*
mordomo inocente  |   erro *tipo I*  |      acerto

A primeira coisa que devemos ter clara é a afirmação (hipótese) a ser testada. Neste caso, o detetive deve testar a hipótese
>- $H_0$: "o mordomo é inocente"

A hipótese a ser testada é chamada de hipótese nula (geralmente, escolhemos como hipótese nula aquela que gostaríamos de rejeitar).

Caso H0 seja rejeitado, consideramos que uma hipótese alternativa deve ser viável. Para este caso, temos como hipótese alternativa
>- $H_1$: "o mordome é culpado"

Independente das hipóteses, temos sempre duas formas de errar. Definindo assim dois tipos de erros:

>- erro tipo I: rejeitar $H_0$ quando $H_0$ é verdadeiro.
>- erro tipo II: não rejeitar $H_0$ quando $H_0$ é falso.

No nosso exemplo, o **erro tipo I** seria o detetive concluir que o mordomo é *culpado* sendo na verdade *inocente* e o **erro tipo II** seria o detetive concluir que o mordomo é *inocente* quando na verdade é *culpado*.

O objetivo do **Teste de Hipóteses** é testar hipóteses sobre parâmetros populacionais ($p, μ, σ^2$), determinando se a hipótese nula ($H_0$) é provável que seja verdadeira com base nos dados de amostra. Caso tenha pouca evidência contra $H_0$, aceitamos $H_0$. Se a hipótese nula é improvável, com base nos dados, podemos rejeitar $H_0$ a favor da hipótese alternativa ($H_1$).

$$
H_0 \text{ (hipótese nula) vs } H_1 \text{ (hipótese alternativa)}.
$$

#### Nível de significância
Definimos como Nível de significância de um teste (geralmente denotado pela letra grega α) a probabilidade do erro tipo 1, ou seja,

$$
α \text{ = P(erro tipo 1) = P(rejeitar } H_0  | H_0 \text{ é verdadeiro).}
$$

Em geral é escolhido um dos seguintes valores para α: 1%, 5% e 10%.

#### Valor p (p-valor)

O p-valor é a probabilidade de que a estatística do teste tenha valor extremo em relação ao valor observado quando a hipótese$ H_0$ é verdadeira.

Para exemplificar a definição de p-valor, considere um teste de hipótese para a média no qual o valor da estatística é dado por $Z_{\text{obs}}$, ou seja,

![](img/z_obs.png)

Denotando o nível de significância como $α$, rejeitaremos $ H_0 $ se $ Z_{\text{obs}} < Z_{\alpha/2} $ ou se $ Z_{\text{obs}} > Z_{\alpha/2} $. 

As figuras a seguir representam, respectivamente, o p-valor nos casos em que temos um teste de hipóteses bilateral com rejeição da hipótese nula e sem rejeição da hipótese nula.

![](img/pvalor_bilateral.png)

Para os testes de hipóteses unilaterais, utilizaremos $ Z_{\alpha} $ para definir a região de rejeição. Para exemplificar, abaixo temos as figuras de um teste de hipóteses unilateral para média. Na primeira figura rejeitamos a hipótese nula e na segunda não rejeitamos.

![](img/pvalor_unilateral.png)

#### Poder do teste

O Poder do teste tem como objetivo determinar o quanto um teste de hipótese controla o erro tipo II (geralmente o erro tipo II é denotado pela letra grega β). Assim,

$$
\text{ Poder = 1 - β = 1 - P(não rejeitar } H_0|H_0 \text{ é falso.}
$$

Definidos o erro tipo I ($α$) e o erro tipo II ($β$) o ideal seria minimizar os 2 tipos de erros, a situação ideal é aquela em que ambas as probabilidades, $ α $ e $ β $, são próximas de zero. No entanto, podemos ver que a medida que diminuímos $ α $, $ β $ aumenta. A Figura a seguir apresenta esta relação.

![](img/erros_tipo_I_e_II.png)

Como não é uma tarefa trivial, pois para diminuir a chance de um tipo de erro devemos mudar a nossa regra de decisão, o que automaticamente aumenta a chance do outro tipo de erro acontecer. Assim, no decorrer de nossos estudos sobre Teste de Hipóteses iremos controlar apenas o erro tipo I ($α$).

## Teste de Hipósteses para uma população

### Teste de hipóteses para média de uma população com variância desconhecida

Seja $X_1, X_2, ..., X_n$ uma amostra aleatória de uma população normal com média μ e variância $σ^2$ desconhecidas. Suponha que queremos testar as seguintes hipóteses:

$$
H_0: μ = μ_0 \\
\text{vs} \\
H_1: μ < μ_0 \text{ ou } μ > μ_0 \text{ ou } μ \neq μ_0, \text{ onde } μ_0 \in \mathbb{R}.
$$

Utilizaremos o **teste t** para verificar se a média da amostra é estatisticamente diferente da média populacional conhecida ou hipotética.

Vamos executar um exemplo simples.

In [1]:
import numpy as np
import scipy.stats as stats

In [2]:
# Criando um vetor de tamanho 100 com distribuição normal
vetor = np.random.normal(size = 100)

print(vetor)

[ 1.02923343  0.6153228   0.98918981 -2.30902341  0.078803    0.47852324
 -0.57827199 -0.13698294  0.60409765  0.42990643 -0.81048237 -1.01359629
 -0.07781137  0.06321648  0.343972    0.72540567  0.00755429 -0.82592566
  2.23692738 -0.91482598 -0.42787674  0.56834949 -0.83378952 -0.20073635
  0.66717503 -0.66559159 -0.04373657  3.04376389 -0.36883966  0.42845873
 -1.08947397 -0.05771985 -3.27793064 -0.18582901 -1.29824357  1.27966241
 -0.26147482 -0.00680718  1.06445459 -0.52476253  0.87723479  1.12612558
 -0.26072049 -0.54022826  0.4875534   0.15971694  1.24163986  0.78770631
 -0.47349228 -0.57021955 -0.68731882 -0.48808311  0.52592796  1.68323486
  0.2754537   0.57786115 -0.30878985 -1.07369492 -3.12908707 -2.18286986
 -0.0225978   0.387209   -0.91259721 -0.93207918  1.82783148  0.49354748
 -0.03233331 -0.10366982 -1.58054903  0.72116824  0.42559795  0.47340184
  1.07127998  0.50600094 -0.24834456  0.62013647  1.87438288  0.84930493
 -1.73494496 -0.75937027 -0.13812887  0.7477135   0

Neste exemplo, queremos testar nossas seguintes hipóteses:

$$
H_0: μ = 0 \text{ vs } H_1: μ \neq 0
$$

Para realizar um teste teste t de uma amostra no python podemos usar a função ``stats.ttest_1samp()``:

In [3]:
print("Saída do teste: ", stats.ttest_1samp(vetor, popmean = 0)) # popmean é o valor que queremos testar

Saída do teste:  Ttest_1sampResult(statistic=0.39168412619658016, pvalue=0.6961334516309405)


### Teste de hipóteses utilizando o R no Python

Como a função ``stats.ttest_1samp()`` permite apenas realizar teste bilateral e o teste de hipóteses no python não é muito informativo, utilizaremos o R através do Python para realizar nossos testes.

In [4]:
import rpy2.robjects.packages as rpackages

**Salvaremos toda a biblioteca "stats" do R**

O comando ``dir()``, a seguir, é interessante para saber quais são as funções que estão presentes. Usaremos ``len(dir())`` para saber quantas funções foram importadas do pacote stats do R.

In [5]:
stats = rpackages.importr('stats')

print(len(dir(stats)))

1144


Vamos executar um exemplo simples similar ao anterior para testar a funcionalidade do pacote.

Nossas hipóteses são:

$$
H_0: μ = 0 \text{ vs } H_1: μ \neq 0
$$

In [6]:
vetor = stats.rnorm(100)

print("Saída do teste: ", stats.t_test(vetor, mu=0)) # mu é o valor que queremos testar

Saída do teste:  

	One Sample t-test



data:  c(-1.91203370581783, -1.89149114987608, -0.134081071103835, 0.0497722406302958, -0.286090287556082, 1.75511668348498, 0.333634828659255, -1.43187718025303, 0.438912268950865, 0.856747709600785, 0.281594504885688, -0.254013568111264, -0.4244477562968, 1.35384595901474, -0.272228350041168, -0.322100091068522, -1.7104025831004, 0.766362976153504, -0.240627223495989, 0.55195714506399, 2.49425504323937, -2.29711982944274, -1.59407120699252, -2.11664238126254, 0.217793637699106, 0.981157351419961, -1.28880114748993, -0.323788563542237, -1.0635112925505, 0.564207730584251, 0.881160390006595, 0.169700152424189, 0.0291236014048263, 1.22837656470845, 1.18975002642101, -2.26766327289927, 0.337216427875187, 0.576836486456423, -1.61710073580741, -2.22727886518778, 0.149838353996623, -0.580695063560321, -0.460876545538277, -0.0315582577166977, 0.0986341467098336, 0.951769304091501, 0.494044007763464, 0.0397362484969839, 0.634517121244119, 0.84180238

Se não indicar o parâmetro ``alt`` (hipótese alternativa), o R faz um teste bilateral. Para realizar um teste unilateral a direita devemos usar o parâmetro ``alt`` = "greater" e para um teste unilateral a esquerda deve-se usar alternative = "less".

In [7]:
teste_t = stats.t_test(vetor, mu=0, alt = "greater")

print("Saída do teste: ", teste_t)

Saída do teste:  

	One Sample t-test



data:  c(-1.91203370581783, -1.89149114987608, -0.134081071103835, 0.0497722406302958, -0.286090287556082, 1.75511668348498, 0.333634828659255, -1.43187718025303, 0.438912268950865, 0.856747709600785, 0.281594504885688, -0.254013568111264, -0.4244477562968, 1.35384595901474, -0.272228350041168, -0.322100091068522, -1.7104025831004, 0.766362976153504, -0.240627223495989, 0.55195714506399, 2.49425504323937, -2.29711982944274, -1.59407120699252, -2.11664238126254, 0.217793637699106, 0.981157351419961, -1.28880114748993, -0.323788563542237, -1.0635112925505, 0.564207730584251, 0.881160390006595, 0.169700152424189, 0.0291236014048263, 1.22837656470845, 1.18975002642101, -2.26766327289927, 0.337216427875187, 0.576836486456423, -1.61710073580741, -2.22727886518778, 0.149838353996623, -0.580695063560321, -0.460876545538277, -0.0315582577166977, 0.0986341467098336, 0.951769304091501, 0.494044007763464, 0.0397362484969839, 0.634517121244119, 0.84180238

A variável *teste_t* pode ser tratada como uma lista do python. Assim, por exemplo, para obter apenas o p-valor do teste, bastar buscar o elemento na posição 2 do objeto.

In [8]:
print("O p-valor obtido foi: ",teste_t[2])

O p-valor obtido foi:  [1] 0.5383189



### Teste de hipóteses para a variância de uma população

Seja $X_1, X_2, ..., X_n$ uma amostra aleatória de uma população normal com média μ e variância $σ^2$ desconhecidas. Suponha que queremos testar as seguintes hipóteses:

$$
H_0: σ^2 = σ^2_0 \\
\text{vs} \\
H_1: σ^2 \neq σ^2_0 % H_1: σ^2 < σ^2_0 \text{ ou } σ^2 > σ^2_0 \text{ ou } σ^2 \neq σ^2_0, \text{ onde } σ^2_0 \in \mathbb{R^+}.
$$

$\text{ onde } σ^2_0 \in \mathbb{R^+}$.

Utilizaremos o a função `VarTest` do pacote `DescTools` do R para verificar se a variância da amostra é estatisticamente diferente da variância populacional conhecida ou hipotética.

Vamos realizar a instalação do pacote `DescTools` para executar um exemplo simples de teste de hipóteses para a variância de uma população.

In [9]:
# importa o pacote 'utils' do R 
utils = rpackages.importr('utils')

# Seleciona um espelho para os pacotes R 
utils.chooseCRANmirror(ind=1)  # seleciona o primeiro espelho na lista

# vetor R de strings
from rpy2.robjects.vectors import StrVector

# instalando o pacote DescTools
utils.install_packages(StrVector('DescTools'))

##### DescTools = rpackages.importr('DescTools')

rpy2.rinterface.NULL

Temos que,

$$
DescTools.VarTest(amostra, sigma.squared, conf.level, alternative)
$$

Argumentos:
- amostra: variável a ser analisada;
- sigma.squared: σ^2_0 a ser testado;
- conf.level: nível de confiança;
- alternative: hipótese alternativa.

Considerando o banco de dados ``basesaude.csv``, vamos verificar se a variância do peso dos indivíduos é igual ou diferente a 75kg.

Nossas hipóteses são:

$$
H_0: σ^2 = 75 \text{ vs } H_1: σ^2 \neq 75
$$

In [10]:
import pandas as pd

df = pd.read_csv("data/basesaude.csv")

print(df)

   Codigo   Datacol  Sexo  Idade  Peso  Estatura  HIV  Escol  DST  Tipo
0    AB01  14/10/15     1   20.0  61.2      1.60    1    3.0    1   2.0
1    AB02  09/02/16     0   30.0  60.0      1.55    0    5.0    0   NaN
2    AB03  01/03/10     0   50.0  80.0      1.83    1    2.0    1   3.0
3    AB04  04/05/13     0   43.0  83.0      1.90    1    NaN    1   2.0
4    AB05  20/05/14     0   22.0  75.3      1.75    0    2.0    1   3.0
5    AB06  30/01/11     1   15.0  70.2      1.70    1    6.0    0   NaN
6    AB07  05/08/15     1   22.0  60.0      1.65    1    5.0    1   3.0
7    AB08  08/12/13     1   25.0  62.0      1.55    0    1.0    0   2.0
8    AB09  03/11/10     1   32.0  61.0      1.62    1    4.0    1   1.0
9    AB10  10/10/10     1   33.0  55.0      1.55    1    5.0    1   NaN
10   AB11  05/08/15     0   39.0   NaN       NaN    0    5.0    1   NaN
11   AB12  09/08/14     0   60.0  78.0      1.77    0    4.0    1   2.0
12   AB13  07/07/15     0    NaN  70.0      1.65    0    1.0    

In [11]:
amostra = df['Peso']

## 𝐷𝑒𝑠𝑐𝑇𝑜𝑜𝑙𝑠.𝑉𝑎𝑟𝑇𝑒𝑠𝑡(amostra, sigma.squared = 75, conf.level = 0.95, alternative = "two.sided")

### Teste de hipóteses para proporção de uma população

Seja $X_1, X_2,..., X_n$ uma amostra aleatória tal que

$$
X_i = \left\{ \begin{array}{ll} 1 & \text{,  se o i-ésimo elemento possui a característica de estudo } \\ 0 & \hbox{,  caso contrário.} \end{array} \right.
$$

e seja $p \in$ (0, 1) a proporção populacional da característica. Suponha que estamos interessados em testar as hipóteses

$$
H_0: p = p_0 \\
\text{vs} \\
H_1: p < p_0 \text{ ou } p > p_0 \text{ ou } p \neq p_0, \text{ onde } p_0 \in \text{ (0, 1)}.
$$

Para realizar o teste de hipótese aproximado basta utilizar a função ``prop.test()``.

$$
stats.prop\_test(x, n, p, alt)
$$

Argumentos:
- x: número de sucessos;
- n: tamanho da amostra;
- p: p0 da hipótese nula;
- alt: hipótese alternativa.

Considerando o banco de dados ``basesaude.csv``, vamos verificar se a proporção de indivíduos com 60 kg ou menos
é igual a 20%.

Nossas hipóteses são:

$$
H_0: p = 20\% \text{ vs } H_1: p \neq 20\%
$$

In [12]:
import pandas as pd

df = pd.read_csv("data/basesaude.csv")

print(df)

   Codigo   Datacol  Sexo  Idade  Peso  Estatura  HIV  Escol  DST  Tipo
0    AB01  14/10/15     1   20.0  61.2      1.60    1    3.0    1   2.0
1    AB02  09/02/16     0   30.0  60.0      1.55    0    5.0    0   NaN
2    AB03  01/03/10     0   50.0  80.0      1.83    1    2.0    1   3.0
3    AB04  04/05/13     0   43.0  83.0      1.90    1    NaN    1   2.0
4    AB05  20/05/14     0   22.0  75.3      1.75    0    2.0    1   3.0
5    AB06  30/01/11     1   15.0  70.2      1.70    1    6.0    0   NaN
6    AB07  05/08/15     1   22.0  60.0      1.65    1    5.0    1   3.0
7    AB08  08/12/13     1   25.0  62.0      1.55    0    1.0    0   2.0
8    AB09  03/11/10     1   32.0  61.0      1.62    1    4.0    1   1.0
9    AB10  10/10/10     1   33.0  55.0      1.55    1    5.0    1   NaN
10   AB11  05/08/15     0   39.0   NaN       NaN    0    5.0    1   NaN
11   AB12  09/08/14     0   60.0  78.0      1.77    0    4.0    1   2.0
12   AB13  07/07/15     0    NaN  70.0      1.65    0    1.0    

In [13]:
x = len(df[df["Peso"]<=60])       # Número de indivíduos que possuem 60kg ou menos
n = len(df.dropna(subset=["Peso"])) # Tamanho da amostra

print("x =", x, "n =", n)

x = 8 n = 29


In [14]:
teste_prop = stats.prop_test(x, n , p=0.2, alt="two.sided")

print("Saída do teste: ", teste_prop)

Saída do teste:  

	1-sample proportions test with continuity correction



data:  8L out of 29L, null probability 0.2

X-squared = 0.62284, df = 1, p-value = 0.43

alternative hypothesis: true p is not equal to 0.2

95 percent confidence interval:

 0.1344590 0.4748512

sample estimates:

        p 

0.2758621 





### Teste de hipóteses para comparação de Médias de duas populações

Sejam $X_1, X_2,..., X_{n1}$ e $Y_1, Y_2, ..., Y_{n2}$ duas amostras aleatória independentes de duas populações normais.

Suponha que estamos interessados nas seguintes hipóteses

$$
H0 : μ_X = μ_Y \\
\text{vs} \\
H_1: μ_X < μ_Y \text{ ou } μ_X > μ_Y \text{ ou } μ_X \neq μ_Y
$$

Para realizar o teste para comparação de duas médias basta utilizar o comando ``t.test()``.

$$
stats.t\_test(x, y, alt)
$$

Argumentos:
- x, y: amostra 1 e amostra 2, respectivamente;
- alt: tipo de hipótese alternativa;

Vamos executar um exemplo simples, criando 2 vetores supondo informações de pesos de duas populações entre 50kg e 150kg e testando se a média são iguais ou diferentes.

Nossas hipóteses são:

$$
H_0: μ_X = μ_Y \text{ vs } H_1: μ_X \neq μ_Y
$$

In [15]:
idades1 = stats.runif(20, 50, 150)
print(idades1)

 [1]  78.79115 102.36853  72.93210  53.44608  57.15673  51.80748 138.29221

 [8]  65.23375 129.97299 105.78764  54.22700  86.13036 131.78748  91.21438

[15]  81.02933 133.44825  73.74157  91.38486  67.44725 111.44627



In [16]:
idades2 = stats.runif(20, 50, 150)
print(idades2)

 [1]  66.73433  90.77412  70.92439 109.29271 131.86427 103.31990 101.18568

 [8] 122.99376  50.35538  64.91639 126.72033 114.47728  51.61685  90.57298

[15]  98.02466  72.55766 117.83867 145.03958  98.35005  66.42489



In [17]:
teste_t = stats.t_test(idades1, idades2, alt="tw")

print("Saída do teste: ", teste_t)

Saída do teste:  

	Welch Two Sample t-test



data:  c(78.7911488907412, 102.368531003594, 72.9320980375633, 53.4460752271116,  and c(66.7343276087195, 90.7741181319579, 70.9243948338553, 109.292710013688, 57.1567261824384, 51.8074806081131, 138.292212155648, 65.2337461942807,  and 131.864270474762, 103.319903509691, 101.185676921159, 122.993762139231, 129.972993535921, 105.78763554804, 54.2270017554983, 86.130362492986,  and 50.3553817747161, 64.9163852911443, 126.720328186639, 114.47727791965, 131.787483231165, 91.2143752677366, 81.0293338261545, 133.448251057416,  and 51.6168451402336, 90.5729833757505, 98.0246627004817, 72.5576638011262, 73.7415664363652, 91.3848623400554, 67.4472461687401, 111.446267040446 and 117.838673572987, 145.039580552839, 98.3500494156033, 66.4248857647181) and )

t = -0.65624, df = 37.953, p-value = 0.5156

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

 -23.76197  12.12812

sample estimates:


### Teste de hipóteses  para comparação das Variâncias de duas populações

Sejam $X_1, X_2,..., X_{n1}$ e $Y_1, Y_2, ..., Y_{n2}$ duas amostras aleatória independentes de duas populações normais.

Suponha que estamos interessados nas seguintes hipóteses

$$
H0 : \frac{\sigma_1^2}{\sigma_2^2} = 1 \\ % \sigma_1^2 = \sigma_2^2 = \sigma^2 \\
\text{vs} \\
H_1: \frac{\sigma_1^2}{\sigma_2^2} \neq 1 % \sigma_1^2 \neq \sigma_2^2
$$

$\text{ onde } σ^2_1 \text{ e } σ^2_2 \in \mathbb{R^+}$.

Para realizar o teste de hipótese a função `VarTest` do pacote `DescTools` do R.

$$
DescTools.VarTest(amostra1, amostra2, ratio, conf.level, alternative)
$$

Argumentos:
- amostra1: variável 1 a ser analisada;
- amostra2: variável 2 a ser analisada;
- ratio: H_0 a ser testado;
- conf.level: nível de confiança;
- alternative: hipótese alternativa.

Considerando o banco de dados ``basesaude.csv``, vamos verificar se a variância do peso dos indivíduos do sexo Feminino é igual ou diferente a variância do peso dos indivíduos do sexo Masculino.

Nossas hipóteses são:

$$
H0 : \frac{\sigma_F^2}{\sigma_M^2} = 1 \\
\text{vs} \\
H_1: \frac{\sigma_F^2}{\sigma_M^2} \neq 1 
$$

In [18]:
import pandas as pd

df = pd.read_csv("data/basesaude.csv")

print(df)

   Codigo   Datacol  Sexo  Idade  Peso  Estatura  HIV  Escol  DST  Tipo
0    AB01  14/10/15     1   20.0  61.2      1.60    1    3.0    1   2.0
1    AB02  09/02/16     0   30.0  60.0      1.55    0    5.0    0   NaN
2    AB03  01/03/10     0   50.0  80.0      1.83    1    2.0    1   3.0
3    AB04  04/05/13     0   43.0  83.0      1.90    1    NaN    1   2.0
4    AB05  20/05/14     0   22.0  75.3      1.75    0    2.0    1   3.0
5    AB06  30/01/11     1   15.0  70.2      1.70    1    6.0    0   NaN
6    AB07  05/08/15     1   22.0  60.0      1.65    1    5.0    1   3.0
7    AB08  08/12/13     1   25.0  62.0      1.55    0    1.0    0   2.0
8    AB09  03/11/10     1   32.0  61.0      1.62    1    4.0    1   1.0
9    AB10  10/10/10     1   33.0  55.0      1.55    1    5.0    1   NaN
10   AB11  05/08/15     0   39.0   NaN       NaN    0    5.0    1   NaN
11   AB12  09/08/14     0   60.0  78.0      1.77    0    4.0    1   2.0
12   AB13  07/07/15     0    NaN  70.0      1.65    0    1.0    

In [19]:
amostra1 = df['Peso'][df['Sexo']==0]
amostra2 = df['Peso'][df['Sexo']==1]

## VarTest(amostra1, amostra2, ratio = 1, conf.level = 0.95, alternative = "two.sided")

### Teste de hipóteses para comparação de Proporções de duas populações

Sejam $X_1, X_2,..., X_{n1}$ e $Y_1, Y_2,..., Y_{n2}$ duas amostra aleatórias independentes de duas populações com distribuição bernoulli com parâmetros $p_1$ e $p_2$, respectivamente.

Suponha que estamos interessados em verificar as seguintes hipóteses

$$
H_0: p_1 = p_2 \\
\text{vs} \\
H_1: p_1 < p_2 \text{ ou } p_1 > p_2 \text{ ou } p_1 \neq p_2
$$

Para realizar o teste para comparação de proporções no R, utilize o comando ``prop.test()``.

$$
stats.prop\_test(x, n, alt)
$$

Argumentos:
- x: vetor com os números de sucessos para cada amostra;
- n: vetor com os tamanhos das amostras;
- alt: tipo da hipótese alternativa.

Considerando o banco de dados ``basesaude.csv``, suponha que estamos interessados em verificar se a proporção de pacientes com HIV é igual a proporção de pacientes com DST.

Nossas hipóteses são:

$$
H_0: p_{HIV} = p_{DST} \text{ vs } H_1: p_{HIV} \neq p_{DST}
$$

In [20]:
import pandas as pd

df = pd.read_csv("data/basesaude.csv")

print(df)

   Codigo   Datacol  Sexo  Idade  Peso  Estatura  HIV  Escol  DST  Tipo
0    AB01  14/10/15     1   20.0  61.2      1.60    1    3.0    1   2.0
1    AB02  09/02/16     0   30.0  60.0      1.55    0    5.0    0   NaN
2    AB03  01/03/10     0   50.0  80.0      1.83    1    2.0    1   3.0
3    AB04  04/05/13     0   43.0  83.0      1.90    1    NaN    1   2.0
4    AB05  20/05/14     0   22.0  75.3      1.75    0    2.0    1   3.0
5    AB06  30/01/11     1   15.0  70.2      1.70    1    6.0    0   NaN
6    AB07  05/08/15     1   22.0  60.0      1.65    1    5.0    1   3.0
7    AB08  08/12/13     1   25.0  62.0      1.55    0    1.0    0   2.0
8    AB09  03/11/10     1   32.0  61.0      1.62    1    4.0    1   1.0
9    AB10  10/10/10     1   33.0  55.0      1.55    1    5.0    1   NaN
10   AB11  05/08/15     0   39.0   NaN       NaN    0    5.0    1   NaN
11   AB12  09/08/14     0   60.0  78.0      1.77    0    4.0    1   2.0
12   AB13  07/07/15     0    NaN  70.0      1.65    0    1.0    

In [21]:
x = [df['HIV'].sum(skipna = True), df['DST'].sum(skipna = True)]

n = [len(df['HIV']), len(df['DST'])]

Importaremos o pacote ``rpy2`` para converter ``x`` e ``y`` em vetores ``R`` para poder utilizar a função ``prop_test``.

In [22]:
import rpy2

x = rpy2.robjects.vectors.IntVector(x)
n = rpy2.robjects.vectors.IntVector(n)

teste_prop = stats.prop_test(x,n,alt="tw")

print("Saída do teste: ", teste_prop)

Saída do teste:  

	2-sample test for equality of proportions with continuity correction



data:  21:20 out of c(30L, 30L)

X-squared = 3.7975e-33, df = 1, p-value = 1

alternative hypothesis: two.sided

95 percent confidence interval:

 -0.2352562  0.3019228

sample estimates:

   prop 1    prop 2 

0.7000000 0.6666667 





### Teste de hipóteses para comparação de Médias de duas populações dependentes - Amostras Pareadas

Agora suponha que estamos interessados em comparar as médias de duas populações dependentes, ou seja, duas populações que dependem uma da outra de alguma maneira.

**Exemplo:** Uma pesquisa foi realizada para demonstrar que *Finasteride* inibe a perda de cabelo. Para isto, utilizaram dois grupos de tratamento: um recebeu o tratamento com *Finasteride* e o outro grupo *placebo*. A diferença desta pesquisa está na utilização de gêmeos idênticos para formação das duas amostras (tratamento e controle). Note que as amostras são dependentes, também conhecidas como amostra **pareadas**.

Se duas amostras $X_1, X_2,..., X_n$ e $Y_1, Y_2, ..., Y_n$ são pareadas, tal que $X_1 − Y_1, ..., X_n − Y_n$ sejam normalmente distribuídas.

E suponha que queremos testar as hipóteses

$$
H0 : μ_X = μ_Y \\
\text{vs} \\
H_1: μ_X < μ_Y \text{ ou } μ_X > μ_Y \text{ ou } μ_X \neq μ_Y
$$

Para realizar o teste para comparação de duas médias em amostras pareadas basta utilizar o comando ``t.test()`` com o argumento ``paired``.

$$
stats.t\_test(x, y, alt, paired)
$$

Argumentos:
- x, y: amostra 1 e amostra 2, respectivamente;
- alt: tipo de hipótese alternativa;
- paired: TRUE se as amostras são pareadas (dependentes).

## Referências

CASELLA, George; BERGER, Roger. **Statistical Inference**. Duxbury, 2. ed., 2001.

[numpy.random.normal](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.random.normal.html)

[scipy.stats.ttest_1samp](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html)

[rpy2](https://rpy2.readthedocs.io/en/version_2.8.x/)

[Erros cometidos nos testes de hipóteses](http://www.portalaction.com.br/inferencia/511-erros-cometidos-nos-testes-de-hipoteses)

[Cálculo e interpretação do p-valor](http://www.portalaction.com.br/inferencia/512-calculo-e-interpretacao-do-p-valor)
