# Exemplo de Teste de homogeneidade: 

A reação ao tratamento por quimioterapia está sendo estudada em quatro grupos de pacientes com câncer. 

Deseja-se investigar se os tipos diferentes de câncer reagem da mesma maneira ao tratamento por quimioterapia. 

Uma amostra de pacientes de cada grupo foi escolhida ao acaso e classificou-se a reação em três categorias, na seguinte Tabela:

In [2]:
tabela = rbind(cbind(51,33,16),cbind(58,29,13),cbind(48,42,30), cbind(26,38,16))
tabela = as.matrix(tabela,nrow=4,byrow=TRUE)
dimnames(tabela) = list(c("Tipo I","Tipo II","Tipo III", "Tipo IV"), c("Pouca", "Média", "Alta"))
tabelat = cbind(tabela,apply(tabela,1,sum))
tabelat = rbind(tabelat,apply(tabelat,2,sum))
dimnames(tabelat) = list(c("Tipo I","Tipo II","Tipo III"," Tipo IV", "Total"),c("Pouca "," Média","Muita"," Total"))
tabelat

Unnamed: 0,Pouca,Média,Muita,Total
Tipo I,51,33,16,100
Tipo II,58,29,13,100
Tipo III,48,42,30,120
Tipo IV,26,38,16,80
Total,183,142,75,400


No teste de homogeneidade desejamos verificar se uma variável aleatória se comporta de modo similar, ou homogêneo, em várias subpopulações. 

Portanto, no exemplo acima iremos considerar $H_0$ como "O comportamento da variável é homogêneo nas subpopulações" e $H_1$ "O comportamento da variável não é homogêneo nas subpopulações". 

Nesse teste, fixamos o tamanho da amostra em cada uma das subpopulações e selecionamos uma amostra dentro de cada um.

### Passo 1:

Fazer o cálculo dos valores esperados ($e_{ij} = n_{i} * \frac{\mbox{total da coluna j}}{\mbox{total geral}}$)

Abaixo temos a Tabela com os valores observados e, entre parenteses, os esperados. Caso haja homogeneidade de comportamento da variável, esperamos que essa proporção seja a mesma em todas as subpopulações.

In [58]:
c1 = c("51 (45,75)","33 (35,50)","16 (18,75)", 100)
c2 = c("58 (45,75)","29 (35,50)" ,"13 (18,75)", 100)
c3 = c("48 (54,90)","42(42,60)","30 (22,50)", 120)
c4 = c("26 (36,60)","38 (28,40)","16 (15,00)", 80)
c5 = c(183, 142, 75, 400)
t = rbind(c1, c2, c3, c4, c5)
dimnames(t) = list(c("Tipo I","Tipo II","Tipo III"," Tipo IV", "Total"),c("Pouca "," Média","Muita"," Total"))
t

Unnamed: 0,Pouca,Média,Muita,Total
Tipo I,"51 (45,75)","33 (35,50)","16 (18,75)",100
Tipo II,"58 (45,75)","29 (35,50)","13 (18,75)",100
Tipo III,"48 (54,90)","42(42,60)","30 (22,50)",120
Tipo IV,"26 (36,60)","38 (28,40)","16 (15,00)",80
Total,183,142,75,400


### Passo 2: 
Realizar a estatística do teste de homogeneidade ($\chi^2 = \sum_{i=1}^{s}\sum_{i=1}^{r}\frac{(O_{ij} - E_{ij})^2}{E_{ij}})$ , em que r = quantidade de linhas e s = quantidade de colunas

### Passo 3:
Supondo $H_0$ verdade: $\chi^2 = \sum_{i=1}^{s}\sum_{i=1}^{r}\frac{(O_{ij} - E_{ij})^2}{E_{ij}} \mbox{ segue } \chi_{q}^{2}$, em que q = (r-1) * (s-1) = (4-1) * (3-1) = 6 graus de liberdade

Para o cálculo, iremos considerar a Tabela t1 a seguir (similar à t, mas contendo apenas os valores observados):

In [7]:
c1. = c(51,33,16)
c2. = c(58,29,13)
c3. = c(48,42,30)
c4. = c(26,38,16)
t1 = rbind(c1., c2., c3., c4.)
dimnames(t1) = list(c("Tipo I","Tipo II","Tipo III"," Tipo IV"),c("Pouca "," Média","Muita"))
t1
chisq.test(t1)

Unnamed: 0,Pouca,Média,Muita
Tipo I,51,33,16
Tipo II,58,29,13
Tipo III,48,42,30
Tipo IV,26,38,16



	Pearson's Chi-squared test

data:  t1
X-squared = 17.173, df = 6, p-value = 0.008669


Considerando $\alpha$ igual a 0,01: p valor < $\alpha$, logo, rejeitamos $H_0$. O nível de reação de quatro tipos de câncer não acontece de modo homogêneo, não é similar.

# Exemplo Teste Exato de Fisher:

Deseja-se verificar se o uso de um remédio, no tratamento de uma doença, pode levar os pacientes a ter hipertensão. 

Para isso, foi feito um teste em que uma amostra de pacientes toma o remédio e outra toma um placebo. Depois, foi verificado se eles tiveram hipertensão. Nesse cenário, consideramos $H_0$ como "as variáveis são independentes" e $H_1$ como "as variáveis não são independentes".

Na Tabela a seguir temos os resultados da pesquisa: 

In [10]:
d1. = c(1,5,6)
d2. = c(8,2,10)
tot = c(9,7,16)
t2 = rbind(d1., d2., tot)
dimnames(t2) = list(c("Remédio","Placebo", "Total"),c("Teve hipertensão"," Não teve hipertensão", "Total"))
t2

Unnamed: 0,Teve hipertensão,Não teve hipertensão,Total
Remédio,1,5,6
Placebo,8,2,10
Total,9,7,16


Se mantivermos esses totais (amostra de tamanho 16, 6 receberam o remédio, 10 o placebo, 9 tiveram hipertensão e 7 não tiveram), temos $C_{16,9}$ combinações. Considerando a coluna "Teve hipertensão", a probabilidade de termos exatamente a tabela acima é dada por:
$$\frac{C_{6,1}*C_{10,8}}{C_{16,9}} = 0,0236 = 2,36\%$$

De todas as combinações em que 9 pessoas vão ter hipertensão e 7 não vao ter, 3 tem probabilidade de ocorrência igual ou menor que o correspondente à amostra. São elas: 

| $ \frac{C_{6,0}*C_{10,9}}{C_{16,9}} = 0,00087 $  | $\frac{C_{6,1}*C_{10,8}}{C_{16,9}} = 0,02360 $ | $\frac{C_{6,6}*C_{10,3}}{C_{16,9}} = 0,01049 $ |

O p valor é calculado somando as probabilidades dessas 3 ocorrências, ou seja, $0,0087+0,02360+0,01049 = 0,035$. Considerando $\alpha$ igual a 0,01: p-valor > $\alpha$, logo, aceitamos $H_0$. Assim, consideramos que as variáveis são idependentes, o uso do remédio não leva à hipertensão.