# 9 - Teste t de amostras relacionadas

Este material foi traduzido e adaptado de {cite}`carlson2017introduction`.

OBJETIVOS DE APRENDIZADO

Depois de ler este capítulo, você será capaz de fazer o seguinte:

- Identificar quando um teste t de amostras relacionadas deve ser usado;
- Explicar as vantagens de usar um desenho de amostras relacionadas em vez de um desenho de amostras independentes;
- Explicar a lógica do teste t de amostras relacionadas;
- Escrever hipóteses nulas e de pesquisa usando símbolos e palavras para testes unicaudais e bicaudais;
- Calcular os graus de liberdade e definir a região crítica para testes unicaudais e bicaudais;
- Calcular um teste t de amostras relacionado manualmente (usando uma calculadora) e usando _software_;
- Determinar se você deve rejeitar a hipótese nula;
- Calcular um tamanho de efeito (d) e interpretá-lo;
- Resumir os resultados da análise. 

## Teste t de Amostras Repetidas/Relacionadas

Neste capítulo, você aprenderá sobre um tipo diferente de teste t. Embora seu cálculo seja semelhante ao teste t para amostra única que você aprendeu no Capítulo 7, esse novo teste t tem vários nomes diferentes, um para cada projeto experimental em que pode ser usado. Por exemplo, pode ser usado para comparar a média de uma amostra de pessoas antes e depois de receberem um tratamento. Nesta situação, o teste t é denominado teste t de medidas repetidas porque os participantes são medidos repetidamente, uma vez antes e uma vez depois de um tratamento. O teste t de medidas repetidas determina se o tratamento alterou os valores dos participantes em uma variável dependente (VD). Esse mesmo teste t também pode ser usado quando os pesquisadores desejam comparar dois grupos de participantes que estão relacionados de alguma forma. Nessa situação, o teste t é chamado de teste t de amostras relacionadas porque cada pessoa na primeira amostra tem algo em comum ou está ligada a alguém na segunda amostra (ou seja, as amostras estão relacionadas). Por exemplo, a primeira amostra podem ser maridos e a segunda amostra pode ser seus cônjuges. Embora o teste t de medidas repetidas e o teste t de amostras relacionadas tenham nomes diferentes que surgem de seus diferentes projetos experimentais, quando se trata de computação, eles são idênticos. Na verdade, o teste t que você aprenderá neste capítulo também é às vezes chamado de teste t de amostras pareadas, teste t de amostras combinadas, teste t de amostras dependentes ou teste t dentro dos sujeitos.

O teste t de medidas relacionadas é semelhante ao teste t de amostra única, pois compara o desvio entre duas médias para determinar se é provável que tenha sido criado por erro amostral. No entanto, o teste t de amostras relacionadas é diferente porque os dois meios que ele compara vêm da mesma amostra, que é medida duas vezes sob condições diferentes. Por exemplo, se os investigadores quisessem testar a eficácia de um novo medicamento destinado a reduzir a ansiedade, poderiam recolher uma amostra de pessoas, medir primeiro a sua ansiedade, depois administrar-lhes o novo medicamento e, finalmente, medir a sua ansiedade depois de o medicamento ter tido tempo de fazer efeito. Você pode reconhecer isso como um teste "pré-pós". Se o medicamento não funcionasse, seria esperado que o nível médio de ansiedade fosse o mesmo antes e depois de tomar o medicamento. No entanto, se o medicamento funcionasse, seria de esperar que o nível médio de ansiedade fosse significativamente mais baixo depois de tomar o medicamento do que antes de o tomar. Nesta situação, os investigadores utilizam o mesmo grupo de pessoas para representar duas populações diferentes. A média da amostra pré-droga representa qual seria o nível de ansiedade da população se ela não tomasse o medicamento. A média da amostra pós-droga representa qual seria o nível de ansiedade da população se ela tomasse o medicamento. Assim, os pesquisadores estão usando uma amostra para produzir duas médias amostrais diferentes, e cada média amostral estima um parâmetro populacional diferente. Se for improvável que o desvio entre as duas médias amostrais seja criado por erro amostral, então presume-se que o medicamento tenha alterado o nível de ansiedade da amostra.

Em algumas situações, os pesquisadores formam pares de pessoas que são semelhantes em alguma variável que estão interessados em “controlar”. Por exemplo, os pesquisadores podem criar pares de pessoas com os mesmos índices de ansiedade (ou seja, duas pessoas com índices de ansiedade de 180, duas pessoas com índices de ansiedade de 210, etc.). Em seguida, os pesquisadores dariam aleatoriamente o medicamento a uma pessoa de cada par "combinado" e à outra um placebo. Ao usar amostras "combinadas", você analisa os dados como se cada par correspondido fosse realmente uma única pessoa. As hipóteses, regiões críticas e cálculos são exatamente os mesmos usados no exemplo pré-pós anterior, mas nesta situação, o teste t é frequentemente chamado de teste t relacionado ou correspondente. O seguinte exemplo de cálculo manual ilustra como esse tipo de procedimento de correspondência é feito.

In [1]:
# HIDE CODE
from jupyterquiz import display_quiz
#display_quiz("questions.json", preserve_responses = True)
display_quiz("question1.json")

<IPython.core.display.Javascript object>

## Lógica do Testes t de Amostra Única e Amostras Repetidas/Relacionadas 

A lógica do teste t de amostras relacionadas é semelhante à do teste t de amostra única. Para ajudar a ilustrar as semelhanças e diferenças entre estes dois testes estatísticos, ambas as fórmulas são fornecidas da seguinte forma:

t Amostra única = $\frac{(\bar{x} - \mu)}{SEM_a}$

t Amostra repetidas/relacionadas = $\frac{(\bar{x}_D - \mu_D)}{SEM_D}$

Os denominadores do teste t de amostra única e do teste t de amostras relacionadas representam a quantidade típica de erro de amostragem esperado. O numerador do teste t de amostra única compara uma média amostral (ou seja, $\bar{x}$) com um valor esperado se a hipótese nula fosse verdadeira (ou seja, $\mu$). O numerador do teste t de amostras relacionadas é um pouco mais complicado porque, em vez de comparar uma média de amostra única (ou seja, $\bar{x}$) com um valor esperado se a hipótese nula fosse verdadeira (ou seja, $\mu$), ele na verdade compara a diferença média entre duas médias amostrais (ou seja, $\bar{x}_D$; o D significa diferença) com a diferença média esperada se o nulo for verdadeiro (ou seja, $\mu_D$). Por exemplo, você compararia a diferença entre a média de ansiedade pré-droga e a média de ansiedade pós-droga com a diferença média esperada se a droga não funcionasse (ou seja, $\mu_D$, uma diferença média de 0). Na verdade, os pesquisadores quase sempre testam para ver se a diferença observada é significativamente diferente de 0. Neste livro, sempre usaremos $\mu_D = 0$ porque é extremamente raro usar um valor diferente de 0. Se você usar $\mu_D = 0$, ele poderá ser eliminado do numerador e a fórmula t poderá ser simplificada para

t Amostra repetidas/relacionadas = $\frac{\bar{x}_D}{SEM_r}$

Outra semelhança importante entre o teste t de amostra única e os testes t relacionados é que se a hipótese nula para qualquer um dos testes fosse verdadeira, você esperaria obter um valor t obtido próximo de 0. Se o valor t obtido estivesse mais distante de 0 que o valor crítico, a hipótese nula seria rejeitada.

In [3]:
# HIDE CODE
display_quiz("question2.json")

<IPython.core.display.Javascript object>

Tal como acontece com o teste t de amostra única, um teste t de medidas relacionadas pode ser unilateral ou bicaudal. O primeiro exemplo é um teste bicaudal.

## Exemplo de Amostras Relacionadas t (bicaudal)

Um pesquisador clínico quer determinar se um novo medicamento para tratar a ansiedade tem efeitos colaterais que alteram os níveis de colesterol. Os níveis de colesterol são normalmente distribuídos e medidos como uma variável quantitativa. Seis pares de pessoas são comparadas em relação aos seus níveis de colesterol pré-existentes. Em seguida, uma pessoa de cada par recebe o novo medicamento para ansiedade, enquanto a outra pessoa recebe um placebo. Dezoito semanas depois, o pesquisador mede os níveis de colesterol. O médico não tem como saber se o medicamento para ansiedade aumentará, diminuirá ou não terá efeito sobre o colesterol, então ele usou um teste de hipótese bicaudal com  $\alpha = 0.05$ para determinar se o medicamento altera os níveis de colesterol.

### Etapa 1: examinar as premissas estatísticas

Tal como acontece com o teste t de amostra única, ao realizar um teste t de amostras relacionadas, a independência dos dados a suposição exige que as medições dos participantes dentro de uma condição não influenciem as pontuações de outros nessa mesma condição. Novamente, controles procedimentais cuidadosos geralmente produzem dados independentes. Ao realizar um teste t de amostras relacionadas, a VI deve identificar dois grupos de variáveis relacionadas que são medidas sob condições diferentes, e o VD deve ser medida em como uma variável quantitativa (suposição de medição apropriada de variáveis para o teste t relacionado). A VI neste estudo identifica dois grupos relacionados, com níveis iniciais de colesterol correspondentes e depois designados aleatoriamente para duas condições diferentes. Um grupo tomou o medicamento para controle do colesterol por 18 semanas, enquanto o outro grupo tomou placebo. Assim, a VI identifica as duas condições de medicamento versus placebo. A VD é o nível de colesterol dos participantes após a administração do medicamento ou placebo por 18 semanas. Os níveis de colesterol são medidos com uma variável quantitativa. Tanto a VI quanto a VD satisfazem a suposição apropriada de medição de variáveis para o teste t de amostras relacionadas. A suposição de normalidade para um teste t de amostras relacionadas exige que a distribuição das diferenças médias amostrais tenha formato normal. Descreveremos a distribuição das diferenças médias amostrais mais tarde, mas essencialmente o teorema central do limite também se aplica à distribuição das diferenças médias amostrais, de modo que terá uma forma normal, desde que a população original de diferenças médias tenha uma forma normal ou se a amostra o tamanho é suficientemente grande (ou seja, maior que 30). Essa suposição é atendida porque se sabe que a população de níveis de colesterol tem um formato normal, portanto, é provável que a população de diferenças médias também tenha um formato normal. Embora a suposição de normalidade seja cumprida neste caso, num estudo real, nunca é uma boa ideia utilizar apenas seis pares de participantes para representar uma população inteira.

Usamos esse pequeno tamanho de amostra para que o exemplo seja mais fácil de seguir. Quando você faz pesquisas, geralmente será necessário ter uma amostra maior. O teste t de amostras relacionadas não tem uma suposição de homogeneidade de variância. Dado que todas as três suposições do teste t relacionado foram satisfeitas, você pode avançar para a Etapa 2.

In [4]:
# HIDE CODE
display_quiz("question3.json")

<IPython.core.display.Javascript object>

### Etapa 2: Enunciar as hipóteses nula e de pesquisa Simbolicamente e Verbalmente
 
Nesse caso, você não tem certeza do efeito que o medicamento tem sobre os níveis de colesterol, então escolhe corretamente fazer um teste de hipótese bicaudal. Sua hipótese de pesquisa afirma que a droga afeta os níveis de colesterol. Essa hipótese é não direcional, pois não especifica se o medicamento tem efeito positivo ou negativo, apenas que terá algum efeito. Como sempre será o caso, a sua hipótese nula afirma o oposto da hipótese da pesquisa – ou seja, que a droga não afeta de forma alguma os níveis de colesterol.

Neste exemplo, você está usando pares de pessoas com níveis de colesterol pré-existentes correspondentes. Você trata cada par correspondente como se fossem um único participante. Uma pessoa em cada par receberá o medicamento, enquanto a outra receberá o placebo. Quem recebe o medicamento ajuda a criar uma média que representa o colesterol da população se todos tomassem o medicamento. Aqueles que recebem o placebo ajudam a criar uma média que representa o colesterol da população se todos tomassem o placebo. O teste t de amostras relacionadas não compara diretamente essas médias. Em vez disso, o teste t de amostras relacionadas usa valores d diferença de cada par de participantes combinados. Você deve calcular essas diferença subtraindo o valor de colesterol placebo de cada par de valor de colesterol do medicamento. Você verá isso na Etapa 4.

O teste t de amostras relacionadas determina se a média dessas diferenças é significativamente diferente de 0. Se o medicamento não tiver efeito sobre o colesterol, a diferença média para todos os pares correspondentes deve ser próxima de 0. A notação simbólica para a média das diferença são $\mu_D$. Assim, a hipótese nula é que a média dos escores das diferenças é igual a 0 ($\mu_D = 0$), e a hipótese da pesquisa é que a média dos escores das diferenças não é igual a 0 ($\mu_D \neq 0$). As hipóteses nula e de pesquisa são apresentadas na Tabela 9.1.

Tipo de Hipótese | Simbólico | Vebal | Diferença entre médias amostral e populacional
-- | -- | -- | --
Hipótese nula | $\mu_{D}=0;$ | Diferença média $\approx$ 0 | Erro amostral
Hipótese de pesquisa | $\mu_{D} \neq 0.$ | Diferença média $\neq$ 0 | Medicamento tem efeito sobre colesterol

In [7]:
# HIDE CODE
display_quiz("question4.json")

<IPython.core.display.Javascript object>

### Etapa 3: calcule os graus de liberdade e Defina a região crítica

Este cenário de pesquisa utiliza um _design_ correspondente. Isso significa que você está usando duas pessoas com valores de colesterol iguais, como se fossem apenas uma pessoa. Portanto, ao calcular o graus de liberdade (gl) para um experimento correspondente, N é o número de valores pareados. Neste caso, N seria 6, e o gl seria

$gl = N-1 = 6 - 1 = 5$

Para determinar o valor crítico, você usa a mesma tabela bilateral de valores t críticos e descobre que é 2.5706 quando $\alpha = 0.05$. Isto significa que as regiões críticas bicaudais são t < -2.5706 e t > +2.5706.

In [9]:
# HIDE CODE
import pandas as pd
import numpy as np
from scipy import stats

gls = [4, 5, 6]
a05 = [round(-stats.t(x).ppf(0.025), 4) for x in gls]
a01 = [round(-stats.t(x).ppf(0.005), 4) for x in gls]

df = pd.DataFrame(zip(gls, a05, a01), columns=['gl', r'$\alpha = .05$', r'$\alpha = .01$'])

color = (df.iloc[:,1] == df.loc[1,r'$\alpha = .05$']).map({True: 'background-color: yellow', False: ''})

df.style.apply(lambda s: color)

Unnamed: 0,gl,$\alpha = .05$,$\alpha = .01$
0,4,2.7764,4.6041
1,5,2.5706,4.0321
2,6,2.4469,3.7074


### Etapa 4: calcular a estatística do teste (teste t de amostras relacionadas)

_4a. Calcule D para cada participante/par correspondente_

A primeira etapa no cálculo da estatística t das amostras relacionadas é calcular o valor da diferença (ou seja, D) para cada par de valores. Você deve calcular a diferença da mesma maneira para cada par de valores. Neste caso, o valor da diferença foi calculado como a valor do medicamento menos o valor do placebo. O D para cada par de valores é calculado na Tabela 9.2. D é a diferença entre os dois valores para cada par de participantes.

Tabela 9.2 Cálculo de D em um teste t de amostras relacionadas
Par Placebo Medicamento D (Droga - Placebo)

Par | Placebo | Medicamento | D (Medicamento - Placebo)
-- | -- | -- | -- 
A | 180 | 188 | 8
B | 200 | 201 | 1
C | 190 | 197 | 7
D | 170 | 174 | 4
E | 210 | 215 | 5
F | 195 | 194 | -1