# Introdução

O $t$-teste é um procedimento estatístico usado para comparar médias e verificar se a diferença observada entre elas é estatisticamente significativa, ou seja, se pode ser atribuída ao acaso ou reflete uma diferença real entre os grupos.

Há três tipos de procedimentos que respondem pelo nome genérico e $t$-teste, conforme a tabela a seguir.

| Tipo                                       | Situação                                                            | Hipóteses                                               |
| ------------------------------------------ | ------------------------------------------------------------------- | ------------------------------------------------------- |
| **t-teste para uma amostra**                 | Comparar a média amostral com um valor de referência $\mu_0$        | $H_0: \mu = \mu_0$                                      |
| **t-teste para amostras pareadas**                        | Comparar médias de duas situações relacionadas (ex: antes e depois) | $H_0: \mu_d = 0$, onde $\mu_d$ é a média das diferenças |
| **t-teste para duas amostras independentes** | Comparar médias de dois grupos diferentes                           | $H_0: \mu_1 = \mu_2$                                    |

# t-teste para uma amostra

No z-teste, consideramos que o valor de $\sigma$ (desvio padrão populacional) é conhecido na computação do z-escore. Em situações nas quais esse parâmetro não é conhecido, poderíamos pensar (erroneamente) que podemos computar o desvio padrão $s$ da amostra e usá-lo no lugar de $\sigma$ para computar o erro padrão:

Entretanto, o uso de $s$ em vez de $\sigma$ adicionaria ainda mais incerteza às inferências realizadas. Nesse caso (em que $\sigma$ é desconhecido), não podemos usar o z-escore como estatística. Em vez disso, devemos usar o t-escore, em um procedimento conhecido como **t-teste**.

> O *t-teste para uma amostra* é um teste de hipótese para verificar uma afirmação acerca de média de uma população. No t-teste, a estatística segue a distribuição t de Student sob a hipótese nula. Esse teste deve ser aplicado quando o erro padrão (por conta de $\sigma$ ser desconhecido) é substituído por uma estimativa computada a partir dos dados da amostra.

Assim como no z-teste, o objetivo do t-teste é verificar uma alegação feita acerca da média de uma população. Sendo assim, o contexto de uso to t-teste é aquele em que devemos realizar uma comparação entre uma média amostral e um valor dado (valor esse correspondente à média populacional, considerando que a hipóteses nula seja verdadeira), quando a variância da população é desconhecida.

Os passos para aplicar o t-teste são os descritos a seguir:

1. Declarar as hipóteses
 - $H_0$: $\mu = \mu_0$
 - $H_a$: $\mu \neq \mu_0$ ou $\mu > \mu_0$ ou $\mu < \mu_0$;

2. Computar estatística de teste (t-escore) a partir da amostra;

3. Encontrar o $p$-value associado ao $t$-escore;

4. Interpretar o resultado, i.e., aceitar ou rejeitar a hipótese nula.

Compare o procedimento acima com o fornecido anteriormente relativo ao z-teste. Você deve concluir que a única diferença está no passo 2: em vez de usarmos o z-escore, usamos o t-escore, que é a estatístca usada no t-teste. O t-escore segue a distribuição $t$ de Student. A definição dessa estatística é dada a seguir.

$$
t = \frac{\overline{x} - \mu_0}{s/\sqrt{n}}
$$

Na expressão acima, temos que:

- $n$ é a quantidade de elementos da amostra;

- $\overline{x}$ é o valor da média computado na amostra disponível;

- $s$ é o valor do desvio padrão computado na amostra disponível;

- $\mu_0$ é o valor da média populacional, considerando que $H_0$ seja verdadeira.

A estatística $t$ segue a distribuição $t$ de Student com parâmetro $\nu$, em que $\nu = n-1$.


## Exemplos

### Exemplo 1

Uma máquina de preenchimento de garrafas está configurada para preencher cada garrafa com 500 ml de vinho.  O fabricante suspeita que essa máquina está preenchendo as garrafas com valores a menor, por conta de estar desregulada. Uma amostra é coletada, e o volume de cada garrafa é medido: 

```
484.11, 459.49, 471.38, 512.01, 494.48, 
528.63, 493.64, 485.03, 473.88, 501.59, 
502.85, 538.08, 465.68, 495.03, 475.32, 
529.41, 518.13, 464.32, 449.08, 489.27
```

Com base nessa amostra, que evidência o fabricante tem para justificar ou refutar a sua suspeita?

Veja a solução a seguir, com o uso da função [stats.ttest_1samp](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html).

In [35]:
# Importando bibliotecas
import numpy as np
from scipy import stats

# Dados da amostra (volumes em mL)
volumes = np.array([
    484.11, 459.49, 471.38, 512.01, 494.48,
    528.63, 493.64, 485.03, 473.88, 501.59,
    502.85, 538.08, 465.68, 495.03, 475.32,
    529.41, 518.13, 464.32, 449.08, 489.27
])

# Valor esperado sob H0
mu0 = 500

# Teste t unilateral à esquerda: H0: mu = 500 vs Ha: mu < 500
t_stat, p_value = stats.ttest_1samp(volumes, popmean=mu0)

# Ajustar p-valor para teste unilateral à esquerda
# Se t_stat < 0, p_value é o p-valor unilateral à esquerda
# Se t_stat >= 0, p_value é o p-valor unilateral à direita
# Para o teste unilateral à esquerda, dividimos o p-valor por 2
# e ajustamos conforme o sinal do t_stat
p_value_one_sided = p_value / 2 if t_stat < 0 else 1 - (p_value / 2)
print(f"t-stat: {t_stat:.4f}, p-valor unilateral: {p_value_one_sided:.4f}")

# Média e desvio padrão amostral
mean_vol = volumes.mean()
std_vol = volumes.std(ddof=1)

# Teste de hipótese
alpha = 0.05
if p_value_one_sided < alpha:
    result = "Rejeita H0"
else:
    result = "Não rejeita H0"
print(f"Resultado do teste: {result}")
print(f"Estatística t: {t_stat:.4f}, p-valor unilateral: {p_value_one_sided:.4f}")
print(f"Média amostral: {mean_vol:.2f}, Desvio padrão amostral: {std_vol:.2f}")


t-stat: -1.5205, p-valor unilateral: 0.0724
Resultado do teste: Não rejeita H0
Estatística t: -1.5205, p-valor unilateral: 0.0724
Média amostral: 491.57, Desvio padrão amostral: 24.79


**Regra Geral**

Se o objetivo for testar:

- $H_a: \mu < \mu_0$ (unilateral à esquerda)  
  → p-valor = metade do bilateral, **se a estatística for negativa**.

- $H_a: \mu > \mu_0$ (unilateral à direita)  
  → p-valor = metade do bilateral, **se a estatística for positiva**.

Se o sinal da estatística for **contrário à hipótese alternativa**, então o **p-valor unilateral será maior que 0,5**, pois os dados estão na **direção oposta ao que você está tentando provar**.


**Conclusão**

Apesar da média amostral estar abaixo de 500 ml, a variabilidade dos dados faz com que essa diferença não seja estatisticamente significativa ao nível de 5%. O fabricante não tem evidência suficiente para afirmar que a máquina está desregulada — mas o p-valor é relativamente baixo, sugerindo que uma investigação mais profunda pode ser válida.

### Exemplo 2

Considere que os números a seguir correspondem a uma amostra aleatória simples de tamanho 10 de pesos de recém-nascidos, medidos em gramas.

``
2998, 3740, 2031, 2804, 2454, 2780, 2203, 3803, 3948, 2144
``

Seja testar, no nível de significância de 10%, a seguinte alegação usando essa amostra:

> Bebês com [Sudden Infant Death Syndrome](https://en.wikipedia.org/wiki/Sudden_infant_death_syndrome) (SIDS) possuem peso de nascimento médio diferente daquele encontrado na população de bebês em geral, que é $\mu_0$ = 3300 gramas.

Sendo assim, as hipóteses nula e alternativa podem ser declaradas da seguinte forma:

**(1) Formulação das hipóteses**

- $H_0: \mu = 3300$
- $H_a: \mu \neq 3300$ (two-sided)

**(2) Computação do $t$-score**

A partir da amostra aleatória simples (n = 10) de pesos (medidos em gramas) no nascimento de bebês com SIDS, calculamos:

- $\overline{x} = 2890.5$ gramas
- $s = 720$ gramas

A seguir, computamos a estatística t (i.e., o t-escore):

$$
t = \frac{\overline{x} - \mu_0}{s/\sqrt{n}} = \frac{2890.5 - 3300}{720/\sqrt{10}} = -1.80
$$

Essa estatística segue a distribuição t de Student com parâmetro $\nu = 10 - 1 = 9$ (graus de liberdade).

Note que estamos testando a validade da hipótese $H_0: \mu_0 = 3300$ gramas. No teste bicaudal (*two-sided test*) com nível de significância 10%, encontramos p-value = 0.1054. Esse valor é maior do que 0.10. Sendo assim, a conclusão é que não podemos rejeitar $H_0$, dado que a evidência contra ela é fraca: a média amostral (2890.5 gramas) não é significativamente diferente de 3300 gramas. Portanto, não há evidência suficiente para dar suporte à alegação feita acima.


A célula de código a seguir ilustra de que forma o valores usados nos cálculos do exemplo acima poderiam ser calculados.

In [36]:
import numpy as np
from scipy.stats import t

amostra = np.array([2998, 3740, 2031, 2804, 2454, 2780, 2203, 3803, 3948, 2144])

# tamanho da amostra
n = 10

mu_0 = 3300
nu = n-1

x_bar = np.mean(amostra)
print("Média da amostra de bebês: %.4f" % x_bar)

# Na chamada abaixo, repare o uso do argumento ddof=1, pois estamos computando o desvio padrão amostral. 
# Da documentação do numpy:
#  >``ddof: int``, optional
#  Means Delta Degrees of Freedom. The divisor used in calculations is N - ddof, where N represents the number of elements. By default ddof is zero.
s = np.std(amostra, ddof=1)
print("Desvio padrão da amostra de bebês: %.4f" % s)

t_score = (x_bar - mu_0)/(s/np.sqrt(n))
print("t-escore: %.4f" % t_score)

# repare que é um teste bicaudal
pvalue = 2 * t.cdf(t_score, df=nu)
print("p-valor: %.4f" % pvalue)

Média da amostra de bebês: 2890.5000
Desvio padrão da amostra de bebês: 719.8034
t-escore: -1.7990
p-valor: 0.1056


**Conclusão**

Não há evidência estatística suficiente para afirmar, com 90% de confiança, que o peso médio de recém-nascidos com SIDS difere da média da população geral.

## Função `t_test_1sample`

A função utilitária `t_test_1sample` definida a seguir permite realizar $t$-teste de uma amostra.

- Permite testes bilateral, unilateral à esquerda ou à direita; basta configurar o parâmetro `alternative`.

- Ajusta corretamente o p-valor conforme a hipótese alternativa.

Alguns exemplos de uso dessa função:
```Python
# Teste bilateral
t_test_1sample([2998, 3740, 2031, 2804, 2454, 2780, 2203, 3803, 3948, 2144], mu0=3300)

# Teste unilateral à esquerda
t_test_1sample([50, 52, 49, 48, 53], mu0=60, alternative='less')

# Teste unilateral à direita
t_test_1sample([52, 54, 55, 56, 58], mu0=50, alternative='greater')
```

In [37]:
from scipy.stats import ttest_1samp
import numpy as np

def t_test_1sample(sample, mu0, alternative='two-sided', alpha=0.05):
    """
    Aplica o t-teste para uma única amostra usando scipy.stats.ttest_1samp.
    
    Parâmetros:
    - sample: array-like com os dados amostrais
    - mu0: valor da média sob H0
    - alternative: 'two-sided', 'less' ou 'greater'
    - alpha: nível de significância
    
    Retorna:
    - estatística t, p-valor ajustado, e decisão
    """
    sample = np.array(sample)
    
    # Estatística t e p-valor bilateral
    t_stat, p_bilateral = ttest_1samp(sample, popmean=mu0)
    
    # Ajuste do p-valor conforme a hipótese alternativa
    if alternative == 'two-sided':
        p_value = p_bilateral
    elif alternative == 'less':
        p_value = p_bilateral / 2 if t_stat < 0 else 1 - (p_bilateral / 2)
    elif alternative == 'greater':
        p_value = p_bilateral / 2 if t_stat > 0 else 1 - (p_bilateral / 2)
    else:
        raise ValueError("alternative deve ser 'two-sided', 'less' ou 'greater'")
    
    # Decisão
    decision = "Rejeita H0" if p_value < alpha else "Não rejeita H0"

    # Saída interpretativa
    print("t-teste para uma média (ttest_1samp)")
    print(f"Estatística t = {t_stat:.4f}")
    print(f"p-valor = {p_value:.4f}")
    print(f"Decisão ao nível {alpha:.2f}: {decision}")
    
    return t_stat, p_value, decision

## Condições de aplicabilidade

Para podermos aplicar o t-teste para uma amotra, devemos nos assegurar de que as condições a seguir são satisfeitas.

1. Amostra foi obtida por meio de amostragem aleatória simples (Ou seja, o valor observado para um indivíduo não influencia o valor observado para outro.);

2. A população da qual a amostra foi retirada deve ser normalmente distribuída ou a amostra é grande. Se o tamanho da amostra é pequeno (tipicamente $n<30$), essa suposição é crítica. Se $n \geq 30$, o Teorema Central do Limite suaviza essa exigência — o teste é robusto à violação moderada da normalidade.

# t-teste para duas amostras



Exemplos de perguntas de pesquisa que aparecem com frequência em estudos científicos são as seguintes:

1. O método computacional $A$ é melhor do que o método computacional $B$?
2. O medicamento $X$ é efetivo na melhoria de memória?

- No contexto do primeiro exemplo, responder a esse tipo de pergunta muitas vezes requer comparar as medidas obtidas pela aplicação dos métodos $A$ e $B$ a um conjunto de objetos ou de indivíduos, o que iria gerar dois conjuntos de resultados.

- Já no contexto do segundo exemplo, uma resposta pode ser obtida observando o comportamento dos mesmo grupo de indivíduos em dois momentos no tempo, antes a após o tratamento com o medicamento $X$. Alternativamente, poderiam ser definidos dois grupos de indivíduos. O *grupo de tratamento* é aquele que recebe o medicamento para o qual queremos verificar a efetividade. O *grupo de controle* recebe um placebo.

Em ambos os exemplos acima, e em muitos outros contextos, temos dois conjuntos de observações e devemos, com base nessas observações, produzir uma resposta para a pergunta de pesquisa. Usualmente, essa pergunta de pesquisa envolver verificar (testar) se as duas amostras são provenientes da mesma população de indivíduos, ou se são provenientes de duas populações distintas, cada uma das quais com suas próprias características. Nesse caso, devemos aplicar algum **teste de hipótese de duas amostras**.

> A ideia geral dos testes de hipóteses de duas amostras é comparar as médias das duas amostras e verificar se a **diferença** entre elas é significativamente diferente de zero. Se isso for verdade, significa que há evidências para afirmar que há diferença entre as populações usadas na produção das duas amostras.

Os **t-testes para duas amostras** são usados para verificar a eventual existência de diferença entre as duas médias populacionais. Esses testes tomam como entrada duas amostras. Além disso, essas amostras de entrada podem ser de dois tipos: *pareadas* ou *independentes*. A figura a seguir ([fonte](https://datatab.net)) ilustra esquematicamente a diferença entre esses dois tipos de amostras.

<center>
<img src="https://datatab.net/assets/tutorial/paired_t-Test.png" width="500px"/>
</center>

Dependendo do tipo de amostra, um tipo particular de t-teste deve ser aplicado.
- Amostras pareadas $\rightarrow$ usar **t-teste pareado**.
- Amostras independentes $\rightarrow$ usar **t-teste independente**.

Antes de prosseguirmos para estudar cada um desses tipos de teste, é importante notar que um determinado estudo pode produzir medidas pareadas ou independentes. O teste estatístico a ser usado deve ser escolhido em conformidade com o tipo do par de amostras disponível.

Como exemplo para ilustrar que o tipo de teste a ser aplicado depende da natureza do par de amostras coletadas, considere que estamos interessados ​​em estudar o efeito de um tratamento médico sobre a taxa de insulina. Há dois cenários possíveis:

- A taxa de insulina é medida em 30 pacientes antes e depois do tratamento médico. Os dados são, portanto, organizados por pares (cada paciente é associado a duas medições). Um teste apropriado para usar aqui seria um t-teste pareado.

- A taxa de insulina é medida em 30 pacientes que recebem um placebo e 30 outros pacientes que recebem o tratamento médico. Nesse caso, todas as medições são independentes. Um teste apropriado para usar aqui seria um t-teste independente.

## t-teste pareado (paired t-test)

Este teste é usado quando as amostras são *pareadas* (ou *dependentes*). Duas amostras são ditas pareadas quando há apenas um grupo de indivíduos que foi aferido duas vezes (medidas repetidas) ou quando os indivíduos dessas duas amostras foram combinados ou "emparelhados" em uma relação um-para-um. Em outras palavras, cada indívíduo de um grupo está associado a um e apenas um indivíduo do outro grupo.

Seguem dois exemplos de amostras pareadas.

1. Em um estudo de pressão arterial, cada indivíduo do grupo de pacientes pode ser pareado (e.g., por idade) com outro do grupo de controle. Cada registro no arquivo de dados conterá respostas do paciente e também do indivíduo correspondente usado como controle.

2. Considere comparar a quantidade de alguma vitamina em um mesmo conjunto de pães de forma em dois momentos distintos: (a) imediatamente após a fabricação; (b) três dias após a fabricação. Repare que aqui também há uma correspondência um-para-um entre elementos das duas amostras.

Como muitos procedimentos estatísticos, o teste t de amostras pareadas tem duas hipóteses concorrentes, a hipótese nula e a hipótese alternativa.

- A hipótese nula afirma que a diferença entre as médias das populações é zero. Sob esta suposição, a diferença observada entre as médias das duas amostras é explicada unicamente pela variação aleatória, ou seja, pelo acaso.
- Por outro lado, a hipótese alternativa declara que a diferença entre as médias das populações não é igual a zero.

A hipótese alternativa pode assumir várias formas, dependendo do resultado esperado. Se a direção da diferença não importa, um teste bilateral é usado. Caso contrário, um teste de cauda superior ou de cauda inferior pode ser usado para aumentar o poder do teste. A hipótese nula permanece a mesma para cada tipo de hipótese alternativa.

No teste t pareado (paired t test), devemos usar como estatística de teste a variável aleatória obtida pela **diferença** entre as médias amostrais das duas amostras. Para computar essa estatística, as diferenças entre todos os pares de indivíduos devem ser calculadas. A média ($\overline{x}_d$) e o desvio padrão ($s_d$) dessas diferenças são usados no cálculo da estatística. É possível provar que essa estatística de teste segue a distribuição t de Student e é definida conforme a seguir.

$$
t = \frac{\overline{x}_d - \mu_d}{s_d/\sqrt{n}}
$$

Na expressão acima, temos que:

- $n$ é a quantidade de pares de elementos;

- $\overline{x}_d$ é o valor médio computado sobre as diferenças entre os valores correspondentes contidos nas duas amostras disponíveis;

- $s_d$ é o valor do desvio padrão computado sobre as diferenças entre os valores correspondentes contidos nas duas amostras disponíveis;

A quantidade de graus de liberdade usada é $\nu = n - 1$, onde $n$ representa o número de pares.

Dado o valor da estatística de teste, o valor $p$ é computado. Se o valor $p$ for inferior ou igual ao nível de significância pré-estabelecido, podemos concluir que a diferença entre as duas amostras pareadas é significativamente diferente. Isso nos levaria a não aceitar $H_0$.

> O teste t pareado é, portanto, simplesmente um teste t de uma amostra para a média das diferenças $\mu_d$, onde o valor nulo (i.e., o valor presumido pela hipótese nula) é 0.

### Exemplos

#### Exemplo 1

Deseja-se verificar a efetividade de uma nova dieta sobre o nível de colesterol LDL no organismo. Para isso, foi realizada a medição do nível de colesterol LDL para  12 indivíduos. Em seguida, indivíduos iniciaram a dieta durante 2 semanas. Após a dieta, medição do nível de colesterol LDL foi realizada novamente. A tabela a seguir apresenta os valores medidos antes e depois de a dieta ter sido ministrada.

| Indivíduo | A | B | C | D | E | F | G | H | I | J | K | L |
| :- | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | -: |
| Antes | 4.61 | 6.42 | 5.40 | 4.54 | 3.98 | 3.82 | 5.01 | 4.34 | 3.80 | 4.56 | 5.35 | 3.89 |
| Depois | 3.84 | 5.57 | 5.85 | 4.80 | 3.68 | 2.96 | 4.41 | 3.72 | 3.49 | 3.84 | 5.26 | 3.73 |

A hipótese nula declara que não existe efeito da dieta sobre o nível de colesterol LDL. Vamos usar o teste bicaudal (two-sided), para ser consistente com a questão de pesquisa. Portanto, as hipóteses são definidas como segue:

- $H_0: \mu_d = 0$
- $H_a: \mu_d \neq 0$

O próximo passo é computarmos o valor da estatística. Ao fazermos isso, obtemos t-escore = $3.04$. Para esse t-escore, computamos o p-valor correspondente: $p = 0.0112$.

Perceba que $p < \alpha$. A conclusão é que, no nível de significância $\alpha = 0.05$, temos boas razões (evidências) para duvidar de $H_0$.

Como um detalhe importante, repare que a diferença encontrada é “significante” no nível $\alpha = 0.05$, mas não no nível $\alpha = 0.01$.

A célula de código abaixo ilustra de que forma os valores mencionados neste exemplo podem ser computados.

In [38]:
import numpy as np
from scipy.stats import t

antes = np.array([4.61, 6.42, 5.40, 4.54, 3.98, 3.82, 5.01, 4.34, 3.80, 4.56, 5.35, 3.89])
depois = np.array([3.84, 5.57, 5.85, 4.80, 3.68, 2.96, 4.41, 3.72, 3.49, 3.84, 5.26, 3.73])

delta = antes - depois

n = delta.shape[0]
print("Tamanho de cada amostra: %d." % n)

nu = n - 1

print(delta)

# média presumida pela hipótese nula
mu_d = 0

x_bar_d = np.mean(delta)
s_d = np.std(delta, ddof=1)

print("Média das diferenças: %.4f." % x_bar_d)
print("Desvio padrão das diferenças: %.4f." % s_d)

t_d = (x_bar_d - mu_d)/(s_d/np.sqrt(n))

print("Valor do t-escore: %.2f" % t_d)

# repare que é um teste bicaudal
pvalue = 2 * t.cdf(-t_d, df=nu)

print("p-value: %.4f" % pvalue)

Tamanho de cada amostra: 12.
[ 0.77  0.85 -0.45 -0.26  0.3   0.86  0.6   0.62  0.31  0.72  0.09  0.16]
Média das diferenças: 0.3808.
Desvio padrão das diferenças: 0.4335.
Valor do t-escore: 3.04
p-value: 0.0112


**Conclusão**

Como o p-valor é menor que 0,05, rejeitamos $H_0$. Existe evidência estatística significativa de que a dieta teve efeito sobre os níveis de colesterol LDL.

#### Exemplo 2

Deseja-se testar se carros obtêm melhor rendimento com gasolina aditivada do que com a comum.
Cada um dos 10 carros foi primeiro abastecido com gasolina normal ou aditivada (decidido por um sorteio) e o rendimento para cada um deles foi registrado:

``
19, 22, 24, 24, 25, 25, 26, 26, 28, 32
``

O rendimento foi gravado novamente para os mesmos carros, dessa vez usando gasolina comum:

``
16, 20, 21, 22, 23, 22, 27, 25, 27, 28
``

Seja determinar (no nível de significância $\alpha = 0.05$) se o rendimento médio é maior com gasolina aditivada, quando comparada à gasolina comum.

**Solução**

As hipóteses nula e alternativa são definidas como segue:

- $H_0: \mu_d = 0$
- $H_a: \mu_d > 0$

Lembre-se de que o nível de significância, também denotado como $\alpha$, é a probabilidade de rejeitar a hipótese nula quando ela é verdadeira. Neste exemplo, o nível de significância de $0.05$ indica um risco de 5% de concluir que existe uma diferença para maior quando não há diferença real.

In [48]:
import numpy as np
from scipy.stats import t

antes  = np.array([19, 22, 24, 24, 25, 25, 26, 26, 28, 32])
depois = np.array([16, 20, 21, 22, 23, 22, 27, 25, 27, 28])

delta = antes - depois

n = 10

nu = n - 1

# Imprimindo as diferenças
print(f"Diferenças: {delta}")

mu_d = 0

x_bar_d = np.mean(delta)
s_d = np.std(delta, ddof=1)

print("Média das diferenças: %.4f." % x_bar_d)
print("Desvio padrão das diferenças: %.4f." % s_d)

t_stat = (x_bar_d - mu_d)/(s_d/np.sqrt(n))

print("Valor do t-escore: %.2f" % t_stat)

# Repare que é um teste unicaudal à direita. Ou seja, estamos testando se o rendimento com
# gasolina aditivada é maior, portanto o cálculo do p-valor deve ser feito conforme o seguinte:
pvalue = 1 - t.cdf(t_stat, df=nu)
print("p-value: %.4f" % pvalue)

Diferenças: [ 3  2  3  2  2  3 -1  1  1  4]
Média das diferenças: 2.0000.
Desvio padrão das diferenças: 1.4142.
Valor do t-escore: 4.47
p-value: 0.0008


**Conclusão**

O resultado mostra que a estatística $t$ é igual a aproximadamente 4.47 e o $p$-valor é 0.0008. Posto que $p < \alpha$, rejeitamos a hipótese nula. Como conclusão, há fortes evidências de um aumento médio no rendimento com o uso de gasolina aditivada.


#### Exemplo 3

Suponha que queremos saber se um determinado programa de treinamento é capaz de aumentar o salto vertical máximo (*Max Vertical Jump, MVJ*) de jogadores de basquete universitário.
Para testar isso, são recrutados 20 jogadores e mensurados seus saltos verticais máximos (amostragem aleatória simples). 
Então, cada jogador se submete ao programa de treinamento por um mês e, em seguida, seus saltos verticais máximos são novamente medidos. **Há evidência de que esse programa de treinamento seja eficiente?**. Use $\alpha=5\%$.


| Jogador   | Antes | Depois |
|----------|-------------------------------------------|------------------------------------------|
| 1 | 22                                        | 24                                       |
| 2 | 20                                        | 22                                       |
| 3 | 19                                        | 19                                       |
| 4 | 24                                        | 22                                       |
| 5 | 25                                        | 28                                       |
| 6 | 25                                        | 26                                       |
| 7 | 28                                        | 28                                       |
| 8 | 22                                        | 24                                       |
| 9 | 30                                        | 30                                       |
| 10 | 27                                        | 29                                       |
| 11 | 24                                        | 25                                       |
| 12 | 18                                        | 20                                       |
| 13 | 16                                        | 17                                       |
| 14 | 19                                        | 18                                       |
| 15 | 19                                        | 18                                       |
| 16 | 28                                        | 28                                       |
| 17 | 24                                        | 26                                       |
| 18 | 25                                        | 27                                       |
| 19 | 25                                        | 27                                       |
| 20 | 23                                        | 24                                       |


In [40]:
import numpy as np
from scipy import stats

# Amostra de dados antes e depois do tratamento
before = np.array([22, 20, 19, 24, 25, 25, 28, 22, 30, 27, 24, 18, 16, 19, 19, 28, 24, 25, 25, 23])
after  = np.array([24, 22, 19, 22, 28, 26, 28, 24, 30, 29, 25, 20, 17, 18, 18, 28, 26, 27, 27, 24])

# Aplicação do t-teste pareado
t_stat, p_value = stats.ttest_rel(after, before)

# Cálculo da média das diferenças
diffs = after - before
mean_diff = np.mean(diffs)

# Exibição dos resultados
print("t-statistic:", t_stat)
print("p-value:", p_value)
print("Mean difference:", mean_diff)

t-statistic: 3.22617331116718
p-value: 0.004445370704412229
Mean difference: 0.95


- Interpretação: Como o p-valor é menor do que 0,05, rejeitamos a hipótese nula de que não houve diferença média no desempenho.

- Conclusão: o programa de treinamento teve efeito estatisticamente significativo, aumentando em média 0,95 unidade na altura do salto vertical dos jogadores.

---
### Condições de aplicabilidade

Ao considerar a aplicação do $t$-teste pareado, devemos verificar as restrições a seguir.

1. as amostras devem ser aproximadamente normalmente distribuídas, ou
2. as amostras devem ser grandes (n>30)

Como dica prática, use $t$-teste pareado quando:
- Amostras são aproximadamente normais
- Amostras são simétricas e n ≥ 10
- Amostras são assimétricas, mas n ≥ ~45 (depende da severidade do enviesamento)

## t-teste independente (unpaired t-test)

Duas amostras são independentes se seus elementos não estão relacionados (pareados). Há duas variantes do $t$-teste neste caso, conforme descrito a seguir. 

### t-teste padrão
A primeira presume que as variâncias das duas amostras são iguais. Se **podemos assumir que as variâncias das duas populações são iguais**, aplicamos o **t-teste para duas amostras independentes com variâncias iguais** — também conhecido como o **t-teste padrão de Student** para duas amostras.

**Hipóteses**
$$
\begin{cases}
H_0: \mu_1 = \mu_2 \\
H_1: \mu_1 \ne \mu_2
\end{cases}
$$

**Estatística do teste (variâncias iguais)**
$$
t = \frac{\overline{x}_1 - \overline{x}_2}{s_p \cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}
$$

onde $s_p$ é o **desvio padrão combinado (pooled)**:

$$
s_p = \sqrt{ \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} }
$$

* $\overline{x}_1 - \overline{x}_2$: médias amostrais
* $s_1^2, s_2^2$: variâncias amostrais
* $n_1, n_2$: tamanhos das amostras

**Graus de liberdade**:
$$
df = n_1 + n_2 - 2
$$

**Quando usar este teste**

* As **duas amostras são independentes**.
* As **variâncias populacionais podem ser assumidas iguais**.
* As populações são **normalmente distribuídas** ou as amostras são suficientemente grandes.

**No `scipy.stats`**:

```python
from scipy.stats import ttest_ind
ttest_ind(grupo1, grupo2, equal_var=True)  # Variâncias assumidas iguais
```

### Teste de Welch

A segunda forma de aplicação do $t$-teste independente é denominada *teste de Welsh para amostras independentes*, que deve ser usada quando não se pode presumir que as variâncias das duas amostras sejam iguais. A estatística de teste a ser aplicada neste caso aqui é definida conforme a seguir:

**Estatística do teste (variâncias desiguais)**
$$
t = \frac{\overline{x}_1 - \overline{x}_2}{\text{SE}_{\overline{x}_1 - \overline{x}_2}}
$$

onde

$$
\text{SE}_{\overline{x}_1 - \overline{x}_2} = \sqrt{\frac{(s_1)^2}{n_1} + \frac{(s_2)^2}{n_2}}
$$

Na expressão acima,

- $n_1$ e $n_2$ são os tamanhos das amostras envolvidas;

- $\overline{x}_1$ é a média computada usando elementos da primeira amostra.

- $\overline{x}_2$ é a média computada usando elementos da segunda amostra.

- ${s}_1$ é o desvio padrão computado usando elementos da primeira amostra.

- ${s}_2$ é o desvio padrão computado usando elementos da segunda amostra.

É possível provar que a estatística apresentada acima ainda segue a distribuição t de Student.

**Graus de liberdade**:

A quantidade de graus de liberdade deve ser calculada por meio da expressão a seguir.
$$
\nu = \frac{\left(\frac{(s_1)^2}{n_1} + \frac{(s_2)^2}{n_2}\right)^2}{\frac{(s_1^2/n_1)^2}{n_1-1} + \frac{(s_2^2/n_2)^2}{n_2-1}}
$$

**Quando usar o teste de Welch**

- As duas amostras são independentes.

- Não é razoável assumir variâncias iguais.

- As populações são normalmente distribuídas ou as amostras são grandes o suficiente para o teorema central do limite se aplicar.

**No `scipy.stats`**:

```python
from scipy.stats import ttest_ind
ttest_ind(grupo1, grupo2, equal_var=False)
```
---

### Exemplos

#### Exemplo 1

Considere que foram medidos os níveis de colesterol LDL para dois grupos de indivíduos do sexo masculino, cada qual de tamanho 20. Cada grupo é formado de indivíduos com um determinado traço de personalidade (A ou B).
Deseja-se verificar se o traço de personalidade é um fator que influencia o nível de colesterol.

Níveis de colesterol em homens do grupo A:

``
233, 291, 312, 250, 246, 197, 268, 224, 239, 239, 254, 276, 234, 181, 248, 252, 202, 218, 212, 325
``

Níveis de colesterol em homens do grupo B:

``
344, 185, 263, 246, 224, 212, 188, 250, 148, 169, 226, 175, 242, 252, 153, 183, 137, 202, 194, 213
``

A pergunta de pesquisa é a seguinte:

> Há diferença estatisticamente significativa entre as médias das populações, no nível de significância $\alpha =$ 5\%?

**Solução**

As hipóteses nula e alternativa são definidas como segue:

- $H_0: \mu_d = 0$
- $H_a: \mu_d \neq 0$

Podemos computar dados para o grupo A:
- $n_1=20$,
- $\overline{x}_1 = 245.05$,
- $s_1 = 36.64$.

Podemos também computar dados para o grupo B:
- $n_2=20$,
- $\overline{x}_2 = 210.30$,
- $s_2 = 48.34$.

Repare que neste exemplo as amostras possuem tamanhos iguais por coincidência. No teste de Welsh para amostras independentes não existe a necessidade de as amostras possuírem mesmo tamanho, posto que não há pareamento entre indivíduos de ambas as amostras.

Nas amostras fornecidas, indivíduos do grupo A possuem  nível médio de colesterol ~35 mg/dL mais alto:
$$
\overline{x}_1 - \overline{x}_2 = 34.75.
$$

Podemos agora calcular a quantidade de graus de liberdade: $df = 35.4$

Agora, podemos finalmente computar a estatística de teste:

$$
t = \frac{245.05 - 210.30}{13.563} = 2.5621
$$

No teste bicaudal, o p-valor correspondente é 0.0148. Já que o p-valor é menor do que $\alpha$, temos evidência para rejeitar $H_0$. Como conclusão, há evidência para afirmar que existe diferença nos níveis de colesterol das duas populações de indivíduos.

A célula de código abaixo apresenta o cálculo dos valores usados neste exemplo.


In [41]:
import numpy as np
from scipy.stats import t

def graus_lib(n_1, s_1, n_2, s_2):
  numerator = ((s_1*s_1)/n_1 + (s_2*s_2/n_2)) * ((s_1*s_1)/n_1 + ((s_2*s_2)/n_2))
  denominator = ((s_1*s_1/n_1)*(s_1*s_1/n_1))/(n_1-1) + ((s_2*s_2/n_2)*(s_2*s_2/n_2))/(n_2-1)
  return numerator / denominator

def erro_padrao(n_1, s_1, n_2, s_2):
  return np.sqrt((s_1*s_1)/n_1 + (s_2*s_2/n_2))

grupo_a  = np.array([233, 291, 312, 250, 246, 197, 268, 224, 239, 239, 254, 276,
                   234, 181, 248, 252, 202, 218, 212, 325])
grupo_b = np.array([344, 185, 263, 246, 224, 212, 188, 250, 148, 169, 226, 175,
                   242, 252, 153, 183, 137, 202, 194, 213])

n_1 = grupo_a.shape[0]
n_2 = grupo_b.shape[0]

x_bar_1 = np.mean(grupo_a)
s_1 = np.std(grupo_a, ddof=1)

x_bar_2 = np.mean(grupo_b)
s_2 = np.std(grupo_b, ddof=1)

print("Média das diferenças (A): %.4f." % x_bar_1)
print("Desvio padrão das diferenças (A): %.4f." % s_1)
print()
print("Média das diferenças (B): %.4f." % x_bar_2)
print("Desvio padrão das diferenças (B): %.4f." % s_2)

se = erro_padrao(n_1, s_1, n_2, s_2)

t_score = (x_bar_1 - x_bar_2)/se

print("Valor do t-escore: %.4f" % t_score)

nu = graus_lib(n_1, s_1, n_2, s_2)

print("Graus de liberdade: %.2f" % nu)

# repare que é um teste bicaudal
pvalue = 2 * t.cdf(-t_score, df=nu)

print("p-value: %.4f" % pvalue)


Média das diferenças (A): 245.0500.
Desvio padrão das diferenças (A): 36.6383.

Média das diferenças (B): 210.3000.
Desvio padrão das diferenças (B): 48.3399.
Valor do t-escore: 2.5621
Graus de liberdade: 35.41
p-value: 0.0148


#### Exemplo 2

Foram registradas as notas (scores) em um teste aplicado a estudantes de uma turma. **Há diferença estatisticamente significativa no desempenho de alunos e alunas?** Use $\alpha=5\%$.



In [42]:
import pandas as pd

# Montagem do DataFrame
data = {
    "Name": ["Dan", "Mimi", "Sam", "Gene", "Lena", "Richard", "Dorian", "Ernest", "John", "Linda",
             "Martha", "Geta", "Delia", "Damian", "Sylvia", "Wynona", "Steve", "Gregory", "Julian", "Steve"],
    "Test Score": [95, 100, 78, 68, 100, 95, 98, 79, 98, 95,
                   90, 95, 98, 86, 100, 100, 78, 89, 89, 94],
    "Gender": [2, 1, 2, 2, 1, 2, 2, 2, 2, 1,
               1, 1, 1, 2, 1, 1, 2, 2, 2, 2]  # 1 = Female, 2 = Male
}

df = pd.DataFrame(data)
df.head(50)

Unnamed: 0,Name,Test Score,Gender
0,Dan,95,2
1,Mimi,100,1
2,Sam,78,2
3,Gene,68,2
4,Lena,100,1
5,Richard,95,2
6,Dorian,98,2
7,Ernest,79,2
8,John,98,2
9,Linda,95,1


In [43]:
# Separação por gênero
scores_females = df[df["Gender"] == 1]["Test Score"]
scores_males = df[df["Gender"] == 2]["Test Score"]

# Aplicação do t-teste para amostras independentes (variâncias não assumidas iguais)
t_stat_ind, p_val_ind = stats.ttest_ind(scores_females, scores_males, equal_var=False)

# Médias por grupo
mean_female = scores_females.mean()
mean_male = scores_males.mean()

# Exibição dos resultados
print("t-statistic (independent samples):", t_stat_ind)
print("p-value (independent samples):", p_val_ind)
print("Mean (female):", mean_female)
print("Mean (male):", mean_male)

t-statistic (independent samples): 3.2697631232656383
p-value (independent samples): 0.005103880617365173
Mean (female): 97.25
Mean (male): 87.25


- Interpretação: O p-valor é menor que 0,05, indicando que a diferença entre os desempenhos é estatisticamente significativa.

- Conclusão: as alunas tiveram desempenho significativamente superior aos alunos na média do teste.

---
### Condições de aplicabilidade

A aplicação do $t$-teste independente requer que:

- ambas as amostras sejam aproximadamente normalmente distribuídas;

- as variâncias de ambas as populações sejam iguais.


# Resumo das Funções scipy.stats para t-testes

| Função                             | Tipo de t-teste                              | Uso principal                                                                 |
| ---------------------------------- | -------------------------------------------- | ----------------------------------------------------------------------------- |
| `ttest_1samp(a, popmean)`          | t-teste para **uma média**                   | Testa se a média da amostra `a` difere de `popmean` (unilateral ou bilateral) |
| `ttest_rel(a, b)`                  | t-teste para **amostras pareadas**           | Testa se a média das diferenças entre `a` e `b` é zero                        |
| `ttest_ind(a, b)`                  | t-teste para **duas amostras independentes** | Testa se as médias de `a` e `b` são diferentes (assumindo variâncias iguais)  |
| `ttest_ind(a, b, equal_var=False)` | t-teste de **Welch** (variâncias diferentes) | Versão mais robusta quando variâncias das amostras são distintas              |

## Exemplos de uso
```Python
from scipy import stats

# t-teste para uma média
stats.ttest_1samp([27, 24, 21], popmean=23)

# t-teste para duas amostras independentes (variâncias iguais)
stats.ttest_ind([24, 26, 25], [20, 22, 19])

# t-teste para duas amostras independentes (variâncias diferentes)
stats.ttest_ind([24, 26, 25], [20, 22, 19], equal_var=False)

# t-teste pareado (mesmos indivíduos antes e depois)
stats.ttest_rel([24, 26, 25], [22, 25, 24])
```

## Observações

**Propriedades comuns das funções acima:**

1. Todas retornam `t_statistic, p_value`

2. O $p$-valor retornado é sempre bilateral. Para teste unilateral, deve-se ajustar manualmente.

Com relação à segunda observação acima, segue um exemplo de ajuste para teste unilateral à esquerda.
```Python
# exemplo para teste unilateral à esquerda
t_stat, p = stats.ttest_1samp(data, mu0)
p_one_sided = p / 2 if t_stat < 0 else 1 - (p / 2)
```

**Sobre as variantes do t-teste independente:**
> Basta que as variâncias sejam suficientemente semelhantes, e não exatamente iguais, para aplicar o t-teste padrão com segurança. Quando em dúvida, prefira o teste de Welch.

- Se você não tem certeza sobre a igualdade das variâncias, ou se as amostras têm tamanhos diferentes, o teste de Welch (`equal_var=False`) é preferível. Ele é mais robusto e não exige homogeneidade de variâncias.

- O t-teste padrão (`equal_var=True`) é mais potente quando a suposição é válida, mas menos confiável se for violada.