In [8]:
import numpy as np
from scipy import stats

# Introdução à testes de hipótese

Um **teste de hipótese** é uma técnica estatística usada para tomar decisões sobre uma população com base em dados amostrais. Ele envolve a formulação de duas hipóteses:

- **Hipótese Nula (H₀):** Presume que não há efeito ou diferença significativa (é a hipótese que se tenta refutar).
- **Hipótese Alternativa (H₁):** Sugere que existe um efeito ou diferença significativa (é a hipótese que se tenta provar).

O objetivo do teste é determinar se os dados amostrais fornecem evidências suficientes para rejeitar a hipótese nula em favor da hipótese alternativa.

### a) P-Valor

O **p-valor** é a probabilidade de observarmos um valor estatístico tão extremo quanto ou mais extremo que o valor observado, assumindo que a hipótese nula seja verdadeira. Ele é utilizado para tomar decisões em um teste de hipótese:

- Se o p-valor for menor que o nível de significância (α), geralmente 0,05, rejeitamos a hipótese nula.
- Se o p-valor for maior ou igual ao nível de significância, não rejeitamos a hipótese nula.

O p-valor, portanto, é uma medida de evidência contra a hipótese nula.

### b) Testes Paramétricos

**Testes paramétricos** são testes de hipótese que assumem que os dados seguem uma distribuição específica (geralmente a distribuição normal). Eles são usados quando essas suposições são atendidas e incluem:

- **Teste T** (para uma ou duas amostras)
- **ANOVA** (Análise de Variância)
- **Correlação de Pearson**

Esses testes tendem a ser mais poderosos quando as suposições são válidas, pois utilizam informações adicionais sobre a distribuição dos dados.

### c) Testes Não Paramétricos

**Testes não paramétricos** não assumem uma distribuição específica para os dados, sendo mais flexíveis em relação às suposições. Eles são ideais quando os dados não seguem uma distribuição normal ou quando as amostras são pequenas. Exemplos incluem:

- **Teste de Mann-Whitney** (alternativa ao teste T para duas amostras independentes)
- **Teste de Wilcoxon** (para amostras pareadas)
- **Teste de Kruskal-Wallis** (alternativa ao ANOVA)
- **Teste Qui-Quadrado** (para variáveis categóricas)

Esses testes são menos sensíveis a violações de pressupostos, mas podem ser menos poderosos comparados aos testes paramétricos quando as suposições destes últimos são atendidas.


# Testes Paramêtricos 

## 1. Teste T para uma amostra

- Objetivo: Verificar se a média de uma amostra difere de um valor conhecido.
- Exemplo: Suponha que você tenha uma amostra de alturas de 10 pessoas e queremos saber se a média dessas alturas é significativamente diferente de 1.70m.

#### Hipóteses:

- **Hipótese Nula (H₀)**: A média da amostra é igual ao valor referencial.  
  $H_0: \mu = 1,70 \, \text{m}$

- **Hipótese Alternativa (H₁)**: A média da amostra é diferente do valor referencial.  
  $H_1: \mu \neq 1,70 \, \text{m}$


In [3]:
sample = [1.72, 1.89, 1.78, 1.70, 1.75, 1.80, 1.85, 1.75, 1.90, 1.77]

t_stat, p_value = stats.ttest_1samp(sample, 1.70, alternative='two-sided') #two-sided, less ou greater

print(f"Estatística t: {t_stat}, Valor-p: {p_value}")

print("Interpretação: como o valor-p {}% é menor que o nível de significancia de 5%, rejeitamos Ho.".format(round(p_value*100,2)))
print("Isso indica que há evidência estatística suficiente para afirmar que a média da amostra é significativamente diferente de 1,70 m.")

Estatística t: 4.188121588280449, Valor-p: 0.002347644474067914
Interpretação: como o valor-p 0.23% é menor que o nível de significancia de 5%, rejeitamos Ho.
Isso indica que há evidência estatística suficiente para afirmar que a média da amostra é significativamente diferente de 1,70 m.


## 2. Teste T para amostras independentes 

- Objetivo: Comparar a média de duas amostras independentes
- Exemplo: Suponha que tenhamos as notas da turma ITA e as notas da Medicina, ambas as turmas do 3º ano e queremos saber se a média da turma ITA é maior que a turma da Medicina.

#### Hipóteses:

- **Hipótese Nula (H₀)**: A média das notas da turma ITA é igual à média das notas da turma Medicina.

  $ H_0: \mu_{\text{ITA}} = \mu_{\text{Medicina}} $

- **Hipótese Alternativa (H₁)**: A média das notas da turma ITA é maior do que a média das notas da turma Medicina.
  
  $ H_1: \mu_{\text{ITA}} > \mu_{\text{Medicina}} $


In [4]:
# Notas das turmas
notas_ita = [88, 92, 85, 90, 87, 91, 84, 89]
notas_medicina = [82, 79, 81, 85, 84, 80, 78, 83]

# Realizando o teste T para duas amostras independentes
t_stat, p_value = stats.ttest_ind(notas_ita, notas_medicina, alternative='greater') #two-sided, less ou greater

print(f"Estatística t: {t_stat}, Valor-p: {p_value}")

print("Interpretação: como o valor-p {}% é menor que o nível de significancia de 5%, rejeitamos Ho.".format(round(p_value*100,2)))
print("Há evidência estatística suficiente para afirmar que a média das notas da turma ITA é superior a média das notas da turma Medicina.")

Estatística t: 5.115587040529246, Valor-p: 7.856064621268295e-05
Interpretação: como o valor-p 0.01% é menor que o nível de significancia de 5%, rejeitamos Ho.
Há evidência estatística suficiente para afirmar que a média das notas da turma ITA é superior a média das notas da turma Medicina.


## 3. Teste T pareado

- Objetivo: Comparar a média de duas amostras relacionadas, geralmente medidas no mesmo grupo de indivíduos em diferentes momentos ou condições.
- Exemplo: Suponha que tenhamos o peso de 5 indivíduos antes de uma dieta e o peso dos mesmos indivíduos após a finalização da dieta.

#### Hipóteses:

- **Hipótese Nula (H₀)**: A média dos pesos antes da dieta é igual à média dos pesos após a dieta.

  $ H_0: \mu_{\text{antes dieta}} = \mu_{\text{depois dieta}} $

- **Hipótese Alternativa (H₁)**: A média dos pesos antes da dieta é maior do que a média dos pesos após a dieta.

  $ H_1: \mu_{\text{antes dieta}} > \mu_{\text{depois dieta}} $

In [5]:
# Pesos dos indivíduos antes e depois da dieta
pesos_antes = np.array([70, 80, 75, 90, 85])
pesos_depois = np.array([68, 78, 74, 88, 82])

# Realizando o teste T pareado
t_stat, p_value = stats.ttest_rel(pesos_antes, pesos_depois, alternative='greater')

print(f"Estatística t: {t_stat}, Valor-p: {p_value}")

print("Interpretação: como o valor-p {}% é menor que o nível de significancia de 5%, rejeitamos Ho.".format(round(p_value*100,2)))
print("Há evidência estatística suficiente para afirmar que a média dos pesos antes da dieta é maior do que a média dos pesos após a dieta, indicando que a dieta foi efetiva na redução do peso.")

Estatística t: 6.324555320336758, Valor-p: 0.0015991010761676541
Interpretação: como o valor-p 0.16% é menor que o nível de significancia de 5%, rejeitamos Ho.
Há evidência estatística suficiente para afirmar que a média dos pesos antes da dieta é maior do que a média dos pesos após a dieta, indicando que a dieta foi efetiva na redução do peso.


In [1]:
#próximos passos:
# inserir teste de normalidade nos paramêtricos
# ANOVA I e II
# iniciar testes não paramêtricos