# Métodos Paramétricos

In [3]:
# Imports
import scipy
import numpy as np
import pandas as pd
import statsmodels.api as sm
from scipy.stats import shapiro, ttest_ind, levene, bartlett, f_oneway
from statsmodels.formula.api import ols

## O Que São Testes Paramétricos?

Os testes estatísticos paramétricos são métodos de inferência estatística que fazem suposições sobre a forma ou os parâmetros da distribuição populacional da qual as amostras são retiradas. Esses testes são usados para determinar se existem diferenças significativas entre grupos, se existe correlação entre variáveis, entre outras análises, com base nas propriedades dos parâmetros estimados, como a média e o desvio padrão.

Alguns pontos-chave dos testes estatísticos paramétricos incluem:

**Suposições sobre a Distribuição**: Eles geralmente assumem que os dados seguem uma distribuição específica, frequentemente a distribuição normal. Isso é importante porque a validade dos resultados dos testes depende do quão bem essas suposições se alinham com os dados reais.

**Informações sobre Parâmetros**: Eles lidam com parâmetros específicos da população, como a média (μ) ou a variância (σ2), e frequentemente envolvem a comparação de estimativas desses parâmetros entre diferentes grupos ou condições.

**Exemplos Comuns**: Incluem o teste t (para comparar as médias de dois grupos), ANOVA (Análise de Variância, para comparar as médias entre três ou mais grupos), e o teste de correlação de Pearson (para avaliar a força e a direção da relação linear entre duas variáveis contínuas).

**Vantagens**: Quando suas suposições são atendidas, os testes paramétricos tendem a ser mais poderosos que os não paramétricos, o que significa que eles têm uma maior probabilidade de detectar uma verdadeira diferença ou relação quando ela existe.

**Verificação das Suposições**: Antes de aplicar um teste estatístico paramétrico, é fundamental verificar se as suposições, como a normalidade da distribuição e a homogeneidade das variâncias, são atendidas. Isso pode envolver o uso de testes específicos (como o teste de Shapiro-Wilk para normalidade) ou análises gráficas (como histogramas ou gráficos Q-Q).

> Os testes estatísticos paramétricos são ferramentas poderosas na análise de dados, mas a escolha entre usar um teste paramétrico ou não paramétrico deve ser guiada pela natureza dos dados e pelas suposições de cada teste.

### Amostra, População, Estimação Pontual e Intervalar

Em Estatística, os conceitos de amostra e população, bem como estatística e parâmetro, são fundamentais para coletar, analisar e interpretar dados.

**População**: Refere-se ao conjunto completo de itens ou indivíduos que você está interessado em estudar. Por exemplo, todos os estudantes de uma universidade.

**Amostra**: É um subconjunto selecionado da população. Por exemplo, um grupo de 100 estudantes escolhidos aleatoriamente da mesma universidade.

**Estatística**: São medidas calculadas a partir dos dados da amostra. Por exemplo, a média das notas de um teste desse grupo de 100 estudantes.

**Parâmetro**: É uma medida que descreve uma característica da população. Por exemplo, a média das notas de todos os estudantes da universidade.

Simplificando, a população é o todo, a amostra é uma parte deste todo; estatística refere-se a informações obtidas da amostra, enquanto parâmetro se refere a informações que descrevem a população completa.

A estimação é um processo usado para inferir o valor de um parâmetro desconhecido de uma população com base em dados amostrais. Existem dois tipos principais de estimação: estimação pontual e estimação intervalar.

A estimação pontual envolve o uso de dados de uma amostra para calcular um único valor (ou ponto) que serve como a melhor estimativa do parâmetro desconhecido da população. Este valor, conhecido como estimador pontual, representa a nossa melhor suposição para o parâmetro e é calculado a partir dos dados da amostra. Por exemplo, a média amostral (x) é um estimador pontual da média populacional (μ), e a proporção amostral (p) é um estimador pontual da proporção populacional (P).

A estimação intervalar, por outro lado, reconhece a incerteza inerente à estimação a partir de amostras e, em vez de fornecer um único valor, oferece um intervalo de valores dentro do qual o parâmetro desconhecido é estimado estar com um certo nível de confiança. Este intervalo é conhecido como intervalo de confiança (IC) e é construído em torno do estimador pontual. O intervalo de confiança é definido por um limite inferior e um limite superior, com um nível de confiança associado (geralmente expresso como uma porcentagem, como 95% ou 99%) que reflete a probabilidade de que o intervalo contenha o verdadeiro valor do parâmetro.

O intervalo de confiança leva em conta a variabilidade amostral e oferece uma gama de valores plausíveis para o parâmetro. Por exemplo, um intervalo de confiança de 95% para a média populacional (μ) sugere que, se repetíssemos o experimento muitas vezes, calculando um novo intervalo de confiança a partir de cada amostra, esperaríamos que aproximadamente 95% desses intervalos contivessem o verdadeiro valor de μ.

### Propriedades dos Testes Paramétricos

Os testes paramétricos, incluindo o Teste t de Student, o Teste F (ANOVA de Um Fator) e a ANOVA de dois fatores, partem do pressuposto de que os dados seguem uma distribuição específica, geralmente a distribuição normal. Isso significa que os testes assumem que os dados têm uma distribuição de probabilidade conhecida e definida. Essa é uma suposição fundamental que permite o uso de parâmetros da distribuição, como média e desvio padrão, na análise.

Estes testes fazem inferências sobre parâmetros da população, como a média (μ) ou a variância, a partir de estatísticas amostrais. Eles são projetados para testar hipóteses relacionadas a esses parâmetros, como a igualdade de médias ou variações entre grupos.

Os valores das estatísticas de teste (como o valor t no Teste t de Student e o valor F na ANOVA) são calculados usando parâmetros estimados dos dados, como a média e a variância. Estes valores são então comparados com uma distribuição teórica (distribuição t para o Teste t e distribuição F para a ANOVA) para determinar a significância estatística das observações.

Quando as suposições dos testes paramétricos são atendidas, eles são geralmente mais eficientes (no sentido estatístico de ter maior poder para detectar um efeito real) do que seus equivalentes não paramétricos. Isso se deve ao fato de que utilizam mais informações sobre a distribuição dos dados.

Além da normalidade, a ANOVA, por exemplo, assume que as variâncias dos grupos são iguais (homocedasticidade). Esta é outra suposição paramétrica que facilita a comparação entre grupos.

Devido a essas características, os testes são classificados como paramétricos, e é essencial que os dados analisados atendam às suposições dos testes para garantir a validade dos resultados. Quando as suposições paramétricas não são satisfeitas, os testes não paramétricos, que não fazem suposições específicas sobre a distribuição dos dados, podem ser uma alternativa apropriada.

## Teste t de Student 

O Teste t de Student é um teste estatístico usado para determinar **se há uma diferença significativa entre as médias de dois grupos**, que pode ser aplicado em diversas situações, incluindo quando as variações são desconhecidas e assumindo que as distribuições dos dois grupos são normais. Existem três principais variantes do teste t:

- Teste t de uma amostra: Compara a média da amostra com uma média populacional conhecida.
- Teste t de duas amostras independentes: Compara as médias de duas amostras independentes.
- Teste t pareado: Compara as médias de duas amostras relacionadas ou emparelhadas.

O teste calcula um valor t, que indica a diferença entre as médias das amostras em relação à variação observada nas amostras. Esse valor é então usado para calcular a probabilidade (valor-p) de observar tal diferença se, na realidade, não houver diferença entre as médias da população (hipótese nula).

As **hipóteses** desse teste são formuladas da seguinte maneira:

- Hipótese Nula (H0): Não há diferença significativa entre as médias das duas populações. 
- Hipótese Alternativa (H1 ou Ha): Existe uma diferença significativa entre as médias das duas populações.

O teste t de duas amostras independentes pressupõe que as amostras são aleatórias, independentes entre si e que as populações de origem têm distribuições normais com variâncias iguais (homocedasticidade). Quando essas suposições não são atendidas, podem ser necessários testes alternativos ou ajustes nos procedimentos.

O valor-p no teste t de duas amostras independentes é usado para determinar se a diferença observada entre as médias das duas amostras é estatisticamente significativa. A interpretação do valor-p depende do nível de significância escolhido para o teste, que é geralmente indicado por α (alfa). O nível de significância é a probabilidade de rejeitar a hipótese nula quando ela é verdadeira (erro do tipo I). Os valores de α mais comuns são 0,05 (5%) ou 0,01 (1%).

Aqui está como você pode interpretar o valor-p:

- Se o valor-p ≤ α: Há evidências estatísticas suficientes para rejeitar a hipótese nula. Isso significa que existe uma diferença significativa entre as médias das duas populações. A natureza dessa diferença (se uma média é maior ou menor que a outra) dependerá da direção da hipótese alternativa.

- Se o valor-p > α: Não há evidências estatísticas suficientes para rejeitar a hipótese nula. Isso significa que não há diferença significativa entre as médias das duas populações, com base nos dados da amostra e no nível de significância escolhido.


Exemplo:

Suponha que queremos testar se existe uma diferença significativa nas alturas médias de plantas tratadas com dois diferentes tipos de fertilizantes.

In [22]:
# Alturas das plantas (em cm) para cada tipo de fertilizante
alturas_fertilizante_A = np.array([20, 21, 22, 24, 26, 28, 23, 25, 27, 29])
alturas_fertilizante_B = np.array([19, 20, 21, 22, 24, 25, 26, 27, 28, 30])

mean_A = np.mean(alturas_fertilizante_A)
mean_B = np.mean(alturas_fertilizante_B)

print(f"Média Fertilizante A: {mean_A}")
print(f"Média Fertilizante B: {mean_B}")

Média Fertilizante A: 24.5
Média Fertilizante B: 24.2


In [23]:
# Realizando o teste t de duas amostras independentes
t_stat, p_valor = ttest_ind(alturas_fertilizante_A, alturas_fertilizante_B)
print(f"Estatística t: {t_stat:.3f}")
print(f"Valor-p: {p_valor:.3f}")

Estatística t: 0.200
Valor-p: 0.844


A estatística t no teste t de duas amostras independentes é uma medida da diferença entre as médias das duas amostras em relação à variabilidade combinada das duas amostras. 

**Valor de t próximo de zero**: Indica que a diferença entre as médias das duas amostras é pequena em relação à variabilidade das amostras. Isso sugere que não há uma diferença significativa entre as duas populações.

**Valor de t positivo**: Indica que a média da primeira amostra é maior do que a média da segunda amostra. Quanto maior o valor de t, maior é a diferença entre as médias em relação à variabilidade.

**Valor de t negativo**: Indica que a média da primeira amostra é menor do que a média da segunda amostra. Novamente, quanto maior o valor absoluto de t, maior é a diferença entre as médias em relação à variabilidade.

In [24]:
nivel_significancia = 0.05

if p_valor <= nivel_significancia:
    print("Há evidências suficientes para rejeitar a hipótese nula. Existe uma diferença significativa entre as médias.")
else:
    print("Não há evidências suficientes para rejeitar a hipótese nula. Não existe uma diferença significativa entre as médias.")

Não há evidências suficientes para rejeitar a hipótese nula. Não existe uma diferença significativa entre as médias.
