<a href="https://colab.research.google.com/github/netinhojunnior/meu_portfolio/blob/main/Projeto05_Testes_N%C3%A3o_Param%C3%A9tricos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Testes Não-Paramétricos**

## **📌 Introdução**

Os testes estatísticos não-paramétricos são ferramentas fundamentais quando os dados não atendem às suposições necessárias para a aplicação de testes paramétricos, como a normalidade ou homogeneidade de variâncias. Estes métodos são amplamente utilizados em análises com dados categóricos, ordinais ou quando a amostra é pequena.

Neste notebook, exploramos diversos testes não-paramétricos clássicos, organizados por suas aplicações: testes de normalidade, testes para amostras dependentes e independentes, além de medidas de associação. Cada teste é apresentado com uma breve fundamentação teórica, aplicação prática com código e interpretação dos resultados.

**🎯 Objetivo**

O objetivo deste notebook é:

✅ Apresentar conceitos fundamentais sobre testes não-paramétricos.

✅ Demonstrar a aplicação prática desses testes com Python, utilizando a biblioteca scipy.stats.

✅ Orientar sobre a interpretação dos resultados para auxiliar na tomada de decisão estatística em contextos reais de análise de dados.

**Observação:** Para a interpretação dos resultados, adotaremos um p-valor igual a 0.05

In [1]:
# Carregando bibliotecas

import numpy as np
from scipy import stats
import statsmodels.api as sm
from statsmodels.stats.contingency_tables import mcnemar

### ✅ **Testes de Normalidade**

In [2]:
# Gerando uma amostra

np.random.seed(42)
sample = np.random.normal(loc = 0,
                          scale = 1,
                          size = 100)

#### 📌 **Teste de Kolmogorov-Smirnov**

**O que é:**
- Testa se uma amostra segue uma distribuição específica, normalmente a normal.

**Quando usar:**  
- Verificar se uma amostra segue uma distribuição específica (ex.: normal).  
- Ideal para amostras contínuas.

**Hipóteses:**  
- H0: A amostra segue a distribuição especificada.  
- H1: A amostra não segue a distribuição especificada.

In [3]:
# Teste de K-S comparando com distribuição normal
ks_statistic, ks_p_value = stats.kstest(sample, 'norm')

# Imprimindo resultado
print(f'p-valor: {ks_p_value:.4f}')

p-valor: 0.2181


**Conclusão**

<p align="justify">
O Teste de Kolmogorov-Smirnov (KS) resultou em um p-valor de 0.2181. Considerando um nível de significância de 0.05, como o p-valor obtido é maior que esse limite, não rejeitamos a hipótese nula. Assim, não há evidências suficientes para afirmar que a amostra não segue uma distribuição normal, ou seja, os dados podem ser considerados normalmente distribuídos.

#### 📌 **Teste de Jarque-Bera**

**O que é:**
- Testa a normalidade de uma variável com base em seus coeficientes de assimetria e curtose.

**Quando usar:**  
- Avaliar normalidade com base na **assimetria** e **curtose** da distribuição.

**Hipóteses:**  
- H0: A amostra segue uma distribuição normal.  
- H1: A amostra não segue uma distribuição normal.

In [4]:
# Aplicando teste
jb_stat, jb_p_value = stats.jarque_bera(sample)

# Imprimindo resultado
print(f'p-valor: {jb_p_value:.4f}')

p-valor: 0.7362


**Conclusão**

<p align="justify">
O Teste de Jarque-Bera resultou em um p-valor de 0.7362. Considerando um nível de significância de 0.05, como o p-valor obtido é maior que esse limite, não rejeitamos a hipótese nula. Dessa forma, não há evidências suficientes para afirmar que a amostra não segue uma distribuição normal, indicando que os dados podem ser considerados normalmente distribuídos.

###✅ **Testes para Amostras Dependentes**

#### 📌 **Teste de McNemar**

**O que é:**
- Teste não paramétrico para comparar proporções em dados pareados.

**Quando usar:**  
- Avaliar diferenças entre **duas variáveis dependentes dicotômicas**.  
- Muito utilizado em estudos clínicos ou antes/depois.

**Hipóteses:**  
- H0: As proporções são iguais.  
- H1: As proporções são diferentes.

In [5]:
# Tabela de contingência
table = np.array([[30, 10],
                  [5,  55]])

result = mcnemar(table, exact = True)

# Imprimindo resultado
print(f'p-valor: {result.pvalue:.4f}')

p-valor: 0.3018


**Conclusão:**

<p align="justify">
O Teste de McNemar resultou em um p-valor de 0.3018. Considerando um nível de significância de 0.05, como o p-valor obtido é maior que esse limite, não rejeitamos a hipótese nula. Assim, não há evidências suficientes para afirmar que houve diferença significativa entre as proporções das amostras emparelhadas, indicando que os resultados antes e depois (ou entre os dois grupos dependentes analisados) são estatisticamente equivalentes.

#### 📌 **Teste de Friedman**

**O que é:**
- Teste não paramétrico para comparar proporções em dados pareados.

**Quando usar:**  
- Comparar **mais de dois grupos relacionados**.  
- Ex.: medidas repetidas de um mesmo indivíduo.

**Hipóteses:**  
- H0: Não há diferenças entre os grupos.  
- H1: Existem diferenças entre os grupos.

In [6]:
# Aplicando teste

## Simulando dados
np.random.seed(0)
grupo1 = np.random.rand(10)
grupo2 = np.random.rand(10)
grupo3 = np.random.rand(10)

## Aplicando teste aos dados
friedman_stat, friedman_p = stats.friedmanchisquare(grupo1, grupo2, grupo3)

## Imprimindo resultado
print(f'p-valor: {friedman_p:.4f}')

p-valor: 0.4966


**Conclusão:**

<p align="justify">
O Teste de Friedman resultou em um p-valor de 0.4966. Considerando um nível de significância de 0.05, como o p-valor obtido é maior que esse limite, não rejeitamos a hipótese nula. Assim, não há evidências suficientes para afirmar que existem diferenças significativas entre os grupos comparados, indicando que os grupos dependentes analisados apresentam desempenhos estatisticamente equivalentes.

### ✅ **Testes para Amostras Independentes**

#### 📌 **Teste Exato de Fisher**

**O que é:**
- Teste exato usado para tabelas de contingência 2x2.

**Quando usar:**  
- Analisar associação entre **duas variáveis categóricas** em tabelas pequenas (2x2).

**Hipóteses:**  
- H0: As variáveis são independentes.  
- H1: Existe associação.

In [7]:
# Aplicação do Teste

## Gerando Tabela de contingência
table = np.array([[8, 2],
                  [1, 5]])

## Aplicando teste a tabela
_, fisher_p = stats.fisher_exact(table)

## Imprimindo resultado
print(f'p-valor: {fisher_p:.4f}')

p-valor: 0.0350


**Conclusão:**

<p align="justify">
O Teste Exato de Fisher resultou em um p-valor de 0.0350. Considerando um nível de significância de 0.05, como o p-valor obtido é menor que esse limite, rejeitamos a hipótese nula. Assim, há evidências suficientes para afirmar que existe uma associação significativa entre as categorias analisadas na tabela de contingência, indicando que as variáveis não são independentes.

#### 📌 **Teste Qui-Quadrado e Correção de Yates**

**Teste Qui-Quadrado (χ²)**

**O que é:**
- Teste estatístico para avaliar a associação entre variáveis categóricas.

**Quando usar:**
- Com tabelas de contingência maiores e amostras grandes.

**Teste Qui-Quadrado com Correção de Yates**

**O que é:**
- Versão ajustada do Qui-Quadrado para evitar superestimação em tabelas 2x2 com pequenas frequências.

**Quando usar:**
- Quando o número esperado em alguma célula da tabela é menor que 5.

In [8]:
# Construindo Tabela de contingência
table = np.array([[10, 20],
                  [20, 40]])

**Teste de Qui-Quadrado**

In [9]:
# Aplicação do Teste de Qui-Quadrado

## Aplicando Teste
chi2, p, dof, expected = stats.chi2_contingency(table, correction=False)

## Imprimindo resultado
print(f'p-valor: {p:.4f}')

p-valor: 1.0000


**Conclusão:**

<p align="justify">
O Teste Qui-Quadrado, aplicado sem a correção de Yates, resultou em um p-valor de 1.0000. Considerando um nível de significância de 0.05, como o p-valor é maior que esse limite, não rejeitamos a hipótese nula. Isso indica que não há evidências suficientes para afirmar que existe associação entre as variáveis analisadas na tabela, sugerindo independência entre elas.

**Teste de Qui-Quadrado com Correção de Yates**

In [10]:
# Aplicação do Teste

## Aplicando teste
chi2_yates, p_yates, _, _ = stats.chi2_contingency(table, correction=True)

## Imprimindo resultado
print(f'p-valor: {p_yates:.4f}')

p-valor: 1.0000


**Conclusão:**

<p align="justify">
O Teste Qui-Quadrado com correção de Yates resultou em um p-valor de 1.0000. Considerando um nível de significância de 0.05, como o p-valor é maior que esse limite, não rejeitamos a hipótese nula. Assim, não há evidências suficientes para afirmar que existe uma associação entre as variáveis analisadas, indicando que elas podem ser consideradas estatisticamente independentes.

### **✅ Testes Não Paramétricos de Comparação de Grupos**

#### **📌 Teste de Wilcoxon**

**O que é?**
* Teste não paramétrico para comparar duas amostras dependentes.

**Quando usar?**

* Comparação de antes e depois em um mesmo grupo.
* Quando os dados não seguem distribuição normal.

**Hipóteses:**

* H₀: não há diferença entre as medições.
* H₁: há diferença significativa.

In [11]:
# Exemplo Prático

## Carregando biblioteca
from scipy.stats import wilcoxon

## Simulando dados
antes = np.random.exponential(scale=1, size=30)
depois = antes + np.random.exponential(scale=0.5, size=30)

## Aplicando teste
_, p = wilcoxon(antes, depois)

## Imprimindo resultado
print(f'p-valor: {p:.4f}')

p-valor: 0.0000


**Conclusão:**

<p align="justify">
O resultado obtido apresentou um p-valor igual a 0.0000, indicando uma diferença estatisticamente significativa entre os dois momentos. Sendo assim, rejeitamos a hipótese nula (H₀), que pressupunha a inexistência de diferença, e aceitamos a hipótese alternativa (H₁), que aponta para uma alteração relevante entre os grupos

#### 📌 **Teste de Mann-Whitney**

**O que é:**
- Teste não paramétrico para comparar duas amostras independentes.

**Quando usar:**  
- Comparar **dois grupos independentes** com variáveis contínuas ou ordinais.  
- Não assume normalidade.

**Hipóteses:**  
- H0: As distribuições são iguais.  
- H1: São diferentes.

In [12]:
# Aplicação do Teste
np.random.seed(0)

## Gerando Grupos
grupo_a = np.random.rand(20)
grupo_b = np.random.rand(20)

## Aplicando Teste
u_stat, u_p = stats.mannwhitneyu(grupo_a,
                                 grupo_b,
                                 alternative = 'two-sided')

## Imprimindo resultado
print(f'p-valor: {u_p:.4f}')

p-valor: 0.9461


**Conclusão:**

<p align="justify">
O Teste de Mann-Whitney resultou em um p-valor de 0.9461. Considerando um nível de significância de 0.05, como o p-valor é muito maior que esse limite, não rejeitamos a hipótese nula. Isso indica que não há evidências suficientes para afirmar que existem diferenças significativas entre as duas amostras independentes analisadas, sugerindo que elas podem ter distribuições equivalentes.

#### 📌 **Teste de Kruskal-Wallis**

**O que é:**
- Extensão do Mann-Whitney para mais de duas amostras independentes.

**Quando usar:**  
- Comparar **mais de dois grupos independentes**.  
- Alternativa não-paramétrica à ANOVA.

**Hipóteses:**  
- H0: As distribuições são iguais.  
- H1: São diferentes.

In [13]:
# Aplicação do Teste
np.random.seed(0)

## Gerando grupos
grupo_x = np.random.rand(15)
grupo_y = np.random.rand(15)
grupo_z = np.random.rand(15)

## Aplicando os testes
kw_stat, kw_p = stats.kruskal(grupo_x, grupo_y, grupo_z)

## Imprimindo resultado
print(f'p-valor: {kw_p:.4f}')

p-valor: 0.7153


**Conclusão:**

<p align="justify">
O Teste de Kruskal-Wallis resultou em um p-valor de 0.7153. Considerando um nível de significância de 0.05, como o p-valor é maior que esse limite, não rejeitamos a hipótese nula. Assim, não há evidências suficientes para afirmar que existem diferenças significativas entre os grupos independentes analisados, indicando que os grupos podem ter distribuições semelhantes.

### ✅ **Medidas de Correlação**

#### 📌 **Coeficiente C de Contingência**

**O que é:**
- Medida de associação entre variáveis categóricas baseada na estatística Qui-Quadrado.

**Quando usar:**  
- Medir grau de associação entre **duas variáveis categóricas**.

In [14]:
# Aplicação do Teste

## Aplicando teste de qui-quadrado
chi2, _, _, _ = stats.chi2_contingency(table)
n = table.sum()

## Fórmula e aplicação do Coeficiente
C = np.sqrt(chi2 / (chi2 + n))

## Imprimindo resultado
print(f'Coeficiente C: {C:.4f}')

Coeficiente C: 0.0000


**Conclusão:**

<p align="justify">
O Coeficiente C resultou em um valor de 0.0000. Esse coeficiente é utilizado como uma medida de associação entre variáveis categóricas, derivado do teste Qui-Quadrado. A partir do resultado encontrado no teste, pode-se afirmar que não há associação significativa entre as variáveis analisadas, sugerindo independência entre elas.

#### 📌 **Correlação de Spearman e Kendall**

**Coeficiente de Correlação de Spearman (ρ)**

**O que é:**
- Medida não paramétrica de correlação entre duas variáveis ordinais ou contínuas.

**Quando usar:**
- Quando a relação entre variáveis é monotônica mas não necessariamente linear.

**Coeficiente de Correlação de Kendall (τ)**

**O que é:**
- Medida não paramétrica de concordância entre rankings de duas variáveis.

**Quando usar:**
- Quando se trabalha com rankings ou pequenos conjuntos de dados ordinais.

**Hipóteses:**  
- H0: Não há correlação.  
- H1: Existe correlação.

In [15]:
# Gerando Dados correlacionados
np.random.seed(0)
x = np.arange(10)
y = np.random.rand(10)

In [16]:
# Aplicando Teste de Spearman
_, spearman_p = stats.spearmanr(x, y)

# Imprimindo resultado
print(f'p-valor: {spearman_p:.4f}')

p-valor: 0.9338


**Conclusão:**

<p align="justify">
O Teste de Correlação de Spearman resultou em um p-valor de 0.9338. Considerando um nível de significância de 0.05, como o p-valor é bem maior que esse limite, não rejeitamos a hipótese nula de ausência de correlação. Assim, não há evidências suficientes para afirmar que existe uma associação monotônica significativa entre as duas variáveis analisadas.

In [17]:
# Aplicando Teste de Kendall
_, kendall_p = stats.kendalltau(x, y)

# Imprimindo resultado
print(f'p-valor: {kendall_p:.4f}')

p-valor: 1.0000


**Conclusão:**

<p align="justify">
O Teste de Correlação de Kendall resultou em um p-valor de 1.0000. Considerando um nível de significância de 0.05, como o p-valor é extremamente maior que esse limite, não rejeitamos a hipótese nula de ausência de correlação. Portanto, não há evidências suficientes para afirmar que existe uma associação monotônica significativa entre as variáveis analisadas.

## **✅ Considerações Finais**

Este notebook apresentou diversas técnicas não-paramétricas para testes de hipóteses e medidas de associação, reforçando sua importância na análise de dados que não seguem os pressupostos clássicos da estatística paramétrica.

➡️ Vantagens:

* Maior robustez frente a violações de premissas como normalidade e homocedasticidade.

* Flexibilidade para lidar com dados ordinais e pequenos tamanhos amostrais.

➡️ Limitações:

* Geralmente possuem menor poder estatístico quando comparados aos testes paramétricos.

* Podem apresentar dificuldade de interpretação para públicos não familiarizados.

Boas práticas recomendadas:

✔️ Verificar as premissas e características dos dados antes de escolher o teste.

✔️ Complementar a análise estatística com representações gráficas adequadas.

✔️ Reportar não apenas o resultado do teste, mas também medidas de tamanho do efeito e intervalos de confiança sempre que possível.

---
**Autor:** [Rivaldo Correia Santos Júnior]

**LinkedIn:** [https://www.linkedin.com/in/rivaldo-correia/]