<a href="https://colab.research.google.com/github/netinhojunnior/meu_portfolio/blob/main/Projeto05_Testes_N%C3%A3o_Param%C3%A9tricos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Testes N√£o-Param√©tricos**

## **üìå Introdu√ß√£o**

Os testes estat√≠sticos n√£o-param√©tricos s√£o ferramentas fundamentais quando os dados n√£o atendem √†s suposi√ß√µes necess√°rias para a aplica√ß√£o de testes param√©tricos, como a normalidade ou homogeneidade de vari√¢ncias. Estes m√©todos s√£o amplamente utilizados em an√°lises com dados categ√≥ricos, ordinais ou quando a amostra √© pequena.

Neste notebook, exploramos diversos testes n√£o-param√©tricos cl√°ssicos, organizados por suas aplica√ß√µes: testes de normalidade, testes para amostras dependentes e independentes, al√©m de medidas de associa√ß√£o. Cada teste √© apresentado com uma breve fundamenta√ß√£o te√≥rica, aplica√ß√£o pr√°tica com c√≥digo e interpreta√ß√£o dos resultados.

**üéØ Objetivo**

O objetivo deste notebook √©:

‚úÖ Apresentar conceitos fundamentais sobre testes n√£o-param√©tricos.

‚úÖ Demonstrar a aplica√ß√£o pr√°tica desses testes com Python, utilizando a biblioteca scipy.stats.

‚úÖ Orientar sobre a interpreta√ß√£o dos resultados para auxiliar na tomada de decis√£o estat√≠stica em contextos reais de an√°lise de dados.

**Observa√ß√£o:** Para a interpreta√ß√£o dos resultados, adotaremos um p-valor igual a 0.05

In [1]:
# Carregando bibliotecas

import numpy as np
from scipy import stats
import statsmodels.api as sm
from statsmodels.stats.contingency_tables import mcnemar

### ‚úÖ **Testes de Normalidade**

In [2]:
# Gerando uma amostra

np.random.seed(42)
sample = np.random.normal(loc = 0,
                          scale = 1,
                          size = 100)

#### üìå **Teste de Kolmogorov-Smirnov**

**O que √©:**
- Testa se uma amostra segue uma distribui√ß√£o espec√≠fica, normalmente a normal.

**Quando usar:**  
- Verificar se uma amostra segue uma distribui√ß√£o espec√≠fica (ex.: normal).  
- Ideal para amostras cont√≠nuas.

**Hip√≥teses:**  
- H0: A amostra segue a distribui√ß√£o especificada.  
- H1: A amostra n√£o segue a distribui√ß√£o especificada.

In [3]:
# Teste de K-S comparando com distribui√ß√£o normal
ks_statistic, ks_p_value = stats.kstest(sample, 'norm')

# Imprimindo resultado
print(f'p-valor: {ks_p_value:.4f}')

p-valor: 0.2181


**Conclus√£o**

<p align="justify">
O Teste de Kolmogorov-Smirnov (KS) resultou em um p-valor de 0.2181. Considerando um n√≠vel de signific√¢ncia de 0.05, como o p-valor obtido √© maior que esse limite, n√£o rejeitamos a hip√≥tese nula. Assim, n√£o h√° evid√™ncias suficientes para afirmar que a amostra n√£o segue uma distribui√ß√£o normal, ou seja, os dados podem ser considerados normalmente distribu√≠dos.

#### üìå **Teste de Jarque-Bera**

**O que √©:**
- Testa a normalidade de uma vari√°vel com base em seus coeficientes de assimetria e curtose.

**Quando usar:**  
- Avaliar normalidade com base na **assimetria** e **curtose** da distribui√ß√£o.

**Hip√≥teses:**  
- H0: A amostra segue uma distribui√ß√£o normal.  
- H1: A amostra n√£o segue uma distribui√ß√£o normal.

In [4]:
# Aplicando teste
jb_stat, jb_p_value = stats.jarque_bera(sample)

# Imprimindo resultado
print(f'p-valor: {jb_p_value:.4f}')

p-valor: 0.7362


**Conclus√£o**

<p align="justify">
O Teste de Jarque-Bera resultou em um p-valor de 0.7362. Considerando um n√≠vel de signific√¢ncia de 0.05, como o p-valor obtido √© maior que esse limite, n√£o rejeitamos a hip√≥tese nula. Dessa forma, n√£o h√° evid√™ncias suficientes para afirmar que a amostra n√£o segue uma distribui√ß√£o normal, indicando que os dados podem ser considerados normalmente distribu√≠dos.

###‚úÖ **Testes para Amostras Dependentes**

#### üìå **Teste de McNemar**

**O que √©:**
- Teste n√£o param√©trico para comparar propor√ß√µes em dados pareados.

**Quando usar:**  
- Avaliar diferen√ßas entre **duas vari√°veis dependentes dicot√¥micas**.  
- Muito utilizado em estudos cl√≠nicos ou antes/depois.

**Hip√≥teses:**  
- H0: As propor√ß√µes s√£o iguais.  
- H1: As propor√ß√µes s√£o diferentes.

In [5]:
# Tabela de conting√™ncia
table = np.array([[30, 10],
                  [5,  55]])

result = mcnemar(table, exact = True)

# Imprimindo resultado
print(f'p-valor: {result.pvalue:.4f}')

p-valor: 0.3018


**Conclus√£o:**

<p align="justify">
O Teste de McNemar resultou em um p-valor de 0.3018. Considerando um n√≠vel de signific√¢ncia de 0.05, como o p-valor obtido √© maior que esse limite, n√£o rejeitamos a hip√≥tese nula. Assim, n√£o h√° evid√™ncias suficientes para afirmar que houve diferen√ßa significativa entre as propor√ß√µes das amostras emparelhadas, indicando que os resultados antes e depois (ou entre os dois grupos dependentes analisados) s√£o estatisticamente equivalentes.

#### üìå **Teste de Friedman**

**O que √©:**
- Teste n√£o param√©trico para comparar propor√ß√µes em dados pareados.

**Quando usar:**  
- Comparar **mais de dois grupos relacionados**.  
- Ex.: medidas repetidas de um mesmo indiv√≠duo.

**Hip√≥teses:**  
- H0: N√£o h√° diferen√ßas entre os grupos.  
- H1: Existem diferen√ßas entre os grupos.

In [6]:
# Aplicando teste

## Simulando dados
np.random.seed(0)
grupo1 = np.random.rand(10)
grupo2 = np.random.rand(10)
grupo3 = np.random.rand(10)

## Aplicando teste aos dados
friedman_stat, friedman_p = stats.friedmanchisquare(grupo1, grupo2, grupo3)

## Imprimindo resultado
print(f'p-valor: {friedman_p:.4f}')

p-valor: 0.4966


**Conclus√£o:**

<p align="justify">
O Teste de Friedman resultou em um p-valor de 0.4966. Considerando um n√≠vel de signific√¢ncia de 0.05, como o p-valor obtido √© maior que esse limite, n√£o rejeitamos a hip√≥tese nula. Assim, n√£o h√° evid√™ncias suficientes para afirmar que existem diferen√ßas significativas entre os grupos comparados, indicando que os grupos dependentes analisados apresentam desempenhos estatisticamente equivalentes.

### ‚úÖ **Testes para Amostras Independentes**

#### üìå **Teste Exato de Fisher**

**O que √©:**
- Teste exato usado para tabelas de conting√™ncia 2x2.

**Quando usar:**  
- Analisar associa√ß√£o entre **duas vari√°veis categ√≥ricas** em tabelas pequenas (2x2).

**Hip√≥teses:**  
- H0: As vari√°veis s√£o independentes.  
- H1: Existe associa√ß√£o.

In [7]:
# Aplica√ß√£o do Teste

## Gerando Tabela de conting√™ncia
table = np.array([[8, 2],
                  [1, 5]])

## Aplicando teste a tabela
_, fisher_p = stats.fisher_exact(table)

## Imprimindo resultado
print(f'p-valor: {fisher_p:.4f}')

p-valor: 0.0350


**Conclus√£o:**

<p align="justify">
O Teste Exato de Fisher resultou em um p-valor de 0.0350. Considerando um n√≠vel de signific√¢ncia de 0.05, como o p-valor obtido √© menor que esse limite, rejeitamos a hip√≥tese nula. Assim, h√° evid√™ncias suficientes para afirmar que existe uma associa√ß√£o significativa entre as categorias analisadas na tabela de conting√™ncia, indicando que as vari√°veis n√£o s√£o independentes.

#### üìå **Teste Qui-Quadrado e Corre√ß√£o de Yates**

**Teste Qui-Quadrado (œá¬≤)**

**O que √©:**
- Teste estat√≠stico para avaliar a associa√ß√£o entre vari√°veis categ√≥ricas.

**Quando usar:**
- Com tabelas de conting√™ncia maiores e amostras grandes.

**Teste Qui-Quadrado com Corre√ß√£o de Yates**

**O que √©:**
- Vers√£o ajustada do Qui-Quadrado para evitar superestima√ß√£o em tabelas 2x2 com pequenas frequ√™ncias.

**Quando usar:**
- Quando o n√∫mero esperado em alguma c√©lula da tabela √© menor que 5.

In [8]:
# Construindo Tabela de conting√™ncia
table = np.array([[10, 20],
                  [20, 40]])

**Teste de Qui-Quadrado**

In [9]:
# Aplica√ß√£o do Teste de Qui-Quadrado

## Aplicando Teste
chi2, p, dof, expected = stats.chi2_contingency(table, correction=False)

## Imprimindo resultado
print(f'p-valor: {p:.4f}')

p-valor: 1.0000


**Conclus√£o:**

<p align="justify">
O Teste Qui-Quadrado, aplicado sem a corre√ß√£o de Yates, resultou em um p-valor de 1.0000. Considerando um n√≠vel de signific√¢ncia de 0.05, como o p-valor √© maior que esse limite, n√£o rejeitamos a hip√≥tese nula. Isso indica que n√£o h√° evid√™ncias suficientes para afirmar que existe associa√ß√£o entre as vari√°veis analisadas na tabela, sugerindo independ√™ncia entre elas.

**Teste de Qui-Quadrado com Corre√ß√£o de Yates**

In [10]:
# Aplica√ß√£o do Teste

## Aplicando teste
chi2_yates, p_yates, _, _ = stats.chi2_contingency(table, correction=True)

## Imprimindo resultado
print(f'p-valor: {p_yates:.4f}')

p-valor: 1.0000


**Conclus√£o:**

<p align="justify">
O Teste Qui-Quadrado com corre√ß√£o de Yates resultou em um p-valor de 1.0000. Considerando um n√≠vel de signific√¢ncia de 0.05, como o p-valor √© maior que esse limite, n√£o rejeitamos a hip√≥tese nula. Assim, n√£o h√° evid√™ncias suficientes para afirmar que existe uma associa√ß√£o entre as vari√°veis analisadas, indicando que elas podem ser consideradas estatisticamente independentes.

### **‚úÖ Testes N√£o Param√©tricos de Compara√ß√£o de Grupos**

#### **üìå Teste de Wilcoxon**

**O que √©?**
* Teste n√£o param√©trico para comparar duas amostras dependentes.

**Quando usar?**

* Compara√ß√£o de antes e depois em um mesmo grupo.
* Quando os dados n√£o seguem distribui√ß√£o normal.

**Hip√≥teses:**

* H‚ÇÄ: n√£o h√° diferen√ßa entre as medi√ß√µes.
* H‚ÇÅ: h√° diferen√ßa significativa.

In [11]:
# Exemplo Pr√°tico

## Carregando biblioteca
from scipy.stats import wilcoxon

## Simulando dados
antes = np.random.exponential(scale=1, size=30)
depois = antes + np.random.exponential(scale=0.5, size=30)

## Aplicando teste
_, p = wilcoxon(antes, depois)

## Imprimindo resultado
print(f'p-valor: {p:.4f}')

p-valor: 0.0000


**Conclus√£o:**

<p align="justify">
O resultado obtido apresentou um p-valor igual a 0.0000, indicando uma diferen√ßa estatisticamente significativa entre os dois momentos. Sendo assim, rejeitamos a hip√≥tese nula (H‚ÇÄ), que pressupunha a inexist√™ncia de diferen√ßa, e aceitamos a hip√≥tese alternativa (H‚ÇÅ), que aponta para uma altera√ß√£o relevante entre os grupos

#### üìå **Teste de Mann-Whitney**

**O que √©:**
- Teste n√£o param√©trico para comparar duas amostras independentes.

**Quando usar:**  
- Comparar **dois grupos independentes** com vari√°veis cont√≠nuas ou ordinais.  
- N√£o assume normalidade.

**Hip√≥teses:**  
- H0: As distribui√ß√µes s√£o iguais.  
- H1: S√£o diferentes.

In [12]:
# Aplica√ß√£o do Teste
np.random.seed(0)

## Gerando Grupos
grupo_a = np.random.rand(20)
grupo_b = np.random.rand(20)

## Aplicando Teste
u_stat, u_p = stats.mannwhitneyu(grupo_a,
                                 grupo_b,
                                 alternative = 'two-sided')

## Imprimindo resultado
print(f'p-valor: {u_p:.4f}')

p-valor: 0.9461


**Conclus√£o:**

<p align="justify">
O Teste de Mann-Whitney resultou em um p-valor de 0.9461. Considerando um n√≠vel de signific√¢ncia de 0.05, como o p-valor √© muito maior que esse limite, n√£o rejeitamos a hip√≥tese nula. Isso indica que n√£o h√° evid√™ncias suficientes para afirmar que existem diferen√ßas significativas entre as duas amostras independentes analisadas, sugerindo que elas podem ter distribui√ß√µes equivalentes.

#### üìå **Teste de Kruskal-Wallis**

**O que √©:**
- Extens√£o do Mann-Whitney para mais de duas amostras independentes.

**Quando usar:**  
- Comparar **mais de dois grupos independentes**.  
- Alternativa n√£o-param√©trica √† ANOVA.

**Hip√≥teses:**  
- H0: As distribui√ß√µes s√£o iguais.  
- H1: S√£o diferentes.

In [13]:
# Aplica√ß√£o do Teste
np.random.seed(0)

## Gerando grupos
grupo_x = np.random.rand(15)
grupo_y = np.random.rand(15)
grupo_z = np.random.rand(15)

## Aplicando os testes
kw_stat, kw_p = stats.kruskal(grupo_x, grupo_y, grupo_z)

## Imprimindo resultado
print(f'p-valor: {kw_p:.4f}')

p-valor: 0.7153


**Conclus√£o:**

<p align="justify">
O Teste de Kruskal-Wallis resultou em um p-valor de 0.7153. Considerando um n√≠vel de signific√¢ncia de 0.05, como o p-valor √© maior que esse limite, n√£o rejeitamos a hip√≥tese nula. Assim, n√£o h√° evid√™ncias suficientes para afirmar que existem diferen√ßas significativas entre os grupos independentes analisados, indicando que os grupos podem ter distribui√ß√µes semelhantes.

### ‚úÖ **Medidas de Correla√ß√£o**

#### üìå **Coeficiente C de Conting√™ncia**

**O que √©:**
- Medida de associa√ß√£o entre vari√°veis categ√≥ricas baseada na estat√≠stica Qui-Quadrado.

**Quando usar:**  
- Medir grau de associa√ß√£o entre **duas vari√°veis categ√≥ricas**.

In [14]:
# Aplica√ß√£o do Teste

## Aplicando teste de qui-quadrado
chi2, _, _, _ = stats.chi2_contingency(table)
n = table.sum()

## F√≥rmula e aplica√ß√£o do Coeficiente
C = np.sqrt(chi2 / (chi2 + n))

## Imprimindo resultado
print(f'Coeficiente C: {C:.4f}')

Coeficiente C: 0.0000


**Conclus√£o:**

<p align="justify">
O Coeficiente C resultou em um valor de 0.0000. Esse coeficiente √© utilizado como uma medida de associa√ß√£o entre vari√°veis categ√≥ricas, derivado do teste Qui-Quadrado. A partir do resultado encontrado no teste, pode-se afirmar que n√£o h√° associa√ß√£o significativa entre as vari√°veis analisadas, sugerindo independ√™ncia entre elas.

#### üìå **Correla√ß√£o de Spearman e Kendall**

**Coeficiente de Correla√ß√£o de Spearman (œÅ)**

**O que √©:**
- Medida n√£o param√©trica de correla√ß√£o entre duas vari√°veis ordinais ou cont√≠nuas.

**Quando usar:**
- Quando a rela√ß√£o entre vari√°veis √© monot√¥nica mas n√£o necessariamente linear.

**Coeficiente de Correla√ß√£o de Kendall (œÑ)**

**O que √©:**
- Medida n√£o param√©trica de concord√¢ncia entre rankings de duas vari√°veis.

**Quando usar:**
- Quando se trabalha com rankings ou pequenos conjuntos de dados ordinais.

**Hip√≥teses:**  
- H0: N√£o h√° correla√ß√£o.  
- H1: Existe correla√ß√£o.

In [15]:
# Gerando Dados correlacionados
np.random.seed(0)
x = np.arange(10)
y = np.random.rand(10)

In [16]:
# Aplicando Teste de Spearman
_, spearman_p = stats.spearmanr(x, y)

# Imprimindo resultado
print(f'p-valor: {spearman_p:.4f}')

p-valor: 0.9338


**Conclus√£o:**

<p align="justify">
O Teste de Correla√ß√£o de Spearman resultou em um p-valor de 0.9338. Considerando um n√≠vel de signific√¢ncia de 0.05, como o p-valor √© bem maior que esse limite, n√£o rejeitamos a hip√≥tese nula de aus√™ncia de correla√ß√£o. Assim, n√£o h√° evid√™ncias suficientes para afirmar que existe uma associa√ß√£o monot√¥nica significativa entre as duas vari√°veis analisadas.

In [17]:
# Aplicando Teste de Kendall
_, kendall_p = stats.kendalltau(x, y)

# Imprimindo resultado
print(f'p-valor: {kendall_p:.4f}')

p-valor: 1.0000


**Conclus√£o:**

<p align="justify">
O Teste de Correla√ß√£o de Kendall resultou em um p-valor de 1.0000. Considerando um n√≠vel de signific√¢ncia de 0.05, como o p-valor √© extremamente maior que esse limite, n√£o rejeitamos a hip√≥tese nula de aus√™ncia de correla√ß√£o. Portanto, n√£o h√° evid√™ncias suficientes para afirmar que existe uma associa√ß√£o monot√¥nica significativa entre as vari√°veis analisadas.

## **‚úÖ Considera√ß√µes Finais**

Este notebook apresentou diversas t√©cnicas n√£o-param√©tricas para testes de hip√≥teses e medidas de associa√ß√£o, refor√ßando sua import√¢ncia na an√°lise de dados que n√£o seguem os pressupostos cl√°ssicos da estat√≠stica param√©trica.

‚û°Ô∏è Vantagens:

* Maior robustez frente a viola√ß√µes de premissas como normalidade e homocedasticidade.

* Flexibilidade para lidar com dados ordinais e pequenos tamanhos amostrais.

‚û°Ô∏è Limita√ß√µes:

* Geralmente possuem menor poder estat√≠stico quando comparados aos testes param√©tricos.

* Podem apresentar dificuldade de interpreta√ß√£o para p√∫blicos n√£o familiarizados.

Boas pr√°ticas recomendadas:

‚úîÔ∏è Verificar as premissas e caracter√≠sticas dos dados antes de escolher o teste.

‚úîÔ∏è Complementar a an√°lise estat√≠stica com representa√ß√µes gr√°ficas adequadas.

‚úîÔ∏è Reportar n√£o apenas o resultado do teste, mas tamb√©m medidas de tamanho do efeito e intervalos de confian√ßa sempre que poss√≠vel.

---
**Autor:** [Rivaldo Correia Santos J√∫nior]

**LinkedIn:** [https://www.linkedin.com/in/rivaldo-correia/]