<a href="https://colab.research.google.com/github/leandracarneiro/estatistica/blob/main/medianas_Teste_Kruskal_Wallis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Teste Kruskal-Wallis - Variáveis independentes - três ou mais medianas

O teste de Kruskal-Wallis é um teste estatístico não paramétrico que compara três ou mais grupos. Ele é usado para verificar se há diferença entre as medianas dos grupos.

**Como funciona **

Converte os valores numéricos em postos

Agrupa os postos em um único conjunto de dados

Compara a classificação média de cada grupo

Calcula uma estatística de teste e compara com um ponto de corte da distribuição

**Hipóteses de teste**

*   H0: As medianas populacionais são iguais
*   H1: As medianas populacionais não são iguais



Quando rejeitar a hipótese nula

Se o valor-p ≤ 0,05, então a hipótese nula pode ser rejeitada.



**Aplicações**

O teste de Kruskal-Wallis pode ser usado para comparar, por exemplo, os níveis de ansiedade entre três níveis de idade.

**Considerações**

O teste de Kruskal-Wallis é semelhante ao Teste U de Mann-Whitney, mas permite comparar mais do que apenas dois grupos.

In [None]:
# importar as bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import scipy.stats as stats
import statsmodels.stats.multicomp as stsmodels

In [None]:
# caso a biblioteca scipy não esteja no servidor da Google, instalar ela com o comando !pip (somente se der algum erro no bloco de cima)
# !pip install scipy

In [None]:
# instalar no servidor uma biblioteca específica pra usar o teste de DUNN
!pip install scikit-posthocs

In [None]:
# importando a bilioteca
import scikit_posthocs as sp

In [None]:
# Endereço do arquivo com a base de dados
arquivo = 'url do seu baanco de dados'

# Ler o arquivo - sem a primeira coluna
dados = pd.read_excel(arquivo)
dados.info()

: A varivel coluna1 é a mesma entre as classes presentes na varivel (primavera, verão, inverno) coluna 2?

In [None]:
# Selecionar os nomes das variáveis  (coluna1, coluna2)
varNumerica = 'coluna1'
varCategorica = 'coluna2'

# Filtrar registros que sem nulos nas duas colunas
dados2 = dados.dropna(how = 'any', subset=[varNumerica, varCategorica])

# Separar os grupos pela categoria, e selecionar só a coluna numérica desejada
grupo1 = dados2[(dados2.coluna2 == 'primavera')].coluna1
grupo2 = dados2[(dados2.coluna2 == 'verão')].coluna1
grupo3 = dados2[(dados2.coluna2 == 'inverno')].coluna1

In [None]:
# 1ª ETAPA - Estatística descritiva

# Estatística descritiva - Análise dos valores medianos
medianG1 = grupo1.median()
medianG2 = grupo2.median()
medianG3 = grupo3.median()

print(f'Mediana do Grupo 1: {medianG1:.1f}')
print(f'Mediana do Grupo 2: {medianG2:.1f}')
print(f'Mediana do Grupo 3: {medianG3:.1f}')
print()

# _______________________________________________________________________________________
# 2º ETAPA - Realizar o teste de medianas para 3 ou mais variáveis independentes

# 3º realizar o teste H - Kruskal-Wallis
# H0 = as medianas são iguais

# Observação: kruskal não aceita coluna do pandas diretamente, precisa usar ".values" para pegar só valor

resultado = stats.mstats.kruskal(grupo1.values, grupo2.values, grupo3.values)
print('Teste de Kruskal-Wallis - 3+ medianas')
print(f'p-value: {resultado.pvalue:.3f}')

# interpretação
if resultado.pvalue <= 0.05:
    print('Rejeita H0 => As medianas são diferentes!')
else:
    print('Aceita H0 => As medianas são iguais!')

# _______________________________________________________________________________________
print()
# Estatística descritiva - Análise Gráfica -> Mostrar 3 histogramas

fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(16, 4))
sns.histplot(grupo1, ax=ax1, binwidth=1)
sns.histplot(grupo2, ax=ax2, binwidth=1)
sns.histplot(grupo3, ax=ax3, binwidth=1)
plt.tight_layout()

Saiba mais: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mstats.kruskalwallis.html

Importante: no exemplo acima existe diferença! Agora precisamos investigar onde está a diferença!

### **Teste de Dunn - post hoc para o teste de Kruskal-Wallis**

A sua importância é constatada quando existe uma diferença entre três ou mais médias, e serve para averiguar quais as médias que são significativamente distintas.

In [None]:
# criando uma lista com os 3 grupos de valores
dados3 = [grupo1.values, grupo2.values, grupo3.values]

# executar o Dunn's test usando uma correção de Bonferonni para os p-values
# H0 = As medianas são iguais (teste de Dunn)
resultado = sp.posthoc_dunn(dados3, p_adjust = 'bonferroni')
print(resultado.round(3))

Saiba mais: https://www.statology.org/dunns-test-python/