<a href="https://colab.research.google.com/github/leandracarneiro/estatistica/blob/main/medianas_Teste_Mann_Whitney.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Teste Mann-Whitney - Variáveis independentes - duas medianas**

O teste de Mann-Whitney é um teste não paramétrico que compara duas médias amostrais para verificar se são iguais ou diferentes. É também conhecido como teste de Mann-Whitney-Wilcoxon ou teste de soma de postos de Wilcoxon.

**Quando usar**

Para comparar diferenças entre duas medidas independentes

Para testar se uma média populacional desconhecida é diferente de um valor específico

Para determinar se as observações de uma população tendem a ser maiores ou menores que outra população

**Como funciona**

Compara duas médias amostrais provenientes da mesma população
Usa os postos como desfecho do modelo estatístico

É ideal para dados ordinais ou intervalares que não atendem aos pressupostos de normalidade exigidos por testes paramétricos

**Exemplos de aplicação**

Avaliar se há diferenças nos níveis de ansiedade entre indivíduos que praticam yoga e aqueles que não praticam
Determinar se o número médio de meses que a tinta persiste na rodovia difere entre duas marcas

In [None]:
# importar as bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import scipy.stats as stats
import statsmodels.stats.multicomp as stsmodels

In [None]:
# caso a biblioteca scipy não esteja no servidor da Google, instalar ela com o comando !pip (somente se der algum erro no bloco de cima)
# !pip install scipy

In [None]:
# instalar no servidor uma biblioteca específica pra usar o teste de DUNN
!pip install scikit-posthocs

In [None]:
# importando a bilioteca
import scikit_posthocs as sp

In [None]:
# Endereço do arquivo com a base de dados
arquivo = 'url do seu banco de dados'

# Ler o arquivo - sem a primeira coluna
dados = pd.read_excel(arquivo)
dados.info()

A mediana da variavel coluna1 é a mesma entre sim e não da coluna2?

In [None]:
# Selecionar os nomes das variáveis  (coluna1, coluna2)
varNumerica = 'coluna1'
varCategorica = 'coluna2'

# Filtrar registros que tem nulos nas duas colunas, remove o registro inteiro  tem nulos
dados2 = dados.dropna(how = 'any', subset=[varNumerica, varCategorica])

# Separar os dois grupos pela categoria, e selecionar só a coluna numérica desejada
grupo1 = dados2[(dados2.coluna2 == 'Sim')].coluna1 #filtro no dados 2 na coluna2 sim no coluna1
grupo2 = dados2[(dados2.coluna2 == 'Não')].coluna1

In [None]:
# 1ª ETAPA - Estatística descritiva

# Estatística descritiva - Análise dos valores medianos
medianG1 = grupo1.median()
medianG2 = grupo2.median()

print(f'Mediana do Grupo 1: {medianG1:.1f}')  #:.1f  um casa decimal
print(f'Mediana do Grupo 2: {medianG2:.1f}')
print()

# _______________________________________________________________________________________
# 2º ETAPA - Realizar o teste de medianas para 2 variáveis independentes

# Teste de Mann-Whitney para variáveis independentes ( testa sempre a H0: as medianas são iguais)
# H0 = as medianas são iguais

resultado = stats.mstats.mannwhitneyu(grupo1, grupo2)
print('Teste de Mann-Whitney - 2 medianas')
print(f'p-value: {resultado.pvalue:.3f}')

## interpretação
if resultado.pvalue <= 0.05:
    print('Rejeita H0 => As medianas são diferentes!')
else:
    print('Aceita H0 => As medianas são iguais!')

# _______________________________________________________________________________________
print()
## Estatística descritiva - Análise Gráfica -> Mostrar 2 histogramas

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))
sns.histplot(grupo1, ax=ax1, binwidth=1)
sns.histplot(grupo2, ax=ax2, binwidth=1)
plt.tight_layout()

Saiba mais: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mstats.mannwhitneyu.html