In [None]:
!python --version

In [None]:
import os, sys
from scipy import stats
import numpy as np
import pandas as pd

from scipy import stats
is_colab = False

if is_colab:
    # create src and upload stat_lib into it
    from src import stat_lib
else:
    sys.path.insert(1, '../src/')
    import stat_lib

import seaborn as sns
import matplotlib.pyplot as plt
# %matplotlib inline

### Vers√£o do SciPy

In [None]:
import scipy

scipy.__version__

### üìå Kruskal‚ÄìWallis - stats.wilcoxon()

O **teste de Kruskal‚ÄìWallis:** √© um `teste n√£o param√©trico` dual da ANOVA.

Premissas b√°sicas:

  - √â ANOVA baseada em ranks
  - Funciona com dados n√£o normais
  - Requer independ√™ncia
  - 3 ou mais grupos independentes
  - Estat√≠stica H ~ qui-quadrado

#### Funcionamento

  1. Junta todos os valores
  2. Ordena todos os dados concatenados
  3. Substitui valores por ranks
  4. Soma ranks por grupo
  5. Compara se as somas diferem mais do que o esperado pelo acaso

#### üß™ Hip√≥tese nula:

ùêª0: As distribui√ß√µes populacionais dos k grupos s√£o id√™ntica

H0: F1(x) == F2(x) == ... == Fk(x)

  - O teste n√£o testa diretamente m√©dias
  - O teste n√£o testa diretamente medianas
  - Os ranks m√©dios s√£o iguais entre os grupos.

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mannwhitneyu.html

### Refazendo o exemplo da aula de ANOVA

  - dadas 5 amostras in silico
  - com media 140 e variando com delMU
  - com SSD 10, variando com delSSD

In [None]:
samp_list=[]; mu_list = []; ssd_list = []
N   = 30
n_samp = 5

MU = 140; delMU = -2
SSD = 10; delSSD = -.1

for i in range(n_samp):
    np.random.seed(12)
    samples = np.random.normal(loc=MU, scale=SSD, size=N)

    samp_list.append(samples)
    MU += delMU
    SSD += delSSD

    mu_list.append(np.mean(samp_list[i]))
    ssd_list.append(np.std(samp_list[i]))

    ret, text, text_stat, stat, pvalue = stat_lib.calc_normalidade_SWT(samples, 0.05, NS='---')
    print(i, text)
    print(f"N={N} {text_stat}")
    print()

In [None]:
fig, ax = plt.subplots(figsize=(12, 6))

seqx = np.linspace(70, 180, 100)
colors = ['red', 'blue', 'green', 'brown', 'black']

for i in range(n_samp):

    samples = samp_list[i]
    color = colors[i]

    label = f"{color} {mu_list[i]:.1f} ({ssd_list[i]:.1f})"

    plt.vlines(mu_list[i], 0, 0.045, color=color)

    normal_pdf = stats.norm.pdf(seqx, mu_list[i], ssd_list[i])
    sns.lineplot(x=seqx, y=normal_pdf, label=label, color=color)

title = 'Distribui√ß√µes'
plt.legend()
plt.grid()
plt.legend()
plt.title(title);


In [None]:
ret, text, text_stat, stat, pvalue = \
stat_lib.test_one_way_ANOVA_list(samp_list)

text, text_stat

### Se diminuir o N n√£o posso (n√£o devo) usar ANOVA

In [None]:
samp_list=[]; mu_list = []; ssd_list = []
N   = 6
n_samp = 5

MU = 140; delMU = -7
SSD = 10; delSSD = -.3

for i in range(n_samp):
    np.random.seed(12)
    samples = np.random.normal(loc=MU, scale=SSD, size=N)

    samp_list.append(samples)
    MU += delMU
    SSD += delSSD

    mu_list.append(np.mean(samp_list[i]))
    ssd_list.append(np.std(samp_list[i]))

    ret, text, text_stat, stat, pvalue = stat_lib.calc_normalidade_SWT(samples, 0.05, NS='---')
    print(i, text)
    print(f"N={N} {text_stat}")
    print()

### N√£o adianta plotar a distribui√ß√£o teoria pois ela n√£o espelha N=6, KDE sim

In [None]:
df = stat_lib.join_series_by_list(samp_list)
# 5 grupos * 6 amostras
len(df)

In [None]:
df.head(3)

In [None]:
df.tail(3)

### KED plot - mostra melhor a distor√ß√£o de amostrar N=6

In [None]:
sns.displot(df, x="val", hue="grupo", kind="kde", fill=True, height=4, aspect=1.4)

title = 'Distribui√ß√µes por grupos'
plt.grid()
plt.xlabel('grupos e valores')
plt.ylabel('densidade')
plt.title(title);

In [None]:
### 

In [None]:
# ou lista as diversas amostras ou 
# coloca um * indicando que √© um ponteiro para lista (endere√ßo)
stat, pval = stats.kruskal(*samp_list)

print("H =", stat)

if pval >= 0.05:
    print(f"Aceita-se H0, p-value = {pval:.1e}")
else:
    print(f"Rejeita-se H0, p-value = {pval:.1e}")
    

### Teste de Dunn

Ap√≥s Kruskal‚ÄìWallis -> Teste de Dunn

  - Faz compara√ß√µes par a par
  - Baseado em ranks
  - Usa corre√ß√£o m√∫ltipla (Bonferroni, Holm, etc.)
  - √â o an√°logo n√£o param√©trico do Tukey.

p_adjust - t√©cnica de ajustar o p-valor devido a testes com repeti√ß√£o:

 1. bonferroni
 2. holm
 3. fdr_bh
 4. sidak


In [None]:
# se n√£o tiver esta library/pacote - instale
# !pip install scikit_posthocs

In [None]:
import scikit_posthocs as sp

dfr = sp.posthoc_dunn(df, val_col='val', group_col='grupo', p_adjust='bonferroni')

dfr