In [9]:
from itertools import combinations

import numpy as np
from scipy.stats import friedmanchisquare, ttest_rel

knn_f1_scores = np.array([
    0.8747, 0.8526, 0.8673, 0.8422, 0.8601, 0.8555, 0.8630, 0.8586, 0.8628, 0.8441,
    0.8551, 0.8730, 0.8614, 0.8510, 0.8633, 0.8628, 0.8702, 0.8439, 0.8717, 0.8558,
    0.8581, 0.8613, 0.8456, 0.8673, 0.8597, 0.8580, 0.8587, 0.8509, 0.8440, 0.8625
])
rf_f1_scores = np.array([
    0.8824, 0.9697, 0.9189, 0.9091, 0.8824, 0.8387, 0.8824, 0.8125, 0.8649, 0.7879,
    0.9412, 0.9189, 0.8000, 0.9189, 0.7742, 0.8824, 0.8889, 0.9091, 0.9412, 0.8750,
    0.9091, 0.9143, 0.9143, 0.8205, 0.9189, 0.8889, 0.8000, 0.8649, 1.0000, 0.8947
])
lg_f1_scores = np.array([
    0.8639, 0.8460, 0.8487, 0.8487, 0.8445, 0.8390, 0.8527, 0.8518, 0.8496, 0.8485,
    0.8584, 0.8669, 0.8545, 0.8513, 0.8615, 0.8689, 0.8594, 0.8521, 0.8630, 0.8632,
    0.8548, 0.8444, 0.8582, 0.8655, 0.8552, 0.8498, 0.8557, 0.8496, 0.8522, 0.8628
])

dt_f1_scores = np.array([
    0.8643, 0.8610, 0.8692, 0.8574, 0.8385, 0.8475, 0.8594, 0.8531, 0.8545, 0.8584,
    0.8632, 0.8704, 0.8574, 0.8575, 0.8707, 0.8650, 0.8327, 0.8617, 0.8519, 0.8468,
    0.8548, 0.8444, 0.8420, 0.8450, 0.8665, 0.8459, 0.8591, 0.8558, 0.8455, 0.8542,
])

#  Teste de Friedman para comparação geral
stat, p_friedman = friedmanchisquare(knn_f1_scores, rf_f1_scores, lg_f1_scores, dt_f1_scores)

print("--- Teste de Friedman (Comparação Geral) ---")
print(f"Estatística do teste: {stat:.4f}")
print(f"Valor-p (p-value): {p_friedman:.6f}")

alpha = 0.05
if p_friedman < alpha:
    print(
        "Conclusão: Existe uma diferença estatisticamente significativa entre pelo menos dois dos modelos."
    )
    print("Prosseguindo para os testes post-hoc...\n")

    #  Testes Post-Hoc (comparações par a par com correção de Bonferroni)
    print("--- Testes Post-Hoc (Comparações Par a Par) ---")

    models = {
        "KNN": knn_f1_scores,
        "Random Forest": rf_f1_scores,
        "Logistic Regression": lg_f1_scores,
        "Decision Tree": dt_f1_scores
    }

    # Gera todas as combinações de pares de modelos
    pairs = list(combinations(models.keys(), 2))

    # Correção de Bonferroni: ajusta o alfa dividindo pelo número de comparações
    bonferroni_alpha = alpha / len(pairs)
    print(f"Nível de significância (alpha) original: {alpha}")
    print(f"Número de comparações: {len(pairs)}")
    print(f"Alpha corrigido por Bonferroni: {bonferroni_alpha:.4f}\n")

    for pair in pairs:
        model1_name, model2_name = pair
        model1_scores = models[model1_name]
        model2_scores = models[model2_name]

        t_stat, p_value_pair = ttest_rel(model1_scores, model2_scores)

        print(f"Comparando: {model1_name} vs. {model2_name}")
        print(f"  - Valor-p do teste t pareado: {p_value_pair:.6f}")

        if p_value_pair < bonferroni_alpha:
            print("  - Conclusão: A diferença é ESTATISTICAMENTE SIGNIFICATIVA.")
        else:
            print("  - Conclusão: A diferença NÃO é estatisticamente significativa.")
        print("-" * 20)

else:
    print(
        "\nConclusão: Não há evidência de diferença estatisticamente significativa entre os modelos."
    )

--- Teste de Friedman (Comparação Geral) ---
Estatística do teste: 18.1611
Valor-p (p-value): 0.000407
Conclusão: Existe uma diferença estatisticamente significativa entre pelo menos dois dos modelos.
Prosseguindo para os testes post-hoc...

--- Testes Post-Hoc (Comparações Par a Par) ---
Nível de significância (alpha) original: 0.05
Número de comparações: 6
Alpha corrigido por Bonferroni: 0.0083

Comparando: KNN vs. Random Forest
  - Valor-p do teste t pareado: 0.017164
  - Conclusão: A diferença NÃO é estatisticamente significativa.
--------------------
Comparando: KNN vs. Logistic Regression
  - Valor-p do teste t pareado: 0.018960
  - Conclusão: A diferença NÃO é estatisticamente significativa.
--------------------
Comparando: KNN vs. Decision Tree
  - Valor-p do teste t pareado: 0.143609
  - Conclusão: A diferença NÃO é estatisticamente significativa.
--------------------
Comparando: Random Forest vs. Logistic Regression
  - Valor-p do teste t pareado: 0.006054
  - Conclusão: A di