In [6]:
from itertools import combinations
from scipy.stats import friedmanchisquare, wilcoxon
from scores import (
    dt_f1_scores,
    knn_f1_scores,
    lg_f1_scores,
    rf_f1_scores,
    svm_f1_scores,
)

# Teste de Friedman para comparação geral
stat, p_friedman = friedmanchisquare(
    knn_f1_scores, rf_f1_scores, lg_f1_scores, dt_f1_scores, svm_f1_scores
)

print("--- Teste de Friedman (Comparação Geral) ---")
print(f"Estatística do teste: {stat}")
print(f"Valor-p (p-value): {p_friedman}")

alpha = 0.05
if p_friedman < alpha:
    print(
        "Conclusão: Existe uma diferença estatisticamente significativa entre pelo menos dois dos modelos."
    )
    print("Prosseguindo para os testes post-hoc...\n")

    # Testes Post-Hoc (comparações par a par com correção de Bonferroni)
    print("--- Testes Post-Hoc (Comparações Par a Par) ---")

    models = {
        "KNN": knn_f1_scores,
        "Random Forest": rf_f1_scores,
        "Logistic Regression": lg_f1_scores,
        "Decision Tree": dt_f1_scores,
        "SVM": svm_f1_scores,
    }

    pairs = list(combinations(models.keys(), 2))

    bonferroni_alpha = alpha / len(pairs)
    print(f"Nível de significância (alpha) original: {alpha}")
    print(f"Número de comparações: {len(pairs)}")
    print(f"Alpha corrigido por Bonferroni: {bonferroni_alpha}\n")

    for pair in pairs:
        model1_name, model2_name = pair
        model1_scores = models[model1_name]
        model2_scores = models[model2_name]

        # Teste de Wilcoxon para amostras pareadas
        stat, p_value_pair = wilcoxon(model1_scores, model2_scores)

        print(f"Comparando: {model1_name} vs. {model2_name}")
        print(f"  - Estatística do teste Wilcoxon: {stat}")
        print(f"  - Valor-p do teste Wilcoxon: {p_value_pair}")

        if p_value_pair < bonferroni_alpha:
            print("  - Conclusão: A diferença é ESTATISTICAMENTE SIGNIFICATIVA.")
        else:
            print("  - Conclusão: A diferença NÃO é estatisticamente significativa.")
        print("-" * 30)

else:
    print(
        "\nConclusão: Não há evidência de diferença estatisticamente significativa entre os modelos."
    )


--- Teste de Friedman (Comparação Geral) ---
Estatística do teste: 55.92000000000007
Valor-p (p-value): 2.0841301843788807e-11
Conclusão: Existe uma diferença estatisticamente significativa entre pelo menos dois dos modelos.
Prosseguindo para os testes post-hoc...

--- Testes Post-Hoc (Comparações Par a Par) ---
Nível de significância (alpha) original: 0.05
Número de comparações: 10
Alpha corrigido por Bonferroni: 0.005

Comparando: KNN vs. Random Forest
  - Estatística do teste Wilcoxon: 125.0
  - Valor-p do teste Wilcoxon: 0.026228994131088257
  - Conclusão: A diferença NÃO é estatisticamente significativa.
------------------------------
Comparando: KNN vs. Logistic Regression
  - Estatística do teste Wilcoxon: 124.0
  - Valor-p do teste Wilcoxon: 0.024786051362752914
  - Conclusão: A diferença NÃO é estatisticamente significativa.
------------------------------
Comparando: KNN vs. Decision Tree
  - Estatística do teste Wilcoxon: 167.0
  - Valor-p do teste Wilcoxon: 0.183969093486666