## Imports

In [1]:
import torch
from scipy.stats import mannwhitneyu
import numpy as np

## Functions

In [2]:
def calculate_f1score(precision, recall):
    precision = np.array(precision)
    recall = np.array(recall)
    return 2 * (precision * recall) / (precision + recall)

def get_metrics(model):
    precision = model["validation"]["precision"]
    recall = model["validation"]["recall"]
    f1_score = calculate_f1score(precision=precision, recall=recall)
    return precision, recall, f1_score

def test_mannnwhitneyu(metric_model1, metric_model2, tested="métriques"):
    # Effectuer le test de Mann-Whitney
    stat, p_value = mannwhitneyu(metric_model1, metric_model2)

    print("Statistique U:", stat, "Valeur p:", p_value)
    if p_value < 0.05:
        print(f"Les différences de {tested} sont statistiquement significatives.")
    else:
        print(f"Aucune différence significative de {tested} détectée.")

## Metrics

In [3]:
model_with_focal_dice = torch.load("../res/model_metrics/model_with_focal_dice/model_ENB3_FOCAL_DICE_balanced_augmented_3D")
model_with_focal_dice_MIT = torch.load("../res/model_metrics/model_with_focal_dice_MIT/model_MITB4_FOCAL_DICE_balanced_augmented_3D")
model_with_bce_dice_50 = torch.load("../res/model_metrics/model_with_bce_dice_50/model_ENB3_BCE_DICE_balanced_augmented_3D")
model_with_bce_dice_b32 = torch.load("../res/model_metrics/model_with_bce_dice_b32/model_ENB3_BCE_DICE_balanced_augmented_3D")

precision, recall, f1_score = get_metrics(model_with_focal_dice)
precision_MIT, recall_MIT, f1_score_MIT = get_metrics(model_with_focal_dice_MIT)
precision_bce_dice_50, recall_bce_dice_50, f1_score_bce_dice_50 = get_metrics(model_with_bce_dice_50)
precision_bce_dice_b32, recall_bce_dice_b32, f1_score_bce_dice_b32 = get_metrics(model_with_bce_dice_b32)

## Significiance Test

In [17]:
test_mannnwhitneyu(precision, precision_MIT, tested="précision")
test_mannnwhitneyu(recall, recall_MIT, tested="recall")
test_mannnwhitneyu(f1_score, f1_score_MIT, tested="F1 score")

Statistique U: 1120.0 Valeur p: 0.3719912424570482
Aucune différence significative de précision détectée.
Statistique U: 885.0 Valeur p: 0.011977811890149424
Les différences de recall sont statistiquement significatives.
Statistique U: 743.0 Valeur p: 0.0004799214751372957
Les différences de F1 score sont statistiquement significatives.


In [4]:
test_mannnwhitneyu(precision_bce_dice_b32, precision_bce_dice_50, tested="précision")
test_mannnwhitneyu(recall_bce_dice_b32, recall_bce_dice_50, tested="recall")
test_mannnwhitneyu(f1_score_bce_dice_b32, f1_score_bce_dice_50, tested="F1 score")

Statistique U: 1090.0 Valeur p: 0.27152201679090304
Aucune différence significative de précision détectée.
Statistique U: 1518.0 Valeur p: 0.06516903177439388
Aucune différence significative de recall détectée.
Statistique U: 1279.0 Valeur p: 0.8442392855727232
Aucune différence significative de F1 score détectée.
