L'algorithme de Wilcoxon est un test statistique non paramétrique utilisé pour comparer deux échantillons liés (paires de données) et déterminer si l'un est significativement supérieur ou meilleur que l'autre. Il est idéal pour comparer des modèles lorsque l'on ne peut pas supposer que les données suivent une distribution normale, comme cela peut être le cas pour les résultats des réseaux neuronaux.  

On peut affirmer avec 95 % de confiance qu'un modèle est supérieur à l'autre si la valeur p du test de Wilcoxon est inférieure à 0,05.

**stat** reflète l'ampleur de la variation des résultats des modèles comparés. Plus la valeur de cette statistique est élevée, plus il est probable qu'il y ait une différence réelle entre les modèles.

**p_value** nous donne la probabilité que cette différence soit survenue par hasard.

In [20]:
from scipy.stats import wilcoxon
def testWilcoxon(modele1, modele2):

    # Le modèle 1 est-il meilleur que le modèle 2 ?
    stat, p_value = wilcoxon(modele1, modele2, alternative='greater')

    # Afficher les résultats
    print(f'Statistique du test : {stat}')
    print(f'Valeur p : {p_value}')

    # Vérifier si la différence est statistiquement significative
    if p_value < 0.05:
        print('La différence est statistiquement significative.')
    else:
        print('Pas suffisamment de preuves pour affirmer qu’il y a une différence significative.')



In [21]:
def recuperer_donnees_fichier(nom_modele, liste):
    """
    Récupère les données d'un fichier texte et les ajoute à une liste.

    Args:
        nom_modele (str): Le nom du modèle utilisé pour nommer le fichier.
        liste (list): La liste dans laquelle les données seront ajoutées.

    Returns:
        None
    """
    try:
        # Ouvrir le fichier en mode lecture
        with open(nom_modele, 'r') as fichier:
            # Lire le contenu du fichier et le diviser en éléments
            contenu = fichier.read().split()

            # Convertir les éléments en nombres (si nécessaire) et les ajouter à la liste
            liste.extend(float(element) for element in contenu)
    except Exception as e:
        print(f"Erreur lors de la lecture du fichier : {e}")

In [31]:
def comparer_moyennes(tableau1, tableau2):
    # Calculer la moyenne des deux tableaux
    moyenne1 = sum(tableau1) / len(tableau1) if tableau1 else 0
    moyenne2 = sum(tableau2) / len(tableau2) if tableau2 else 0
    
    # Imprimer les moyennes
    print(f"La moyenne du model 1 est: {moyenne1}")
    print(f"La moyenne du model 2 est: {moyenne2}")
    
    # Comparer les moyennes et afficher le résultat
    if moyenne1 > moyenne2:
        print("Le model 1 a la moyenne la plus élevée.")
    elif moyenne2 > moyenne1:
        print("Le model 2 a la moyenne la plus élevée.")
    else:
        print("Les deux tableaux ont la même moyenne.")

**Premier réseau VS Deuxième réseau**

In [32]:
nomModel1 = "1_1_resultatsROC.txt"
nomModel2 = "1_2_resultatsROC.txt"

resultatsROC_base = []
resultatsROC_modificacion_images = []

recuperer_donnees_fichier(nomModel1, resultatsROC_base)
recuperer_donnees_fichier(nomModel2, resultatsROC_modificacion_images)

comparer_moyennes(resultatsROC_base, resultatsROC_modificacion_images)
print()
testWilcoxon(resultatsROC_base, resultatsROC_modificacion_images)

La moyenne du model 1 est: 0.9875893004740556
La moyenne du model 2 est: 0.9859189433138565
Le model 1 a la moyenne la plus élevée.

Statistique du test : 43.0
Valeur p : 0.0654296875
Pas suffisamment de preuves pour affirmer qu’il y a une différence significative.


Nous pouvons affirmer que le premier réseau est meilleur que le second avec une probabilité de 93,5 %

**Troisième réseau VS Quatrième réseau**

In [34]:
nomModel1 = "2_1_resultatsROC.txt"
nomModel2 = "2_2_resultatsROC.txt"

resultatsROC_base = []
resultatsROC_modificacion_images = []

recuperer_donnees_fichier(nomModel1, resultatsROC_base)
recuperer_donnees_fichier(nomModel2, resultatsROC_modificacion_images)

comparer_moyennes(resultatsROC_base, resultatsROC_modificacion_images)
print()
testWilcoxon(resultatsROC_base, resultatsROC_modificacion_images)

La moyenne du model 1 est: 0.9106784279220875
La moyenne du model 2 est: 0.9004039325606483
Le model 1 a la moyenne la plus élevée.

Statistique du test : 54.0
Valeur p : 0.001953125
La différence est statistiquement significative.


Nous pouvons affirmer que le premier réseau est meilleur que le second avec une probabilité de 99,8 %