<a href="https://colab.research.google.com/github/lorenzomazzante/ML01/blob/main/Functions_performances_classifieur.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ML01 : Fonctions - Performances d'un classifieur

In [21]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

L'objectif est d'implémenter l'ensemble des fonctions ci-dessous. Pour donner un exemple des paramètres que chaque fonction pourra considérer, vous pouvez par exemple considerer l'exemple de valeurs ci-dessous.

In [22]:
Y_set = [1,2,3] # Liste de toutes les classes possibles
YR = np.array([1,2,1,3,3,1,1,2]) # vecteurs des classes réelles pour chaque observation
Yhat = np.array([1,1,1,2,3,3,1,2]) # vecteurs des classes prédites pour chaque observation
# Exemple avec fonction de perte quadratique :
K = len(Y_set)
L = np.zeros((K,K))
for k in range(K):
    for l in range(K):
        L[k,l] = (l-k)*(l-k)

print('Y_set =', Y_set)
print('YR =', YR)
print('Yhat =', Yhat)
print('L =', L)

Y_set = [1, 2, 3]
YR = [1 2 1 3 3 1 1 2]
Yhat = [1 1 1 2 3 3 1 2]
L = [[0. 1. 4.]
 [1. 0. 1.]
 [4. 1. 0.]]


## Implémentation des fonctions :

Risque d'erreur empirique moyen :

In [23]:
def compute_average_risk(YR, Yhat, Y_set, L):
    '''
    Parameters
    ----------
    YR : DataFrame
        Real labels.
    Yhat : Array
        Predicted labels.
    Y_set : list
        List of all possible classes
    L : Array
        Loss Function.

    Returns
    -------
    r : float
        Global risk.
    '''
    K = len(Y_set)
    n = len(YR)

    R = compute_risk_per_class(YR, Yhat, Y_set, L)

    pi = np.zeros(K)
    for idx_k in range (K):
      k = Y_set[idx_k]
      pi[idx_k] = np.sum(YR==k)/n

    r = np.dot(pi,R)

    return r

Accuracy globale :

In [24]:
def compute_accuracy(YR, Yhat):
    '''
    Parameters
    ----------
    YR : DataFrame
        Real labels.
    Yhat : Array
        Predicted labels.

    Returns
    -------
    Acc : float
        Accuracy.
    '''
    n = len(YR)
    Acc = np.sum(YR==Yhat)/n
    return Acc

Accuracy par classe :

In [25]:
def compute_accuracy_per_class(YR, Yhat, Y_set):
    '''
    Parameters
    ----------
    YR : DataFrame
        Real labels.
    Yhat : Array
        Predicted labels.
    Y_set : list
        List of all possible classes

    Returns
    -------
    Acc_per_class : Array
        Accuracies per class
    '''

    K = len(Y_set)
    Acc_per_class = np.zeros(K)

    for idx_k in range (K):
      k = Y_set[idx_k]
      n_k = np.sum(YR==k)
      Ik = np.where(YR==k)[0]

      Acc_per_class[idx_k] = np.sum(Yhat[Ik]==k)/n_k

    return Acc_per_class

Matrice de confusion :

In [26]:
def compute_confusion_matrix(YR, Yhat, Y_set):
    '''
    Parameters
    ----------
    YR : DataFrame
        Real labels.
    Yhat : Array
        Predicted labels.
    K : int
        Number of classes.

    Returns
    -------
    confmat : Array
        Confusio Matrix
    '''
    K = len(Y_set)
    confmat = np.zeros((K,K))

    for idx_k in range (K):
      k = Y_set[idx_k]
      nk = np.sum(YR==k)
      Ik = np.where(YR==k)[0]

      for idx_l in range (K):
        l = Y_set[idx_l]
        confmat[idx_k,idx_l] = np.sum(Yhat[Ik]==l)/nk

    return confmat

Risques d'erreurs par classe :

In [27]:
def compute_risk_per_class(YR, Yhat, Y_set, L):
    '''
    Parameters
    ----------
    YR : DataFrame
        Real labels.
    Yhat : Array
        Predicted labels.
    Y_set : list
        List of all possible classes
    L : Array
        Loss Function.

    Returns
    -------
    R : Array of floats
        Conditional risks.
    '''

    K = len(Y_set)
    R = np.zeros(K)

    confmat = compute_confusion_matrix(YR, Yhat, Y_set)

    for idx_k in range (K):
      R[idx_k] = np.dot(L[idx_k,:],confmat[idx_k,:])

    return R

In [28]:
print('Risque d\'erreur empirique moyen :', compute_average_risk(YR, Yhat, Y_set, L))
print('Accuracy globale :', compute_accuracy(YR, Yhat))
print('Accuracy par classe :', compute_accuracy_per_class(YR, Yhat, Y_set))
print('Matrice de confusion: \n', compute_confusion_matrix(YR, Yhat, Y_set))
print('Risques d\'erreurs par classe :', compute_risk_per_class(YR, Yhat, Y_set, L))


Risque d'erreur empirique moyen : 0.75
Accuracy globale : 0.625
Accuracy par classe : [0.75 0.5  0.5 ]
Matrice de confusion: 
 [[0.75 0.   0.25]
 [0.5  0.5  0.  ]
 [0.   0.5  0.5 ]]
Risques d'erreurs par classe : [1.  0.5 0.5]
