# Metricas de evaluación para modelos de Machine Learning

In [2]:
def accuracy(y_true, y_pred):
    """
    Funcion que calcula la exactitud
    :param y_true: valores verdaderos
    :param y_pred: valores predichos
    :return: score de exactitud (accuracy)
    """
    #Iniciando un simple contador
    correct_counter = 0
    #loop de los elementos en y_true y y_pred juntos
    for yt, yp in zip(y_true, y_pred):
        if yt == yp:
            #Si la prediccion es igual al valor verdadero, incrementa el contador
            correct_counter += 1

    return correct_counter/len(y_true)

In [3]:
accuracy([0,1,1,1,0,1,0,0,1], [0,1,1,0,0,0,1,0,1])

0.6666666666666666

#### Las siguientes funciones solo sirven para para clasificaciones binarias.

In [4]:
def true_positive(y_true, y_pred):
    """
    Funcion que calcula los verdaderos positivos
    :param y_true: valores verdaderos
    :param y_pred: valores predichos
    :return: total de verdaderos positivos
    """
    #iniciando
    tp = 0
    for yt, yp in zip(y_true, y_pred):
        if yt == 1 and yp == 1:
            tp +=1

    return tp

In [5]:
def true_negative(y_true, y_pred):
    """
    Funcion que calcula los verdaderos negativos
    :param y_true: valores verdaderos
    :param y_pred: valores predichos
    :return: total de verdaderos negativos
    """
    #iniciando
    tn = 0

    for yt, yp in zip(y_true, y_pred):
        if yt == 0 and yp == 0:
            tn += 1

    return tn

In [6]:
def false_positive(y_true, y_pred):
    """
    Función que calcula los falsos positivos
    :param y_true: valores verdaderos
    :param y_pred: valores predichos
    :return: total de falsos positivos
    """
    #iniciando
    fp = 0

    for yt, yp in zip(y_true, y_pred):
        if yt == 0 and yp == 1:
            fp += 1

    return fp

In [7]:
def false_negative(y_true, y_pred):
    """
    Funcion que calcula los falsos positivos
    :param y_true: valores verdaderos
    :param y_pred: valores predichos
    :return: total de falsos positivos
    """
    #iniciando
    fn = 0
    for yt, yp in zip(y_true, y_pred):
        if yt == 1 and yp == 0:
            fn += 1

    return fn

In [8]:
l1 = [0,1,1,1,0,0,0,1]
l2 = [0,1,1,0,1,1,0,1]

print("Verdaderos positivos: ", true_positive(l1,l2))
print("Verdaderos negativos: ", true_negative(l1,l2))
print("Falsos positivos: ", false_positive(l1,l2))
print("Falsos negativos: ", false_negative(l1, l2))

Verdaderos positivos:  3
Verdaderos negativos:  2
Falsos positivos:  2
Falsos negativos:  1


$accuracy$_$score$ = $\frac{{TP + TN}}{TP + TN + FP + FN}$

In [9]:
from sklearn import metrics
tp = true_positive(l1,l2)
tn = true_negative(l1, l2)
fp = false_positive(l1, l2)
fn = false_negative(l1, l2)
accuracy_score = (tp + tn) / (tp + tn + fp + fn)
print("Exactitud 1: ", accuracy_score)
print("Exactitud 2: ", accuracy(l1, l2))
print("Exactitud 3: ", metrics.accuracy_score(l1, l2))

Exactitud 1:  0.625
Exactitud 2:  0.625
Exactitud 3:  0.625


$Precision$ = $\frac{{TP}}{TP + FP}$

In [10]:
def precision(y_true, y_pred):
    """
    Funcion para calcular la precision
    :param y_true: valores verdaderos
    :param y_pred: valores predichos
    :return: puntaje de precision
    """
    tp = true_positive(y_true, y_pred)
    fp = false_positive(y_true, y_pred)
    precision = tp / (tp + fp)

    return  precision


In [11]:
print("Precision :", precision(l1,l2))

Precision : 0.6


Ahora calcularemos cuantas muestras positivas identifica

$Recall$ = $\frac{{TP}}{TP+FN}$

In [12]:
def recall(y_true, y_pred):
    """
    Funcion que calcula el total de muestras positivas identificadas
    :param y_true: valores verdaderos
    :param y_pred: valores predecidos
    :return: total de muestras positivas identificadas
    """
    tp = true_positive(y_true, y_pred)
    fn = false_negative(y_true, y_pred)
    recall = tp / (tp + fn)

    return recall

In [13]:
print("Total de meustras posivitas identificadas: ", recall(l1,l2))
print("Precision: ",precision(l1,l2))

Total de meustras posivitas identificadas:  0.75
Precision:  0.6


Para tener un buen modelo la precisión y el total de muestras positivas identificadas deben ser altas.
Con esto en mente vamos a gráficar una curva de precisión-recall.

In [None]:
#Creamos unas listas
y_true = [0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
          1, 0, 0, 0, 0, 0, 0, 0, 1, 0]

y_pred = [0.02638412, 0.11114267, 0.31620708,
          0.0490937, 0.0191491, 0.17554844,
          0.15952202, 0.03819563, 0.11639273,
          0.079377, 0.08584789, 0.39095342,
          0.27259048, 0.03447096, 0.04644807,
          0.03543574, 0.18521942, 0.05934905,
          0.61977213, 0.33056815]

thresholds = [0.0490937, 0.05934905, 0.079377,
              0.08584789, 0.11114267, 0.11639273,
              0.15952202, 0.17554844, 0.18521942,
              0.27259048, 0.31620708, 0.33056815,
              0.39095342, 0.61977213]

precisions = []
recalls = []

#Para cada treshold, calcularemos las predicciones de manera binaria
#y agregamos a las listas correspondientes las precisiones y recalls
for i in thresholds:
    temp_prediction = [1 if x >= i else 0 for x in y_pred]
    p = precision(y_true, temp_prediction)
    r = recall(y_true, temp_prediction)
    precisions.append(p)
    recalls.append(r)
