# Laboratorio 5: medidas de desempeño en ML
## Integrantes:
- Hernández Jiménez Erick Yael
- Patiño Flores Samuel
- Robert Garayzar Arturo

# Parte 1
Programa, sin bibliotecas, las funciones para calcular las siguientes medidas de desempeño:

## 1. Accuracy

In [1]:
def calcular_accuracy(TP, TN, FP, FN):
    return (TP + TN) / (TP + TN + FP + FN)

## 2. Error

In [2]:
def calcular_error(TP, TN, FP, FN):
    return 1 - calcular_accuracy(TP, TN, FP, FN)

## Matriz de confusión

### Precisión

In [3]:
def calcular_precision(TP, FP):
    if (TP + FP) == 0:
        return 0
    return TP / (TP + FP)

### Recall

In [4]:
def calcular_recall(TP, FN):
    if (TP + FN) == 0:
        return 0
    return TP / (TP + FN)

### True Positive Rate

In [5]:
def calcular_true_positive_rate(TP, FN):
    return calcular_recall(TP, FN)

### True Negative Rate

In [6]:
def calcular_true_negative_rate(TN, FP):
    if (TN + FP) == 0:
        return 0
    return TN / (TN + FP)

### False Positive Rate

In [7]:
def calcular_false_positive_rate(FP, TN):
    if (FP + TN) == 0:
        return 0
    return FP / (FP + TN)

### False Negative Rate

In [8]:
def calcular_false_negative_rate(FN, TP):
    if (FN + TP) == 0:
        return 0
    return FN / (FN + TP)

### F1-Score

In [9]:
def calcular_f1_score(TP, FP, FN):
    precision = calcular_precision(TP, FP)
    recall = calcular_recall(TP, FN)
    if (precision + recall) == 0:
        return 0
    return 2 * (precision * recall) / (precision + recall)

## Aplicación

Definimos la importación del archivo csv

In [10]:
import csv

def leer_csv(archivo_csv):
    verdaderos = []
    predicciones = []
    with open(archivo_csv, newline='') as archivo:
        lector = csv.DictReader(archivo)
        for fila in lector:
            verdaderos.append(int(fila['verdaderos']))
            predicciones.append(int(fila['predicciones']))
    return verdaderos, predicciones

Definimos el cálculo de matriz de confusión

In [11]:
def calcular_matriz_confusion(verdaderos, predicciones):
    TP = TN = FP = FN = 0
    for v, p in zip(verdaderos, predicciones):
        if v == 1 and p == 1:
            TP += 1
        elif v == 0 and p == 0:
            TN += 1
        elif v == 0 and p == 1:
            FP += 1
        elif v == 1 and p == 0:
            FN += 1
    return TP, TN, FP, FN

### Definimos la función que calcula todas las métricas

In [12]:
def calcular_metricas(archivo_csv):
    verdaderos, predicciones = leer_csv(archivo_csv)
    TP, TN, FP, FN = calcular_matriz_confusion(verdaderos, predicciones)
    
    accuracy = calcular_accuracy(TP, TN, FP, FN)
    error = calcular_error(TP, TN, FP, FN)
    precision = calcular_precision(TP, FP)
    recall = calcular_recall(TP, FN)
    tpr = calcular_true_positive_rate(TP, FN)
    tnr = calcular_true_negative_rate(TN, FP)
    fpr = calcular_false_positive_rate(FP, TN)
    fnr = calcular_false_negative_rate(FN, TP)
    f1_score = calcular_f1_score(TP, FP, FN)
    
    print(f"Accuracy: {accuracy}")
    print(f"Error: {error}")
    print(f"Precision: {precision}")
    print(f"Recall: {recall}")
    print(f"True Positive Rate (TPR): {tpr}")
    print(f"True Negative Rate (TNR): {tnr}")
    print(f"False Positive Rate (FPR): {fpr}")
    print(f"False Negative Rate (FNR): {fnr}")
    print(f"F1-Score: {f1_score}")

Se usó el ejemplo en clase y se redujo la predicción de 3 clases a 2:
- 1: se predijo que la clase era 1
- 0: se predijo que la clase era distinta a 1

In [15]:
archivo_csv = './dataset/Ejercicio_C_Euclidiano.csv'
calcular_metricas(archivo_csv)

Accuracy: 0.6666666666666666
Error: 0.33333333333333337
Precision: 0.5
Recall: 1.0
True Positive Rate (TPR): 1.0
True Negative Rate (TNR): 0.5
False Positive Rate (FPR): 0.5
False Negative Rate (FNR): 0.0
F1-Score: 0.6666666666666666


# Parte 2
Investiga, y en su caso ejemplifica, si las medidas descritas anteriormente están disponibles en alguna biblioteca de Python y proporciona un ejemplo.
> Las medidas de rendimiento descritas anteriormente (Accuracy, Precision, Recall, F1-Score, etc.) están disponibles en varias bibliotecas de Python, siendo la más popular scikit-learn. Esta biblioteca proporciona funciones listas para usar que permiten calcular estas métricas de manera sencilla.
>

In [17]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

Usamos los mismos datos del csv original del ejercicio

In [18]:
verdaderos = [3, 3, 3, 3, 3, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1]
predicciones = [1, 3, 1, 1, 1, 2, 2, 1, 2, 2, 1, 1, 1, 1, 1]

verdaderos_binarios = [1 if v == 1 else 0 for v in verdaderos]
predicciones_binarias = [1 if p == 1 else 0 for p in predicciones]

Calculamos la matriz de confusión y aplicamos las métricas sobre los datos

In [19]:
# Calcular la matriz de confusión
matriz_confusion = confusion_matrix(verdaderos_binarios, predicciones_binarias)

# Calcular métricas de rendimiento
accuracy = accuracy_score(verdaderos_binarios, predicciones_binarias)
precision = precision_score(verdaderos_binarios, predicciones_binarias)
recall = recall_score(verdaderos_binarios, predicciones_binarias)
f1 = f1_score(verdaderos_binarios, predicciones_binarias)

# Imprimir resultados
print("Matriz de confusión:")
print(matriz_confusion)
print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1-Score: {f1}")

Matriz de confusión:
[[5 5]
 [0 5]]
Accuracy: 0.6666666666666666
Precision: 0.5
Recall: 1.0
F1-Score: 0.6666666666666666
