## Actividad práctica: Análisis de precisión vs. recall en la detección de fraude
Objetivo:
Los estudiantes deben aprender a diferenciar entre precisión y recall, y entender por qué recall es más importante que precisión en situaciones como la detección de fraude, donde los falsos negativos pueden ser muy costosos.
Descripción del experimento:
1. Cargar y preprocesar los datos: Utilizaremos un conjunto de datos simulado o el conjunto de datos de detección de fraude (puedes usar cualquier conjunto de datos donde la clase positiva esté muy desbalanceada).
2. Entrenar un modelo de clasificación: Los estudiantes entrenarán un modelo (como un Random Forest o un Árbol de Decisión) para predecir si una transacción es fraudulenta o no.
3. Evaluar el modelo con precisión y recall: Los estudiantes evaluarán el modelo utilizando tanto precisión como recall, observando las diferencias en estas métricas cuando las clases están desbalanceadas.
4. Analizar el impacto de un alto recall: Los estudiantes observarán los efectos de priorizar recall sobre precisión, viendo cómo el modelo puede tener una mayor tasa de falsos positivos pero aún así capturar más fraudes.

In [4]:
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score
import matplotlib.pyplot as plt
import seaborn as sns


In [5]:
#Crear el conjunto de datos simulados
X, y = make_classification(
    n_samples=1000,
    n_features=20,
    n_classes=2,
    n_informative=2,
    n_redundant=10,
    weights=[0.95, 0.05],
    flip_y = 0,
    random_state=42
)


#Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

#Crear un modelo de bosque aleatorio
model = RandomForestClassifier(n_estimators=100, random_state=42)

#Entrenar el modelo
model.fit(X_train, y_train)

#Hacer predicciones
y_pred = model.predict(X_test)

#Calcular la precisión
precision = precision_score(y_test, y_pred)

#Calcular el recall
recall = recall_score(y_test, y_pred)

#Calcular la exactitud
accuracy= accuracy_score(y_test, y_pred)

#imprimir las métricas
print(f'Precision: {precision}')
print(f'Recall: {recall}')
print(f'Accuracy: {accuracy}')



Precision: 1.0
Recall: 0.7222222222222222
Accuracy: 0.9833333333333333
