### Clase 2: Modelos Supervisados y Regresión
- Regresión Lineal
  - Teoría básica y aplicaciones en predicción de riesgo financiero
  - Ejemplo práctico en Risk & Compliance
- Logistic Regression (Clasificación)
  - Aplicaciones en detección de fraude
  - Introducción a la validación de modelos y ajuste de hiperparámetros

---

![0204](../img/0204.png)

En esta clase, profundizaremos en los **modelos supervisados** y exploraremos dos tipos específicos de regresión: **Regresión Lineal Múltiple** y **Regresión Logística**. Ambos enfoques son ampliamente utilizados en el análisis de riesgo financiero y la detección de fraude en instituciones bancarias. Trabajaremos con datasets de ejemplo aplicables al área de **Risk & Compliance**, lo que nos permitirá ver cómo se implementan estos modelos en escenarios del mundo real.

## Varianza y Desviación Estándar

### Varianza
La **varianza** mide cuán dispersos están los valores en un conjunto de datos con respecto a su media. Se calcula como el promedio de los cuadrados de las diferencias entre cada valor y la media. Matemáticamente, para un conjunto de datos con \( n \) elementos:


$$\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2$$

Donde:
- $ x_i $ es cada valor del conjunto de datos.
- $ \mu $ es la media de los datos.
- $ n $ es el número de observaciones.

### Desviación Estándar
La **desviación estándar** es simplemente la raíz cuadrada de la varianza. Es una medida de dispersión más intuitiva que la varianza, ya que tiene las mismas unidades que los datos originales.

$$\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}$$

Donde:
- $ \sigma $ es la desviación estándar.
- $ \sigma^2 $ es la varianza.

### Regresión Lineal Múltiple

![0200](../img/0200.png)

#### Teoría Básica

La **regresión lineal múltiple** es una extensión de la regresión lineal simple. Mientras que en la regresión lineal simple predecimos un valor basado en una sola variable independiente, en la regresión lineal múltiple podemos utilizar múltiples variables independientes (features) para hacer predicciones más precisas. Este modelo intenta ajustar una línea (o hiperplano en dimensiones superiores) que minimiza la distancia entre las predicciones y los valores reales.

La fórmula general de la regresión lineal múltiple es:

$$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n + \varepsilon $$

Donde:
- $y$ es la variable dependiente (el valor que queremos predecir).
- $\beta_0$ es el intercepto.
- $\beta_1, \beta_2, \dots, \beta_n$ son los coeficientes que representan el impacto de cada variable independiente $x_1, x_2, \dots, x_n$.
- $\varepsilon$ es el término de error.

#### Aplicaciones en Predicción de Riesgo Financiero

En el contexto de **Risk & Compliance**, la regresión lineal múltiple puede ser útil para predecir variables continuas relacionadas con el riesgo financiero, como la probabilidad de incumplimiento de crédito, las pérdidas operacionales, o los montos de préstamos predichos. Al usar múltiples características (por ejemplo, el historial de crédito, el ingreso anual, y el monto del préstamo), podemos construir modelos que mejoran la precisión de las predicciones.

#### Ejemplo Práctico: Dataset de Riesgo Crediticio

Para este ejemplo, vamos a utilizar el **dataset de créditos alemanes**, que contiene información sobre varios solicitantes de préstamos y características como el historial crediticio, el monto del préstamo solicitado, la duración del préstamo, y otras variables que nos ayudarán a predecir el riesgo crediticio.

##### Cargando y Explorando los Datos

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Cargar el dataset de créditos alemanes
# url = "https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data"
url = "../data/german.csv"

# El dataset no tiene encabezado, así que añadimos los nombres de las columnas manualmente
data = pd.read_csv(url)

# Exploramos las primeras filas del dataset
data.head()



Unnamed: 0.1,Unnamed: 0,Status,Duration,CreditHistory,Purpose,CreditAmount,Savings,Employment,InstallmentRate,PersonalStatus,...,Property,Age,OtherInstallment,Housing,ExistingCredits,Job,LiablePeople,Telephone,ForeignWorker,Risk
0,0,A11,6,A34,A43,1169,A65,A75,4,A93,...,A121,67,A143,A152,2,A173,1,A192,A201,1
1,1,A12,48,A32,A43,5951,A61,A73,2,A92,...,A121,22,A143,A152,1,A173,1,A191,A201,2
2,2,A14,12,A34,A46,2096,A61,A74,2,A93,...,A121,49,A143,A152,1,A172,2,A191,A201,1
3,3,A11,42,A32,A42,7882,A61,A74,2,A93,...,A122,45,A143,A153,1,A173,2,A191,A201,1
4,4,A11,24,A33,A40,4870,A61,A73,3,A93,...,A124,53,A143,A153,2,A173,2,A191,A201,2


El concepto de **train-test split** en machine learning se refiere al proceso de dividir un conjunto de datos en dos partes: uno para entrenar el modelo (**train set**) y otro para evaluar su desempeño (**test set**). El propósito de esta división es asegurarse de que el modelo aprenda de un subconjunto de los datos y luego se evalúe de manera objetiva con datos que no ha visto antes. Esto ayuda a medir la capacidad del modelo para generalizar, es decir, su habilidad para hacer predicciones precisas con nuevos datos.

Por ejemplo, imagina que estás entrenando un modelo para predecir el precio de casas. Tienes un conjunto de datos con 1000 casas, sus características (como tamaño, número de habitaciones, ubicación, etc.) y sus precios. En un **train-test split**, podrías usar 800 de esas casas para entrenar tu modelo y las 200 restantes para probar qué tan bien predice el modelo los precios de esas 200 casas que no utilizó durante el entrenamiento.

Este enfoque ayuda a evitar el sobreajuste, que ocurre cuando el modelo se ajusta demasiado a los datos de entrenamiento y no puede hacer buenas predicciones con datos nuevos.

In [2]:
# Definimos las características (X) y la variable objetivo (y)
X = data[['Duration', 'Age']]  # Usamos solo algunas variables para simplificar
y = data['CreditAmount']

# Dividimos los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Entrenamos el modelo de regresión lineal
modelo_lineal = LinearRegression()
modelo_lineal.fit(X_train, y_train)

LinearRegression()

In [3]:
sim_data = pd.DataFrame({
    'Duration': [12, 48],
    'Age': [20, 45]
})

In [4]:
modelo_lineal.predict(sim_data)

array([1722.33783155, 7776.60096213])

1. **Error cuadrático medio (MSE)**: 
   El MSE es la media de los cuadrados de los errores entre los valores predichos por el modelo y los valores reales. Este error nos da una idea de cuánto, en promedio, se desvían las predicciones del modelo respecto a los valores reales. Se calcula como:

   $$
   \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
   $$

   Donde:
   - $y_i$ son los valores reales.
   - $\hat{y}_i$ son los valores predichos.
   - $n$ es el número de observaciones.

2. **Error cuadrático medio raíz (RMSE)**:
   El RMSE es simplemente la raíz cuadrada del MSE. Al tomar la raíz cuadrada, llevamos la métrica a las mismas unidades que las variables originales, lo que hace que la interpretación sea más fácil. Se calcula como:

   $$
   \text{RMSE} = \sqrt{\text{MSE}}
   $$

   Este valor representa, en promedio, **cuánto se están desviando las predicciones del modelo respecto a los valores reales**. 

3. **Coeficiente de Determinación (R²)**
El Coeficiente de Determinación, conocido como R², es una métrica que mide qué porcentaje de la variabilidad en los datos puede ser explicada por el modelo. Es una medida de qué tan bien se ajusta el modelo a los datos.

Interpretación:

- Un valor de R² = 1 significa que el modelo explica perfectamente la variabilidad de los datos.
- Un valor de R² = 0 indica que el modelo no explica ninguna de las variaciones en los datos.
- Un valor negativo sugiere que el modelo es peor que simplemente predecir la media de los datos.

In [5]:
# Realizamos predicciones
y_pred = modelo_lineal.predict(X_test)

# Evaluación del modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Error Cuadrático Medio (MSE): {mse}")
print(f"Coeficiente de Determinación (R2): {r2}")

Error Cuadrático Medio (MSE): 3877928.5352162123
Coeficiente de Determinación (R2): 0.33266064071707646


In [6]:
np.sqrt(mean_squared_error(y_test, y_pred))

1969.2456767036997

In [7]:
# En resumen
data = pd.read_csv("../data/german.csv")

X = data[['Duration', 'InstallmentRate','Age', 'ExistingCredits']]  # Usamos solo algunas variables para simplificar
y = data['CreditAmount']

# Dividimos los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Entrenamos el modelo de regresión lineal
modelo_lineal = LinearRegression()
modelo_lineal.fit(X_train, y_train)

# Realizamos predicciones
y_pred = modelo_lineal.predict(X_test)

# Evaluación del modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Error Cuadrático Medio (MSE): {mse}")
print(f"Coeficiente de Determinación (R2): {r2}")

print(f"Raíz del Error Cuadrático Medio (RMSE): {np.sqrt(mean_squared_error(y_test, y_pred))}")

Error Cuadrático Medio (MSE): 3203437.013182384
Coeficiente de Determinación (R2): 0.44873156261990177
Raíz del Error Cuadrático Medio (RMSE): 1789.8147985706187


In [8]:
y.describe()

count     1000.000000
mean      3271.258000
std       2822.736876
min        250.000000
25%       1365.500000
50%       2319.500000
75%       3972.250000
max      18424.000000
Name: CreditAmount, dtype: float64

### Regresión Logística (Clasificación)

![0205](../img/0205.png)

#### Teoría Básica

La **regresión logística** es un tipo de modelo supervisado utilizado para problemas de clasificación binaria. A diferencia de la regresión lineal, donde el objetivo es predecir un valor continuo, la regresión logística se utiliza para predecir la probabilidad de que un evento ocurra, lo que la convierte en una excelente herramienta para la **detección de fraude** o la **clasificación de riesgo crediticio**.

La fórmula de la regresión logística es:

$$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n + \varepsilon $$

El resultado es una probabilidad entre 0 y 1 que puede usarse para clasificar los resultados. Por ejemplo, si la probabilidad predicha es mayor al 50%, clasificamos el resultado como **fraude**; de lo contrario, como **no fraude**.

#### Aplicaciones en Detección de Fraude

En el ámbito de **Risk & Compliance**, la regresión logística es ampliamente utilizada para detectar actividades fraudulentas, como transacciones inusuales en cuentas bancarias. Al entrenar el modelo con datos históricos de transacciones etiquetadas como fraudulentas o no fraudulentas, el modelo puede predecir si una nueva transacción es sospechosa o no.

#### Ejemplo Práctico: Dataset de Detección de Fraude en Tarjetas de Crédito

Para este ejemplo, utilizaremos el popular **dataset de fraude de tarjetas de crédito** disponible en Kaggle. Este dataset contiene transacciones de tarjetas de crédito y una etiqueta que indica si la transacción fue fraudulenta o no.

##### Cargando y Explorando los Datos


In [9]:
# Cargar el dataset de detección de fraude de Kaggle (descargarlo previamente)
# URL del dataset: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud

# Asegurarse de tener el dataset descargado y cargado en la ruta correcta
data_fraude = pd.read_csv('../data/creditcard_sample.csv')

# Exploramos las primeras filas del dataset
data_fraude.head()

Unnamed: 0.1,Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,...,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,109426,71380.0,-0.338602,0.533081,1.571134,-0.917591,0.014552,0.057794,0.213535,0.258981,...,-0.005347,-0.074457,-0.091988,-0.287358,-0.433472,0.898499,-0.009705,0.031441,0.79,0
1,60727,49468.0,1.377341,-0.979363,0.33715,-2.269548,-1.40664,-0.741113,-0.901013,-0.011352,...,-0.183365,7e-06,-0.088012,0.01962,0.410582,0.092325,0.036929,0.01054,15.21,0
2,134714,80927.0,-0.359168,0.873519,1.536265,-0.012232,0.103233,-0.782708,0.761191,-0.119662,...,-0.24785,-0.569687,-0.00193,0.465619,-0.260043,0.01525,0.069239,-0.132454,12.27,0
3,39208,39741.0,1.485976,-1.002806,0.551333,-1.391635,-1.6473,-0.846044,-1.072924,-0.073466,...,-0.165074,-0.124657,0.067114,0.492176,0.310194,-0.232534,0.024146,0.009114,1.0,0
4,84603,60385.0,0.585405,-1.001495,0.881673,1.585707,-1.151642,0.271417,-0.354159,0.205657,...,0.30499,0.395444,-0.28852,0.069234,0.287207,-0.237834,0.023448,0.078104,283.5,0


In [10]:
# Verificamos el balance de clases
data_fraude['Class'].value_counts()

0    9980
1      20
Name: Class, dtype: int64

In [11]:
# Definimos las características (X) y la variable objetivo (y)
X = data_fraude.drop(columns=['Class', 'Time'])  # Eliminamos la columna 'Time' y 'Class'
y = data_fraude['Class']

# Dividimos los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

In [12]:
# Entrenamos un modelo de regresión logística
from sklearn.linear_model import LogisticRegression

modelo_logistico = LogisticRegression(max_iter=1000)
modelo_logistico.fit(X_train, y_train)

# Realizamos predicciones
y_pred_logit = modelo_logistico.predict(X_test)

# Evaluación del modelo
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

print(f"Exactitud (Accuracy): {accuracy_score(y_test, y_pred_logit)}")
print("Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred_logit))
print("Reporte de Clasificación:")
print(classification_report(y_test, y_pred_logit))


Exactitud (Accuracy): 0.9986666666666667
Matriz de Confusión:
[[2992    2]
 [   2    4]]
Reporte de Clasificación:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00      2994
           1       0.67      0.67      0.67         6

    accuracy                           1.00      3000
   macro avg       0.83      0.83      0.83      3000
weighted avg       1.00      1.00      1.00      3000

