In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Empirical Risk Minimization (ERM)

## Empirical Risk vs. Expected Risk
En el contexto del aprendizaje automático, el objetivo *es encontrar un modelo que minimice la pérdida en los datos de prueba* y no solo en los datos de entrenamiento. Para formalizar esta idea, se definen dos conceptos clave:

- **Expected Risk (Riesgo Esperado):** Es la pérdida promedio que el modelo tendría sobre toda la distribución de datos. Se define como:
  
   $$R(f) = \mathbb{E}[\ell(y, f(x))] = \int \ell(y, f(x)) p(x, y) dx dy$$
  
  Como la distribución real de los datos  $p(x, y)$  no es conocida, no podemos calcular este riesgo directamente.

- **Empirical Risk (Riesgo Empírico):** Es la estimación del riesgo esperado usando un conjunto finito de datos de entrenamiento $\{(x_n, y_n)\}_{n=1}^{N}$:
  
  $$R_{emp}(f) = \frac{1}{N} \sum_{n=1}^{N} \ell(y_n, f(x_n))$$
  
  El **Empirical Risk Minimization (ERM)** consiste en minimizar este riesgo empírico para encontrar los parámetros óptimos del modelo.

## Necesidad de un Test Set
Minimizar el riesgo empírico puede llevar a un modelo que se desempeña bien en los datos de entrenamiento pero no generaliza a nuevos datos. Para evaluar la capacidad del modelo de generalizar, se dividen los datos en:

- **Training Set (Conjunto de Entrenamiento):** Se usa para ajustar los parámetros del modelo.
- **Validation Set (Conjunto de Validación):** Se usa para ajustar hiperparámetros y evitar sobreajuste (*overfitting*).
- **Test Set (Conjunto de Prueba):** Se usa solo al final para evaluar la generalización del modelo en datos no vistos.

## Regularización: Evitar el Sobreajuste
Cuando un modelo es demasiado complejo, puede aprender no solo los patrones de los datos de entrenamiento, sino también el ruido. Para evitar este sobreajuste, se emplea **regularización**, que penaliza la complejidad del modelo.

Algunas técnicas comunes son:

- **Regularización L2 (Ridge Regression):** Agrega un término de penalización sobre la magnitud de los parámetros:
  
$$  R_{reg}(f) = \frac{1}{N} \sum_{n=1}^{N} \ell(y_n, f(x_n)) + \lambda \|\theta\|^2 $$  
  Donde \( \lambda \) controla la cantidad de regularización.

- **Regularización L1 (Lasso Regression):** Similar a la regularización L2, pero en lugar de penalizar la norma cuadrática, penaliza la norma absoluta de los parámetros.

## Cross-Validation: Evaluación del Modelo
La validación cruzada es una técnica utilizada para evaluar el rendimiento de un modelo sin desperdiciar datos en un único conjunto de validación.

- **K-Fold Cross-Validation:**
  - Se divide el conjunto de datos en $K$ partes.
  - Se entrena el modelo $K$ veces, usando $K-1$ partes para entrenar y una para validar.
  - Se promedian los resultados para obtener una mejor estimación del rendimiento del modelo.

Esta técnica ayuda a seleccionar el mejor modelo e hiperparámetros sin riesgo de sobreajustar a un conjunto de validación específico.

### Ejemplo de emprical risk (usando MSE) vs expected risk
#### MSE: Mean Squared Error

In [None]:
from sklearn.metrics import mean_squared_error

y_true = np.array([1, 2, 3])
y_pred = np.array([1.1, 1.9, 2.8])  # y_pred == y_hat
empirical_risk = mean_squared_error(y_true, y_pred)
print(f"Empirical risk (MSE): {empirical_risk}")

Empirical risk (MSE): 0.020000000000000035


### Dataset: California housing

In [7]:
from sklearn.datasets import fetch_california_housing

In [None]:
data = fetch_california_housing()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name="MedHouseVal")  # El target es la columna MedHouseVal

In [25]:
print(type(data))
print(type(data.data))
print(data.data.shape)
print(f"#examples: {data.data.shape[0]}, #features: {data.data.shape[1]}")
print("target: ", data.target, "shape: ", data.target.shape)
print("feature names: ", data.feature_names)

<class 'sklearn.utils._bunch.Bunch'>
<class 'numpy.ndarray'>
(20640, 8)
#examples: 20640, #features: 8
target:  [4.526 3.585 3.521 ... 0.923 0.847 0.894] shape:  (20640,)
feature names:  ['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude']


### EDA: Exploratory data analysis


In [33]:
print("Features (X):\n", X.head())  # Primeras 5 filas de features

Features (X):
    MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0  8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
1  8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
2  7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
3  5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
4  3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   

   Longitude  
0    -122.23  
1    -122.22  
2    -122.24  
3    -122.25  
4    -122.25  


In [36]:
X.describe()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
count,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0
mean,3.870671,28.639486,5.429,1.096675,1425.476744,3.070655,35.631861,-119.569704
std,1.899822,12.585558,2.474173,0.473911,1132.462122,10.38605,2.135952,2.003532
min,0.4999,1.0,0.846154,0.333333,3.0,0.692308,32.54,-124.35
25%,2.5634,18.0,4.440716,1.006079,787.0,2.429741,33.93,-121.8
50%,3.5348,29.0,5.229129,1.04878,1166.0,2.818116,34.26,-118.49
75%,4.74325,37.0,6.052381,1.099526,1725.0,3.282261,37.71,-118.01
max,15.0001,52.0,141.909091,34.066667,35682.0,1243.333333,41.95,-114.31


In [None]:
for column in X.columns.values: 
    print(column, X[column].isnull().sum())

# No null values on the data

MedInc 0
HouseAge 0
AveRooms 0
AveBedrms 0
Population 0
AveOccup 0
Latitude 0
Longitude 0


In [38]:
print("\nTarget (y):\n", y.head())   # Primeros 5 valores objetivo


Target (y):
 0    4.526
1    3.585
2    3.521
3    3.413
4    3.422
Name: MedHouseVal, dtype: float64


In [41]:
print("\n y stats: \n")
y.describe()


 y stats: 



count    20640.000000
mean         2.068558
std          1.153956
min          0.149990
25%          1.196000
50%          1.797000
75%          2.647250
max          5.000010
Name: MedHouseVal, dtype: float64