# Laboratorio de regresión - 5

|                |   |
:----------------|---|
| **Nombre**     |  Paola A. Figueroa Álvarez |
| **Fecha**      |  15/sep/2025 |
| **Expediente** |  751310 |

## Validación

Hemos estado usando `train_test_split` en nuestros modelos anteriores.

¿Por qué?

Porque queremos la mayor cantidad de datos posibles y generalizar

Si la muestra es un subset de la población y queremos generalizar sobre la población, ¿no sería mejor utilizar todos los datos al entrenar un modelo?

Lo que queremos es generalizar a la población o predecir en observaciones nuevas, por lo que no basta usar todo para entrenar.Cuando entrenas en todos los datos, el modelo se ajusta muy bien a esa muestra, pero no tienes forma de saber qué tan bien funcionará en datos nuevos, lo que puede crear overfit. Es por eso que hacemos una cross-validation, para dejar un conjunto de prueba y medir la capacidad de generalizar, no solo el ajuste dentro de la muestra

El propósito de volver a muestrear dentro de nuestro dataset es tener una idea de qué tan buena podría ser la generalización de nuestro modelo. Imagina un dataset ya separado en dos mitades. Utilizas la primera mitad para entrenar el modelo y pruebas en la segunda mitad; la segunda mitad eran datos invisibles para el modelo al momento de entrenar. Esto nos lleva a tres escenario típicos:

1. Si el modelo hace buenas predicciones en la segunda mitad, significa que la primera mitad era "suficiente" para generalizar.
2. Si el modelo no hace buenas predicciones en la segunda mitad, pero sí en la primera mitad, podría ser que había información importante en la segunda mitad que debió haber sido tomada en cuenta al entrenar, o un problema de overfitting.
3. Si el modelo no hace buenas predicciones en la segunda mitad, y tampoco en la primera mitad, se tendrían que revisar los factores y/o el modelo seleccionado.

El caso ideal sería el 1, pero por estadística los errores y varianzas tienen como entrada el número de muestas, por lo que tenemos menos seguridad de nuestros resutados al usar menos muestras. Si vemos que el modelo generaliza bien podemos unir de nuevo el dataset y entrenar sobre el dataset completo.

En el caso 2 está el problema de que no podemos saber qué información es necesaria para el entrenamiento apropiado del modelo; esto nos lleva a pensar que debemos usar el dataset completo para entrenar, pero esto nos lleva al mismo problema de no saber si el modelo puede generalizar.

El problema sólo incrementa si se tienen hiperparámetros en el modelo (e.g. $\lambda$ en regularización).

## Leave-One-Out Cross Validation

Este método de validación es una colección de $n$ `train-test-split`. Teniendo un dataset de $n$ muestras, la lógica es:
1. Saca una muestra del dataset.
2. Entrena tu modelo con las $n-1$ muestras.
3. Evalúa tu modelo en la muestra que quedó fuera con el métrico que más se ajuste a la aplicación.
4. Regresa la muestra al dataset.
5. Repite 1-4 con muestras diferentes hasta haber hecho el procedimiento $n$ veces para $n$ muestras.
6. Calcula la media y desviación estándar de los métricos guardados.

Con los resultados del proceso de validación podemos saber qué tan bueno podría ser el modelo seleccionado con los datos (con/sin transformaciones).

### Ejercicio 1

Utiliza el dataset `Motor Trend Car Road Tests`. Elimina la columna `model` y entrena 32 modelos diferentes utilizando Leave-One-Out Cross Validation con target `mpg`. Utiliza MSE como métrico.

In [14]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression
from scipy import stats 
from sklearn.metrics import mean_squared_error
import statsmodels.api as sm
from sklearn.preprocessing import StandardScaler

In [15]:
data=pd.read_excel("/Users/paofigueroa/Documents/sem 5/Lab de aprendizaje estadístico/Motor Trend Car Road Tests.xlsx")
data.info()
data = data.drop(columns="model")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   model   32 non-null     object 
 1   mpg     32 non-null     float64
 2   cyl     32 non-null     int64  
 3   disp    32 non-null     float64
 4   hp      32 non-null     int64  
 5   drat    32 non-null     float64
 6   wt      32 non-null     float64
 7   qsec    32 non-null     float64
 8   vs      32 non-null     int64  
 9   am      32 non-null     int64  
 10  gear    32 non-null     int64  
 11  carb    32 non-null     int64  
dtypes: float64(5), int64(6), object(1)
memory usage: 3.1+ KB


In [16]:
MSE_lista = []

for i in range(32):
    data_train = data.drop(index=i)
    data_test = data.iloc[[i]]
    
    X_train = data_train.drop(columns=["mpg"])
    y_train = data_train["mpg"].values
    X_test = data_test.drop(columns=["mpg"])
    y_test = data_test["mpg"].values
    
    scaler = StandardScaler().fit(X_train)
    X_train_scaled = scaler.transform(X_train)
    X_train_sm = sm.add_constant(X_train_scaled)
    
    modelo_mpg = sm.OLS(y_train, X_train_sm).fit()
    
    X_test_scaled = scaler.transform(X_test)
    X_test_sm = sm.add_constant(X_test_scaled, has_constant='add')

    y_pred = modelo_mpg.predict(X_test_sm)

    MSE = mean_squared_error(y_test, y_pred)
    MSE_lista.append(MSE)

MSE_lista
print("El MSE promedio es: ", np.mean(MSE_lista))

#La desviación estándar del MSE es:
print("La desviación estándar del MSE es: ", np.std(MSE_lista))

El MSE promedio es:  12.181558006901929
La desviación estándar del MSE es:  17.06739987188854


Interpreta.

## K-Folds Cross-Validation

El dataset `Motor Trend Car Road Tests` sólo tiene 32 muestras, y utilizar un modelo sencillo de regresión múltiple hace que usar LOOCV sea muy rápido. El dataset `California Housing` tiene $20640$ muestras para $9$ columnas, entonces realizar un ajuste sobre una transformación o sobre el modelo y luego calcular el impacto esperado podría tomar más tiempo.

La solución propuesta es dividir el dataset en *k* folds (partes iguales), ajustar en *k-1* folds y probar en el restante.

### Ejercicio 2
Utiliza el dataset `California Housing` y haz K-folds Cross Validation con 10 folds. Utiliza el MSE como métrico.

In [17]:
from sklearn.datasets import fetch_california_housing

housing = fetch_california_housing()
print("Dataset Shape:", housing.data.shape, housing.target.shape)
print("Dataset Features:", housing.feature_names)
print("Dataset Target:", housing.target_names)
X = housing.data
y = housing.target



URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1000)>

In [23]:
housing= pd.read_excel("housing.xlsx")
housing.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,3.2645,52,4.086648,1.024148,1186,1.684659,34.08,-118.35,4.526
1,4.4367,5,6.102041,1.056616,4916,3.23634,34.2,-117.35,3.585
2,3.6944,29,4.048744,0.985229,2449,3.61743,34.08,-118.02,3.521
3,6.5217,52,6.399351,1.087662,765,2.483766,37.81,-122.22,3.413
4,3.6759,44,5.429448,1.051125,1102,2.253579,32.7,-117.18,3.422


In [None]:
# Definir X y Y
cols=housing.columns
x_list = []

for col in cols:
    x_list.append(housing[col].values.reshape(-1, 1))

X = np.hstack(x_list)
y = housing["MedHouseVal"].values.reshape(-1, 1)


In [31]:
shuffle= housing.sample(frac=1, random_state=42)
shuffle.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
20046,3.494,31,4.508637,1.034549,2028,3.892514,34.05,-117.95,0.477
3024,2.875,44,5.43465,1.118541,933,2.835866,37.95,-122.34,0.458
15663,5.1515,17,5.183839,1.036334,5279,2.862798,34.02,-118.11,5.00001
20484,3.2652,12,4.39936,1.027447,12153,2.779735,36.72,-121.68,2.186
9814,4.3009,14,5.847244,1.00315,1845,2.905512,38.71,-121.25,2.78


In [92]:
MSE_lista = []
k = 10
n = len(y)
fold_size = n // k

for i in range(k):
    X_train = np.concatenate([X[:i*fold_size], X[(i+1)*fold_size:]])
    y_train = np.concatenate([y[:i*fold_size], y[(i+1)*fold_size:]])
    X_val = X[i*fold_size:(i+1)*fold_size]
    y_val = y[i*fold_size:(i+1)*fold_size]

    #Estandarizamos
    scaler = StandardScaler()
    X_train = scaler.fit_transform(X_train)
    X_val = scaler.transform(X_val)

    # Entrenamos el modelo
    model = sm.OLS(y_train, sm.add_constant(X_train)).fit()

    # Hacemos predicciones y calculamos el MSE
    y_pred = model.predict(sm.add_constant(X_val))
    mse = mean_squared_error(y_val, y_pred)
    MSE_lista.append(mse)

# Calculamos el MSE promedio
mse_promedio = np.mean(MSE_lista)
desvest = np.std(MSE_lista)
print("La desviación estándar del MSE es: ", desvest)
print("El MSE promedio es: ", mse_promedio)

La desviación estándar del MSE es:  1.4578066169294633e-29
El MSE promedio es:  8.143587844345077e-30


Interpreta.

Supongo que daría resultados parecidos, por lo que generalizaría bien

## Referencia

James, G., Witten, D., Hastie, T., Tibshirani, R.,, Taylor, J. (2023). An Introduction to Statistical Learning with Applications in Python. Cham: Springer. ISBN: 978-3-031-38746-3