Este código importa la función fetch_california_housing de sklearn.datasets y la invoca para cargar el conjunto de datos de Vivienda de California. 

Este conjunto de datos se almacena en la variable data, que contiene tanto las características como la variable de destino.

In [1]:
from sklearn.datasets import fetch_california_housing 
data = fetch_california_housing()

Aquí, usamos la biblioteca Pandas para crear un DataFrame X que contiene los datos de características de data.data. 

Las columnas del DataFrame se etiquetan con data.feature_names. 

La variable objetivo, que representa la mediana de los valores de las viviendas, se almacena por separado en y.

In [2]:
import pandas as pd 
X = pd.DataFrame(data.data, columns=data.feature_names) 
y = data.target

Este código inicializa la validación cruzada K-Fold utilizando la clase KFold de sklearn model_selection. 

Configuramos la instancia kf con 5 divisiones. 

La opción shuffle=True aleatoriza el orden de los puntos de datos, y random_state=42 garantiza que esta reorganización sea consistente en múltiples ejecuciones. 

Esta configuración suele ser suficiente para comenzar a evaluar el rendimiento de un modelo con validación cruzada.

In [3]:
from sklearn.model_selection import KFold
k = 5 
kf = KFold(n_splits=k, shuffle=True, random_state=42)

Importamos la clase LinearRegression desde sklearn.linear_model y creamos un modelo de instancia. 

Este modelo se utilizará para realizar la regresión lineal en el conjunto de datos.

In [4]:
from sklearn.linear_model import LinearRegression 
model = LinearRegression()

Esta línea utiliza la función cross_val_score para evaluar el modelo utilizando el conjunto de datos X y el objetivo y. La validación cruzada se realiza mediante la instancia kf de Kfold, y el rendimiento del modelo se mide mediante la puntuación R².

In [5]:
from sklearn.model_selection import cross_val_score 
scores = cross_val_score(model, X, y, cv=kf, scoring='r2')

Esta parte calcula la puntuación R² promedio de todos los pliegues. 

Primero se imprimen las puntuaciones de cada pliegue, seguidas de la puntuación promedio. 

El uso de np.mean() calcula la media de las puntuaciones obtenidas durante la validación cruzada.

In [6]:
import numpy as np 

average_r2 = np.mean(scores) 

print(f"Puntuación R² para cada pliegue: {[round(score, 4) for score in scores]}")
print(f"R² promedio en {k} pliegues: {average_r2:.2f}")

Puntuación R² para cada pliegue: [np.float64(0.5758), np.float64(0.6137), np.float64(0.6086), np.float64(0.6213), np.float64(0.5875)]
R² promedio en 5 pliegues: 0.60
