- La validación cruzada de K-Folds (K-Folds Cross Validation) es una técnica que se utiliza para evaluar el rendimiento de un modelo de manera más robusta que simplemente dividir los datos en conjuntos de entrenamiento y prueba. En lugar de realizar una sola división de los datos, K-Folds divide los datos en K particiones o "pliegues" (folds) y entrena y prueba el modelo K veces, utilizando un fold diferente como conjunto de prueba en cada iteración. Luego, se promedian las métricas de rendimiento de todas las iteraciones para obtener una estimación más precisa del rendimiento del modelo.

### Aquí hay un ejemplo de cómo implementar K-Folds Cross Validation en scikit-learn utilizando el conjunto de datos felicidad.csv:

In [4]:
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Cargar el conjunto de datos
data = pd.read_csv('/home/jhonfypy/CursoML_Scikit_learni_jf/felicidad.csv')

# Separar las características (X) y la variable objetivo (y)
X = data.drop(columns=['score'])
y = data['score']

# Definir las características categóricas (en este caso, la columna 'country')
categorical_features = ['country']

# Crear un transformador one-hot para las características categóricas
categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Combinar los transformadores para todas las características
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', categorical_transformer, categorical_features)
    ])

# Crear un modelo de regresión lineal
model = LinearRegression()

# Crear un pipeline que incluye el preprocesamiento y el modelo
clf = Pipeline(steps=[('preprocessor', preprocessor),
                      ('model', model)])

# Definir el número de particiones (folds)
num_folds = 5

# Crear un objeto KFold para dividir los datos
kf = KFold(n_splits=num_folds, shuffle=True, random_state=42)

# Inicializar una lista para almacenar los resultados de cada fold
mse_scores = []

# Iterar sobre los folds
for train_index, test_index in kf.split(X):
    # Dividir los datos en entrenamiento y prueba para este fold
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]

    # Ajustar el modelo dentro del pipeline
    clf.fit(X_train, y_train)

    # Realizar predicciones en el conjunto de prueba
    y_pred = clf.predict(X_test)

    # Calcular el error cuadrado medio (MSE) para este fold
    mse = mean_squared_error(y_test, y_pred)
    mse_scores.append(mse)

# Calcular el promedio de los errores cuadrados medios de todos los folds
average_mse = sum(mse_scores) / num_folds

print(f'Error Cuadrado Medio Promedio (K-Folds): {average_mse}')


Error Cuadrado Medio Promedio (K-Folds): 1.2827998073351925


- En este código, primero se carga el conjunto de datos y se separan las características (X) y la variable objetivo (y). Luego, se crea un objeto KFold con n_splits establecido en 5, lo que significa que se realizarán 5 folds.

- En el bucle for, se iterará sobre cada fold, dividiendo los datos en conjuntos de entrenamiento y prueba, ajustando un modelo de regresión lineal en los datos de entrenamiento y calculando el MSE en el conjunto de prueba para cada fold. Los MSE de todos los folds se promedian para obtener el promedio de errores cuadrados medios de todos los folds.

- K-Folds Cross Validation es una técnica útil para evaluar el rendimiento del modelo de manera más robusta y es especialmente útil cuando se tiene un conjunto de datos pequeño o se desea obtener una estimación más precisa del rendimiento del modelo.