# Tutorial de Big Data (UdeSA) 2025
## Tutorial 7 
### Cross-validation


**Objetivo:** 
Que se familiaricen con la técnica de K-fold Cross Validation


In [None]:
import pandas as pd
import numpy as np
from scipy import stats
from ISLP import load_data

from matplotlib import pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures 
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

Vamos a trabajar con la base `Auto` de [ISLP](https://islp.readthedocs.io/en/latest/datasets/Auto.html).

Tiene información para 392 vehículos. Kilometraje de gasolina, caballos de fuerza El dataset tiene las siguiente variables:
- mpg: millas por galón
- cylinders: Número de cilindros entre 4 y 8
- displacement: Cilindrada o desplazamiento del motor (pulgadas cúbicas)
- horsepower: Caballos del motor
- weight: Peso del vehículo (libras)
- acceleration: Tiempo de aceleración de 0 a 100 km/h (seg.)
- year: Año del modelo (módulo 100)
- origin: Origen del vehículo (1. Americano, 2. Europeo, 3. Japonés)
- name: Nombre del vehículo


In [None]:
auto = load_data("Auto")

# Dimensión de la base
print("Dimensión del dataframe:", auto.shape)

# Variables e información
#print(auto.dtypes)
print(auto.info())

auto.head()

In [None]:
# Hay duplicados?
print("Duplicados:", auto.duplicated().sum())

# Hay valores faltantes?
print("\n Missings:\n", auto.isnull().sum()) # conteo
#print(auto.isnull().mean() * 100) # como porcentaje

# No hay duplicados ni missing values

In [None]:
# Le cambiamos el formato a la salida de la estadistica descriptiva 
pd.set_option('display.float_format', lambda x: '%.2f' % x) # prueben con '%.5f', como luce?

# Inspección rápida de las variables y sus valores
auto.describe()

In [None]:
# Recordamos que la variable "origin" es categorica. 
# Origin: Origen del vehículo (1. Americano, 2. Europeo, 3. Japonés)
auto["origin"].value_counts()

Creamos dummies (variables categóricas binarias) con la función de pandas [get_dummies()](https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html) 

In [None]:
origin_dummies = pd.get_dummies(auto['origin'], prefix='origin')

# Concatenamos las nuevas variables con el df original
auto_d = pd.concat([auto, origin_dummies], axis=1)
auto_d.tail()


Ahora vamos a trabajar con `mpg` como **variable dependiente** y `horsepower` como **predictor**

In [None]:
# Guardo los vectores de variable dependiente y de variable independiente respectivamente:
y = auto_d['mpg']
X = auto_d['horsepower']
X = np.array(X).reshape((-1, 1))

### Muestras aleatorias de Entrenamiento (train) y Testeo (test)
Dividimos la base de entrenamiento y testeo de manera aleatorea:

In [None]:
# Parto la base en dos y transformo el vector x: 
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 110)

Siempre chequear que la base de entrenamiento (train) y de testeo (test) sean realmente aleatorias. Una forma es mirar la estadística descriptiva:

In [None]:
estadisticas_x_train = pd.Series(x_train.flatten()).describe()
estadisticas_x_test = pd.Series(x_test.flatten()).describe()
estadisticas_y_train = y_train.describe()
estadisticas_y_test = y_test.describe()

estadisticas = pd.DataFrame({
    'x_train': estadisticas_x_train,
    'x_test': estadisticas_x_test,
    'y_train': estadisticas_y_train,
    'y_test': estadisticas_y_test
})

print(estadisticas)

#### Para Probar: Que pasa con la estdistica descriptiva cuando cambian la opcion de `random_state`?

Otra alternativas es hacer una tabla de diferencia de medias (t-test) entre el grupo de entrenamiento y de testeo:

In [None]:
# Calcula los estadísticos
estadisticos = pd.DataFrame({
    'N train': [x_train.shape[0], y_train.shape[0]],
    'Mean train': [x_train.mean(), y_train.mean()],
    'sd train': [x_train.std(), y_train.std()],
    'N test': [x_test.shape[0], y_test.shape[0]],
    'Mean test': [x_test.mean(), y_test.mean()],
    'sd test': [x_test.std(), y_test.std()],
})

# Calcula el t-test y p-value
t_test_x = stats.ttest_ind(x_train.flatten(), x_test.flatten())
t_test_y = stats.ttest_ind(y_train, y_test)

estadisticos['t-test'] = [t_test_x.statistic, t_test_y.statistic]
estadisticos['p-value'] = [t_test_x.pvalue, t_test_y.pvalue]

# Define las variables como índice
estadisticos.index = ['horsepower', 'mpg']

# Exporta a Excel
estadisticos.to_excel('estadisticos.xlsx')

## 1. Enfoque de Validación

In [None]:
# Regresión lineal
lreg=LinearRegression()

# Estimación del modelo con base de entrenamiento
lreg.fit(x_train,y_train)
print("Coeficiente:", lreg.coef_) #pendiente

# Predicción de 'y' con base de testeo (y sombrerito)
y_pred_lreg_train=lreg.predict(x_train)
y_pred_lreg=lreg.predict(x_test)

# Evaluación del modelo (model assesment)
print("R2 afuera de la muestra:", round(r2_score(y_test,y_pred_lreg),2))
print("R2 adentro de la muestra:", round(r2_score(y_train,y_pred_lreg_train),2))

# Error Cuadrático Medio (MSE de testeo)
mse_test_l = mean_squared_error(y_test, y_pred_lreg)
mse_train_l = mean_squared_error(y_train, y_pred_lreg_train)

print('Error cuadrático medio (test):', round(mse_test_l, 2))
print('Error cuadrático medio (train):', round(mse_train_l, 2))

In [None]:
# Visualizamos en la muestra de testeo, la predicción de regresión lineal con un scatter plot
plt.plot(x_test, y_test, 'o', alpha=0.7)
plt.plot(x_test, y_pred_lreg, color="red")
plt.xlabel('Caballos del motor (horsepower)')
plt.ylabel('Millas por galón (mpg)')
plt.title('Evaluación del modelo de regresión lineal  (d=1)')

#### Regresiónes Polinómicas
Implican una transformación polinómica de las $X$, para luego implementar la regresión por MCO (Mínimos Cuadrados Ordinarios).

In [None]:
# Veamos un modelo cuadrático:
poly = PolynomialFeatures(degree = 2, include_bias=False) 
# Recordar setear include_bias=False dado que en la regresión lineal -con LinearRegression- se incluirá la  
#  constante (esto suma una columna de 1s)

# Transformamos el vector columna en una matriz para tener en cuenta el grado del polinomio de interés
print('X antes de la transformación:\n', x_train[:5,])
x_train_poly = poly.fit_transform(x_train)
x_test_poly = poly.fit_transform(x_test)  
np.set_printoptions(suppress = True) # evita que el print salga con notación científica
print('X luego de la transformación:\n', x_train_poly[:5,])


In [None]:
# Ajustamos el modelo
model = LinearRegression().fit(x_train_poly, y_train) 
print('\nIntercepto:', model.intercept_)
print('Coeficientes:', model.coef_)


In [None]:
# Calculamos el Error Cuadrático Medio
y_pred_poly = model.predict(x_test_poly)
mse_test_d2 = mean_squared_error(y_test, y_pred_poly)
print('Error cuadrático medio (test):', mse_test_d2)

In [None]:
# tarea para la casa: R2 y MSE testeo y train

In [None]:
# Creamos un nuevo vector de X y aplicamos las transformaciones
X_seq = np.linspace(x_test.min(), x_test.max()).reshape(-1,1) 
print(X_seq[:5,])
# Valores entre el minimo y el maximo de X. 
# linspace por default crea 50 valores
# Aplicamos las transformaciones polinomicas
X_seq_poly = poly.fit_transform(X_seq) 
print(X_seq_poly[:5,])

# Gráfico en la base de entrenamiento para selecciónar el modelo (Model Selection)
plt.figure()
plt.scatter(x_test, y_test, alpha=0.7)
plt.plot(X_seq, model.predict(X_seq_poly),color="red")
plt.xlabel('Caballos del motor (horsepower)')
plt.ylabel('Millas por galón (mpg)')
plt.title("Evaluación del modelo de regresión cuadrático  (d=2)")
plt.show()

In [None]:
# Veamos un modelo cúbico:
poly = PolynomialFeatures(degree = 3, include_bias=False) 

x_train_poly = poly.fit_transform(x_train)
x_test_poly = poly.fit_transform(x_test)  
  
model = LinearRegression().fit(x_train_poly, y_train) 
y_pred_poly = model.predict(x_test_poly)

mse_test_d3 = mean_squared_error(y_test, y_pred_poly)

print('\nIntercepto:', model.intercept_)
print('Coeficientes:', model.coef_)
print('Error cuadrático medio (test):', mse_test_d3)

A priori, viendo el ECM, parecería que la regresión polinomial de grado 2 es la que mejor funciona 

In [None]:
# Creamos un nuevo vector de X y aplicamos las transformaciones
X_seq = np.linspace(x_test.min(), x_test.max()).reshape(-1,1) 
print(X_seq[:5,])
# Valores entre el minimo y el maximo de X. 
# linspace por default crea 50 valores
# Aplicamos las transformaciones polinomicas
X_seq_poly = poly.fit_transform(X_seq) 
print(X_seq_poly[:5,])

# Gráfico en la base de entrenamiento para selecciónar el modelo (Model Selection)
plt.figure()
plt.scatter(x_test, y_test, alpha=0.7)
plt.plot(X_seq, model.predict(X_seq_poly),color="red")
plt.xlabel('Caballos del motor (horsepower)')
plt.ylabel('Millas por galón (mpg)')
plt.title("Evaluación del modelo de regresión cúbico (d=3)")
plt.show()

In [None]:
#hacer este grafico de y_predic y y_train

### Enfoque de validación con una nueva participación
Ahora supongamos que cambiamos la muestra de entrenamienta y de testeo. Repetimos la selección y evaluación del modelo

In [None]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 50)

# Qué error esperarían que obtengamos esta vez?
poly = PolynomialFeatures(degree = 2, include_bias=False) 

x_train_poly = poly.fit_transform(x_train)
x_test_poly = poly.fit_transform(x_test)  
  
model = LinearRegression().fit(x_train_poly, y_train) 
y_pred_poly = model.predict(x_test_poly)

mse_test_d2_ = mean_squared_error(y_test, y_pred_poly)

print('\nIntercepto:', model.intercept_)
print('Coeficientes:', model.coef_)
print('Error cuadrático medio (test):', mse_test_d2_)

##### Funciones: DocString, repaso
Cómo podemos repetir el código sin escribirlo por tercera vez?

Podemos hacer que nuestro código funcione para otros grados?

In [None]:
def transf_reg_poly(grado, x_train, x_test, y_train, y_test):
    '''
    La función realiza una transformación polinomial y luego corre una regresión lineal polinómica
    Input:
        grado
        x_train, x_test, y_train, y_test
    Output:
        modelo, ecm
    '''
    poly = PolynomialFeatures(degree = grado, include_bias=False) 

    x_train_poly = poly.fit_transform(x_train)
    x_test_poly = poly.fit_transform(x_test)  
  
    model = LinearRegression().fit(x_train_poly, y_train) 
    y_pred_poly = model.predict(x_test_poly)
    
    mse_test = mean_squared_error(y_test, y_pred_poly)
    return model, mse_test


In [None]:
mse_test_1_ = transf_reg_poly(1, x_train, x_test, y_train, y_test)[1]
mse_test_2b_ = transf_reg_poly(2, x_train, x_test, y_train, y_test)[1]
mse_test_3b_ = transf_reg_poly(3, x_train, x_test, y_train, y_test)[1]
mse_test_4b_ = transf_reg_poly(4, x_train, x_test, y_train, y_test)[1]
mse_test_5b_ = transf_reg_poly(5, x_train, x_test, y_train, y_test)[1]

In [None]:
# Performance con la PRIMERA partición de muestras de entrenamiento y testeo
print('Regresión lineal:', mse_test_l)
print('Grado2:', mse_test_d2)
print('Grado3:', mse_test_d3)

In [None]:
# Performance con la SEGUNDA partición de muestras de entrenamiento y testeo
print('\nRegresión lineal:', mse_test_1_)
print('Grado2:', mse_test_2b_)
print('Grado3:', mse_test_3b_)
print('Grado4:', mse_test_4b_)
print('Grado5:', mse_test_5b_)

Podemos concluir que:
- la regresión lineal funciona peor (en ambos casos tiene mayor ECM)
- introducir un término cuadrático reduce el ECM en ambas muestras.

Pero en el caso de introducir un término cúbico, no es obvio si funciona mejor o no...

El ECM puede **variar** según qué observaciones quedaron incluidas en los sets de train y test

###  2. K-FOLD CROSS-VALIDATION  

Es un **técnica de remuestreo**. Se usa para estimar el error (test) asociado a un método de aprendizaje, para:  
- Elegir el nivel de complejidad optimo (Model selection)
- Evaluar el error de pronóstico fuera de la muestra (futura, condicional, contra fáctica, etc.) (Model Assesment)

Consiste en:
- Dividir las observaciones en k folds (pliegues), del mismo tamaño, aleatoriamente. 
- Ajustar el modelo k veces, cada vez con k-1 folds (distintos cada vez). Computar k veces el error de predicción en el fold reservado. (cada fold se usa k-1 veces como training set y 1 vez como test set).
- Estimar el error de predicción, estimación que surge de promediar las K estimaciones obtenidas.

Vamos a usar [KFold](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) de Scikitlearn

In [None]:
from IPython.display import Image, display

#Ilustración de Cross-Validation
display(Image(url="https://global.discourse-cdn.com/dlai/optimized/3X/a/3/a3ed2de61c2b4fa00f1b7e939753e1a7e181afb0_2_690x476.png"
))

In [None]:
y = auto['mpg']
X = auto['horsepower']
X = np.array(X).reshape((-1, 1))

from sklearn.model_selection import KFold

ecms = pd.DataFrame(columns=["grado", "particion", "ecm"])
ecms

Lo usual es usar K=5 o K=10

In [None]:
print(type(X), type(y))
print(X.shape, y.shape)
#print(X.flatten(), y)

In [None]:
K = 10

for grado in range(2, 10):   

    kf = KFold(n_splits=K, shuffle=True, random_state=100)
    
    # El método kf.split aplicado a X nos da los conjuntos de índices que necesitamos para
    # partir nuestros conjunto de datos en training y testing en cada iteración.
    #  OXXXX
    #  XOXXX
    #  XXOXX
    #  XXXOX
    #  XXXXO
    
    for i, (train_index, val_index) in enumerate(kf.split(X)):   
        x_train, x_val = X[train_index], X[val_index]
        y_train, y_val = y[train_index], y[val_index]
        #print(i, x_train.shape[0])
        
        ecm = transf_reg_poly(grado, x_train, x_val, y_train, y_val)[1]
            
        df_i = pd.DataFrame({"grado": grado, "particion": i, "ecm": ecm}, index=[0])
        ecms = pd.concat([ecms, df_i])
    
mses = ecms.astype({"grado":int, "particion":int})
mses

Una corrección para no contaminar los datos...

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 50)
print(type(X_train), type(y_train))
print(X_train.shape, y_train.shape)
#print(X_train, y_train)

In [None]:
ecms = pd.DataFrame(columns=["grado", "particion", "ecm"])
ecms

K = 10

for grado in range(1, 10):   

    kf = KFold(n_splits=K, shuffle=True, random_state=100)
    
    # El método kf.split aplicado a X nos da los conjuntos de índices que necesitamos para
    # partir nuestros conjunto de datos en training y testing en cada iteración.
    #  OXXXX
    #  XOXXX
    #  XXOXX
    #  XXXOX
    #  XXXXO
    
    for i, (train_index2, val_index2) in enumerate(kf.split(X_train)):
        X_train_fold, X_val_fold = X_train[train_index2], X_train[val_index2]
        y_train_fold, y_val_fold = y_train.iloc[train_index2], y_train.iloc[val_index2]
        #print(i, X_train_fold.shape[0])
        
        ecm = transf_reg_poly(grado, X_train_fold, X_val_fold, y_train_fold, y_val_fold)[1]
            
        df_i = pd.DataFrame({"grado": grado, "particion": i, "ecm": ecm}, index=[0])
        ecms = pd.concat([ecms, df_i])
    
ecms = ecms.astype({"grado":int, "particion":int})
ecms

#### Cómo elegir el modelo?

In [None]:
# Una opción: visualizar los ECMs en un boxplot
import seaborn as sns
sns.set()
ss = sns.boxplot(data=ecms, x="grado", y="ecm")


In [None]:
ecms.describe()

In [None]:
# Una opción para ver el mejor modelo sería sacar el error promedio para cada grado:
ecms_avg = ecms.groupby('grado').agg({'ecm':'mean'})
ecms_avg.reset_index(inplace = True)
ecms_avg.astype({"grado":int})
ecms_avg

In [None]:
# Tarea para la casa: hacer grafico de puntos conectados como el libro (slide 25 panel de la izquierda-clase13)

In [None]:
# Función para seleccionar 
min_ecm = np.Inf
grado = None

for index, row in ecms_avg.iterrows():
    if row['ecm'] < min_ecm:
        min_ecm = row['ecm']
        grado = row['grado'].astype(int)

print('El mínimo error es', round(min_ecm, 2), 'y se da con un polinomio de grado', grado)

In [None]:
# Finalmente construimos el modelo polinomial de grado 5 y lo graficamos 
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 50)

modelo = transf_reg_poly(grado, x_train, x_test, y_train, y_test)[0]
ecm = transf_reg_poly(grado, x_train, x_test, y_train, y_test)[1]
        
X_seq = np.linspace(X.min(), X.max()).reshape(-1,1)
poly = PolynomialFeatures(degree = grado, include_bias=False) 
X_seq_poly = poly.fit_transform(X_seq)  

x_test_poly = poly.fit_transform(x_test)  
y_pred_poly = modelo.predict(x_test_poly)
ecm_final = mean_squared_error(y_test, y_pred_poly)

plt.figure()
plt.scatter(x_train, y_train)
plt.plot(X_seq, modelo.predict(X_seq_poly),color="red")
plt.xlabel('Caballos del motor (horsepower)')
plt.ylabel('Millas por galón (mpg)')
plt.title("Polinomio elegido de grado por CV {}".format(grado))
plt.show()

ecm_final