#**Maestría en Inteligencia Artificial Aplicada**
##**Curso: Inteligencia Artificial y Aprendizaje Automático**
###Tecnológico de Monterrey
###Prof Luis Eduardo Falcón Morales

####**Filtrado de datos (data leakage) / Pipeline / Curvas de Aprendizaje**

Usaremos el modelo de Regresión Lineal para ejemplificar los diferentes pasos y técnicas que podemos aplicar en un problema de aprendizaje supervisado.

Recuerda que no existen reglas generales, pero varias de las aquí utilizadas son muy utilizadas en general.

In [None]:
# Librerías básicas que estaremos requiriendo en la mayoría de las actividades.
# Recuerda usar el # para documentar tu código dentro de estas celdas de Código.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns   # para un mejor despliegue de los gráficos

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler

In [None]:
# Usaremos los datos que nos proporciona Google-Colab para empezar a trabajar:
#                       california_housing_train.csv
#                       california_housing_test.csv
#
# Queremos accesar el archivo que está en la carpeta "sample_data" en la cual nos encontramos de manera
# predeterminada y que podemos verificar con el siguiente comando que nos permite listar sus archivos
# y directorios:

!ls

Existen otras ligas con el mismo nombre, pero hay que tomar en cuenta que pueden ser algo diferentes. Algunas ligas son las siguientes:

* Datos en sklearn:  
https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html

* Datos en Kaggle:  https://www.kaggle.com/datasets/camnugent/california-housing-prices

* Datos en Keras:  https://keras.io/api/datasets/california_housing/

entre otros...


In [None]:
# La siguiente instrucción nos permite adentrarnos en dicha carpeta y de nuevo listamos lo que hay dentro de ella:

%cd sample_data/

!ls

Ruta del archivo:  /content/sample_data/california_housing_train.csv

In [None]:
# En particular, los datos para el entrenamiento los encontramos en el archivo train, el cual procedemos a cargar:

data = pd.read_csv("--- ruta del archivo de datos ---", sep=",")
data.head()

De la documentación del problema (ver cualquier de las ligas dadas al inicio), sabemos que la variable de salida es el precio medio (mediana) de la casa en dólares estadounidenses, "median_house_value".

In [None]:
data.info()

In [None]:
sns.set(rc={'figure.figsize':(6,5)})   # (ancho-columnas, altura-renglones) Ajustemos el tamaño de la ventana
                                         # que desplegará los gráficos usando la librería de seaborn (sns).

In [None]:
plt.plot(data['longitude'], data['latitude'],'.');

In [None]:
import seaborn as sns

sns.scatterplot(
    data=data,
    x="longitude",
    y="latitude",
    size="median_house_value",
    hue="median_house_value",
    palette="viridis",
    alpha=0.5,
)
plt.legend(title="median_house_value", bbox_to_anchor=(1.05, 0.95), loc="upper left")
_ = plt.title("Median house value depending of\n their spatial location")

In [None]:
sns.set(rc={'figure.figsize':(12,10)})

fig, axes = plt.subplots(3, 3)    # definimos una ventana de 3x3 nichos para incluir en cada uno de ellos un gráfico.
for k in range(0,9):
  plt.subplot(3,3,k+1)     # los nichos para cada histograma se numeran iniciando en 1 y no en 0.
  plt.hist(data[data.columns[k]], bins=20)     # datatrain.columns nos devuelve una lista con los nombres de las columnas.
  plt.xlabel(data.columns[k])
plt.show()

In [None]:
data.describe()


Puedes nuevamente observar de esta tabla varias de las características que mencionamos previamente a partir de los histogramas.

En particular, grafiquemos los datos geográficos dados por los factores latitud y longitud.

Recuerda que debes observar siempre cada factor y decidir qué tipo de información particular podrías obtener de ahí.

##Restricción:
###Para un análisis rápido de los ejemplos que veremos a continuación, estaremos considerando solamente la variable de entrada "total_bedrooms".

In [None]:
X1 =data[['total_bedrooms']]
yy = data[['median_house_value']]

In [None]:
sns.set(rc={'figure.figsize':(6,4)})
np.sqrt(X1).hist();

In [None]:
# Grafiquemos "total_bedrooms" contra "median_house_vale":
sns.set(rc={'figure.figsize':(7,8)})
sns.scatterplot(data=data, x='total_bedrooms', y='median_house_value', alpha=0.1,)
plt.show()

###Utilicemos varios modelos entre estas dos variables y vamos viendo qué conclusiones podemos ir obteniendo en cada caso.

#**Modelo-1**

In [None]:
m = LinearRegression()

fit1 = m.fit(X1, yy)

preds1 = fit1.predict(X1)
rmse1 = np.sqrt(mean_squared_error(yy, preds1))

print("RMSE: %.2f" % (rmse1))

###**¿Qué conclusiones podríamos obtener de este modelo?**

###**¿Qué ajuste propones para mejorar el modelo?**

#**Modelo-2**

In [None]:
m = LinearRegression()

X2 = np.sqrt(X1)

fit2 = m.fit(X2, yy)

preds2 = fit2.predict(X2)
rmse2 = np.sqrt(mean_squared_error(yy, preds2))

print("RMSE: %.2f" % (rmse2))

###**¿Qué conclusiones podríamos obtener de este modelo?**

###**¿Qué ajuste propones para seguir mejorando el modelo?**

#**Modelo-3**

In [None]:
semilla = 11
val_size = 0.2

In [None]:
X2 = np.sqrt(X1)    # Observa que la transformación de los datos de entrada
                    # es ANTES de la partición... ¿es esto correcto?

X_train, X_val, y_train, y_val = train_test_split(X2, yy, test_size=val_size, random_state=semilla)   # partición


m = LinearRegression()

fit3 = m.fit(X_train, y_train)

predsTrain = fit3.predict(X_train)
rmseTrain = np.sqrt(mean_squared_error(y_train, predsTrain))

predsVal3 = fit3.predict(X_val)
rmseVal3 = np.sqrt(mean_squared_error(y_val, predsVal3))

print("RMSE-Train: %.2f" % (rmseTrain))
print("RMSE-val: %.2f" % (rmseVal3))

In [None]:
# ¿Está subentrenado el modelo?
# Umbral de modelo base muy sencillo, pero no muy exacto.
# Para una primera aproximación algo rústica del modelo base, se puede utilizar
# la desviación estándar de la variable de salida en el conjunto de entrenamiento:
y_train.std()

###**¿Qué conclusiones podríamos obtener de este modelo?**

###**¿Qué otro ajuste propones para seguir mejorando el modelo?**

###NOTA: Observa que al particionar el conjunto original de train en 80% y 20%, ya tenemos ahora el conjunto de entrenamiento y el de validación. El archivo restante que se encuentra en la carpeta del Google-Colab, llamado "california_housing_test.csv", será el conjunto de prueba, que usaremos al final, una vez que decidamos que terminamos el proceso de entrenamiento y que tenemos el mejor modelo.

#**Modelo-4**

In [None]:
X_train, X_val, y_train, y_val = train_test_split(X1, yy, test_size=val_size, random_state=semilla)   # partición

X4_train = np.sqrt(X_train)    # Observa que la transformación de los datos de entrada ahora
X4_val = np.sqrt(X_val)        # es DESPUÉS de la partición... ¿es esto correcto?



m = LinearRegression()

fit4 = m.fit(X4_train, y_train)

predsTrain = fit4.predict(X4_train)
rmseTrain = np.sqrt(mean_squared_error(y_train, predsTrain))

predsVal4 = fit4.predict(X4_val)
rmseVal4 = np.sqrt(mean_squared_error(y_val, predsVal4))

print("RMSE-Train: %.2f" % (rmseTrain))
print("RMSE-Val: %.2f" % (rmseVal4))

###**¿Observa que obtuvimos el mismo resultado que el caso anterior? ¿Siempre deben ser iguales ambos resultados? En dado caso, ¿cuál debiera ser la manera correcta de proceder en general?**

###**¿Qué otro ajuste propones para seguir mejorando el modelo?**

In [None]:
# Un segundo modelo base con mejor aproximación.
# Calculemos neuvamente el RMSE del modelo base, utilizando ahora el valor promedio
# de los datos de entrenamiento y_train:
y_train_mean = np.mean(y_train)

# con este valor promedio obtengamos el RMSE usando ahora el conjunto y_val:
rmseValBase = np.sqrt(mean_squared_error(y_val, np.full(y_val.shape, y_train_mean)))

print("RMSE-Val-Base: %.2f" % (rmseValBase))

#**Modelo-5**

###Supongamos que ahora también deseamos escalar los datos mediante la transformación (x-miu)/std.

###¿Qué opinas de esta transformación, en este caso que solamente tenemos una variable de entrada?

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
X_train, X_val, y_train, y_val = train_test_split(X1, yy, test_size=val_size, random_state=semilla)

X5_train = np.sqrt(X_train)
X5_train = (X5_train - np.mean(X5_train, axis=0)) / np.std(X5_train)

X5_val = np.sqrt(X_val)
X5_val = (X5_val - np.mean(X5_val, axis=0)) / np.std(X5_val)



m = LinearRegression()

fit5 = m.fit(X5_train, y_train)

predsTrain = fit5.predict(X5_train)
rmseTrain = np.sqrt(mean_squared_error(y_train, predsTrain))

predsVal5 = fit5.predict(X5_val)
rmseVal5 = np.sqrt(mean_squared_error(y_val, predsVal5))

print("RMSE-Train: %.2f" % (rmseTrain))
print("RMSE-Val: %.2f\n" % (rmseVal5))

###**¿Qué conclusiones podríamos obtener de este modelo?**

###**¿Qué otro ajuste propones para seguir mejorando el modelo?**

#**Modelo-6: Usando Pipelines para evitar el filtrado de información (data leakage)**




###Veamos a continuación una manera más adecuada de llevar a cabo las transformaciones mediante el uso de la clase Pipeline de scikit-learn.

###La clase Pipeline nos permitirá encapsular una serie de transformaciones para llevar a cabo el entrenamiento de un modelo, evitando el filtrado de información de una manera más amigable.

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import FunctionTransformer
from sklearn.preprocessing import StandardScaler

In [None]:
X_train, X_val, y_train, y_val = train_test_split(X1, yy, test_size=val_size, random_state=semilla)

# Transformaciones que aplicaremos a los factores numéricos de entrada...
# ¿es importante el orden de estas transformaciones?:
num_pipeline = Pipeline(steps = [('impMediana', SimpleImputer(strategy='median')),
                                 ('sqrt', FunctionTransformer(np.sqrt)),
                                 ('escalaNum', StandardScaler())])

# Identificamos las variables numéricas de entrada a las cuales aplicaremos las transformaciones definidas:
num_pipeline_nombres = ['total_bedrooms']


# Conjuntamos variables y transformaciones a aplicar y el resto (en caso de existir) las dejamos igual:
columnasTransformer = ColumnTransformer(transformers = [('vars_num_pipeline', num_pipeline, num_pipeline_nombres)
                                                        ],
                                        remainder='passthrough')


# Aplicamos las transformaciones al conjunto de entrenamiento:
XtrainFit = columnasTransformer.fit(X_train)   # Conjunta todos los procesos definidos a cada variable del conjunto
                                               # de entrenamiento para evitar el filtrado de información.

XtrainTransf = XtrainFit.transform(X_train)    # y ahora aplicamos dichas transformaciones al conjunto de entrenamiento,
XvalTransf  =  XtrainFit.transform(X_val)      # y también al conjunto de validación (con la información de los datos
                                               # de Train)... este paso es lo que evita el filtrado de información
                                               # al llevar a cabo las transformaciones.



# Modelo de aprendizaje automático a entrenar:
m = LinearRegression()

# Entrenamos el modelo con los datos de entrenamiento:
fit6 = m.fit(XtrainTransf, y_train)

# Y obtenemos las predicciones:
predstrain = fit6.predict(XtrainTransf)
rmseTrain6 = np.sqrt(mean_squared_error(y_train, predstrain))

predsval6 = fit6.predict(XvalTransf)
rmseVal6 = np.sqrt(mean_squared_error(y_val, predsval6))

print("RMSE-Train: %.2f" % (rmseTrain6))
print("RMSE-Val: %.2f" % (rmseVal6))


#**Curvas de Aprendizaje**

In [None]:
from sklearn.model_selection import learning_curve
from sklearn.model_selection import RepeatedKFold

In [None]:
modeloLR = LinearRegression()

XtvTransf = XtrainFit.transform(X1)   # Como usaremos Cross-Validation, usamos los conjuntos
                                      # Train inicial que llamamos X1 y sus valores reales yy,
                                      # es decir, aquí no usamos los datos de la partición directa
                                      # ya que el método de Cross-Validation realizará internamente
                                      # la partición en Train y Validation.

# En el intervalo de 0.1 a 1.0, se seleccionan 20 puntos igualmente espaciados.
# Representarán el porcentaje de datos que se utilizarán para entrenar al calcular
# las curvas de aprendizaje con validación-cruzada:
delta_train_sz = np.linspace(0.1, 1.0, 20)

cvLR = RepeatedKFold(n_splits=10, n_repeats=5, random_state=semilla)

train_sizes, train_scores, valid_scores = learning_curve(estimator=modeloLR,
                                                        X=XtvTransf,
                                                        y=yy,
                                                        cv=cvLR,
                                                        train_sizes=delta_train_sz,
                                                        scoring='neg_root_mean_squared_error')



# Obtengamos la gráfica de las curvas de aprendizaje
# cuando se incrementa el tamaño de la muestra:

train_mean = -np.mean(train_scores, axis=1)
train_std = np.std(train_scores, axis=1)
valid_mean = -np.mean(valid_scores, axis=1)
valid_std = np.std(valid_scores, axis=1)

plt.plot(train_sizes, train_mean, color='blue', marker='o', markersize=5, label='Training')
plt.fill_between(train_sizes, train_mean + train_std, train_mean - train_std, alpha=0.15, color='blue')

plt.plot(train_sizes, valid_mean, color='red', marker='o', markersize=5, label='Validation')
plt.fill_between(train_sizes, valid_mean + valid_std, valid_mean - valid_std, alpha=0.15, color='red')

plt.title('Función learning_curve()')
plt.xlabel('Tamaño del conjunto de entrenamiento')
plt.ylabel('RMSE')
plt.grid()
plt.legend(loc='lower right')
plt.show()

In [None]:
valid_mean  # el último valor sería el del desempeño final con el conjunto de validación

### Consulta la documentación correspondiente:

https://scikit-learn.org/stable/modules/model_evaluation.html

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html


#**Modelo final con el conjunto de Prueba (Test)**

In [None]:
datatest = pd.read_csv("california_housing_test.csv", sep=",")   # cargamos los datos de la carpeta del Google-Colab, observa que
                                                                 # hasta este momento no se habían usado estos datos.
datatest.shape

In [None]:
Xtest =datatest[['total_bedrooms']]
ytest = datatest[['median_house_value']]

In [None]:
mf = LinearRegression()

XtvTransf = XtrainFit.transform(X1)   # Observa que al obtener el entrenamiento final, usamos los datos tanto de Train como de Validation X1,
                                      # esto permitirá todavía usar una mayor cantidad de información para aprender mejor. Sin embargo,
                                      # seguimos usando la información que se obtuvo en el entrenamiento (XtrainFit) en el que solo se usó
                                      # el conjunto de Train, para evitar el filtrado de información.
                                      # Esta parte es opcional y se puede seguir usando solo el conjunto de entrenamiento,
                                      # pero en general se recomienda al obtener el desempeño con el conjunto de Test,
                                      # utilizar el conjunto completo de Train y Validación, PERO con el modelo en el que
                                      # se entrenó SOLO con Train.

XtestTransf  =  XtrainFit.transform(Xtest)

fitf = mf.fit(XtvTransf, yy)

predsTVf = fitf.predict(XtvTransf)
rmseTVf = np.sqrt(mean_squared_error(yy, predsTVf))

predsTestf = fitf.predict(XtestTransf)
rmseTestf = np.sqrt(mean_squared_error(ytest, predsTestf))

print("RMSE-TrainVal: %.2f" % (rmseTVf))
print("RMSE-Test: %.2f" % (rmseTestf))

In [None]:
print("Resumen de los diferentes modelos:")
print("\tModelo1\t\tModelo2\t\tModelo3\t\tModelo4\t\tModelo5\t\tModelo6\t\tModeloF")

print("RMSE:  %.2f\t%.2f\t%.2f\t%.2f\t%.2f\t%.2f\t%.2f\t" % (rmse1, rmse2, rmseVal3, rmseVal4, rmseVal5, rmseVal6, rmseTestf) )



###**Conclusiones finales:**

### **...**