# Ejercicio Práctica 7: curvas de aprendizaje en Machine Learning: the California housing problem 

Una curva de aprendizaje en Machine Learning simplemente es una gráfica donde se representa las epochs (eje horizontal) frente a la función objetivo (eje vertical).

En este ejercicio vermos cómo usar las curvas de aprendizaje para analizar el comportamiento de varios algoritmos de optimización. Para ello, estudiaremos el llamado **California housing problem**, el cual es un problema de regresión que consiste en predecir el valor que debe tener una casa en California dependiendo de varias características. La descripción de los datos es la siguiente:

**Labels**

'MedHouseVal' = Mediana de viviendas para familias en una manzana (medido en dólares estadounidenses)

**Features**

'MedInc' = Media de ingresos para grupos familiares en una manzana (medido en decenas de miles de dólares estadounidenses)

'HouseAge' = Antigüedad media de una casa 

'AveRooms' = Media de habitaciones en un bloque de casas

'AveBedrms' = Media de habitaciones en un barrio

'Population' = Cantidad total de personas que residen en un barrio

'AveOccup' = media de casa ocupadas

'Latitude' = latitud geográfica de la casa

'Longitude' = longitud geográfica de la casa

Estas dos últimas características hacen referencia a la localización de la casa

Los datos están almacenados es una basa de datos de **scikitlearn**. Con las siguientes líneas de código los cargamos.

In [2]:
from sklearn.datasets import fetch_california_housing

housing = fetch_california_housing()

housing


{'data': array([[   8.3252    ,   41.        ,    6.98412698, ...,    2.55555556,
           37.88      , -122.23      ],
        [   8.3014    ,   21.        ,    6.23813708, ...,    2.10984183,
           37.86      , -122.22      ],
        [   7.2574    ,   52.        ,    8.28813559, ...,    2.80225989,
           37.85      , -122.24      ],
        ...,
        [   1.7       ,   17.        ,    5.20554273, ...,    2.3256351 ,
           39.43      , -121.22      ],
        [   1.8672    ,   18.        ,    5.32951289, ...,    2.12320917,
           39.43      , -121.32      ],
        [   2.3886    ,   16.        ,    5.25471698, ...,    2.61698113,
           39.37      , -121.24      ]]),
 'target': array([4.526, 3.585, 3.521, ..., 0.923, 0.847, 0.894]),
 'frame': None,
 'target_names': ['MedHouseVal'],
 'feature_names': ['MedInc',
  'HouseAge',
  'AveRooms',
  'AveBedrms',
  'Population',
  'AveOccup',
  'Latitude',
  'Longitude'],
 'DESCR': '.. _california_housing_dataset:\n

![En este gráfico puedes ver la distribución de casas y precios](..\data\california_housing.png)

Las siguientes líneas de código hacen la separación entre datos de entrenamiento, validación y test.

También normalizan los datos. Esta es una técnica usual en Machine Learning que trata de evitar sesgos en los datos de partida. Para cada una de las 8 columnas de características, la normalización de los datos se hace de manera stándard del siguiente modo:

1) Se calculan la media $\mu_j$ y la desviación típica $\sigma_j$, $1\leq j\leq 8$.

2) Si $x^j$ denota la columna $j-$ésima, entonces dicha columna se transforma en 

$$
\hat{x}^j = \frac{x^j - \mu_j}{\sigma_j}
$$

con lo cual los nuevos datos tienen media cero y varianza 1.

Las siguientes líneas de código hacen el trabajo.

In [4]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X_train_full, X_test, y_train_full, y_test = train_test_split(housing.data, housing.target, random_state=42)
X_train, X_valid, y_train, y_valid = train_test_split(X_train_full, y_train_full, random_state=42)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_valid = scaler.transform(X_valid)
X_test = scaler.transform(X_test)


Nótese que ha aparecido un nuevo conjunto de datos **X_valid**. Se trata de un subconjunto de datos que se usa para tunear hiperparámetros del modelo, por ejemplo el número de capas ocultas, neuronas por capa, etc. Por tanto, **X_valid** se usa durante el entrenamiento. Es un subconjunto de los datos de entrenamiento.

Imprimer por pantalla las dimensiones de los conjuntos **X_train**, **X_val** y **X_test**.

In [5]:
# Completar aquí
print(f"Dimesiones de X_train: {X_train.shape}")
print(f"Dimensiones de X_valid: {X_valid.shape}")
print(f"Dimesiones de X_test: {X_test.shape}")
# --------------------


Dimesiones de X_train: (11610, 8)
Dimensiones de X_valid: (3870, 8)
Dimesiones de X_test: (5160, 8)


A continuación cargamos **tensorflow** y **numpy**. Asímismo, fijamos semillas en **numpy** y **tensorflow** para que la reproducción de procesos aleatorios de el mismo resultado.

In [6]:
import numpy as np
import tensorflow as tf

In [7]:
np.random.seed(42)
tf.random.set_seed(42)

A continuación, construimos el modelo de predicción (la red neuronal). Se trata de un MultiLayerPerceptron (MLP) con $8$ canales de entrada, una sóla capa oculta de $30$ neuronas, y una salida escalar. Es decir
$$
NN(x,\theta) =  \sum_{j=1}^{30} a_j\sigma \left(\omega x + b\right)_j + b_{output}, \quad \theta = (\omega; b) 
$$
donde $\sigma$ es la función de activación, la cual se aplica componente a componente, $\omega$ es una matriz de tamaño $30\times 8$, $b$ es un vector bias de tamaño $30$, y $b_{output}$ es un bias de salida escalar. Por tanto, nuestro modelo tiene $30\times 8 + 30 + 30 +1 = 301 $ parámetros de entrenamiento.

In [8]:
from tensorflow import keras


In [9]:
model = keras.models.Sequential([
    keras.layers.Dense(30, activation="relu", kernel_initializer='glorot_uniform',
                        input_shape=X_train.shape[1:]),
    keras.layers.Dense(1)
])
model.summary()

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Explica con tus propias palabras lo que hacen las líneas de código de la celda anterior. Para ello consulta la  [API de Keras](https://keras.io/api/)

----
Este código crea un modelo de red neuronal con dos capas para hacer predicciones.

1. Primero, se define el modelo como una serie de capas que se conectan en orden.
2. La primera capa tiene 30 neuronas y usa una función que ayuda a que el modelo aprenda patrones más complejos. También se configura para que reciba los datos de entrada con la misma cantidad de características (columnas) que tiene nuestro conjunto de entrenamiento.
3. La segunda capa tiene solo 1 neurona y no usa ninguna función especial; esto indica que se espera un resultado en forma de número continuo (como un precio o una puntuación).

Finalmente, la última línea muestra un resumen del modelo, para ver cuántas capas y parámetros tiene en total, lo cual ayuda a entender mejor su estructura.

----

Configuramos el modelo para el entrenamiento. Elegimos como función objetivo (loss function) el error cuadrático medio, y como optimizador el gradiente estocástico sencillo learning rate = 0.01

In [10]:
model.compile(loss="mean_squared_error", optimizer=keras.optimizers.SGD(learning_rate=1e-3))

Entrenamos el modelo con el [método fit](https://keras.io/api/models/model_training_apis/)

In [11]:
history = model.fit(X_train, y_train, epochs=20, validation_data=(X_valid, y_valid))

Epoch 1/20
[1m363/363[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 2.7340 - val_loss: 1.0701
Epoch 2/20
[1m363/363[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.8365 - val_loss: 0.7330
Epoch 3/20
[1m363/363[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.7319 - val_loss: 0.6699
Epoch 4/20
[1m363/363[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - loss: 0.6784 - val_loss: 0.6241
Epoch 5/20
[1m363/363[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - loss: 0.6366 - val_loss: 0.5863
Epoch 6/20
[1m363/363[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - loss: 0.6007 - val_loss: 0.5543
Epoch 7/20
[1m363/363[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - loss: 0.5712 - val_loss: 0.5270
Epoch 8/20
[1m363/363[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - loss: 0.5467 - val_loss: 0.5040
Epoch 9/20
[1m363/363[0m [32m━━━━━━━━

¿Se ha usado mini-batch en el método de gradiente estocástico anterior? En caso afirmativo, ¿cúantos datos contiene cada mini-batch?

Te puede ayudar a responder estas preguntas los resultados que obtienes de ejecutar la celda siguiente, que también has de explicar.

In [12]:
print(history.params)
print(history.history)

{'verbose': 'auto', 'epochs': 20, 'steps': 363}
{'loss': [1.7961151599884033, 0.7711697816848755, 0.6862578392028809, 0.6370391249656677, 0.5980494618415833, 0.5661649107933044, 0.5394650101661682, 0.517589271068573, 0.49987921118736267, 0.48557859659194946, 0.47406521439552307, 0.4646454155445099, 0.4567851424217224, 0.4502040147781372, 0.4446551501750946, 0.43989884853363037, 0.4357775151729584, 0.43217623233795166, 0.42898085713386536, 0.42611315846443176], 'val_loss': [1.0701451301574707, 0.7330297827720642, 0.6699450016021729, 0.6241441369056702, 0.5863320827484131, 0.5543079376220703, 0.5269997119903564, 0.5040370225906372, 0.4846380949020386, 0.4683707058429718, 0.45479467511177063, 0.44336968660354614, 0.43386122584342957, 0.42591989040374756, 0.4193131923675537, 0.4138270616531372, 0.4091998338699341, 0.40533873438835144, 0.4020824730396271, 0.39932486414909363]}


In [12]:
# Completar aquí

# --------------------


A continuación nos ocupamos de analizar la evolución del algoritmo de optimización (training process).
Para ello usaremos los módulos **pandas** y **matplotlib** 

In [13]:

import pandas as pd
import matplotlib.pyplot as plt

In [19]:
loss_history = pd.DataFrame(history.history)
fig, ax = plt.subplots(figsize=(8, 5))
ax.plot(loss_history['loss'], label='Loss')
ax.plot(loss_history['val_loss'], label='Validation loss')
ax.grid()
ax.set_ylim(0, 1)
ax.set_xlabel('epochs')
ax.set_ylabel('loss function')
ax.legend();

Finalmente, evaluamos el error cuadrático medio sobre los datos test con  [model.evaluate](https://keras.io/api/models/model_training_apis/) y hacemos predicciones sobre conjuntos de datos con [model.predict](https://keras.io/api/models/model_training_apis/)

In [16]:
mse_test = model.evaluate(X_test, y_test)
print(f"MSE_test = {mse_test}")
X_new = X_test[:3]
print(f"X_new = { X_new}")
y_pred = model.predict(X_new)
print(f"y_predict = {y_pred}")

Para acabar la práctica, vamos a entrenar el modelo con otro algoritmo de optimización. Para ello:

1) Crea de nuevo el modelo y llámale **model_2**.

2) Configura el modelo de entrenamiento  **model_2** para lo cual debes elegir algún otro algoritmo de optimización (el que quieras) de los disponibles en el método **model.compile** 

3) Entrena **model_2** con mini-batches que contengan $64$ datos y para $50$ epochs. 

Los resultados que se muestran a continuación se corresponden con el algoritmo **Adam**.

In [17]:
# Completar aquí

# --------------------


Finalmente, dibuja las curvas de aprendizaje para tu modelo.

In [21]:
# Completar aquí

# --------------------
