# Practica 4: Regresión Parte 2
**Elaborado por: Luis Fernando Becerra,  BEDA Aprendizaje de Máquinas 2024-1S **

Vamos a probar dos modelos avanzados de regresion: Redes Neuronales y Bosques Aleatorios. Para esto usaremos los datos housing. Estos datos incluyen información sobre precio de la vivienda un determinado distrito de California y algunas estadísticas resumidas sobre ellas basadas en los datos del censo de 1990. Hay que tener en cuenta que los datos no están depurados, por lo que se requieren algunos pasos de preprocesamiento. Las caracteristicas incluidas son:

* longitude
* latitude
* housing_median_age
* total_rooms
* total_bedrooms
* population
* households
* median_income
* median_house_value
* ocean_proximity

## Lectura de datos y pre-procesamiento



In [None]:
#Importar librerias
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [None]:
#Leer archivo housing.csv


In [None]:
#Revisión de los datos
#Cabecera


In [None]:
#Información


In [None]:
#Eliminar muestras con valores perdidos
##

In [None]:
#Conversión de variables categoricas
##

##  División de los datos para entrenamiento

Nuestra variable objetivo es el valor de la vivienda ('median_house_value').

In [None]:
#Separamos entradas (X) y salidas (y)
##

In [None]:
# Dividimos los datos
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

Vamos a normalizar los datos. Para ello utilizaremos el metodo min_max_scaler

In [None]:
from sklearn.preprocessing import MinMaxScaler
##

##Perceptron Multicapa usando Keras

Keras es un API de alto nivel para Deep Learning (DL). Permite construir, entrenar, evaluar y ejecutar varias clases de redes neuronales.

Se recomienda consultar las especificaciones técnicas de la librería en el siguiente link.

Existen otros APIs para la implementación de técnicas de DL. Sin embargo, Keras ha ganado popularidad por su facilidad de uso, flexibilidad, y portabilidad.

TensorFlow incluye la librería Keras, facilitando la lectura y preprocesamiento de datos. En esta práctica usaremos esta librería tk.keras, aunque no usaremos características específicas de TensorFlow. Esta librería se encuentra preinstalada en colab.

Otra librería popular es PyTorch. Las versiones recientes de PyTorch y Keras son similares, en parte inspiradas por la facilidad de uso de Scikit-Learn. Por lo anterior, una vez se conoce Keras no debe ser difícil cambiar a PyTorch.

Paso 1
Vamos a construir una red neuronal multicapa

In [None]:
# Importacion de librerias
##

Ahora, vamos a construir la red neuronal multicapa (MLP) empleando el modelo Sequential API de Keras. Este modelo permite crear una pila de capas simples.

Entre los tipos de capas que podemos crear se encuentra:


1.   Flatten: permite pasar datos matriciales a 1 dimensión. En este proceso se agrega una dimensión a cada muestra con un valor de 1s (para incluir el bias como un peso en el entrenamiento)
2.   Dense: capas de neuronas completamente conectada. Entre los parámetros se incluyen el número de neuronas y la función de activación. Los pesos se inicializan de forma aleatoria y el bias se inicializa en 0s. Las funciones de activacion soportadas las puede consultar en este [link](https://keras.io/api/layers/activations/).


In [None]:
#Construccion del MLP
##

Nota: cada capa incluye un gran número de parámetros. Por ejemplo, la primera capa oculta tiene 13x1000 pesos que estimar, más 1000 pesos relacionados con el bias. Esto implica que en total debemos entrenar para esta capa 14,000 parámetros. Esto permite una alta flexibilidad para ajustarse a los datos de entrenamiento, pero debido al tamaño del modelo puede tener un sobreajuste.

Exploremos un poco las capas del modelo:

In [None]:
#Podemos acceder a la lista de capas:
##

In [None]:
#Revisar los pesos y bias de cada capa
##

#Mostrar los pesos
##

In [None]:
#Mostrar biases
##

Note que la capa se inicializa con pesos aleatorios y bias en 0s. Keras incluye otros métodos de inicialización de
los pesos. El tamaño de la primera capa oculta depende del número de entradas, por eso se recomienda incluir este número en la capa inicial.

Una vez creado el modelo, se invoca el método compile() que permite especificar:

*   La función de perdida: Keras incluye una gran variedad de funciones de perdida. Por ejemplo, diferentes tipos de entropía cruzada para clasificación, tipos de error como MSE y MAE para regresión, entre otros. Consulte las posibles funciones de perdida en este [link](https://keras.io/api/losses/).
*   El método de optimización: los optimizadores disponibles se pueden consultar en este [link](https://keras.io/api/optimizers/). El optimizar es el método empleado durante el algoritmo de backpropagation. En esta práctica usaremos SGD (Gradiente Estocástico Descendiente), inicialmente con sus parámetros por defecto (paso de aprendizaje = 0.01).
*   La métrica de evaluación: en este caso usaremos  el MSE. Otras métricas disponibles pueden consultarse en el siguiente [link](https://keras.io/api/metrics/).


In [None]:
#Vamos a compilar el modelo
##

In [None]:
#Una vez compilado, esta listo para ser entrenado
#a traves del metodo fit
#Le enviamos los datos de entrenamiento, el numero
#de epocas, y el set de validacion (opcional)
###

Notas:

*   En vez de enviar los datos de validación, también puede especificar el porcentaje de datos a usar de validación. Por ejemplo, validation_split=0.1 indicara a Keras que use el 10% de los datos antes de aleatorizarlos para validación
*   El método fit() retorna un objeto con la historia del entrenamiento, incluyendo los parámetros entrenados, la lista de épocas con las métricas de desempeño seleccionada. Podemos usar estos datos para graficar la curva de aprendizaje del proceso.

In [None]:
#Curva de aprendizaje
history_dict = history.history
loss_values = history_dict['loss'] # puedes modificar esto
val_loss_values = history_dict['val_loss'] # puedes modificar esto
epochs = range(1, len(loss_values) + 1) # range of X (no. of epochs)
plt.plot(epochs, loss_values, 'bo', label='Training loss')
plt.plot(epochs, val_loss_values, 'orange', label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()

Vamos a incluir EarlyStopping para evitar el sobreajuste y además a aumentar el número de epocas: permite detener el proceso cuando la función de perdida ya no esta decreciendo. El parametro patience indica el número de epocas a considerar cuando ya no hay una mejora del entrenamiento

In [None]:
#Configurar EarlyStopping
es = EarlyStopping(monitor='val_loss',
                   mode='min',
                   patience=10,
                   restore_best_weights = True)

In [None]:
#Entrenamos el modelo
#Tomara unos minutos
history = model.fit(X_train, y_train,
                    validation_data = (X_test, y_test),
                    callbacks=[es],
                    epochs=100,
                    batch_size=50,
                    verbose=1)

In [None]:
# specificar las dimensiones
fig, axes = plt.subplots(1,2) # 1 row, 2 columns

# resultados de entrenamiento
axes[0].scatter(x=y_train, y=model.predict(X_train))
axes[0].set_xlabel("Actual", fontsize=10)
axes[0].set_ylabel("Predicted",  fontsize=10)
axes[0].set_title("Training")

x = np.linspace(*axes[0].get_xlim())
axes[0].plot(x, x, color='red')
# resultados de validación
axes[1].scatter(x=y_test, y=model.predict(X_test))
axes[1].set_xlabel("Actual", fontsize=10)
axes[1].set_ylabel("Predicted",  fontsize=10)
axes[1].set_title("Validation")

x = np.linspace(*axes[1].get_xlim())
axes[1].plot(x, x, color='red')


fig.tight_layout()
plt.show()

** Realiza las Métricas de error de regresión. **

In [None]:
#Metricas de desempeño
from sklearn import metrics

pred = model.predict(X_test)

print('MAE:', metrics.mean_absolute_error(y_test, pred))
print('MSE:', metrics.mean_squared_error(y_test, pred))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, pred)))
print('R2_score:', metrics.r2_score(y_test, pred))


MAE: 63379.46696892843
MSE: 6963769341.709494
RMSE: 83449.20216340893
R2_score: 0.48773252202176165


# ¡Gran trabajo!