<a href="https://colab.research.google.com/github/rmattos2001/config-repo/blob/master/Linear_Regression/Linear_Regression_with_tf_keras_Intermediates.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Agenda
1. Acerca del conjunto de datos
2. Objetivo
3. Cargando Bibliotecas
4. Carga de datos
5. Ver datos
6. Funciones de entrada y funciones de salida separadas
7. Dividir(***Split***) los datos en tren y conjunto de prueba
8. Entrenar(***Train***) el modelo (El ciclo de vida del modelo de cinco pasos)
   1. Defina el modelo.
   2. Compile el modelo.
   3. Ajuste el modelo.
   4. Evaluar el modelo
     * Ajuste de hiperparámetros
   5. Predicción

## About the Dataset - Acerca del conjunto de datos
Estaremos trabajando en un conjunto de datos que proviene de la industria de bienes raíces en Boston (EE. UU.). Esta base de datos contiene 14 atributos. La variable objetivo se refiere al valor medio de las viviendas ocupadas por sus propietarios en 1000 USD.

* CRIM: tasa de criminalidad per cápita por ciudad
* ZN: proporción de suelo residencial zonificado para lotes de más de 25,000 pies cuadrados.
* INDUS: proporción de acres comerciales no minoristas por ciudad
* CHAS: variable ficticia del río Charles (= 1 si el tramo limita con el río; 0 en caso contrario)
* NOX: concentración de óxidos nítricos (partes por 10 millones)
* RM: promedio de cuartos por vivienda
* AGE: proporción de unidades ocupadas por sus propietarios construidas antes de 1940
* DIS: distancias ponderadas a cinco centros de empleo de Boston
* RAD: índice de accesibilidad a las carreteras radiales
* TAX: tasa de impuesto a la propiedad de valor total por cada 10,000 USD
* PTRATIO: ratio alumno-profesor por municipio
* B: 1000(Bk - 0.63)^2 donde Bk es la proporción de negros por ciudad
* LSTAT: estado inferior de la población (%)
* MEDV: valor medio de las viviendas ocupadas por sus propietarios en 1000 USD (Objetivo)


## Objective
The objective is to use linear regression to find the median value of owner-occupied homes in 1000 USD's.

We will build a Machine learning model (i.e. Linear Regression) using `tensorflow.keras` (in short `tf.keras`) API.

You already have all the information about Tensorflow and Keras from earlier modules.

## Loading Libraries
All Python capabilities are not loaded to our working environment by default (even they are already installed in your system). So, we import each and every library that we want to use.

In data science, numpy and pandas are most commonly used libraries. Numpy is required for calculations like means, medians, square roots, etc. Pandas is used for data processing and data frames. Matplotlib is used for data visualization. We chose alias names for our libraries for the sake of our convenience (numpy --> np and pandas --> pd, matplotlib.pyplot as plt).

**pyplot:** pyplot is matplotlib's plotting framework. It is the most used module of matplotlib.

In [1]:
# importing packages
import numpy as np # to perform calculations 
import pandas as pd # to read data
import matplotlib.pyplot as plt # to visualise

## Loading Data
Pandas module is used for reading files. We have our data in '.csv' format. We will use 'read_csv()' function for loading the data.

In [2]:
# In read_csv() function, we have passed the location to where the file is located at dphi official github page
boston_data = pd.read_csv("https://raw.githubusercontent.com/dphi-official/Datasets/master/Boston_Housing/Training_set_boston.csv" )

## View Data

In [3]:
boston_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,15.0234,0.0,18.1,0.0,0.614,5.304,97.3,2.1007,24.0,666.0,20.2,349.48,24.91,12.0
1,0.62739,0.0,8.14,0.0,0.538,5.834,56.5,4.4986,4.0,307.0,21.0,395.62,8.47,19.9
2,0.03466,35.0,6.06,0.0,0.4379,6.031,23.3,6.6407,1.0,304.0,16.9,362.25,7.83,19.4
3,7.05042,0.0,18.1,0.0,0.614,6.103,85.1,2.0218,24.0,666.0,20.2,2.52,23.29,13.4
4,0.7258,0.0,8.14,0.0,0.538,5.727,69.5,3.7965,4.0,307.0,21.0,390.95,11.28,18.2


# Separating Input Features and Output Features - Separación de entidades de entrada y entidades de salida
Antes de construir cualquier modelo de aprendizaje automático, siempre separamos las variables de entrada y las variables de salida. Las variables de entrada son aquellas cantidades cuyos valores cambian naturalmente en un experimento, mientras que la variable de salida es aquella cuyos valores dependen de las variables de entrada. Por lo tanto, las variables de entrada también se conocen como variables independientes, ya que sus valores no dependen de ninguna otra cantidad, y las variables de salida también se conocen como variables dependientes, ya que sus valores dependen de otra variable, es decir, variables de entrada. Como aquí en estos datos, estamos tratando de predecir el precio de un house, por lo que esta es nuestra columna de destino, es decir, 'MEDV'

Por convención, las variables de entrada se representan con ***'X'*** y las variables de salida se representan con ***'y'***.

In [4]:
X = boston_data.drop('MEDV', axis = 1)    # Input Variables/features
y = boston_data.MEDV      # output variables/features

In [6]:
y

0      12.0
1      19.9
2      19.4
3      13.4
4      18.2
       ... 
399    19.5
400    21.1
401    24.5
402    13.4
403    18.6
Name: MEDV, Length: 404, dtype: float64

# Splitting the data - Dividir los datos

Queremos comprobar el rendimiento del modelo que construimos. Para este propósito, siempre dividimos(***split***) (tanto los datos de entrada como los de salida) los datos proporcionados en un conjunto de entrenamiento que se usará para entrenar el modelo y un conjunto de prueba que se usará para verificar la precisión con la que el modelo predice los resultados.

Para ello tenemos una clase llamada ***'train_test_split'*** en el módulo ***'sklearn.model_selection'***.

Dividimos(***split***) el 80% de los datos en el conjunto de entrenamiento, mientras que el 20% de los datos en el conjunto de prueba usando el código siguiente.
La variable ***test_size*** es donde realmente especificamos la proporción del conjunto de prueba.

Al pasar nuestras variables X e Y al método ***train_test_split***, podemos capturar las divisiones en los datos asignando 4 variables al resultado.

In [7]:
# import train_test_split
from sklearn.model_selection import train_test_split 

# Assign variables to capture train test split output
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# X_train: independent/input datos característicos para entrenar el modelo
# y_train: dependent/output datos característicos para entrenar el modelo
# X_test: independent/input datos de características para probar el modelo; se utilizará para predecir los valores de salida
# y_test: original dependent/output values of X_test; Compararemos estos valores con nuestros valores predichos para verificar el rendimiento de nuestro modelo construido.
 
# test_size = 0,20: el 20 % de los datos se destinará al conjunto de prueba y el 80 % de los datos se destinará al conjunto de entrenamiento
# random_state = 42: esto solucionará la división, es decir, habrá la misma división cada vez que ejecute el código

In [10]:
# find the number of input features
n_features = X.shape[1]
print(n_features)

13


# Training our model - entrenando a nuestro modelo
 

Después de dividir los datos en conjuntos de prueba y entrenamiento, es hora de entrenar nuestro primer modelo de aprendizaje profundo. ¡Esperar! Antes de entrenar el modelo de aprendizaje profundo, comprendamos el **Deep Learning Model Life-Cycle**.

## Neural Network: Architecture
Aquí le ofrecemos solo una descripción general de la arquitectura de Neural Network. Sabrá más sobre esto en el próximo módulo.

Las redes neuronales consisten en una capa de entrada y salida con una o más capas ocultas.

![neural network architecture](https://dphi-courses.s3.ap-south-1.amazonaws.com/Deep+Learning+Bootcamp/nn+arch.png)

## The 5 Step Model Life-Cycle - El ciclo de vida del modelo de 5 pasos

Un modelo tiene un ciclo de vida, y este conocimiento muy simple proporciona la columna vertebral tanto para modelar un conjunto de datos como para comprender la API tf.keras.

Los cinco pasos en el ciclo de vida son los siguientes:

1. Defina el modelo.
2. Compile el modelo.
3. Ajuste el modelo.
4. Hacer predicciones sobre los datos de prueba.
5. Evaluar el modelo.

Examinaremos más de cerca cada uno de los pasos y, en paralelo, construiremos el modelo de aprendizaje profundo.

### 1. Definir el modelo
Definir el modelo requiere que primero seleccione el tipo de modelo que necesita y luego elija la arquitectura o topología de red.

Desde la perspectiva de la API, esto implica definir las capas del modelo, configurar cada capa con una cantidad de nodos y una función de activación, y conectar las capas en un modelo cohesivo.

Los modelos se pueden definir con la API secuencial o la API funcional (lo sabrá en módulos posteriores). Aquí definiremos el modelo con Sequential API. Ahora **¿qué es la API secuencial?**

**API secuencial**
La API secuencial es la API más simple para comenzar con Deep Learning.

Se denomina "secuencial" porque implica definir una clase secuencial y agregar capas al modelo una por una de manera lineal, desde la entrada hasta la salida.

El siguiente ejemplo define un modelo de MLP secuencial que acepta una entrada (es decir, 'YearsExperience'), tiene una capa oculta con 1 nodo y luego una capa de salida con un nodo para predecir un valor numérico.



In [11]:
from tensorflow.keras import Sequential    # import Sequential from tensorflow.keras
from tensorflow.keras.layers import Dense  # import Dense from tensorflow.keras.layers
from numpy.random import seed     # seed helps you to fix the randomness in the neural network.  
import tensorflow

In [12]:
# define the model
model = Sequential()
#Funcion de activacion ReLU
model.add(Dense(10, activation='relu', input_shape=(n_features,))) #Capa visible
model.add(Dense(8, activation='relu'))
model.add(Dense(1))

Tenga en cuenta que la capa visible de la red está definida por el argumento "input_shape" en la primera capa oculta. Eso significa que en el ejemplo anterior, el modelo espera que la entrada para una muestra sea un vector de n_features (es decir, 13) number .

La API secuencial es fácil de usar porque sigues llamando a model.add() hasta que hayas agregado todas tus capas.

La función de activación que hemos elegido es **ReLU**, que significa **rectified linear unit**. La función de activación decide si una neurona debe activarse o no.

ReLU se define matemáticamente como **F(x) = max(0,x)**. En otras palabras, la salida es x, si x es mayor que 0, y la salida es 0 si x es 0 o negativo.

### 2. Compile the model - Compilar el modelo

La compilación del modelo requiere que primero seleccione una función de pérdida que desee optimizar, como el error cuadrático medio o la entropía cruzada.

También requiere que seleccione un algoritmo para realizar el procedimiento de optimización. Estamos usando **RMSprop** como nuestro optimizador aquí. RMSprop significa **Propagación cuadrática media de la raíz**(**Root Mean Square Propagation**). Es uno de los algoritmos de optimización de gradiente descendente más populares para redes de aprendizaje profundo. RMSprop es un optimizador fiable y rápido.

**Nota:** Por el momento, entienda el descenso de gradiente solo como un algoritmo de optimización. Sabrá más sobre esto en el próximo módulo.

También puede requerir que seleccione cualquier métrica de rendimiento para realizar un seguimiento durante el proceso de capacitación del modelo. La función de pérdida que se usa aquí es **error cuadrático medio.**(**mean squared error.**) (no se preocupe si no conoce el error cuadrático medio de la función de pérdida, por el momento sepa que es una función que le ayuda a conocer el error o la pérdida su modelo está dando. Aprenderá más sobre las funciones de pérdida en los próximos módulos)

Desde la perspectiva de una API, esto implica llamar a una función para compilar el modelo con la configuración elegida, que preparará las estructuras de datos adecuadas necesarias para el uso eficiente del modelo que ha definido.

In [14]:
# import RMSprop optimizer
from tensorflow.keras.optimizers import RMSprop
optimizer = RMSprop(0.01)    # 0.01 is the tasa de aprendizaje

**Why learning rate = 0.01?** (**¿Por qué tasa de aprendizaje = 0.01?**)

Es importante encontrar un buen valor para la tasa de aprendizaje de su modelo en su conjunto de datos de entrenamiento. no podemos calcular analíticamente la tasa de aprendizaje óptima para un modelo dado en un conjunto de datos dado. En cambio, se debe descubrir una tasa de aprendizaje buena (o suficientemente buena) a través de prueba y error.

El rango de valores a considerar para la tasa de aprendizaje es inferior a 1,0 y superior a $10^{-6}$.

Un valor predeterminado tradicional para la tasa de aprendizaje es 0,1 o 0,01, y esto puede representar un buen punto de partida para su problema.

In [15]:
model.compile(loss='mean_squared_error',optimizer=optimizer)    # compile the model

### 3. Fitting the model - Ajuste del modelo

Ajustar el modelo requiere que primero seleccione la configuración de entrenamiento, como el número de épocas (bucles a través del conjunto de datos de entrenamiento) y el tamaño del lote (número de muestras en una época usada para estimar el error del modelo).

El entrenamiento aplica el algoritmo de optimización elegido para minimizar la función de pérdida elegida y actualiza el modelo utilizando la propagación hacia atrás (no se preocupe si no conoce este término, lo sabrá en el siguiente módulo) del algoritmo de error.

Ajustar el modelo es la parte lenta de todo el proceso y puede llevar de segundos a horas o días, según la complejidad del modelo, el hardware que esté usando y el tamaño del conjunto de datos de entrenamiento.

Desde la perspectiva de la API, esto implica llamar a una función para realizar el proceso de entrenamiento. Esta función bloqueará (no regresará) hasta que finalice el proceso de entrenamiento.

Mientras ajusta el modelo, una barra de progreso resumirá el estado de cada época y el proceso de entrenamiento general.

In [16]:
seed_value = 42
seed(seed_value)        # If you build the model with given parameters, set_random_seed will help you produce the same result on multiple execution


# Recommended by Keras -------------------------------------------------------------------------------------
# 1. Set `PYTHONHASHSEED` environment variable at a fixed value
import os
os.environ['PYTHONHASHSEED']=str(seed_value)

# 2. Set `python` built-in pseudo-random generator at a fixed value
import random
random.seed(seed_value)

# 3. Set `numpy` pseudo-random generator at a fixed value
import numpy as np
np.random.seed(seed_value)
# Recommended by Keras -------------------------------------------------------------------------------------


# 4. Set the `tensorflow` pseudo-random generator at a fixed value
tensorflow.random.set_seed(seed_value) 
model.fit(X_train, y_train, epochs=10, batch_size=30, verbose = 1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f56ae8ead50>

What is **verbose**?

Al configurar detallado 0, 1 o 2, solo dice cómo desea 'ver' el progreso del entrenamiento para cada época.

`verbose=0` no te mostrará nada (silencio)

`verbose=1` le mostrará una barra de progreso animada como esta:

![progres_bar](https://dphi-courses.s3.ap-south-1.amazonaws.com/Deep+Learning+Bootcamp/progress+bar.png)

`verbose=2` solo mencionará el número de época como esta:

![verbose = 2](https://dphi-courses.s3.ap-south-1.amazonaws.com/Deep+Learning+Bootcamp/epoch.png)

### 4. Evaluate the model - Evaluar el modelo
La evaluación del modelo requiere que primero elija un conjunto de datos de exclusión utilizado para evaluar el modelo. Estos deben ser datos que no se utilicen en el proceso de entrenamiento, es decir, el X_test.

La velocidad de evaluación del modelo es proporcional a la cantidad de datos que desea utilizar para la evaluación, aunque es mucho más rápido que el entrenamiento ya que el modelo no cambia.

Desde la perspectiva de la API, esto implica llamar a una función con el conjunto de datos reservado y obtener una pérdida y quizás otras métricas que se puedan informar.

In [17]:
model.evaluate(X_test, y_test)



599.1170043945312

El error cuadrático medio que obtuvimos aquí es 64,8. Ahora, **¿qué significa?** (**what does it mean?**)

Cuando resta los valores pronosticados (de los datos de X_test) del valor actual (de los datos de X_test), luego eleva al cuadrado y suma todos los cuadrados, y finalmente toma una media (es decir, un promedio), el resultado que obtendrá es 64,8 pulgadas. este caso.

evaluar() hace esta tarea automáticamente. Si desea obtener la predicción para X_test, puede hacer **`model.predict(X_test)`**

#### Hyperparameter Tunning - Ajuste de hiperparámetros

Los hiperparámetros aquí en este cuaderno son:
1. Learning Rate - Tasa de aprendizaje
2. Epochs - Épocas
3. Batch Size - Tamaño del lote

Podemos probar y cambiar los valores de estos parámetros y ver el rendimiento del modelo (evaluar el modelo) en los datos de X_test

**Learning Rate** -**Tasa de aprendizaje**

Un escalar utilizado para entrenar un modelo a través del descenso de gradiente. Durante cada iteración, el algoritmo de **descenso de gradiente** (**gradient descent**) multiplica la tasa de aprendizaje por el gradiente. El producto resultante se llama **paso de gradiente**(**gradient step**).

La tasa de aprendizaje es un **hyperparameter** clave.

In [18]:
####################### Complete example to check the performance of the model with different learning rates #######################################
# define the model
model = Sequential()
model.add(Dense(10, activation='relu', input_shape=(n_features,)))
model.add(Dense(8, activation='relu'))
model.add(Dense(1))

optimizer = RMSprop(0.1)    # 0.1 is the learning rate
model.compile(loss='mean_squared_error',optimizer=optimizer)    # compile the model

# fit the model 
model.fit(X_train, y_train, epochs=10, batch_size=30, verbose = 1)

# evaluate the model
print('The MSE value is: ', model.evaluate(X_test, y_test))

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
The MSE value is:  122.8359375


Como puede ver arriba, cómo ha cambiado la pérdida (costo), es decir, MSE, simplemente cambiando la tasa de aprendizaje

### Exercise 1

Test several learning rate values to see the impact of varying this value when defining your model.

Pruebe varios valores de tasa de aprendizaje para ver el impacto de variar este valor al definir su modelo.

In [20]:
# Play with learning rate
learning_rate = 5.2          # Replace ? with a floating-point number
epochs = 10
optimizer = RMSprop(learning_rate)
model.compile(loss='mean_squared_error',optimizer=optimizer)    # compile the model
model.fit(X_train, y_train, epochs=epochs, batch_size=30)     # fit the model
model.evaluate(X_test, y_test)       # Evaluate the model

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


3345.827880859375

**Epochs** - (**Épocas**)

Un pase de entrenamiento completo sobre todo el conjunto de datos de modo que cada ejemplo se haya visto una vez. Por lo tanto, una época representa N/iteraciones de entrenamiento de tamaño de lote, donde N es el número total de ejemplos.

In [21]:
####################### Ejemplo completo para comprobar el rendimiento del modelo con diferentes épocas y tasa de aprendizaje = 0,01 #######################################
# define the model - Definir Modelo
model = Sequential()
model.add(Dense(10, activation='relu', input_shape=(n_features,)))
model.add(Dense(8, activation='relu'))
model.add(Dense(1))

optimizer = RMSprop(0.1)    # 0.1 is the learning rate
model.compile(loss='mean_squared_error',optimizer=optimizer)    # compile the model
 
# fit the model  - Ajustar Modelo
model.fit(X_train, y_train, epochs=100, batch_size=30, verbose = 1)

# evaluate the model - Evaluar Modelo
print('The MSE value is: ', model.evaluate(X_test, y_test))

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Puede ver arriba cómo la pérdida (cost), es decir, MSE, ha cambiado simplemente cambiando las épocas y manteniendo la tasa de aprendizaje igual a 0.01 (es decir, el primer modelo que construimos)

### Exercise 2

Pruebe varios valores de época para ver el impacto de variar este valor al definir su modelo.

In [25]:
# Play with epochs
learning_rate = 0.01         
epochs = 10            # Replace ? with an integer
optimizer = RMSprop(learning_rate)
model.compile(loss='mean_squared_error',optimizer=optimizer)    # compile the model
model.fit(X_train, y_train, epochs=epochs, batch_size=30)     # fit the model
model.evaluate(X_test, y_test)       # Evaluate the model

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


71.12053680419922

### Exercise 3

Encuentre la mejor combinación posible de ***learning rate - tasa de aprendizaje*** y ***epochs - épocas*** mientras prueba algunas combinaciones

In [26]:
# play with learning rate and epochs
learning_rate = 1.5        # Replace ? with a floating-point number
epochs = 10             # Replace ? with an integer
optimizer = RMSprop(learning_rate)
model.compile(loss='mean_squared_error',optimizer=optimizer)    # compile the model
model.fit(X_train, y_train, epochs=epochs, batch_size=30)     # fit the model
model.evaluate(X_test, y_test)       # Evaluate the model

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


71.48442077636719

**Batch Size**

The number of examples in a batch.

In [None]:
####################### Ejemplo completo para comprobar el rendimiento del modelo con diferentes tamaños de lote manteniendo las épocas en 30 y la tasa de aprendizaje en 0,01 #######################################
# define the model
model = Sequential()
model.add(Dense(10, activation='relu', input_shape=(n_features,)))
model.add(Dense(8, activation='relu'))
model.add(Dense(1))

optimizer = RMSprop(0.1)    # 0.1 es la tasa de aprendizaje
model.compile(loss='mean_squared_error',optimizer=optimizer)    # compile the model

# fit the model 
model.fit(X_train, y_train, epochs=10, batch_size=40, verbose = 1)

# evaluate the model
print('The MSE value is: ', model.evaluate(X_test, y_test))

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
The MSE value is:  441.9634094238281


Puede ver arriba el valor de costo (pérdida), es decir, MSE para el tamaño de lote 40 mientras mantiene las épocas en 10 y la tasa de aprendizaje en 0.01

### Exercise 4

Pruebe varios valores de tamaño de lote para ver el impacto de variar este valor al definir su modelo.

In [27]:
# play with batch size
learning_rate = 0.01        
epochs = 150         
batch = 25      # Replace ? with an integer    
optimizer = RMSprop(learning_rate)
model.compile(loss='mean_squared_error',optimizer=optimizer)    # compile the model
model.fit(X_train, y_train, epochs=epochs, batch_size=batch)     # fit the model
model.evaluate(X_test, y_test)       # Evaluate the model

Epoch 1/150
Epoch 2/150
Epoch 3/150
Epoch 4/150
Epoch 5/150
Epoch 6/150
Epoch 7/150
Epoch 8/150
Epoch 9/150
Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78

71.10352325439453

#### **Summary of hyperparameter tuning** - **Resumen del ajuste de hiperparámetros**
La mayoría de los problemas de aprendizaje automático requieren una gran cantidad de ajustes de hiperparámetros. Desafortunadamente, no podemos proporcionar reglas de ajuste concretas para cada modelo. Reducir la tasa de aprendizaje puede ayudar a que un modelo converja de manera eficiente, pero hacer que otro modelo converja demasiado lentamente. Debe experimentar para encontrar el mejor conjunto de hiperparámetros para su conjunto de datos. Dicho esto, aquí hay algunas reglas generales:

* La pérdida de entrenamiento debe disminuir constantemente, abruptamente al principio y luego más lentamente hasta que la pendiente de la curva alcance o se acerque a cero.
* Si la pérdida de entrenamiento no converge, entrenar por más épocas.
* Si la pérdida de entrenamiento disminuye demasiado lentamente, aumente la tasa de aprendizaje. Tenga en cuenta que establecer una tasa de aprendizaje demasiado alta también puede evitar que la pérdida de entrenamiento converja.
* Si la pérdida de entrenamiento varía mucho (es decir, la pérdida de entrenamiento salta), reduzca la tasa de aprendizaje.
* Reducir la tasa de aprendizaje mientras se aumenta el número de épocas o el tamaño del lote suele ser una buena combinación.
* Establecer el tamaño del lote en un número de lote muy pequeño también puede causar inestabilidad. Primero, pruebe con valores de tamaño de lote grandes. Luego, disminuya el tamaño del lote hasta que vea degradación.
* Para conjuntos de datos del mundo real que consisten en una gran cantidad de ejemplos, es posible que el conjunto de datos completo no quepa en la memoria. En tales casos, deberá reducir el tamaño del lote para permitir que un lote quepa en la memoria.

Recuerde: la combinación ideal de hiperparámetros depende de los datos, por lo que siempre debe experimentar y verificar.

Podemos hacer un procedimiento de ajuste de hiperparámetros de dos maneras:
1. Implementación del ajuste de hiperparámetros con Sklearn
2. Implementación del ajuste de hiperparámetros con Keras

#### **Implementing hyperparameter tuning with Sklearn**
Well, we can automate the hyperparameter tunning using **GridSearCV**. GridSearchCV is a hyperparameter search procedure that is done over a defined grid of hyperparameters. Each one of the hyperparameter combinations is used for training a new model, while a cross-validation process is executed to measure the performance of the provisional models. Once the process is done, the hyperparameters and the model with the best performance are chosen.


Let's first take a look at the implementation of GridSearchCV with Sklearn, following the steps:
1. Define the general architecture of the model
2. Define the hyperparameters grid to be validated
3. Run the GridSearchCV process
4. Print the results of the best model

In [28]:
# Import the GridSearchCV class
from sklearn.model_selection import GridSearchCV

# 1. Define the model's architecture
model = Sequential()
model.add(Dense(10, activation='relu', input_shape=(n_features,)))
model.add(Dense(8, activation='relu'))
model.add(Dense(1))
optimizer = RMSprop(0.1)    # 0.1 is the learning rate
model.compile(loss='mean_squared_error',optimizer=optimizer)    # compile the model

# 2. Define the hyperparameters grid to be validated
batch_size = [10, 20, 40, 60, 80, 100]
epochs = [10, 50, 100]
param_grid = dict(batch_size=batch_size, epochs=epochs)
grid = GridSearchCV(estimator=model, param_grid=param_grid, scoring='neg_mean_squared_error', n_jobs=-1)

# 3. Run the GridSearchCV process
grid_result = grid.fit(X_train, y_train)

# 4. Print the results of the best model
print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_))

TypeError: ignored

We can observe an error in the hyperparameter tuning procedure using native Sklearn, because the defined model is a Sequential model implemented by Keras, not a scikit-learn estimator. In order to correct this error, we will integrate Sklearn and Keras properly, by (a) creating a `create_model` function that allows to create the model in an automated way, and (b) defining a `KerasRegressor` model which is an implementation of the scikit-learn regressor API for Keras.

In [None]:
# ----------------------------- Functional Tuning - Option 1: using Sklearn  ------------------------------
# Goal: tune the batch size and epochs

# Import KerasRegressor class
from keras.wrappers.scikit_learn import KerasRegressor

# Define the model trhough a user-defined function
def create_model(optimizer=RMSprop(0.01)):
  model = Sequential()
  model.add(Dense(10, activation='relu', input_shape=(n_features,)))
  model.add(Dense(8, activation='relu'))
  model.add(Dense(1))
  model.compile(loss='mse', metrics=['mse'], optimizer=optimizer)    # compile the model
  return model
model = KerasRegressor(build_fn=create_model, verbose=1)

# Define the hyperparameters grid to be validated
batch_size = [10, 20, 30, 40, 60, 80, 100]
epochs = [10, 50, 100]
param_grid = dict(batch_size=batch_size, nb_epoch=epochs)
model = KerasRegressor(build_fn=create_model, verbose=1)
grid = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, n_jobs=-1)

# Run the GridSearchCV process
grid_result = grid.fit(X_train, y_train, verbose = 1)

# Print the results of the best model
print('Best params: ' + str(grid_result.best_params_))

Best params: {'batch_size': 10, 'nb_epoch': 10}


In [None]:
# Import the cross validation evaluator
from sklearn.model_selection import cross_val_score

# Measure the model's performance
results = cross_val_score(grid.best_estimator_, X_test, y_test, cv=5)
print('Results: \n  * Mean:', -results.mean(), '\n  * Std:', results.std())

Results: 
  * Mean: 445.06143951416016 
  * Std: 531.0475750207843


#### **Implementing hyperparameter tuning with Keras**
Now we will go through the process of automating hyperparameter tuning using **Random Search** and **Keras**. Random Search is a hyperparameter search procedure that is performed on a defined grid of hyperparameters. However, not all hyperparameter combinations are used to train a new model, only some selected randomly, while a process of cross-validation to measure the performance of temporal models. Once the process is complete, the hyperparameters and the best performing model are chosen.

Let's take a look at the implementation of Random Search with Keras, following the steps:

0. Install and import all the packages needed
1. Define the general architecture of the model through a creation function
2. Define the hyperparameters grid to be validated
3. Run the GridSearchCV process
4. Print the results of the best model

To execute the hyperparameter tuning procedure we will use the `keras-tuner`, a library that helps you pick the optimal set of hyperparameters for your TensorFlow model.

In [None]:
# ----------------------------- Functional Tuning - Option 2: using Keras Tuner ------------------------------
# Goal: tune the learning rate

# 0. Install and import all the packages needed
!pip install -q -U keras-tuner
import kerastuner as kt

# 1. Define the general architecture of the model through a creation user-defined function
def model_builder(hp):
  model = Sequential()
  model.add(Dense(10, activation='relu', input_shape=(n_features,)))
  model.add(Dense(8, activation='relu'))
  model.add(Dense(1))
  hp_learning_rate = hp.Choice('learning_rate', values = [1e-1, 1e-2, 1e-3, 1e-4]) # Tuning the learning rate (four different values to test: 0.1, 0.01, 0.001, 0.0001)
  optimizer = RMSprop(learning_rate = hp_learning_rate)                            # Defining the optimizer
  model.compile(loss='mse',metrics=['mse'], optimizer=optimizer)                   # Compiling the model 
  return model                                                                     # Returning the defined model

# 2. Define the hyperparameters grid to be validated
tuner_rs = kt.RandomSearch(
              model_builder,                # Takes hyperparameters (hp) and returns a Model instance
              objective = 'mse',            # Name of model metric to minimize or maximize
              seed = 42,                    # Random seed for replication purposes
              max_trials = 5,               # Total number of trials (model configurations) to test at most. Note that the oracle may interrupt the search before max_trial models have been tested.
              directory='random_search')    # Path to the working directory (relative).

# 3. Run the GridSearchCV process
tuner_rs.search(X_train, y_train, epochs=10, validation_split=0.2, verbose=1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


INFO:tensorflow:Oracle triggered exit


In [None]:
# 4.1. Print the summary results of the hyperparameter tuning procedure
tuner_rs.results_summary()

In [None]:
# 4.2. Print the results of the best model
best_model = tuner_rs.get_best_models(num_models=1)[0]
best_model.evaluate(X_test, y_test)



[48.612728118896484, 48.612728118896484]

In [None]:
# 4.3. Print the best model's architecture
best_model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (None, 10)                140       
_________________________________________________________________
dense_1 (Dense)              (None, 8)                 88        
_________________________________________________________________
dense_2 (Dense)              (None, 1)                 9         
Total params: 237
Trainable params: 237
Non-trainable params: 0
_________________________________________________________________


#### 5. Make a Prediction
Making a prediction is the final step in the life-cycle. It is why we wanted the model in the first place.

It requires you have new data for which a prediction is required, e.g. where you do not have the target values.

From an API perspective, you simply call a function to make a prediction of a class label, probability, or numerical value: whatever you designed your model to predict.

We have our new test data located at the given github location:

https://raw.githubusercontent.com/dphi-official/Datasets/master/Boston_Housing/Testing_set_boston.csv



In [None]:
# Load new test data
new_test_data = pd.read_csv('https://raw.githubusercontent.com/dphi-official/Datasets/master/Boston_Housing/Testing_set_boston.csv')

In [None]:
# make a prediction
model.predict(new_test_data)


**Congratulations! You have successfully build your first deep learning model and predicted the output (i.e. MEDV) of new test data.**

#### Resources
*  [https://machinelearningmastery.com/tensorflow-tutorial-deep-learning-with-tf-keras/](https://machinelearningmastery.com/tensorflow-tutorial-deep-learning-with-tf-keras/)
*  [https://heartbeat.fritz.ai/linear-regression-using-keras-and-python-7cee2819a60c](https://heartbeat.fritz.ai/linear-regression-using-keras-and-python-7cee2819a60c)
*  Google Machine Learning Crash Course