# Regresión Simple con tensorflow, Pandas y el dataset Auto MPG

Se utilizará el dataset clásico conocido como [Auto MPG](https://archive.ics.uci.edu/ml/datasets/auto+mpg) y se construirá un modelo para predecir la eficiencia de vehículos de los años de 1970 a 1980 (rango de años de los que contiene datos el dataset en cuestión). Entre los atributos que usaremos estarán los cilindros, desplazamiento, potencia y peso del automóvil.

In [None]:
import pathlib

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

import tensorflow as tf

from tensorflow import keras
from tensorflow.keras import layers

print(tf.__version__)

# El Dataset Auto MPG

Este dataset está disponible en el repositorio de [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/index.php).

## Obtenemos los datos usando Keras para traerlo del repositorio.

In [None]:
dataset_path = keras.utils.get_file("auto-mpg.data", "https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data")
print(dataset_path)

## Usamos pandas para importarlo

In [None]:
column_names = ['MPG','Cylinders','Displacement','Horsepower','Weight',
                'Acceleration', 'Model Year', 'Origin']

raw_dataset = pd.read_csv(dataset_path, names=column_names,
                      na_values = "?", comment='\t',
                      sep=" ", skipinitialspace=True)

dataset = raw_dataset.copy()
dataset.tail()

In [None]:
print(dataset["Horsepower"])

## Pre-procesamos los datos

Revisamos si hay valores desconocidos en los datos.

In [None]:
dataset.isna().sum()

Eliminados las filas que contienen valores desconocidos

In [None]:
dataset = dataset.dropna()

La columna "Origin" no es numérica, la convertiremos a valores de 0 o 1, usando lo que se conoce en este ámbito como "one-hot":

In [None]:
origin = dataset.pop('Origin')

In [None]:
dataset['USA'] = (origin == 1)*1.0
dataset['Europe'] = (origin == 2)*1.0
dataset['Japan'] = (origin == 3)*1.0
dataset.tail()

## Separemos los datos en entrenamiento y prueba.

El conjunto de datos de prueba lo usaremos para evaluar nuestro modelo.

In [None]:
# dataset de entrenamiento
train_dataset = dataset.sample(frac=0.8,random_state=0)

In [None]:
train_dataset

In [None]:
train_dataset.index

In [None]:
# dataset de prueba, del original eliminamos todos los elementos del dataset de entrenamiento
test_dataset = dataset.drop(train_dataset.index)

## Revisamos los datos

Revisamos la distribución conjunta de un par de columna del conjunto de datos de entrenamiento

In [None]:
sns.pairplot(train_dataset[["MPG", "Cylinders", "Displacement", "Weight"]], diag_kind="kde")

### Revisamos las estadísticas generales

In [None]:
train_stats = train_dataset.describe()
train_stats.pop("MPG")
train_stats = train_stats.transpose()
train_stats

## Separamos las características de las etiquetas

Los valores de las etiquetas será lo que el modelo buscará predecir.

In [None]:
train_labels = train_dataset.pop('MPG')
test_labels = test_dataset.pop('MPG')

In [None]:
print(train_labels)

## Normalizamos los datos

Si observamos los datos de las diferentes características en las estadísticas más arriba podemos observar que se manejan rangos muy diferentes en cada una de ellas.

Es común y además buena práctica normalizar los datos para facilitar el entrenamiento.

**Nota:** Aunque generamos intencionalmente estas estadísticas solo del conjunto de datos de entrenamiento, estas estadísticas también se utilizarán para normalizar el conjunto de datos de prueba. Necesitamos hacer eso para proyectar el conjunto de datos de prueba en la misma distribución en la que el modelo ha sido entrenado.

In [None]:
def norm(x):
  return (x - train_stats['mean']) / train_stats['std']

In [None]:
normed_train_data = norm(train_dataset)
normed_test_data = norm(test_dataset)

## Definimos el modelo

Aquí, utilizaremos un modelo secuencial con dos capas ocultas densamente conectadas y una capa de salida que devuelve un único valor continuo. Los pasos de construcción del modelo se envuelven en una función, build_model, ya que crearemos un segundo modelo, más adelante.

In [None]:
def build_model():
  model = keras.Sequential([
    layers.Dense(64, activation='relu', input_shape=[len(train_dataset.keys())]),
    layers.Dense(64, activation='relu'),
    layers.Dense(1)
  ])

  optimizer = tf.keras.optimizers.RMSprop(0.001)

  model.compile(loss='mse',
                optimizer=optimizer,
                metrics=['mae', 'mse'])
  return model

In [None]:
model = build_model()

## Revisamos el modelo

In [None]:
model.summary()

## Probando el modelo

Tomaremos un lote de 10 ejemplos de los datos de entrenamiento y llamaremos a `model.predict` con dicho lote.

In [None]:
example_batch = normed_train_data[:10]
example_result = model.predict(example_batch)
example_result

## Entrenamos al modelo

Entrenaremos al modelo por 1000 épocas, guardaremos los resultados de precisón del entrenamiento y validación en el objeto `history`.

In [None]:
# Desplegamos el progreso del entrenamiento imprimiento un punto por cada época completada
class PrintDot(keras.callbacks.Callback):
  def on_epoch_end(self, epoch, logs):
    if epoch % 100 == 0: print('')
    print('.', end='')

EPOCHS = 1000

history = model.fit(
  normed_train_data, train_labels,
  epochs=EPOCHS, validation_split = 0.2, verbose=0,
  callbacks=[PrintDot()])

## Visualicemos el progreso del entrenamiento del modelo usando las estadísticas almacenadas en el objeto `history`.

In [None]:
hist = pd.DataFrame(history.history)
hist['epoch'] = history.epoch
hist.tail()

In [None]:
def plot_history(history):
  hist = pd.DataFrame(history.history)
  hist['epoch'] = history.epoch

  plt.figure()
  plt.xlabel('Epoch')
  plt.ylabel('Mean Abs Error [MPG]')
  plt.plot(hist['epoch'], hist['mae'],
           label='Train Error')
  plt.plot(hist['epoch'], hist['val_mae'],
           label = 'Val Error')
  plt.ylim([0,5])
  plt.legend()

  plt.figure()
  plt.xlabel('Epoch')
  plt.ylabel('Mean Square Error [$MPG^2$]')
  plt.plot(hist['epoch'], hist['mse'],
           label='Train Error')
  plt.plot(hist['epoch'], hist['val_mse'],
           label = 'Val Error')
  plt.ylim([0,20])
  plt.legend()
  plt.show()


plot_history(history)

Este gráfico muestra poca mejora, o incluso degradación en el error de validación después de aproximadamente 100 épocas. Actualicemos la llamada `model.fit` para detener automáticamente el entrenamiento cuando el puntaje de validación no mejore. Utilizaremos una **devolución de llamada de EarlyStopping** que pruebe una condición de entrenamiento para cada época. Si transcurre una cantidad determinada de épocas sin mostrar mejoría, entonces detiene automáticamente el entrenamiento.

Puedes obtener más información sobre esta devolución de llamada [aquí](https://www.tensorflow.org/versions/master/api_docs/python/tf/keras/callbacks/EarlyStopping).

In [None]:
model = build_model()

# El parámetro "patience" es la cantidad de épocas que se revisará por una mejora, si la mejora no ocurre se detiene el proceso.
early_stop = keras.callbacks.EarlyStopping(monitor='val_loss', patience=10)

history = model.fit(normed_train_data, train_labels, epochs=EPOCHS,
                    validation_split = 0.2, verbose=0, callbacks=[early_stop, PrintDot()])

plot_history(history)

El gráfico muestra que en el conjunto de validación, el error promedio generalmente es de alrededor de +/- 2 MPG. ¿Es esto bueno? Esto siempre dependerá de ustedes y de lo que consideren aceptable.

Veamos qué tan bien generaliza el modelo al usar el conjunto ** test **, que no usamos al entrenar el modelo. Esto nos dice qué tan bien podemos esperar que el modelo prediga cuándo lo usamos en el mundo real.

In [None]:
loss, mae, mse = model.evaluate(normed_test_data, test_labels, verbose=2)

print("Testing set Mean Abs Error: {:5.2f} MPG".format(mae))

## Hagamos predicciones

Usaremos los datos del conjunto de pruebas para predecir los valores de MPG.

In [None]:
test_predictions = model.predict(normed_test_data).flatten()

plt.scatter(test_labels, test_predictions)
plt.xlabel('True Values [MPG]')
plt.ylabel('Predictions [MPG]')
plt.axis('equal')
plt.axis('square')
plt.xlim([0,plt.xlim()[1]])
plt.ylim([0,plt.ylim()[1]])
_ = plt.plot([-100, 100], [-100, 100])

Parece que nuestro modelo predice razonablemente bien. Echemos un vistazo a la distribución de errores.

In [None]:
error = test_predictions - test_labels
plt.hist(error, bins = 25)
plt.xlabel("Prediction Error [MPG]")
_ = plt.ylabel("Count")

No es del todo gaussiano (curva de campana de la distribución normal), pero podríamos esperar eso porque el número de muestras es muy pequeño.

## Conclusiones

Este bloc de notas introdujo algunas técnicas para manejar un problema de regresión.

* El error cuadrático medio (MSE) es una función de pérdida común utilizada para problemas de regresión (se utilizan diferentes funciones de pérdida para problemas de clasificación).
* Del mismo modo, las métricas de evaluación utilizadas para la regresión difieren de la clasificación. Una métrica de regresión común es el error absoluto medio (MAE).
* Cuando las características de datos de entrada numéricos tienen valores con diferentes rangos, cada característica debe escalarse independientemente al mismo rango.
* Si no hay muchos datos de entrenamiento, una técnica es preferir una red pequeña con pocas capas ocultas para evitar el sobreajuste.
* La detención temprana es una técnica útil para evitar el sobreajuste.

Basado en la documentación de Tensorflow, disponible en: https://www.tensorflow.org/tutorials/keras/regression

In [None]:
#@title MIT License
# Copyright (c) 2017 François Chollet
#
# Permission is hereby granted, free of charge, to any person obtaining a
# copy of this software and associated documentation files (the "Software"),
# to deal in the Software without restriction, including without limitation
# the rights to use, copy, modify, merge, publish, distribute, sublicense,
# and/or sell copies of the Software, and to permit persons to whom the
# Software is furnished to do so, subject to the following conditions:
#
# The above copyright notice and this permission notice shall be included in
# all copies or substantial portions of the Software.
#
# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
# THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
# FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
# DEALINGS IN THE SOFTWARE.