# 01 - Regresión con Keras

En un problema de *regresión*, buscamos predecir la salida de un valor continuo como la probabilidad de un precio. En contraste en un problema de *Clasificacion*, buscamos seleccionar una clase de una lista de clases (por ejemplo, en donde una imagen contenga un perro o un gato queremos reconocer cual es el animal en la imagen).

Este libro usa el set de datos clasico [Auto MPG](https://archive.ics.uci.edu/ml/datasets/auto+mpg) y construye un modelo para predecir la eficiencia de vehiculos de 1970 y 1980. Para hacer esto proveeremos el modelo con una descripcion de muchos automoviles de ese periodo. Esta descripcion incluye atributos como: Cilindros, desplazamiento, potencia y peso.

Este ejemplo usa el API `keras` , revise [Esta Guia](https://www.tensorflow.org/guide/keras) para obtener mas detalles.

In [None]:
# librerias

import warnings
warnings.filterwarnings('ignore')


import pylab as plt
import pandas as pd
import seaborn as sns


from keras.utils import get_file

from keras import Sequential
from keras.layers import Dense

from keras.callbacks import Callback, EarlyStopping

from tensorflow.keras.optimizers.legacy import RMSprop  

from sklearn.model_selection import train_test_split as tts
from sklearn.preprocessing import StandardScaler

### Conjunto de datos

Los datos esta disponible de el siguiente repositorio [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/)


In [None]:
data = get_file('auto-mpg.data', 
                'http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data')
data

In [None]:
column_names = ['MPG','Cylinders','Displacement','Horsepower','Weight',
                'Acceleration', 'Model Year', 'Origin']

In [None]:
df = pd.read_csv(data, 
                 names=column_names,
                 comment='\t', 
                 na_values = '?',
                 sep=' ', 
                 skipinitialspace=True)

In [None]:
df.head()

In [None]:
df.info()

### Limpieza y transformación de datos

In [None]:
df.isna().sum()

In [None]:
df = df.dropna()

In [None]:
df.Origin.unique()  # 1=USA, 2=Europa, 3=Japon

In [None]:
df = pd.get_dummies(df, columns=['Origin'])

df.rename(columns = {'Origin_1': 'USA', 'Origin_2': 'Europe','Origin_3': 'Japan'}, inplace=True)

In [None]:
df.head()

### Separación e inspección de los datos 

In [None]:
X = df.drop('MPG', axis=1)

y = df.MPG

In [None]:
sns.pairplot(X, diag_kind='kde');

In [None]:
# normalización

X[X.columns] = StandardScaler().fit_transform(X)

In [None]:
X.head()

In [None]:
# separacion en paquetes de entrenamiento y testeo

X_train, X_test, y_train, y_test = tts(X, y)

In [None]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

### Modelo

Construyamos nuestro modelo. Aquí, utilizaremos un modelo `secuencial` con dos capas ocultas densamente conectadas y una capa de salida que devuelve un único valor continuo. 

In [None]:
model = Sequential()

model.add(Dense(64, activation='relu', input_shape=[X_train.shape[1]]))

model.add(Dense(64, activation='relu'))

model.add(Dense(1))



optimizer = RMSprop(0.001)



model.compile(loss='mse', optimizer='adam', metrics=['mae', 'mse'])  

In [None]:
# inspeccion del modelo

model.summary()

**Entrenamiento**

In [None]:
model.fit(X_train[:20], y_train[:20], epochs=2)

In [None]:
class PrintDot(Callback):
    
  def on_epoch_end(self, epoch, logs):
    if epoch % 100 == 0: 
        print('')
    else:
        print('.', end='')

In [None]:
EPOCAS = 1000

In [None]:
history = model.fit(X_train, y_train,
                    epochs=EPOCAS, 
                    validation_split = 0.2, 
                    verbose=0,
                    callbacks=[PrintDot()])

In [None]:
history

### Resultados

In [None]:
pd.DataFrame(history.history).head()

In [None]:
def plot_history(history):
    hist = pd.DataFrame(history.history)
    hist['epoch'] = history.epoch
    
    plt.figure()
    plt.xlabel('Epoch')
    plt.ylabel('Mean Abs Error [MPG]')
    plt.plot(hist['epoch'], hist['mae'], label='Train Error')
    plt.plot(hist['epoch'], hist['val_mae'], label = 'Val Error')
    plt.ylim([0,5])
    plt.legend()
    
    
    plt.figure()
    plt.xlabel('Epoch')
    plt.ylabel('Mean Square Error [$MPG^2$]')
    plt.plot(hist['epoch'], hist['mse'], label='Train Error')
    plt.plot(hist['epoch'], hist['val_mse'], label = 'Val Error')
    plt.ylim([0,20])
    plt.legend()
    
    plt.show();

In [None]:
plot_history(history)

Este gráfico muestra poca mejora, o incluso degradación en el error de validación después de aproximadamente 100 épocas. 

Actualicemos la llamada `model.fit` para detener automáticamente el entrenamiento cuando el puntaje de validación no mejore. Utilizaremos una * devolución de llamada de EarlyStopping * que pruebe una condición de entrenamiento para cada época. Si transcurre una cantidad determinada de épocas sin mostrar mejoría, entonces detiene automáticamente el entrenamiento.

Puedes obtener más información sobre el callback [aquí](https://www.tensorflow.org/versions/master/api_docs/python/tf/keras/callbacks/EarlyStopping).

In [None]:
model = Sequential()

model.add(Dense(64, activation='relu', input_shape=[X_train.shape[1]]))

model.add(Dense(64, activation='relu'))

model.add(Dense(1))


optimizer = RMSprop(0.001)


model.compile(loss='mse', optimizer=optimizer, metrics=['mae', 'mse'])  

In [None]:
early_stop = EarlyStopping(monitor='val_loss', patience=10)

In [None]:
history = model.fit(X_train, y_train,
                    epochs=EPOCAS, 
                    validation_split = 0.2, 
                    verbose=0,
                    callbacks=[early_stop, PrintDot()])

In [None]:
plot_history(history)

El gráfico muestra que en el conjunto de validación, el error promedio generalmente es de alrededor de +/- 2 MPG. ¿Es esto bueno? 

Veamos qué tan bien generaliza el modelo al usar el conjunto de testeo, que no usamos al entrenar el modelo. Esto nos dice qué tan bien podemos esperar que el modelo prediga cuándo lo usamos en el mundo real.

### Predicciones

In [None]:
y_pred = model.predict(X_test).flatten()

In [None]:
y_pred[:10]

In [None]:
plt.scatter(y_test, y_pred)

plt.xlabel('True Values [MPG]')
plt.ylabel('Predictions [MPG]')

plt.axis('equal')
plt.axis('square')

plt.xlim([0, plt.xlim()[1]])
plt.ylim([0, plt.ylim()[1]])

_ = plt.plot([-100, 100], [-100, 100])

In [None]:
loss, mae, mse = model.evaluate(X_test, y_test, verbose=1)

print('Testing MAE: {:5.2f} MPG'.format(mae))
print('Testing RMSE: {:5.2f} MPG'.format(mse**0.5))

In [None]:
y.mean(), y.std()

Parece que nuestro modelo predice razonablemente bien. Echemos un vistazo a la distribución de errores.

In [None]:
error = y_pred - y_test

plt.hist(error, bins = 25)

plt.xlabel('Prediction Error [MPG]')
_ = plt.ylabel('Count')

No es del todo gaussiano, pero podríamos esperar eso porque el número de muestras es muy pequeño.

## Conclusion

Este cuaderno introdujo algunas técnicas para manejar un problema de regresión.

* El error cuadrático medio (MSE) es una función de pérdida común utilizada para problemas de regresión (se utilizan diferentes funciones de pérdida para problemas de clasificación).
* Del mismo modo, las métricas de evaluación utilizadas para la regresión difieren de la clasificación. Una métrica de regresión común es el error absoluto medio (MAE).
* Cuando las características de datos de entrada numéricos tienen valores con diferentes rangos, cada característica debe escalarse independientemente al mismo rango.
* Si no hay muchos datos de entrenamiento, una técnica es preferir una red pequeña con pocas capas ocultas para evitar el sobreajuste.
* La detención temprana es una técnica útil para evitar el sobreajuste.