# <font style="color:rgb(50, 120, 229);"> Auto MPG Dataset </font>

En este cuaderno, estaremos trabajando con el conjunto de datos Auto MPG del repositorio de aprendizaje automático de UC Irvine aquí. 

Este conjunto de datos contiene casi 400 muestras de datos de automóviles de la década de 1970. Hay ocho campos de datos en el conjunto de datos que consisten en varios atributos como el peso del vehículo y la potencia, y el objetivo es utilizar estas características para predecir el consumo de combustible del vehículo.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

plt.rcParams["figure.figsize"] = (15, 8)
plt.rcParams['axes.titlesize'] = 16
plt.rcParams['axes.labelsize'] = 14

## <font style="color:rgb(50, 120, 229);"> 1. Cargar los datos </font>

Los datos se encuentran en formato CSV, por lo que podemos cargarlos fácilmente utilizando la biblioteca pandas.

In [None]:
data = pd.read_csv('./data/auto-mpg.csv')
data = data[["MPG", "Displacement", "Horsepower"]]
data.head()

## <font style="color:rgb(50, 120, 229);"> 2. Limpieza de datos </font>

La mayoría de los conjuntos de datos requieren algún nivel de preprocesamiento, a menudo denominado "limpieza". 

Por ejemplo, algunos campos pueden faltar en campos numéricos etiquetados en el conjunto de datos con varios marcadores ('?', 'N/A', 'NaN', etc.). Para verificar esta condición, podemos usar el siguiente comando.

<font style="color:rgb(8, 133, 37);">**Sintaxis:**</font>

```python
df.isna().sum()
```

Esto nos dará una lista de todas las columnas y la cantidad de valores faltantes en cada una de ellas.

In [None]:
#TODO: Muestra el número de datos faltantes en cada columna

Puedes observar que tenemos 6 valores faltantes en la columna 'horsepower'. 

Existen diferentes estrategias para manejar los valores faltantes, en este ejercicio eliminaremos las filas que contienen valores faltantes.

<font style="color:rgb(8, 133, 37);">**Sintaxis:**</font>

```python
df = df.dropna()
```


In [None]:
#TODO: Elimina las filas con datos faltantes

#TODO: Muestra el número de datos faltantes en cada columna

## <font style="color:rgb(50, 120, 229);"> 3. Análisis exploratorio de datos </font>

El análisis exploratorio de datos es una parte importante de cualquier proyecto de aprendizaje automático. Nos ayuda a comprender mejor los datos y a identificar patrones y relaciones entre las diferentes características. Esto queda fuera del alcance de este cuaderno.

## <font style="color:rgb(50, 120, 229);"> 4. Revisar las estadísticas de los datos </font>

Podemos usar el método `describe()` para obtener un resumen de las estadísticas de los datos.

<font style="color:rgb(8, 133, 37);">**Sintaxis:**</font>

```python
df.describe()
```

In [None]:
#TODO: Muestra las estadísticas básicas de las columnas numéricas

Como puedes ver en la tabla, las diversas características tienen un amplio rango de valores que abarcan tres órdenes de magnitud. Cuando los datos de las características varían tan ampliamente, generalmente se recomienda escalar los datos de las características como un paso de preprocesamiento antes de entrenar un modelo. 

## <font style="color:rgb(50, 120, 229);"> 5. Dividir los datos en conjuntos de entrenamiento y prueba </font>

Ahora vamos a dividir el conjunto de datos en componentes de prueba y entrenamiento, lo cual es necesario para entrenar y probar adecuadamente los modelos.

<font style="color:rgb(8, 133, 37);">**Sintaxis:**</font>

```python
train_df = df.sample(frac=0.8, random_state=0)
test_df = df.drop(train_df.index)
```

**Parámetros:**

- `frac`: Fracción de los datos que se utilizarán para el conjunto de entrenamiento.
- `random_state`: Semilla para la generación de números aleatorios. (Se utiliza para reproducir los mismos resultados).


In [None]:
#TODO: Separa los datos en entrenamiento y prueba


## <font style="color:rgb(50, 120, 229);"> 6. Separar las características y las etiquetas </font>

Dado que las características y el valor objetivo están contenidos en el mismo marco de datos, los separaremos en dos marcos de datos para mantenerlos aislados. Esto también facilita la gestión de los datos.

<font style="color:rgb(8, 133, 37);">**Sintaxis:**</font>

```python
train_features = train_df.copy() # Copiar todas las columnas
test_features = test_df.copy()
```

```python
train_labels = train_features.pop('mpg') # Eliminar la columna 'mpg' de train_features y almacenarla en train_labels
test_labels = test_features.pop('mpg') 
```

In [None]:
#TODO: Crea una copia de los datos de entrenamiento y prueba


#TODO: Separa las etiquetas de los datos


<font style="color:rgb(8, 133, 37);">**Convertir a numpy array:**</font>

Keras espera que los datos de entrada sean matrices numpy, por lo que necesitamos convertir los datos de entrenamiento y prueba en matrices numpy.

```python
X_train = train_features.values
X_test = test_features.values

y_train = train_labels.values
y_test = test_labels.values
```

In [None]:
#TODO: Convierte los datos a arreglos de numpy

## <font style="color:rgb(50, 120, 229);"> 6. Normalización de datos </font>

Como se mencionó anteriormente, este conjunto de datos contiene una amplia gama de valores de características, y a menudo se recomienda escalar las características para que abarquen un rango de valores similar. 

Una razón por la que esto es importante es que las características se multiplican por los pesos del modelo. Por lo tanto, la escala de las salidas y la escala de los gradientes se ven afectadas por la escala de las entradas. 

Aunque un modelo podría converger sin escalar las características, el escalado de las características hace que el entrenamiento sea mucho más estable y también facilita el proceso de optimización al permitir que el descenso de gradiente converja mucho más rápido.


<font style="color:rgb(50, 120, 229);">**Estándarización**</font>

La estandarización (también conocida como escalado de puntuación z) asume que los datos originales están distribuidos de forma normal y escala la característica para que tenga una media de cero y una desviación estándar de 1. 

Esto se logra para cada característica (xi) restando la media de los datos de la característica a cada punto de datos (conocido como sustracción de la media) y luego dividiendo ese resultado por la desviación estándar de los datos de la característica, como se muestra a continuación:

$$
x_i = \frac{x_i - \text{mean}(x)}{\text{std}(x)}
$$

<font style="color:rgb(196, 30, 58);">**NOTA**</font>

Los parámetros de normalización (media y desviación estándar) se derivan solo del conjunto de datos de entrenamiento, pero se aplicarán a todos los datos (entrenamiento, validación y prueba).


In [None]:
#TODO: Normaliza los datos de entrenamiento y prueba creando una capa de Normalización
#Se utiliza train_features para normalizar


## <font style="color:rgb(50, 120, 229);"> 7. Construir el modelo </font>

### <font style="color:rgb(50, 120, 229);"> 7.1. Definir el modelo </font>

<center>
    <img src="./images/auto-model.webp" width=600/>
</center>

In [None]:
#TODO: Define un modelo con dos capas ocultas con 32 neuronas y su capa de salida

### <font style="color:rgb(50, 120, 229);"> 7.2. Definir la función de pérdida y el optimizador </font>

Utilizaremos la función de pérdida de error cuadrático medio (mse) y el optimizador SDG.

In [None]:
#TODO: Compila el modelo con la función de pérdida y el optimizador adecuado

### <font style="color:rgb(50, 120, 229);"> 7.3. Entrenar el modelo </font>

Ahora es el momento de entrenar el modelo usando la única característica de entrada. 

Para este conjunto de datos y los ejemplos en este cuaderno, usaremos 100 épocas. 

Especifica un `validación_split` del 30% (0.3), para reservar el 30% de las muestras de entrenamiento para no ser utilizadas para entrenar el modelo, de modo que puedan ser utilizadas para evaluar el modelo durante el proceso de entrenamiento.

**Más adelante entenderemos por que esto es importante**

In [None]:
#TODO: Utiliza el método fit para entrenar el modelo, guarda el historial del entrenamiento en la variable history

Durante este entrenamiento guardaremos dos historiales: 

- La pérdida de entrenamiento en cada época.
- La pérdida de validación en cada época. (Después de ajustar los pesos del modelo, evaluamos el modelo en el conjunto de validación para ver cómo se desempeña en datos no vistos).

In [None]:
#TODO: Grafica la pérdida en función del número de épocas

### <font style="color:rgb(50, 120, 229);"> 7.4. Evaluar el modelo </font>

Finalmente, evaluaremos el modelo en el conjunto de prueba y veremos cómo se desempeña en datos no vistos.

Para evaluar el modelo, utilizaremos la función `evaluate()` que devolverá la pérdida y las métricas del modelo.

```python
model.evaluate(X_test, y_test)
```

In [None]:
#TODO: Evalúa el modelo con los datos de prueba

### <font style="color:rgb(50, 120, 229);"> 7.4. Visualizar resultados </font>

Ejecuta las siguientes celdas para visualizar los resultados.

In [None]:
hp_min = train_features.Horsepower.min()
hp_max = train_features.Horsepower.max()
dp_min = train_features.Displacement.min()
dp_max = train_features.Displacement.max()

x_surf, y_surf = np.meshgrid(np.linspace(hp_min, hp_max, 100), np.linspace(dp_min, dp_max, 100))
x_grid = pd.DataFrame({'Horsepower': x_surf.ravel(), 'Displacement': y_surf.ravel()})

pred_y = model.predict(x_grid)
pred_y = np.array(pred_y)

In [None]:
fig = plt.figure(figsize=(20, 10))

ax = fig.add_subplot(121, projection='3d')
ax.scatter(X_train[:, 0], X_train[:, 1], y_train, c='green',  marker='o', alpha=0.5)
ax.plot_surface(x_surf, y_surf, pred_y.reshape(x_surf.shape), color='blue', alpha=0.5)
ax.set_xlabel('Horsepower')
ax.set_ylabel('Displacement')
ax.set_zlabel('MPG')
ax.view_init(8, -40)

ax = fig.add_subplot(122, projection='3d')
ax.scatter(X_train[:, 0], X_train[:, 1], y_train, c='green',  marker='o', alpha=0.5)
ax.plot_surface(x_surf, y_surf, pred_y.reshape(x_surf.shape), color='blue', alpha=0.5)
ax.set_xlabel('Horsepower')
ax.set_ylabel('Displacement')
ax.set_zlabel('MPG')
ax.view_init(8, 130)