# Predicción de precios de automóviles

## 01. Introduction to the data set

Exploramos los fundamentos del aprendizaje automático utilizando el algoritmo de k-vecinos más cercanos. En este proyecto vamos a practicar el flujo de trabajo de aprendizaje automático que se ha aprendido hasta ahora para predecir el precio de mercado de un automóvil utilizando sus atributos. 

El conjunto de datos con el que trabajaremos contiene información sobre varios automóviles. Para cada automóvil tenemos información sobre los aspectos técnicos del vehículo, como el desplazamiento del motor, el peso del automóvil, las millas por galón, qué tan rápido acelera el automóvil y más. 

Puedes leer más sobre el conjunto de datos [aquí](https://archive.ics.uci.edu/ml/datasets/automobile). Aquí hay una vista previa del conjunto de datos:

<img src="figs/df_preview.png" width="1200" height="800"/>





----

- Lee `imports-85.data` en un dataframe llamado `cars`. Si lee el archivo usando `pandas.read_csv()` sin especificar ningún valor de parámetro adicional, notará que los nombres de las columnas no coinciden con los de la [documentación del conjunto de datos](https://archive.ics.uci.edu/ml/datasets/automobile). ¿Por qué crees que es esto y cómo puedes solucionarlo?
- Determine qué columnas son numéricas y se pueden usar como características y qué columna es la columna objetivo (target).
- Muestre las primeras filas del datframe y asegúrese de que se vea como la vista previa del conjunto de datos.

## 02. Limpieza de datos

Por lo general, no podemos tener valores faltantes si queremos usarlos para el modelado predictivo. Según la vista previa del conjunto de datos del último paso, podemos decir que la columna `normalized-losses` contiene valores faltantes representados con `"?"`. Reemplacemos estos valores y busquemos la presencia de valores faltantes en otras columnas numéricas. También cambiemos la escala de los valores en las columnas numéricas para que todos estén en el rango de 0 a 1.

---
- Utilice el método [`DataFrame.replace()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html) para reemplazar todos los `?` valores con el valor faltante `numpy.nan`.
- Debido a que `?` es un valor de cadena, las columnas que contienen este valor se convirtieron en el tipo de datos `object` de pandas (en lugar de un tipo numérico como `int` o `float`). Después de reemplazar los `?` valores, determine qué columnas deben convertirse a tipos numéricos. Puede usar los métodos [`DataFrame.astype()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.astype.html) o [`Series.astype()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.astype.html) para convertir tipos de columna.
- Devuelve el número de filas a las que les falta un valor para la columna `normalized-losses`. Determine cómo debe manejar esta columna. Podrías:
    - Reemplazar los valores faltantes usando los valores promedio de esa columna.
    - Descartar las filas por completo (especialmente si a otras columnas de esas filas les faltan valores).
    - Quitar la columna por completo.
- Explore los valores faltantes para las otras columnas numéricas y maneje los valores faltantes.
- De las columnas que decidiste conservar, normaliza las numéricas para que todos los valores oscilen entre 0 y 1.

## 03. Modelo Univariado

Comencemos con algunos modelos univariados de k-vecinos más cercanos. Comenzar con modelos simples antes de pasar a modelos más complejos nos ayuda a estructurar el flujo de trabajo de código y comprender mejor las funciones.

---

- Cree una función llamada `knn_train_test()` que encapsule el proceso de capacitación y validación simple. Esta función debe tener 3 parámetros: el nombre de la columna de entrenamiento, el nombre de la columna objetivo (target) y dataframe.

    - Esta función debe dividir el conjunto de datos en un conjunto de entrenamiento y otro de prueba.
    - Luego, debe instanciar la clase KNeighborsRegressor, ajustar el modelo en el conjunto de entrenamiento y hacer predicciones en el conjunto de prueba.
    - Finalmente, debe calcular el RMSE y devolver ese valor.

- Use esta función para entrenar y probar modelos univariados usando las diferentes columnas numéricas en el conjunto de datos. ¿Qué columna funcionó mejor usando el valor `k` predeterminado?

- Modifique la función `knn_train_test()` que escribió para aceptar un parámetro para el valor k.
    - Actualice la lógica de la función para usar este parámetro.
    - Para cada columna numérica, cree, entrene y pruebe un modelo univariante utilizando los siguientes valores `k` (`1`, `3`, `5`, `7` y `9`). Visualice los resultados mediante un diagrama de dispersión o un diagrama de líneas.

## 04. Modelo Multivariado

Modifiquemos la función `knn_train_test()` que escribimos anteriormente para trabajar con varias columnas.

---

- Modifique la función `knn_train_test()` para aceptar una lista de nombres de columna (en lugar de solo una cadena). Modifique el resto de la lógica de la función para usar este parámetro:
    - En lugar de usar solo una columna para entrenar y probar, use todas las columnas que se asignarán al parámetro.
    - Utilice el valor `k` predeterminado de scikit-learn por ahora (ajustaremos el valor k en el siguiente paso).
- Utilice las 2 mejores características del paso anterior para entrenar y probar un modelo multivariado de k vecinos más cercanos utilizando el valor `k` predeterminado.
- Utilice las 3 mejores características del paso anterior para entrenar y probar un modelo multivariado de k vecinos más cercanos utilizando el valor `k` predeterminado.
- Utilice las mejores 4 características del paso anterior para entrenar y probar un modelo multivariado de k vecinos más cercanos utilizando el valor `k` predeterminado.
- Use las mejores 5 características del paso anterior para entrenar y probar un modelo multivariado de `k` vecinos más cercanos usando el valor k predeterminado.
- Muestra todos los valores RMSE.


## 05. Ajuste de Hyperparámetros 

Ahora vamos a optimizar el modelo que funcionó mejor en el paso anterior.

----

- Para los 3 modelos principales en el último paso, varíe el valor del hiperparámetro de 1 a 25 y represente gráficamente los valores RMSE resultantes.

- ¿Qué valor de k es óptimo para cada modelo? ¿Qué tan diferentes son los valores de k y qué crees que explica las diferencias?


## 06. ¿Qué sigue?

- Modifique la función `knn_train_test()` para usar la validación cruzada k-fold en lugar de la validación de prueba/entrenamiento.
- Modifique la función `knn_train_test()` para realizar también la limpieza de datos.