# Trabajo Práctico 2: Regresión

El objetivo de este trabajo práctico es desarrollar y evaluar diversos modelos de regresión para estimar el precio de venta de una SUV (Sport Utility Vehicle) de Toyota. El dataset **Precios de SUVs** contiene información sobre los precios en dólares de tres modelos de vehículos SUV de la marca Toyota, publicados en la página de Mercado Libre Argentina. Además, incluye características adicionales relacionadas con cada publicación. Previamente, el conjunto de datos fue dividido en subconjuntos de desarrollo (`toyota_dev.csv`) y prueba (`toyota_test.csv`).

**Nota:** La implementación de las funciones y/o clases debe realizarse utilizando exclusivamente la librería NumPy. No se permite el uso de librerías de Machine Learning como scikit-learn, TensorFlow, Keras, PyTorch, XGBoost, o LightGBM.

1. **Visualización de Datos**

   Utiliza el dataset de desarrollo para crear una serie de gráficos que exploren las relaciones entre diferentes variables. Las visualizaciones deben ayudarte a identificar patrones y tendencias en los datos. Utiliza las librerías Matplotlib o Seaborn para esta tarea.

    - Visualiza cómo varía el precio en dólares en función de los kilómetros recorridos por el vehículo. ¿Observas la misma tendencia para los diferentes modelos?
    - Compara la distribución de precios en dólares entre los distintos modelos de SUV. ¿Identificas la presencia de outliers? ¿Qué acciones tomarías con ellos?
    - Analiza la distribución del precio en dólares según el año del vehículo.
    - Evalúa la utilidad de la variable categórica **Color**. ¿Existen diferencias significativas en el precio según el color del vehículo? ¿Hay algún modelo cuyo precio parezca estar influenciado por el color?
    - Compara cómo varía el precio según el tipo de combustible utilizado. ¿Hay algún modelo cuyo precio esté condicionado por el tipo de combustible?
    - Compara los precios en función del tipo de transmisión del vehículo.
    - Analiza la distribución de los modelos por año. ¿Puedes identificar si ciertos modelos son más comunes en años específicos?
    - **OPCIONAL**: Agrega una o más visualizaciones adicionales que consideres útiles para obtener insights valiosos y mejorar la comprensión del dataset.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


# COMPLETAR CON TU CÓDIGO AQUÍ

2. **División del Dataset**

   Dentro de un archivo llamado `data_splitting.py`:

   - Implementa la función `train_val_split(...)` que divida el set de desarrollo en dos subconjuntos: uno para entrenamiento (train) y otro para validación (validate). Asegúrate de que la división sea representativa y evite que un solo grupo de muestras se concentre en un solo subconjunto.
   - Implementa la función `cross_val(...)` que realice la validación cruzada (cross-validation) con `k` folds sobre el set de desarrollo.

In [None]:
from data_splitting import train_val_split, cross_val

3. **Implementación de Métricas**

   Dentro de un archivo llamado `metrics.py`:

   - Implementa la función `RMSE(...)` que calcule el error cuadrático medio (Root Mean Squared Error) entre las predicciones y los valores reales.
   - Implementa la función `MAE(...)` que calcule el error absoluto medio (Mean Absolute Error) entre las predicciones y los valores reales.
   - Implementa la función `R2(...)` que calcule el coeficiente de determinación (R-squared) para evaluar la proporción de la varianza en los valores reales explicada por las predicciones.

In [None]:
from metrics import RMSE, MAE, R2

4. **Modelos de Regresión**

   Dentro de un archivo llamado `models.py`:

   - Implementa un modelo de regresión lineal (`LinearRegression`) que estime el precio de venta de una SUV de Toyota utilizando las características disponibles en el dataset.
   - Implementa un modelo de regresión no-lineal (`NonLinearRegression`) utilizando regresores con parámetros no-lineales que deberás seleccionar o desarrollar según tu criterio. **Nota:** El objetivo es modelar el precio de venta de SUVs, por lo que debes elegir un enfoque que capture de manera efectiva la relación no-lineal entre las variables.
   - Implementa un modelo de regresión localmente ponderada (`LocallyWeightedRegression`) que ajuste el modelo de regresión en función de los datos cercanos a la predicción.

In [None]:
from models import LinearRegression, NonLinearRegression, LocallyWeightedRegression

5. **Evaluación con División Train-Val**

   Utiliza la función `train_val_split(...)` para dividir el dataset de desarrollo en conjuntos de entrenamiento (70%) y validación (30%). Entrena los modelos `LinearRegression`, `NonLinearRegression`, y `LocallyWeightedRegression`, y reporta las métricas RMSE, MAE y $R^2$.

In [None]:
# COMPLETAR CON TU CÓDIGO AQUÍ

6. **Evaluación con Validación Cruzada**

   Utiliza el dataset de desarrollo y la función `cross_val(...)` con `k=5` para entrenar los modelos `LinearRegression`, `NonLinearRegression`, y `LocallyWeightedRegression`. Reporta las métricas RMSE, MAE y $R^2$.

In [None]:
# COMPLETAR CON TU CÓDIGO AQUÍ

7. **Comparación de Resultados**

   Elabora una tabla comparativa de los resultados obtenidos en los dos pasos anteriores. Realiza una discusión breve en la que analices las diferencias entre los modelos y expliques los motivos detrás de los resultados observados.

In [None]:
# COMPLETAR CON TU CÓDIGO AQUÍ

8. **Evaluación en el Conjunto de Prueba**

    Evalúa el rendimiento de los modelos LinearRegression, NonLinearRegression, y LocallyWeightedRegression sobre el conjunto de prueba y reporta las métricas RMSE, MAE y $R^2$.

In [None]:
# COMPLETAR CON TU CÓDIGO AQUÍ