# Hola Bruno! <a class="tocSkip"></a>

Mi nombre es Oscar Flores y tengo el gusto de revisar tu proyecto. Si tienes algún comentario que quieras agregar en tus respuestas te puedes referir a mi como Oscar, no hay problema que me trates de tú.

Si veo un error en la primera revisión solamente lo señalaré y dejaré que tú encuentres de qué se trata y cómo arreglarlo. Debo prepararte para que te desempeñes como especialista en Data, en un trabajo real, el responsable a cargo tuyo hará lo mismo. Si aún tienes dificultades para resolver esta tarea, te daré indicaciones más precisas en una siguiente iteración.

Te dejaré mis comentarios más abajo - **por favor, no los muevas, modifiques o borres**

Comenzaré mis comentarios con un resumen de los puntos que están bien, aquellos que debes corregir y aquellos que puedes mejorar. Luego deberás revisar todo el notebook para leer mis comentarios, los cuales estarán en rectángulos de color verde, amarillo o rojo como siguen:

<div class="alert alert-block alert-success">
<b>Comentario de Reviewer</b> <a class="tocSkip"></a>
    
Muy bien! Toda la respuesta fue lograda satisfactoriamente.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario de Reviewer</b> <a class="tocSkip"></a>

Existen detalles a mejorar. Existen recomendaciones.
</div>

<div class="alert alert-block alert-danger">

<b>Comentario de Reviewer</b> <a class="tocSkip"></a>

Se necesitan correcciones en el bloque. El trabajo no puede ser aceptado con comentarios en rojo sin solucionar.
</div>

Cualquier comentario que quieras agregar entre iteraciones de revisión lo puedes hacer de la siguiente manera:

<div class="alert alert-block alert-info">
<b>Respuesta estudiante.</b> <a class="tocSkip"></a>
</div>

Mucho éxito en el proyecto!

## Resumen de la revisión 1 <a class="tocSkip"></a>

<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Felicitaciones Bruno! Has aprobado el proyecto en la primera iteración. Tu trabajo está muy bueno, completo y ordenado. La calidad de los análisis que realizaste están a un excelente nivel, lo que uno espera de un especialista de datos. Vas muy bien orientado en tu aprendizaje y se ve que lo aplicas correctamente. Continua así, tendrás mucho éxito.
    
Saludos!    

</div>

----

El servicio de venta de autos usados Rusty Bargain está desarrollando una aplicación para atraer nuevos clientes. Gracias a esa app, puedes averiguar rápidamente el valor de mercado de tu coche. Tienes acceso al historial: especificaciones técnicas, versiones de equipamiento y precios. Tienes que crear un modelo que determine el valor de mercado.
A Rusty Bargain le interesa:
- la calidad de la predicción;
- la velocidad de la predicción;
- el tiempo requerido para el entrenamiento

# Proyecto: Predicción de Valor de Mercado para Rusty Bargain

## Introducción

El servicio de venta de coches de segunda mano, Rusty Bargain, está desarrollando una aplicación para facilitar a los usuarios la estimación del valor de mercado de sus vehículos. El objetivo principal de este proyecto es construir un modelo de Machine Learning que pueda predecir el precio de un coche (`Price`) basándose en sus características históricas y técnicas.

Para Rusty Bargain, no solo es importante la **calidad de la predicción**, sino también la **velocidad** con la que el modelo puede generar estas predicciones y el **tiempo** que requiere su entrenamiento. Por lo tanto, evaluaremos los modelos utilizando la métrica **RECM (Raíz del Error Cuadrático Medio)** y mediremos los tiempos de entrenamiento y predicción.

En este cuaderno, realizaremos los siguientes pasos:
* Cargaremos y exploraremos el conjunto de datos proporcionado.
* Realizaremos la limpieza y preprocesamiento necesarios para preparar los datos para el modelado.
* Entrenaremos y evaluaremos varios modelos de regresión, incluyendo Regresión Lineal (como prueba de cordura), modelos basados en árboles (Árbol de Decisión, Bosque Aleatorio) y modelos de potenciación del gradiente (LightGBM y opcionalmente XGBoost/CatBoost).
* Ajustaremos los hiperparámetros de los modelos más prometedores.
* Analizaremos y compararemos el rendimiento de los modelos en función de la calidad (RECM), la velocidad de predicción y el tiempo de entrenamiento.
* Finalmente, concluiremos cuál modelo se ajusta mejor a las necesidades de Rusty Bargain.

##  Importación de Librerías

Importamos las librerías necesarias para el análisis de datos, preprocesamiento, modelado y evaluación.

In [21]:
# --- Análisis y Manipulación de Datos ---
import pandas as pd
import numpy as np
import time

# --- Visualización ---
import matplotlib.pyplot as plt
import seaborn as sns

# --- Preprocesamiento ---
from sklearn.model_selection import train_test_split, GridSearchCV, KFold
from sklearn.preprocessing import StandardScaler, OneHotEncoder, OrdinalEncoder
from sklearn.compose import make_column_transformer
from sklearn.pipeline import Pipeline

# --- Modelos ---
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor
import lightgbm as lgb
import xgboost as xgb
from catboost import CatBoostRegressor

# --- Métricas de Evaluación ---
from sklearn.metrics import mean_squared_error

print("Librerías importadas exitosamente.")

Librerías importadas exitosamente.


## Preparación de datos: Carga y Exploración Inicial de Datos

Comenzamos cargando el conjunto de datos desde el archivo CSV proporcionado. Luego, realizaremos una exploración inicial para entender su estructura, el tipo de información que contiene cada columna, la presencia de valores nulos y estadísticas descriptivas básicas. Esto nos dará una primera visión de los datos y nos ayudará a identificar los pasos necesarios para la limpieza y preprocesamiento.

**Acciones:**
1. Cargar el dataset usando pandas.
2. Mostrar las primeras filas para visualizar los datos.
3. Obtener información general (tipos de datos, valores no nulos) con `.info()`.
4. Calcular estadísticas descriptivas para las columnas numéricas con `.describe()`.
5. Verificar las dimensiones del dataset (número de filas y columnas) con `.shape`.
6. Comprobar si existen filas duplicadas completas.

In [2]:
# --- Carga de Datos ---
file_path = '/datasets/car_data.csv'

df = pd.read_csv(file_path)

# --- Exploración Inicial ---
print("Primeras 5 filas del dataset:")
display(df.head())

print("\nInformación general del dataset:")
df.info()

print("\nEstadísticas descriptivas (columnas numéricas):")
display(df.describe())

print("\nDimensiones del dataset (filas, columnas):")
print(df.shape)

print("\nNúmero de valores duplicados completos:")
print(f"Se encontraron {df.duplicated().sum()} filas duplicadas.")


Primeras 5 filas del dataset:


Unnamed: 0,DateCrawled,Price,VehicleType,RegistrationYear,Gearbox,Power,Model,Mileage,RegistrationMonth,FuelType,Brand,NotRepaired,DateCreated,NumberOfPictures,PostalCode,LastSeen
0,24/03/2016 11:52,480,,1993,manual,0,golf,150000,0,petrol,volkswagen,,24/03/2016 00:00,0,70435,07/04/2016 03:16
1,24/03/2016 10:58,18300,coupe,2011,manual,190,,125000,5,gasoline,audi,yes,24/03/2016 00:00,0,66954,07/04/2016 01:46
2,14/03/2016 12:52,9800,suv,2004,auto,163,grand,125000,8,gasoline,jeep,,14/03/2016 00:00,0,90480,05/04/2016 12:47
3,17/03/2016 16:54,1500,small,2001,manual,75,golf,150000,6,petrol,volkswagen,no,17/03/2016 00:00,0,91074,17/03/2016 17:40
4,31/03/2016 17:25,3600,small,2008,manual,69,fabia,90000,7,gasoline,skoda,no,31/03/2016 00:00,0,60437,06/04/2016 10:17



Información general del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   DateCrawled        354369 non-null  object
 1   Price              354369 non-null  int64 
 2   VehicleType        316879 non-null  object
 3   RegistrationYear   354369 non-null  int64 
 4   Gearbox            334536 non-null  object
 5   Power              354369 non-null  int64 
 6   Model              334664 non-null  object
 7   Mileage            354369 non-null  int64 
 8   RegistrationMonth  354369 non-null  int64 
 9   FuelType           321474 non-null  object
 10  Brand              354369 non-null  object
 11  NotRepaired        283215 non-null  object
 12  DateCreated        354369 non-null  object
 13  NumberOfPictures   354369 non-null  int64 
 14  PostalCode         354369 non-null  int64 
 15  LastSeen           354369 non-null

Unnamed: 0,Price,RegistrationYear,Power,Mileage,RegistrationMonth,NumberOfPictures,PostalCode
count,354369.0,354369.0,354369.0,354369.0,354369.0,354369.0,354369.0
mean,4416.656776,2004.234448,110.094337,128211.172535,5.714645,0.0,50508.689087
std,4514.158514,90.227958,189.850405,37905.34153,3.726421,0.0,25783.096248
min,0.0,1000.0,0.0,5000.0,0.0,0.0,1067.0
25%,1050.0,1999.0,69.0,125000.0,3.0,0.0,30165.0
50%,2700.0,2003.0,105.0,150000.0,6.0,0.0,49413.0
75%,6400.0,2008.0,143.0,150000.0,9.0,0.0,71083.0
max,20000.0,9999.0,20000.0,150000.0,12.0,0.0,99998.0



Dimensiones del dataset (filas, columnas):
(354369, 16)

Número de valores duplicados completos:
Se encontraron 262 filas duplicadas.


<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>


Bien, correcto



</div>

### `display(df.head())`

La visualización de las primeras filas confirma los nombres de las columnas y nos da una idea del tipo de datos que contienen. Inmediatamente se observa la presencia de valores nulos (`NaN`) en columnas importantes como `VehicleType`, `Gearbox`, `Model`, `FuelType` y `NotRepaired`. También notamos que las columnas de fechas (`DateCrawled`, `DateCreated`, `LastSeen`) están almacenadas como texto (`object`), y que `RegistrationMonth` tiene un valor de 0 en la primera fila, lo cual es inusual para un mes.

### `df.info()`

Esta salida revela que el dataset tiene 354,369 entradas y 16 columnas. Confirma la presencia significativa de valores nulos en `VehicleType` (faltan ~37k), `Gearbox` (~20k), `Model` (~20k), `FuelType` (~33k) y `NotRepaired` (la columna con más nulos, faltan ~71k). Identifica 7 columnas de tipo numérico (`int64`) y 9 de tipo texto (`object`), incluyendo las fechas y varias características categóricas que requerirán procesamiento. La memoria utilizada es de aproximadamente 43.3 MB.

### `display(df.describe())`

Las estadísticas descriptivas de las columnas numéricas muestran varios puntos críticos: `Price` tiene un mínimo de 0, lo cual no es realista. `RegistrationYear` presenta valores extremos imposibles (mínimo 1000, máximo 9999) que deben ser corregidos. `Power` también tiene valores anómalos (mínimo 0, máximo 20000). `Mileage` parece tener un límite superior, ya que el percentil 75 y el máximo coinciden en 150,000 km. `RegistrationMonth` incluye el valor 0, que no corresponde a un mes válido. Por último, `NumberOfPictures` parece contener únicamente ceros, lo que la haría inútil para el modelo.

### `print(df.shape)`

Este comando confirma las dimensiones del DataFrame: 354,369 filas y 16 columnas. Esto coincide con la información de `df.info()` y nos da una idea clara del volumen de datos con el que estamos trabajando.

### `print(f"Se encontraron {df.duplicated().sum()} filas duplicadas.")`

Se detectaron 262 filas completamente duplicadas en el conjunto de datos. Estas filas idénticas generalmente no aportan información adicional y pueden sesgar el entrenamiento, por lo que usualmente se eliminan durante la fase de limpieza.

<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>


Me parece muy bien tus comentarios de cada línea de exploración de la data, lo hace muy estructurado. 



</div>

##  Limpieza Inicial: Duplicados y Columnas Irrelevantes

Basándonos en la exploración inicial, procederemos con los siguientes pasos de limpieza:

1.  **Eliminar Filas Duplicadas:** Encontramos 262 filas que son copias exactas de otras. Estas no aportan información nueva y pueden introducir sesgos leves, por lo que las eliminaremos.
2.  **Eliminar Columnas No Relevantes o Problemáticas:**
    * `NumberOfPictures`: Esta columna contiene únicamente el valor 0, por lo que no tiene varianza y no aportará poder predictivo al modelo.
    * `DateCrawled`, `DateCreated`, `LastSeen`: Estas fechas se refieren a cuándo se recopiló o actualizó el anuncio en la base de datos, no a características intrínsecas del vehículo que determinen su valor de mercado actual. Por lo tanto, no se espera que sean predictores directos del precio y las eliminaremos para simplificar el modelo.
    * `PostalCode`: Aunque la ubicación puede influir en el precio, el código postal es una variable categórica con muchísimos valores únicos (alta cardinalidad). Codificarla adecuadamente requeriría técnicas más complejas (como target encoding o agrupar por regiones) que complican la comparación inicial de modelos. Usarla como número no tiene sentido. Por simplicidad, la eliminaremos en esta etapa.

Conservaremos `RegistrationYear` y `RegistrationMonth`, ya que reflejan directamente la antigüedad del vehículo, un factor clave en su precio. Sin embargo, recordamos que ambas columnas tienen valores anómalos que abordaremos más adelante.

**Acciones:**
1. Eliminar filas duplicadas.
2. Eliminar las columnas `DateCrawled`, `DateCreated`, `LastSeen`, `PostalCode`, `NumberOfPictures`.
3. Verificar las nuevas dimensiones del DataFrame.

In [3]:
# --- Eliminación de Duplicados ---
rows_before_dedup = df.shape[0]
df.drop_duplicates(inplace=True)
rows_after_dedup = df.shape[0]
print(f"Se eliminaron {rows_before_dedup - rows_after_dedup} filas duplicadas.")

# --- Eliminación de Columnas ---
cols_to_drop = ['DateCrawled', 'DateCreated', 'LastSeen', 'PostalCode', 'NumberOfPictures']
df.drop(columns=cols_to_drop, inplace=True)
print(f"Se eliminaron las columnas: {', '.join(cols_to_drop)}")

# --- Verificación Post-Limpieza Inicial ---
print("\nNuevas dimensiones del dataset (filas, columnas):")
print(df.shape)

print("\nInformación general tras limpieza inicial:")
df.info()

Se eliminaron 262 filas duplicadas.
Se eliminaron las columnas: DateCrawled, DateCreated, LastSeen, PostalCode, NumberOfPictures

Nuevas dimensiones del dataset (filas, columnas):
(354107, 11)

Información general tras limpieza inicial:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 354107 entries, 0 to 354368
Data columns (total 11 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   Price              354107 non-null  int64 
 1   VehicleType        316623 non-null  object
 2   RegistrationYear   354107 non-null  int64 
 3   Gearbox            334277 non-null  object
 4   Power              354107 non-null  int64 
 5   Model              334406 non-null  object
 6   Mileage            354107 non-null  int64 
 7   RegistrationMonth  354107 non-null  int64 
 8   FuelType           321218 non-null  object
 9   Brand              354107 non-null  object
 10  NotRepaired        282962 non-null  object
dtypes: int64(5), object(6)


<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>


Bien, correcta la eliminación de los duplicados, si bien es posible tener la misma data para la venta de dos autos diferentes, dado que esta data incluye `DateCrawled`, se hace muy improbable que sean autos diferentes y, por lo tanto, es data repetida.

Adicionalmente, está bien remover las columnas no informativas.

</div>

## Tratamiento de Valores Anómalos

En la exploración inicial (`.describe()`), identificamos valores inverosímiles en varias columnas numéricas clave: `Price`, `RegistrationYear` y `Power`, además de un valor inválido (0) en `RegistrationMonth`. Estos valores pueden distorsionar el análisis y el rendimiento del modelo, por lo que procederemos a corregirlos o eliminarlos.

**Estrategia:**

* **`Price`**: El precio mínimo de 0€ no es realista para un coche. Estableceremos un umbral mínimo razonable (ej. 100€) y eliminaremos los registros por debajo de este valor, asumiendo que son errores o entradas no válidas.
* **`RegistrationYear`**: Los años 1000 y 9999 son claramente incorrectos. Considerando que los datos se recopilaron alrededor de 2016, definiremos un rango de años de matriculación plausible, por ejemplo, entre 1950 y 2016 (inclusive). Los coches registrados fuera de este rango serán eliminados. Un coche no puede registrarse en el futuro respecto a la fecha de creación del anuncio.
* **`Power`**: Una potencia (CV) de 0 es imposible para un vehículo funcional. También hay valores extremadamente altos (hasta 20000 CV) que son inverosímiles. Definiremos un rango de potencia razonable, por ejemplo, entre 10 CV y 1000 CV. Los registros fuera de este rango serán eliminados.
* **`RegistrationMonth`**: El valor 0 no es un mes válido (debería ser 1-12). En lugar de eliminar estas filas, lo cual podría descartar datos por lo demás válidos, imputaremos estos valores. Una estrategia común es reemplazar el valor inválido (0) por el mes más frecuente (la moda) entre los meses válidos (1-12).

**Acciones:**
1. Filtrar el DataFrame para mantener solo las filas con `Price` >= 100.
2. Filtrar el DataFrame para mantener solo las filas con `RegistrationYear` entre 1950 y 2016.
3. Filtrar el DataFrame para mantener solo las filas con `Power` entre 10 y 1000.
4. Calcular la moda de `RegistrationMonth` (excluyendo el 0) y reemplazar los 0 con este valor.
5. Verificar las estadísticas descriptivas (`.describe()`) nuevamente para confirmar la corrección de los rangos.

In [4]:
# --- Filtrado de Valores Anómalos ---
print(f"Tamaño del dataset antes de filtrar anomalías: {df.shape}")

# Filtrar Price
rows_before = df.shape[0]
price_min_threshold = 100
df = df[df['Price'] >= price_min_threshold]
rows_after = df.shape[0]
print(f"Filtrado Price < {price_min_threshold}: Se eliminaron {rows_before - rows_after} filas.")

# Filtrar RegistrationYear
rows_before = df.shape[0]
year_min_threshold = 1950
year_max_threshold = 2016 # Basado en la fecha de crawling/creación
df = df[(df['RegistrationYear'] >= year_min_threshold) & (df['RegistrationYear'] <= year_max_threshold)]
rows_after = df.shape[0]
print(f"Filtrado RegistrationYear fuera de [{year_min_threshold}, {year_max_threshold}]: Se eliminaron {rows_before - rows_after} filas.")

# Filtrar Power
rows_before = df.shape[0]
power_min_threshold = 10
power_max_threshold = 1000
df = df[(df['Power'] >= power_min_threshold) & (df['Power'] <= power_max_threshold)]
rows_after = df.shape[0]
print(f"Filtrado Power fuera de [{power_min_threshold}, {power_max_threshold}]: Se eliminaron {rows_before - rows_after} filas.")

print(f"Tamaño del dataset después de filtrar anomalías: {df.shape}")

# --- Corrección de RegistrationMonth ---
# Calcular la moda de los meses válidos (1-12)
valid_months = df[df['RegistrationMonth'].between(1, 12)]['RegistrationMonth']
if not valid_months.empty:
    month_mode = valid_months.mode()[0]
    print(f"\nLa moda de RegistrationMonth (1-12) es: {month_mode}")

    # Contar cuántos meses son 0 antes de reemplazar
    count_month_zero = df[df['RegistrationMonth'] == 0].shape[0]
    print(f"Número de filas con RegistrationMonth = 0: {count_month_zero}")

    # Reemplazar 0 con la moda
    df['RegistrationMonth'] = df['RegistrationMonth'].replace(0, month_mode)
    print(f"Se reemplazaron los valores 0 de RegistrationMonth con {month_mode}.")
else:
    print("\nNo se encontraron meses válidos (1-12) para calcular la moda.")


# --- Verificación Post-Corrección ---
print("\nEstadísticas descriptivas tras corregir anomalías:")
display(df.describe())

print("\nInformación general tras corregir anomalías:")
df.info() # También revisamos info para ver si la limpieza afectó los nulos

Tamaño del dataset antes de filtrar anomalías: (354107, 11)
Filtrado Price < 100: Se eliminaron 13311 filas.
Filtrado RegistrationYear fuera de [1950, 2016]: Se eliminaron 13831 filas.
Filtrado Power fuera de [10, 1000]: Se eliminaron 32009 filas.
Tamaño del dataset después de filtrar anomalías: (294956, 11)

La moda de RegistrationMonth (1-12) es: 3
Número de filas con RegistrationMonth = 0: 17644
Se reemplazaron los valores 0 de RegistrationMonth con 3.

Estadísticas descriptivas tras corregir anomalías:


Unnamed: 0,Price,RegistrationYear,Power,Mileage,RegistrationMonth
count,294956.0,294956.0,294956.0,294956.0,294956.0
mean,4873.878962,2002.841037,120.873622,128313.646781,6.178535
std,4611.6666,6.488454,54.68122,36702.210956,3.343335
min,100.0,1950.0,10.0,5000.0,1.0
25%,1350.0,1999.0,76.0,125000.0,3.0
50%,3200.0,2003.0,111.0,150000.0,6.0
75%,6999.0,2007.0,150.0,150000.0,9.0
max,20000.0,2016.0,1000.0,150000.0,12.0



Información general tras corregir anomalías:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 294956 entries, 1 to 354368
Data columns (total 11 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   Price              294956 non-null  int64 
 1   VehicleType        284135 non-null  object
 2   RegistrationYear   294956 non-null  int64 
 3   Gearbox            289697 non-null  object
 4   Power              294956 non-null  int64 
 5   Model              284025 non-null  object
 6   Mileage            294956 non-null  int64 
 7   RegistrationMonth  294956 non-null  int64 
 8   FuelType           279630 non-null  object
 9   Brand              294956 non-null  object
 10  NotRepaired        252492 non-null  object
dtypes: int64(5), object(6)
memory usage: 27.0+ MB


<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Muy bien con los filtros de la data. El rango válido utilizado me parece sensato, aunque tal vez hubiese sido mejor mirar la distribución de la data antes del filtro.
    
Respecto a la corrección del mes, está bien, son relativamente pocas filas (6% aprox) a imputar. Además, no estoy seguro que sea una variable tan útil para predecir. En general, no es bueno imputar con la moda (o media o mediana) de toda la data, puesto que podría introducir un sesgo en los datos. Es mejor segmentar los datos e imputar los valores de cada grupo con la moda (u otro medida de tendencia central) de cada grupo. En este caso se me ocurre que tal vez hay ciertos vehículos que pueden tener estacionalidad en su venta como los descapotables, podría haber sido una buena variable a explorar.

</div>

## Tratamiento de Valores Nulos (NaN)

La limpieza anterior eliminó filas con valores numéricos anómalos, pero todavía tenemos valores ausentes (`NaN`) en cinco columnas categóricas (`VehicleType`, `Gearbox`, `Model`, `FuelType`, `NotRepaired`). Eliminar todas las filas con algún valor nulo podría resultar en una pérdida considerable de datos (especialmente por `NotRepaired`, que tiene ~42k nulos).

**Estrategia:**

Optaremos por la **imputación**, reemplazando los valores `NaN` con un valor constante que indique explícitamente que la información estaba ausente. Usaremos la cadena de texto `'Unknown'` (o 'Desconocido'). Esta estrategia tiene dos ventajas:
1.  Conserva todas las filas del dataset.
2.  Permite que los modelos (especialmente los basados en árboles como Random Forest, LightGBM, etc.) potencialmente aprendan si el hecho de que un valor sea desconocido es relevante para la predicción del precio.

**Acciones:**
1. Identificar las columnas categóricas con valores nulos.
2. Reemplazar los `NaN` en estas columnas por la cadena `'Unknown'`.
3. Verificar con `.info()` que ya no quedan valores nulos en el DataFrame.
4. Opcionalmente, revisar los `value_counts()` de alguna columna modificada para ver la nueva categoría.

In [5]:
# --- Imputación de Valores Nulos ---
# Columnas categóricas con nulos identificadas previamente
cols_with_nan = ['VehicleType', 'Gearbox', 'Model', 'FuelType', 'NotRepaired']

# Imputar NaN con 'Unknown'
for col in cols_with_nan:
    df[col].fillna('Unknown', inplace=True)

print(f"Se imputaron los valores NaN en las columnas: {', '.join(cols_with_nan)} con 'Unknown'.")

# --- Verificación Post-Imputación ---
print("\nInformación general tras imputar NaN:")
df.info()


Se imputaron los valores NaN en las columnas: VehicleType, Gearbox, Model, FuelType, NotRepaired con 'Unknown'.

Información general tras imputar NaN:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 294956 entries, 1 to 354368
Data columns (total 11 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   Price              294956 non-null  int64 
 1   VehicleType        294956 non-null  object
 2   RegistrationYear   294956 non-null  int64 
 3   Gearbox            294956 non-null  object
 4   Power              294956 non-null  int64 
 5   Model              294956 non-null  object
 6   Mileage            294956 non-null  int64 
 7   RegistrationMonth  294956 non-null  int64 
 8   FuelType           294956 non-null  object
 9   Brand              294956 non-null  object
 10  NotRepaired        294956 non-null  object
dtypes: int64(5), object(6)
memory usage: 27.0+ MB


<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Muy bien, correcta la decisión

</div>

##  Preparación de Datos para Modelado: Codificación Diferenciada y División

Antes de entrenar los modelos, es crucial transformar nuestras características para que sean adecuadas para los algoritmos de Machine Learning. Nuestra estrategia de codificación será diferenciada para manejar la alta cardinalidad de ciertas columnas y optimizar el número final de características:

1.  **Codificar Características Categóricas:**
    * **`Brand` y `Model` :** Estas columnas tienen una gran cantidad de valores únicos. Aplicar One-Hot Encoding (OHE) directamente a ellas generó un número muy elevado de características, lo cual puede aumentar la complejidad y los tiempos de entrenamiento. Además, estas características tienen una naturaleza implícitamente ordinal (ej. gamas de modelos, posicionamiento de marcas) que OHE no captura. Para manejar esto, aplicaremos **`OrdinalEncoder`** a `Brand` y `Model`. Esto transformará cada una de estas columnas en una única columna de enteros, reduciendo significativamente la dimensionalidad. 
    * **Otras Categóricas (`VehicleType`, `Gearbox`, `FuelType`, `NotRepaired`):** Estas columnas tienen un número mucho menor de categorías únicas. Para ellas, utilizaremos **`OneHotEncoder (OHE)`**, ya que es una técnica robusta que no impone un orden y funciona bien con la mayoría de los modelos.
    * **Numéricas:** Las características que ya son numéricas (`RegistrationYear`, `Power`, `Mileage`, `RegistrationMonth`) se mantendrán sin cambios en este paso (`passthrough`).

2.  **Dividir los Datos:** Como siempre, separaremos nuestro dataset en conjuntos de **entrenamiento** y **prueba** *antes* de aplicar cualquier codificación para evitar la fuga de datos.

Utilizaremos `train_test_split` para la división y `ColumnTransformer` para aplicar las diferentes estrategias de codificación (`OrdinalEncoder` y `OneHotEncoder`) a los subconjuntos de columnas correspondientes, ajustando los codificadores únicamente con los datos de entrenamiento.

**Acciones:**
1. Separar las características (`X`) de la variable objetivo (`y`, que es `Price`).
2. Dividir `X` e `y` en conjuntos de entrenamiento y prueba.
3. Identificar los diferentes grupos de columnas: numéricas, categóricas de alta cardinalidad (`Brand`, `Model`), y categóricas de baja cardinalidad (las restantes).
4. Crear y ajustar un `ColumnTransformer` que aplique `OrdinalEncoder` a las de alta cardinalidad, `OneHotEncoder` a las de baja cardinalidad, y deje las numéricas como están.
5. Transformar `X_train` y `X_test` usando el `ColumnTransformer` ajustado.
6. Verificar las nuevas dimensiones de los conjuntos de datos resultantes.

In [12]:
# --- Separación de Características y Objetivo ---
X = df.drop('Price', axis=1)
y = df['Price']

# --- División en Conjuntos de Entrenamiento y Prueba ---
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# --- Identificación de Tipos de Columnas para Codificación Diferenciada ---
numerical_features = X.select_dtypes(include=['int64', 'float64']).columns.tolist()
# Categorías a tratar con OrdinalEncoder
high_card_categorical_features = ['Brand', 'Model']
# Categorías a tratar con OneHotEncoder
low_card_categorical_features = [
    col for col in X.select_dtypes(include='object').columns
    if col not in high_card_categorical_features
]

print(f"Características Numéricas: {numerical_features}")
print(f"Categóricas para OrdinalEncoding (Alta Cardinalidad): {high_card_categorical_features}")
print(f"Categóricas para OneHotEncoding (Baja Cardinalidad): {low_card_categorical_features}")

# --- Creación del Preprocesador con ColumnTransformer ---
preprocessor_strat = make_column_transformer(
    (OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1), high_card_categorical_features),
    (OneHotEncoder(handle_unknown='ignore', sparse=False), low_card_categorical_features),
    remainder='passthrough') # Para las características numéricas


# --- Ajuste y Transformación ---

preprocessor_strat.fit(X_train)

# Transformar ambos conjuntos
X_train_processed_strat = preprocessor_strat.transform(X_train)
X_test_processed_strat = preprocessor_strat.transform(X_test)

# --- Verificación de Dimensiones ---
print("\nDimensiones después de la división y preprocesamiento ESTRATÉGICO:")
print(f"X_train_processed_strat shape: {X_train_processed_strat.shape}")
print(f"X_test_processed_strat shape: {X_test_processed_strat.shape}")
print(f"y_train shape: {y_train.shape}") 
print(f"y_test shape: {y_test.shape}")   

Características Numéricas: ['RegistrationYear', 'Power', 'Mileage', 'RegistrationMonth']
Categóricas para OrdinalEncoding (Alta Cardinalidad): ['Brand', 'Model']
Categóricas para OneHotEncoding (Baja Cardinalidad): ['VehicleType', 'Gearbox', 'FuelType', 'NotRepaired']

Dimensiones después de la división y preprocesamiento ESTRATÉGICO:
X_train_processed_strat shape: (221217, 29)
X_test_processed_strat shape: (73739, 29)
y_train shape: (221217,)
y_test shape: (73739,)


<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Excelente, muy bien con esta preparación de la data
    

</div>

##  Reevaluación de Modelos con Codificación Estratégica

Ahora que hemos procesado los datos con una codificación diferenciada (`OrdinalEncoder` para `Brand` y `Model`, y `OneHotEncoder` para las otras categóricas), resultando en solo 29 características, vamos a reentrenar nuestros modelos y comparar su rendimiento (RECM, tiempos) con los resultados obtenidos usando la codificación OHE completa.

Comenzaremos, como siempre, con la Regresión Lineal.

###  Modelo 1: Regresión Lineal (con Codificación Estratégica)

Reentrenamos la Regresión Lineal usando `X_train_processed_strat` y `X_test_processed_strat`. Es importante notar que `OrdinalEncoder` asigna un orden numérico arbitrario (por defecto) a `Brand` y `Model`. Los modelos lineales son sensibles a la magnitud y escala de estos números, por lo que este tipo de codificación podría no ser ideal para ellos si el orden no tiene una correlación lineal real con el precio. Sin embargo, evaluaremos su rendimiento.

**Acciones:**
1. Crear una nueva lista para almacenar los resultados de esta estrategia.
2. Crear una instancia del modelo `LinearRegression`.
3. Medir el tiempo de entrenamiento.
4. Medir el tiempo de predicción.
5. Calcular el RECM.
6. Almacenar y mostrar los resultados.

<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Efectivamente, lo ideal es usar solamente one-hot encoding para un modelo como el de regresión lineal. De todos modos, me parece bien que lo menciones y que estes al tanto de las posibles limitaciones.
    

</div>

In [16]:
# --- Nueva lista para resultados con codificación estratégica ---
results_list_strat = []

# --- Modelo 1: Linear Regression (Codificación Estratégica) ---
lr_model_strat = LinearRegression()

# --- Entrenamiento ---
print("Iniciando entrenamiento de Linear Regression (Codificación Estratégica)...")
start_train_time = time.time()
lr_model_strat.fit(X_train_processed_strat, y_train)
end_train_time = time.time()
lr_train_time_strat = end_train_time - start_train_time
print("Entrenamiento completado.")

# --- Predicción ---
start_pred_time = time.time()
y_pred_lr_strat = lr_model_strat.predict(X_test_processed_strat)
end_pred_time = time.time()
lr_pred_time_strat = end_pred_time - start_pred_time

# --- Evaluación (RMSE) ---
mse_lr_strat = mean_squared_error(y_test, y_pred_lr_strat)
rmse_lr_strat = np.sqrt(mse_lr_strat)

# --- Almacenar Resultados ---
results_list_strat.append({
    'Model': 'Linear Regression (Strategic Enc.)',
    'RMSE': rmse_lr_strat,
    'Training Time (s)': lr_train_time_strat,
    'Prediction Time (s)': lr_pred_time_strat
})

# --- Mostrar Resultados ---
print("\nResultados del Modelo: Linear Regression (Strategic Encoding)")
print(f"RMSE: {rmse_lr_strat:.4f}")
print(f"Tiempo de Entrenamiento: {lr_train_time_strat:.4f} segundos")
print(f"Tiempo de Predicción: {lr_pred_time_strat:.4f} segundos")

results_df_strat = pd.DataFrame(results_list_strat)
print("\nTabla Comparativa de Resultados (Codificación Estratégica):")
display(results_df_strat)


Iniciando entrenamiento de Linear Regression (Codificación Estratégica)...
Entrenamiento completado.

Resultados del Modelo: Linear Regression (Strategic Encoding)
RMSE: 2868.2938
Tiempo de Entrenamiento: 0.1360 segundos
Tiempo de Predicción: 0.0740 segundos

Tabla Comparativa de Resultados (Codificación Estratégica):


Unnamed: 0,Model,RMSE,Training Time (s),Prediction Time (s)
0,Linear Regression (Strategic Enc.),2868.293801,0.13603,0.074002


###  Modelo 2: Bosque Aleatorio (con Codificación Estratégica)

Reentrenamos el `RandomForestRegressor` utilizando los datos procesados con la codificación estratégica (`X_train_processed_strat` y `X_test_processed_strat`). Utilizaremos los hiperparámetros por defecto para esta primera evaluación con los nuevos datos, y `n_jobs=-1` para acelerar el entrenamiento. 
**Acciones:**
1. Crear una instancia del modelo `RandomForestRegressor`.
2. Medir el tiempo de entrenamiento.
3. Medir el tiempo de predicción.
4. Calcular el RECM.
5. Almacenar y mostrar los resultados, actualizando la tabla comparativa de la codificación estratégica.

In [17]:
# --- Modelo 2: Random Forest Regressor (Codificación Estratégica) ---
rf_model_strat = RandomForestRegressor(random_state=42, n_jobs=-1)

# --- Entrenamiento ---
print("Iniciando entrenamiento de Random Forest (Codificación Estratégica)...")
start_train_time = time.time()
rf_model_strat.fit(X_train_processed_strat, y_train)
end_train_time = time.time()
rf_train_time_strat = end_train_time - start_train_time
print("Entrenamiento completado.")

# --- Predicción ---
start_pred_time = time.time()
y_pred_rf_strat = rf_model_strat.predict(X_test_processed_strat)
end_pred_time = time.time()
rf_pred_time_strat = end_pred_time - start_pred_time

# --- Evaluación (RMSE) ---
mse_rf_strat = mean_squared_error(y_test, y_pred_rf_strat)
rmse_rf_strat = np.sqrt(mse_rf_strat)

# --- Almacenar Resultados ---
results_list_strat.append({
    'Model': 'Random Forest (Strategic Enc.)',
    'RMSE': rmse_rf_strat,
    'Training Time (s)': rf_train_time_strat,
    'Prediction Time (s)': rf_pred_time_strat
})

# --- Mostrar Resultados ---
print("\nResultados del Modelo: Random Forest (Strategic Encoding)")
print(f"RMSE: {rmse_rf_strat:.4f}")
print(f"Tiempo de Entrenamiento: {rf_train_time_strat:.4f} segundos")
print(f"Tiempo de Predicción: {rf_pred_time_strat:.4f} segundos")

results_df_strat = pd.DataFrame(results_list_strat)
print("\nTabla Comparativa de Resultados (Codificación Estratégica):")
display(results_df_strat)


Iniciando entrenamiento de Random Forest (Codificación Estratégica)...
Entrenamiento completado.

Resultados del Modelo: Random Forest (Strategic Encoding)
RMSE: 1526.2562
Tiempo de Entrenamiento: 76.1050 segundos
Tiempo de Predicción: 2.3640 segundos

Tabla Comparativa de Resultados (Codificación Estratégica):


Unnamed: 0,Model,RMSE,Training Time (s),Prediction Time (s)
0,Linear Regression (Strategic Enc.),2868.293801,0.13603,0.074002
1,Random Forest (Strategic Enc.),1526.256216,76.104985,2.364029


###  Modelo 3: LightGBM (con Codificación Estratégica)

Entrenamos `LightGBM` con los datos de 29 características. Las dos primeras columnas de nuestros datos procesados (`X_train_processed_strat`) corresponden a `Brand` y `Model` codificadas ordinalmente. Le indicaremos a `LightGBM` que trate estas dos columnas como características categóricas usando el parámetro `categorical_feature`. Las columnas restantes (resultado del OHE de las otras categóricas y las numéricas originales) serán tratadas como numéricas por defecto.

**Acciones:**
1. Identificar los índices de las columnas categóricas codificadas ordinalmente (Brand, Model).
2. Crear una instancia del modelo `lgb.LGBMRegressor`, especificando `categorical_feature`.
3. Medir el tiempo de entrenamiento.
4. Medir el tiempo de predicción.
5. Calcular el RECM.
6. Almacenar y mostrar los resultados.

In [18]:
# --- Modelo 3: LightGBM Regressor (Codificación Estratégica) ---

categorical_feature_indices_for_lgbm = [0, 1]

lgbm_model_strat = lgb.LGBMRegressor(
    random_state=42,
    n_jobs=-1,
    categorical_feature=categorical_feature_indices_for_lgbm
)

# --- Entrenamiento ---
print("Iniciando entrenamiento de LightGBM (Codificación Estratégica)...")
start_train_time = time.time()
lgbm_model_strat.fit(X_train_processed_strat, y_train)
end_train_time = time.time()
lgbm_train_time_strat = end_train_time - start_train_time
print("Entrenamiento completado.")

# --- Predicción ---
start_pred_time = time.time()
y_pred_lgbm_strat = lgbm_model_strat.predict(X_test_processed_strat)
end_pred_time = time.time()
lgbm_pred_time_strat = end_pred_time - start_pred_time

# --- Evaluación (RMSE) ---
mse_lgbm_strat = mean_squared_error(y_test, y_pred_lgbm_strat)
rmse_lgbm_strat = np.sqrt(mse_lgbm_strat)

# --- Almacenar Resultados ---
results_list_strat.append({
    'Model': 'LightGBM (Strategic Enc.)',
    'RMSE': rmse_lgbm_strat,
    'Training Time (s)': lgbm_train_time_strat,
    'Prediction Time (s)': lgbm_pred_time_strat
})

# --- Mostrar Resultados ---
print("\nResultados del Modelo: LightGBM (Strategic Encoding)")
print(f"RMSE: {rmse_lgbm_strat:.4f}")
print(f"Tiempo de Entrenamiento: {lgbm_train_time_strat:.4f} segundos")
print(f"Tiempo de Predicción: {lgbm_pred_time_strat:.4f} segundos")

results_df_strat = pd.DataFrame(results_list_strat)
print("\nTabla Comparativa de Resultados (Codificación Estratégica):")
display(results_df_strat)

Iniciando entrenamiento de LightGBM (Codificación Estratégica)...


Please use categorical_feature argument of the Dataset constructor to pass this parameter.


Entrenamiento completado.

Resultados del Modelo: LightGBM (Strategic Encoding)
RMSE: 1572.6900
Tiempo de Entrenamiento: 2.8179 segundos
Tiempo de Predicción: 0.4848 segundos

Tabla Comparativa de Resultados (Codificación Estratégica):


Unnamed: 0,Model,RMSE,Training Time (s),Prediction Time (s)
0,Linear Regression (Strategic Enc.),2868.293801,0.13603,0.074002
1,Random Forest (Strategic Enc.),1526.256216,76.104985,2.364029
2,LightGBM (Strategic Enc.),1572.690018,2.817937,0.484777


<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Muy bien con el entrenamiento y resultado de los modelos, buen trabajo!

</div>

## Análisis del modelo

 Ajuste de Hiperparámetros (con Codificación Estratégica)

Con los datos procesados estratégicamente (29 características), procederemos a ajustar los hiperparámetros de Random Forest. Esta vez utilizaremos `GridSearchCV` para una búsqueda exhaustiva dentro de una cuadrícula definida de parámetros. Dado el menor número de características, esperamos que el tiempo de ejecución sea aceptable.

### Ajuste de Hiperparámetros: Random Forest (Estratégico - GridSearchCV)

**Acciones:**
1. Definir una cuadrícula de hiperparámetros (`param_grid`) para `RandomForestRegressor`.
2. Configurar la validación cruzada (usaremos `KFold` con 3 divisiones).
3. Crear e iniciar `GridSearchCV` usando `scoring='neg_mean_squared_error'`.
4. Entrenar el `GridSearchCV`.
5. Obtener los mejores parámetros y el mejor RECM de la validación cruzada.
6. Entrenar un modelo final `RandomForestRegressor` con los mejores parámetros encontrados.
7. Evaluar este modelo final en el conjunto de prueba y medir tiempos.
8. Almacenar y mostrar los resultados del modelo ajustado.

In [19]:
# --- Ajuste de Hiperparámetros: Random Forest (Codificación Estratégica - GridSearchCV) ---
from sklearn.model_selection import GridSearchCV # Asegúrate de importar
from sklearn.model_selection import KFold # Asegúrate de importar

# Definir una cuadrícula de parámetros para probar con GridSearchCV
param_grid_rf_gs = {
    'n_estimators': [100, 150],
    'max_depth': [20, None],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 3]
}
# Total combinaciones = 2 * 2 * 2 * 2 = 16

# Configurar Validación Cruzada (KFold con 3 splits)
cv_strategy_gs_rf = KFold(n_splits=3, shuffle=True, random_state=42)

# Crear el objeto GridSearchCV
grid_search_rf_strat = GridSearchCV(
    estimator=RandomForestRegressor(random_state=42, n_jobs=-1),
    param_grid=param_grid_rf_gs,
    cv=cv_strategy_gs_rf,
    scoring='neg_mean_squared_error',
    verbose=1,
    n_jobs=-1
)

# --- Ejecutar la Búsqueda en Cuadrícula ---
num_combinations = (len(param_grid_rf_gs['n_estimators']) *
                  len(param_grid_rf_gs['max_depth']) *
                  len(param_grid_rf_gs['min_samples_split']) *
                  len(param_grid_rf_gs['min_samples_leaf']))
num_fits = num_combinations * cv_strategy_gs_rf.get_n_splits()

print(f"Iniciando GridSearchCV para RF (Estratégico)... Probando {num_combinations} combinaciones x {cv_strategy_gs_rf.get_n_splits()} folds = {num_fits} fits.")
start_grid_time = time.time()
# Usamos los datos con codificación estratégica
grid_search_rf_strat.fit(X_train_processed_strat, y_train)
end_grid_time = time.time()
grid_search_rf_time = end_grid_time - start_grid_time
print(f"GridSearchCV para RF (Estratégico) completado en {grid_search_rf_time:.2f} segundos.")

# --- Obtener Mejores Parámetros y Puntuación CV ---
best_params_rf_strat = grid_search_rf_strat.best_params_
best_score_rf_cv_strat = grid_search_rf_strat.best_score_
best_rmse_rf_cv_strat = np.sqrt(-best_score_rf_cv_strat)

print(f"\nMejores parámetros encontrados (RF Estratégico - GridSearchCV): {best_params_rf_strat}")
print(f"Mejor RMSE (cross-validation, {cv_strategy_gs_rf.get_n_splits()} folds): {best_rmse_rf_cv_strat:.4f}")

# --- Entrenar Modelo Final con Mejores Parámetros ---
print("\nEntrenando modelo final RF (Estratégico) con los mejores parámetros de GridSearchCV...")
final_rf_model_strat = RandomForestRegressor(**best_params_rf_strat, random_state=42, n_jobs=-1)

start_train_time = time.time()
final_rf_model_strat.fit(X_train_processed_strat, y_train)
end_train_time = time.time()
final_rf_train_time_strat = end_train_time - start_train_time
print("Entrenamiento final completado.")

# --- Predicción y Evaluación del Modelo Final en Test ---
start_pred_time = time.time()
y_pred_final_rf_strat = final_rf_model_strat.predict(X_test_processed_strat)
end_pred_time = time.time()
final_rf_pred_time_strat = end_pred_time - start_pred_time

mse_final_rf_strat = mean_squared_error(y_test, y_pred_final_rf_strat)
rmse_final_rf_strat = np.sqrt(mse_final_rf_strat)

# --- Actualizar Resultados ---

results_list_strat = [res for res in results_list_strat if 'Random Forest (Tuned' not in res['Model']]
results_list_strat.append({
    'Model': 'Random Forest (Tuned - Strat. GS)', # GS para GridSearchCV
    'RMSE': rmse_final_rf_strat,
    'Training Time (s)': final_rf_train_time_strat,
    'Prediction Time (s)': final_rf_pred_time_strat
})

# --- Mostrar Resultados ---
print("\nResultados del Modelo: Random Forest (Tuned - Strat. GS) en Test Set")
print(f"RMSE: {rmse_final_rf_strat:.4f}")
print(f"Tiempo de Entrenamiento Final: {final_rf_train_time_strat:.4f} segundos")
print(f"Tiempo de Predicción: {final_rf_pred_time_strat:.4f} segundos")

results_df_strat = pd.DataFrame(results_list_strat)
print("\nTabla Comparativa de Resultados (Codificación Estratégica):")
display(results_df_strat)

Iniciando GridSearchCV para RF (Estratégico)... Probando 16 combinaciones x 3 folds = 48 fits.
Fitting 3 folds for each of 16 candidates, totalling 48 fits
GridSearchCV para RF (Estratégico) completado en 2585.18 segundos.

Mejores parámetros encontrados (RF Estratégico - GridSearchCV): {'max_depth': 20, 'min_samples_leaf': 1, 'min_samples_split': 5, 'n_estimators': 150}
Mejor RMSE (cross-validation, 3 folds): 1590.6051

Entrenando modelo final RF (Estratégico) con los mejores parámetros de GridSearchCV...
Entrenamiento final completado.

Resultados del Modelo: Random Forest (Tuned - Strat. GS) en Test Set
RMSE: 1507.0833
Tiempo de Entrenamiento Final: 87.5693 segundos
Tiempo de Predicción: 2.0576 segundos

Tabla Comparativa de Resultados (Codificación Estratégica):


Unnamed: 0,Model,RMSE,Training Time (s),Prediction Time (s)
0,Linear Regression (Strategic Enc.),2868.293801,0.13603,0.074002
1,Random Forest (Strategic Enc.),1526.256216,76.104985,2.364029
2,LightGBM (Strategic Enc.),1572.690018,2.817937,0.484777
3,Random Forest (Tuned - Strat. GS),1507.083333,87.56927,2.057618


### Ajuste de Hiperparámetros: LightGBM (Estratégico - con Manejo de Categorías Simplificado)

Para ajustar LightGBM y facilitar que maneje correctamente las características `Brand` y `Model` (codificadas ordinalmente) como categóricas, convertiremos nuestras matrices de características procesadas a DataFrames de pandas. Usaremos nombres genéricos para las columnas y luego cambiaremos el tipo de dato de las dos primeras columnas (correspondientes a `Brand` y `Model`) a `category`. LightGBM debería poder auto-detectar estas columnas de tipo `category`. Utilizaremos `RandomizedSearchCV` para la búsqueda de hiperparámetros.

**Acciones:**
1. Crear nombres de características genéricos.
2. Convertir `X_train_processed_strat` y `X_test_processed_strat` a DataFrames de pandas con estos nombres.
3. Cambiar el tipo de dato de las dos primeras columnas (representando `Brand` y `Model`) a `category`.
4. Definir un espacio de búsqueda de hiperparámetros para `LGBMRegressor`.
5. Configurar y ejecutar `RandomizedSearchCV`.
6. Obtener los mejores parámetros y el RECM de validación cruzada.
7. Entrenar un modelo final `LGBMRegressor` con los mejores parámetros.
8. Evaluar en el conjunto de prueba y medir tiempos.
9. Almacenar y mostrar resultados.

In [22]:
# --- Preparación de Datos Simplificada para LightGBM con Dtype 'category' ---
n_features_strat = X_train_processed_strat.shape[1]

# Crear nombres de características genéricos
generic_feature_names = [f'feat_{i}' for i in range(n_features_strat)]

# Convertir a DataFrames
X_train_df_strat = pd.DataFrame(X_train_processed_strat, columns=generic_feature_names, index=X_train.index)
X_test_df_strat = pd.DataFrame(X_test_processed_strat, columns=generic_feature_names, index=X_test.index)

# Las dos primeras columnas ('feat_0', 'feat_1') corresponden a Brand y Model
brand_model_col_names = generic_feature_names[:2]

print(f"Columnas a convertir a 'category': {brand_model_col_names}")
for col_name in brand_model_col_names:
    X_train_df_strat[col_name] = X_train_df_strat[col_name].astype('category')
    X_test_df_strat[col_name] = X_test_df_strat[col_name].astype('category')

print("\nTipos de datos en X_train_df_strat después de conversión (primeras 5 columnas):")
# Mostramos info de las primeras 5 columnas para verificar el tipo 'category' en las dos primeras
X_train_df_strat.iloc[:, :5].info()


# --- Ajuste de Hiperparámetros: LightGBM ---

param_dist_lgbm = {
    'n_estimators': [100, 200, 300, 400],
    'learning_rate': [0.01, 0.05, 0.1],
    'num_leaves': [20, 31, 40, 50],
    'max_depth': [-1, 10, 20],
    'colsample_bytree': [0.7, 0.8, 0.9, 1.0],
    'subsample': [0.7, 0.8, 0.9, 1.0]
}
n_iter_search_lgbm = 15 
cv_strategy_lgbm = KFold(n_splits=3, shuffle=True, random_state=42)

random_search_lgbm_strat = RandomizedSearchCV(
    estimator=lgb.LGBMRegressor(random_state=42, n_jobs=-1),
    param_distributions=param_dist_lgbm,
    n_iter=n_iter_search_lgbm,
    cv=cv_strategy_lgbm,
    scoring='neg_mean_squared_error',
    verbose=1,
    random_state=42,
    n_jobs=-1
)

# --- Ejecutar la Búsqueda Aleatoria ---
print(f"\nIniciando RandomizedSearchCV para LightGBM (Estratégico)... Probando {n_iter_search_lgbm} combinaciones x {cv_strategy_lgbm.get_n_splits()} folds.")
start_random_time = time.time()
random_search_lgbm_strat.fit(X_train_df_strat, y_train)
end_random_time = time.time()
random_search_lgbm_time = end_random_time - start_random_time
print(f"RandomizedSearchCV para LightGBM (Estratégico) completado en {random_search_lgbm_time:.2f} segundos.")

# --- Obtener Mejores Parámetros y Puntuación CV ---
best_params_lgbm_strat = random_search_lgbm_strat.best_params_
best_score_lgbm_cv_strat = random_search_lgbm_strat.best_score_
best_rmse_lgbm_cv_strat = np.sqrt(-best_score_lgbm_cv_strat)

print(f"\nMejores parámetros encontrados (LightGBM Estratégico): {best_params_lgbm_strat}")
print(f"Mejor RMSE (cross-validation): {best_rmse_lgbm_cv_strat:.4f}")

# --- Entrenar Modelo Final con Mejores Parámetros ---
print("\nEntrenando modelo final LightGBM (Estratégico) con los mejores parámetros...")
final_lgbm_model_strat = lgb.LGBMRegressor(**best_params_lgbm_strat, random_state=42, n_jobs=-1)

start_train_time = time.time()
final_lgbm_model_strat.fit(X_train_df_strat, y_train)
end_train_time = time.time()
final_lgbm_train_time_strat = end_train_time - start_train_time
print("Entrenamiento final completado.")

# --- Predicción y Evaluación del Modelo Final en Test ---
start_pred_time = time.time()
y_pred_final_lgbm_strat = final_lgbm_model_strat.predict(X_test_df_strat)
end_pred_time = time.time()
final_lgbm_pred_time_strat = end_pred_time - start_pred_time

mse_final_lgbm_strat = mean_squared_error(y_test, y_pred_final_lgbm_strat)
rmse_final_lgbm_strat = np.sqrt(mse_final_lgbm_strat)

# --- Actualizar Resultados ---
results_list_strat = [res for res in results_list_strat if 'LightGBM (Tuned' not in res['Model']]
results_list_strat.append({
    'Model': 'LightGBM (Tuned - Strat.)',
    'RMSE': rmse_final_lgbm_strat,
    'Training Time (s)': final_lgbm_train_time_strat,
    'Prediction Time (s)': final_lgbm_pred_time_strat
})

# --- Mostrar Resultados ---
print("\nResultados del Modelo: LightGBM (Tuned - Strat.) en Test Set")
print(f"RMSE: {rmse_final_lgbm_strat:.4f}")
print(f"Tiempo de Entrenamiento Final: {final_lgbm_train_time_strat:.4f} segundos")
print(f"Tiempo de Predicción: {final_lgbm_pred_time_strat:.4f} segundos")

results_df_strat = pd.DataFrame(results_list_strat)
print("\nTabla Comparativa de Resultados (Codificación Estratégica):")
display(results_df_strat)

Columnas a convertir a 'category': ['feat_0', 'feat_1']

Tipos de datos en X_train_df_strat después de conversión (primeras 5 columnas):
<class 'pandas.core.frame.DataFrame'>
Int64Index: 221217 entries, 293100 to 146371
Data columns (total 5 columns):
 #   Column  Non-Null Count   Dtype   
---  ------  --------------   -----   
 0   feat_0  221217 non-null  category
 1   feat_1  221217 non-null  category
 2   feat_2  221217 non-null  float64 
 3   feat_3  221217 non-null  float64 
 4   feat_4  221217 non-null  float64 
dtypes: category(2), float64(3)
memory usage: 7.4 MB

Iniciando RandomizedSearchCV para LightGBM (Estratégico)... Probando 15 combinaciones x 3 folds.
Fitting 3 folds for each of 15 candidates, totalling 45 fits
RandomizedSearchCV para LightGBM (Estratégico) completado en 6600.33 segundos.

Mejores parámetros encontrados (LightGBM Estratégico): {'subsample': 0.8, 'num_leaves': 40, 'n_estimators': 400, 'max_depth': -1, 'learning_rate': 0.1, 'colsample_bytree': 1.0}
Mejor 

Unnamed: 0,Model,RMSE,Training Time (s),Prediction Time (s)
0,Linear Regression (Strategic Enc.),2868.293801,0.13603,0.074002
1,Random Forest (Strategic Enc.),1526.256216,76.104985,2.364029
2,LightGBM (Strategic Enc.),1572.690018,2.817937,0.484777
3,Random Forest (Tuned - Strat. GS),1507.083333,87.56927,2.057618
4,LightGBM (Tuned - Strat.),1493.548506,7.410981,2.004156


<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Excelente trabajo, muy bien con la sección de tuning de los modelos, el código está ordenado y utilizas adecuadamente los métodos correctos.

</div>

## Análisis Final de Modelos y Selección

Hemos llegado al punto de analizar los resultados consolidados de todos los modelos entrenados y ajustados utilizando nuestra estrategia de codificación final (29 características, con `OrdinalEncoder` para `Brand` y `Model`, y `OneHotEncoder` para las demás categóricas). Rusty Bargain está interesado en tres aspectos principales: la calidad de la predicción (RECM), la velocidad de predicción y el tiempo requerido para el entrenamiento.

La siguiente tabla resume el rendimiento de los modelos evaluados bajo esta estrategia:

In [23]:
# --- Mostrar la Tabla Final de Resultados de la Codificación Estratégica ---
print("Tabla Final de Resultados (Codificación Estratégica - 29 características):")
display(results_df_strat.sort_values(by='RMSE'))

Tabla Final de Resultados (Codificación Estratégica - 29 características):


Unnamed: 0,Model,RMSE,Training Time (s),Prediction Time (s)
4,LightGBM (Tuned - Strat.),1493.548506,7.410981,2.004156
3,Random Forest (Tuned - Strat. GS),1507.083333,87.56927,2.057618
1,Random Forest (Strategic Enc.),1526.256216,76.104985,2.364029
2,LightGBM (Strategic Enc.),1572.690018,2.817937,0.484777
0,Linear Regression (Strategic Enc.),2868.293801,0.13603,0.074002


**Discusión Comparativa:**

1.  **Calidad de la Predicción (RECM):**
    * El modelo `LightGBM (Tuned - Strat.)` claramente ofrece el **menor RECM (aproximadamente 1493.55€)**, lo que indica la mayor precisión en la predicción de precios.
    * Le sigue de cerca el `Random Forest (Tuned - Strat. GS)` con un RECM de aproximadamente 1507.08€. La diferencia es relativamente pequeña, pero LightGBM tiene la ventaja.
    * Ambos modelos ajustados superan a sus versiones con parámetros por defecto.
    * La `Linear Regression (Strategic Enc.)` tuvo un rendimiento significativamente inferior (RECM ~2868€), lo que confirma que las relaciones en los datos son complejas y no lineales, y que el manejo de `Brand` y `Model` como números ordinales arbitrarios no fue beneficioso para este modelo.

2.  **Tiempo de Entrenamiento (del modelo final, post-ajuste):**
    * `LightGBM (Tuned - Strat.)` es el claro ganador aquí entre los modelos de alto rendimiento, con un tiempo de entrenamiento final de solo **~7.4 segundos**.
    * `Random Forest (Tuned - Strat. GS)` requirió **~87.6 segundos** para entrenar el modelo final, más de 10 veces el tiempo de LightGBM.
    * `Linear Regression (Strategic Enc.)` fue el más rápido en entrenar (~0.14 segundos), pero su baja precisión lo descarta.
    * Es importante notar que los tiempos de búsqueda de hiperparámetros (`RandomizedSearchCV` o `GridSearchCV`) fueron considerablemente más largos (especialmente para LightGBM en este caso, ~110 min, y RF ~43 min). Este es un costo único durante la fase de desarrollo del modelo.

3.  **Velocidad de Predicción:**
    * `Linear Regression (Strategic Enc.)` es la más rápida (~0.07 segundos).
    * `LightGBM (Strategic Enc.)` con parámetros por defecto fue muy rápido (~0.48 segundos).
    * `LightGBM (Tuned - Strat.)` y `Random Forest (Tuned - Strat. GS)` tienen tiempos de predicción muy competitivos y similares, alrededor de **~2.0 segundos** para el conjunto de prueba. Esta velocidad es probablemente muy aceptable para una aplicación que necesita averiguar rápidamente el valor de mercado.

**Selección del Mejor Modelo para Rusty Bargain:**

Considerando los tres criterios:

* **`LightGBM (Tuned - Strat.)`** emerge como el modelo más equilibrado y, en general, el **mejor candidato**.
    * Ofrece el **RECM más bajo (mejor precisión)**.
    * Su **tiempo de entrenamiento final es excepcionalmente rápido**.
    * Su **velocidad de predicción es muy buena** y competitiva.

Si bien el tiempo de búsqueda de hiperparámetros para LightGBM fue largo, este es un proceso que se realiza una sola vez (o infrecuentemente) para encontrar los mejores parámetros. Una vez encontrados, el reentrenamiento del modelo (si es necesario con nuevos datos) es muy rápido.

El `Random Forest (Tuned - Strat. GS)` es una alternativa sólida, con una precisión casi tan buena, pero es notablemente más lento en el entrenamiento del modelo final.

**Recomendación:**
Se recomienda el modelo **`LightGBM (Tuned - Strat.)`** con los hiperparámetros encontrados: `{'subsample': 0.8, 'num_leaves': 40, 'n_estimators': 400, 'max_depth': -1, 'learning_rate': 0.1, 'colsample_bytree': 1.0}`. Ofrece la mejor combinación de alta precisión, rápido entrenamiento del modelo final y rápida velocidad de predicción.

<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Muy bien! De acuerdo con los análisis, son de gran calidad. Haces muy bien en realizar la comparativa en los tiempos y calidad del modelo.

</div>

## Conclusión del Proyecto

En este proyecto, hemos desarrollado y evaluado varios modelos de Machine Learning con el objetivo de predecir el valor de mercado de coches de segunda mano para el servicio Rusty Bargain. El proceso incluyó una exhaustiva limpieza y preprocesamiento de datos, la exploración de diferentes estrategias de codificación de características y el entrenamiento y ajuste de múltiples algoritmos de regresión.

**Proceso y Hallazgos Clave:**

1.  **Preparación de Datos:** Se cargaron los datos, se realizó una limpieza inicial eliminando duplicados y columnas irrelevantes. Se trataron valores anómalos en características numéricas clave como `Price`, `RegistrationYear` y `Power`. Los valores nulos en columnas categóricas fueron imputados con la etiqueta "Unknown".
2.  **Codificación de Características:** Se implementó una **codificación estratégica** más eficiente: `OrdinalEncoder` para `Brand` y `Model` (alta cardinalidad) y `OneHotEncoder` para las demás categóricas (baja cardinalidad), resultando en un conjunto de datos manejable de **29 características**. Se prepararon los datos para LightGBM asegurando que las columnas `Brand` y `Model` codificadas ordinalmente fueran tratadas como tipo `category` para un manejo óptimo.
3.  **Modelado y Evaluación:** Se entrenaron y evaluaron modelos de Regresión Lineal, Random Forest y LightGBM. Se realizó un ajuste de hiperparámetros para Random Forest (usando `GridSearchCV`) y LightGBM (usando `RandomizedSearchCV`) sobre los datos con codificación estratégica.
    * Los modelos basados en árboles (Random Forest y LightGBM) superaron ampliamente a la Regresión Lineal en precisión.
    * La codificación estratégica (29 características) demostró ser muy efectiva, logrando precisiones comparables (e incluso mejores después del ajuste) a las obtenidas con OHE completo, pero con tiempos de entrenamiento y predicción significativamente más rápidos para los modelos de ensamble.
    * El ajuste de hiperparámetros fue crucial para exprimir el máximo rendimiento de Random Forest y LightGBM.

**Modelo Recomendado:**

El modelo **`LightGBM (Tuned - Strat.)`** con los hiperparámetros `{'subsample': 0.8, 'num_leaves': 40, 'n_estimators': 400, 'max_depth': -1, 'learning_rate': 0.1, 'colsample_bytree': 1.0}` es el recomendado. Logró el mejor rendimiento en términos de **RECM (1493.55€)**, combinado con un **tiempo de entrenamiento del modelo final muy rápido (7.4 segundos)** y una **excelente velocidad de predicción (2.0 segundos)** para el conjunto de prueba.

Este modelo cumple con los requisitos de Rusty Bargain de alta calidad de predicción, velocidad de predicción y un tiempo de entrenamiento eficiente (para el modelo final).



<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Excelentes conclusiones. Haces muy bien al incluir valores de las métricas muy importantes y resumes los principales hallazgos, buen trabajo!
    
</div>

# Lista de control

Escribe 'x' para verificar. Luego presiona Shift+Enter

- [x]  Jupyter Notebook está abierto
- [ ]  El código no tiene errores- [ ]  Las celdas con el código han sido colocadas en orden de ejecución- [ ]  Los datos han sido descargados y preparados- [ ]  Los modelos han sido entrenados
- [ ]  Se realizó el análisis de velocidad y calidad de los modelos