# ¡Hola, Eduardo!  

Mi nombre es Jhoan Delgado, soy code reviewer de Tripleten y voy a revisar el proyecto que acabas de desarrollar.


Cada ves que vea un error por primera vez, lo señalaré. Deberás encontrarlo y arreglarlo, ya que buscamos que te prepares para un trabajo real, en el cual tu líder de equipo hará lo mismo. Si no puedes solucionar el error, te brindaré algunos tips más especificos la proxima vez.

Podrás encontrar mis comentarios más abajo - **por favor, no los muevas, no los modifiques ni los borres**.

¿Cómo lo voy a hacer? Voy a leer cuidadosamente cada una de tus implementaciones que has llevado a cabo para complir con tu informe. Cada uno de mis comentarios tiene el siguiente código de colores:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si todo está perfecto.
</div>


<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>


<div class="alert alert-block alert-danger">
    
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
    
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>


Si encuentras que es necesario, puedes responderme de esta forma: 

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
</div>

Mucho éxito!

El servicio de venta de autos usados Rusty Bargain está desarrollando una aplicación para atraer nuevos clientes. Gracias a esa app, puedes averiguar rápidamente el valor de mercado de tu coche. Tienes acceso al historial: especificaciones técnicas, versiones de equipamiento y precios. Tienes que crear un modelo que determine el valor de mercado.
A Rusty Bargain le interesa:
- la calidad de la predicción;
- la velocidad de la predicción;
- el tiempo requerido para el entrenamiento

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Bien, pero sería genial si en proximos proyectos incluyes una tabla de contenido con los objetivos que tienes en mente y piensas desarrollar
</div>

## Preparación de datos

In [5]:
import pandas as pd

# Cargar el archivo de datos
 
car_data = pd.read_csv('/datasets/car_data.csv')

# Exploración inicial de los datos
data_info = {
    "Columnas y tipos de datos": car_data.dtypes,
    "Primeras filas": car_data.head(),
    "Resumen estadístico": car_data.describe(),
    "Valores nulos por columna": car_data.isnull().sum(),
}

# Mostrar información clave de los datos
data_info


{'Columnas y tipos de datos': DateCrawled          object
 Price                 int64
 VehicleType          object
 RegistrationYear      int64
 Gearbox              object
 Power                 int64
 Model                object
 Mileage               int64
 RegistrationMonth     int64
 FuelType             object
 Brand                object
 NotRepaired          object
 DateCreated          object
 NumberOfPictures      int64
 PostalCode            int64
 LastSeen             object
 dtype: object,
 'Primeras filas':         DateCrawled  Price VehicleType  RegistrationYear Gearbox  Power  \
 0  24/03/2016 11:52    480         NaN              1993  manual      0   
 1  24/03/2016 10:58  18300       coupe              2011  manual    190   
 2  14/03/2016 12:52   9800         suv              2004    auto    163   
 3  17/03/2016 16:54   1500       small              2001  manual     75   
 4  31/03/2016 17:25   3600       small              2008  manual     69   
 
    Model  Mile

 **Exploración Inicial de los Datos**

 **Columnas y Tipos de Datos**

- Hay columnas con diferentes tipos de datos:
  - **Objetos**, **enteros** y **flotantes**.
- Algunas columnas contienen fechas, pero están almacenadas como cadenas:
  - `DateCrawled`, `DateCreated`, y `LastSeen`.

---

 **Datos Faltantes**
- **Columnas con valores nulos**:
  - `VehicleType`: <span style="color: lightgreen;">37,490 valores nulos</span>.
  - `Gearbox`: <span style="color: lightgreen;">19,833 valores nulos</span>.
  - `Model`: <span style="color: lightgreen;">19,705 valores nulos</span>.
  - `FuelType`: <span style="color: lightgreen;">32,895 valores nulos</span>.
  - `NotRepaired`: <span style="color: lightgreen;">71,154 valores nulos</span>.

---

**Características Principales**

- **`Price` (Objetivo)**:
  - Tiene un rango razonable, pero incluye valores atípicos como un precio de 0.
- **`RegistrationYear`**:
  - Contiene valores extraños como <span style="color: lightgreen;">1000</span> y <span style="color: lightgreen;">9999</span>, que claramente no son válidos.
- **`Power`**:
  - Hay valores extremos:
    - Muy altos (<span style="color: lightgreen;">20,000 CV</span>).
    - Muy bajos (<span style="color: lightgreen;">0</span>).

---

**Columnas Adicionales**

- **`NumberOfPictures`**:
  - Tiene un valor constante de <span style="color: lightgreen;">0</span> en todas las filas, lo cual no aporta información.


In [15]:
# Limpieza de los datos

# Eliminar valores atípicos de RegistrationYear
car_data = car_data[(car_data['RegistrationYear'] >= 1900) & (car_data['RegistrationYear'] <= 2022)]

# Eliminar valores atípicos de Power (valores irreales)
car_data = car_data[(car_data['Power'] > 0) & (car_data['Power'] < 1000)]

# Eliminar valores atípicos de Price (valores irreales)
car_data = car_data[(car_data['Price'] > 100) & (car_data['Price'] < 100000)]

# Eliminar columnas irrelevantes si existen
columns_to_drop = ['NumberOfPictures', 'PostalCode', 'DateCrawled', 'LastSeen', 'DateCreated']
existing_columns = [col for col in columns_to_drop if col in car_data.columns]
car_data.drop(columns=existing_columns, inplace=True)

# Imputar valores nulos para características categóricas
car_data['VehicleType'].fillna('unknown', inplace=True)
car_data['Gearbox'].fillna('unknown', inplace=True)
car_data['Model'].fillna('unknown', inplace=True)
car_data['FuelType'].fillna('unknown', inplace=True)
car_data['NotRepaired'].fillna('unknown', inplace=True)

# Mostrar datos limpios para verificar

car_data


Unnamed: 0,Price,VehicleType,RegistrationYear,Gearbox,Power,Model,Mileage,RegistrationMonth,FuelType,Brand,NotRepaired
1,18300,coupe,2011,manual,190,unknown,125000,5,gasoline,audi,yes
2,9800,suv,2004,auto,163,grand,125000,8,gasoline,jeep,unknown
3,1500,small,2001,manual,75,golf,150000,6,petrol,volkswagen,no
4,3600,small,2008,manual,69,fabia,90000,7,gasoline,skoda,no
5,650,sedan,1995,manual,102,3er,150000,10,petrol,bmw,yes
...,...,...,...,...,...,...,...,...,...,...,...
354361,5250,unknown,2016,auto,150,159,150000,12,unknown,alfa_romeo,no
354362,3200,sedan,2004,manual,225,leon,150000,5,petrol,seat,yes
354366,1199,convertible,2000,auto,101,fortwo,125000,3,petrol,smart,no
354367,9200,bus,1996,manual,102,transporter,150000,3,gasoline,volkswagen,no



**Preparación de los Datos**

 **Filtrado de Valores Atípicos**

- **`RegistrationYear`**:
  - Filtrado a valores razonables: <span style="color: lightgreen;">1900-2022</span>.
- **`Power`**:
  - Limitado a un rango aceptable: <span style="color: lightgreen;">1-999 CV</span>.
- **`Price`**:
  - Eliminados precios extremos:
    - Menores a <span style="color: lightgreen;">100 euros</span>.
    - Mayores a <span style="color: lightgreen;">100,000 euros</span>.

---

 **Columnas Eliminadas**

- Las siguientes columnas fueron eliminadas por ser irrelevantes o redundantes:
  - `NumberOfPictures`
  - `PostalCode`
  - `DateCrawled`
  - `LastSeen`
  - `DateCreated`

---

 **Manejo de Valores Nulos**

- Para columnas categóricas:
  - `VehicleType`, `Gearbox`, `Model`, `FuelType`, y `NotRepaired`.
  - Valores nulos fueron imputados con: <span style="color: lightgreen;">'unknown'</span>.



<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Excelente el procedimiento y explicación
</div>

## Entrenamiento del modelo 

In [17]:
# Identificar variables categóricas
categorical_columns = ['VehicleType', 'Gearbox', 'Model', 'FuelType', 'Brand', 'NotRepaired']

# Aplicar One-Hot Encoding (OHE) para las variables categóricas
car_data_encoded = pd.get_dummies(car_data, columns=categorical_columns, drop_first=True)

# Mostrar los datos codificados para revisión
car_data_encoded 


Unnamed: 0,Price,RegistrationYear,Power,Mileage,RegistrationMonth,VehicleType_convertible,VehicleType_coupe,VehicleType_other,VehicleType_sedan,VehicleType_small,...,Brand_smart,Brand_sonstige_autos,Brand_subaru,Brand_suzuki,Brand_toyota,Brand_trabant,Brand_volkswagen,Brand_volvo,NotRepaired_unknown,NotRepaired_yes
1,18300,2011,190,125000,5,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,1
2,9800,2004,163,125000,8,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
3,1500,2001,75,150000,6,0,0,0,0,1,...,0,0,0,0,0,0,1,0,0,0
4,3600,2008,69,90000,7,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
5,650,1995,102,150000,10,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
354361,5250,2016,150,150000,12,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
354362,3200,2004,225,150000,5,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,1
354366,1199,2000,101,125000,3,1,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
354367,9200,1996,102,150000,3,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0


**Decisiones para la Codificación de Variables**

 **Modelos Basados en Árboles**
- Modelos como **Bosque Aleatorio** y **LightGBM**:
  - **No requieren una codificación compleja** de variables categóricas.
  - **LightGBM** puede manejar directamente las variables categóricas.

---

 **Regresión Lineal y Modelos Estándar**
- Estos modelos **requieren codificación**:
  - Usaremos **One-Hot Encoding (OHE)** para convertir variables categóricas en variables binarias.

---

 **Estrategia para Maximizar Compatibilidad**
- Para maximizar la compatibilidad con **todos los modelos**:
  - Las variables categóricas serán codificadas usando: <span style="color: lightgreen;">One-Hot Encoding (OHE)</span>.

---

 **Variables Categóricas Identificadas**
Las siguientes variables serán codificadas con **OHE**:
- `VehicleType`
- `Gearbox`
- `Model`
- `FuelType`
- `Brand`
- `NotRepaired`


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Excelente el procedimiento y explicación
</div>

In [18]:
from sklearn.model_selection import train_test_split

# Separar características (X) y el objetivo (y)
X = car_data_encoded.drop(columns=['Price'])
y = car_data_encoded['Price']

# Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Mostrar tamaños de los conjuntos para verificar
data_split_info = {
    "Tamaño del conjunto de entrenamiento": X_train.shape,
    "Tamaño del conjunto de prueba": X_test.shape,
}
data_split_info


{'Tamaño del conjunto de entrenamiento': (244048, 311),
 'Tamaño del conjunto de prueba': (61013, 311)}

In [19]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Entrenar el modelo de regresión lineal
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)

# Realizar predicciones
y_train_pred = linear_model.predict(X_train)
y_test_pred = linear_model.predict(X_test)

# Evaluar el modelo usando RECM (Raíz del Error Cuadrático Medio)
train_rmse = mean_squared_error(y_train, y_train_pred, squared=False)
test_rmse = mean_squared_error(y_test, y_test_pred, squared=False)

# Mostrar resultados
regression_results = {
    "RECM en entrenamiento": train_rmse,
    "RECM en prueba": test_rmse,
}
regression_results


{'RECM en entrenamiento': 2595.3214821151414,
 'RECM en prueba': 2638.7374230902974}

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>`m
    
Bien, pero sería recomendable escalar los datos cuando uses linear regression, ya que puede verse afectado por las diferentes escalas en las caracteristicas|

 **Interpretación de los Resultados**

 **Entrenamiento**
- **RECM en entrenamiento**: <span style="color: lightgreen;">2595.32</span>.
  - Esto indica que, en promedio, el modelo tiene un error de predicción de aproximadamente <span style="color: lightgreen;">2595 euros</span> en el conjunto de entrenamiento.

---

**Prueba**
- **RECM en prueba**: <span style="color: lightgreen;">2638.73</span>.
  - Esto muestra que el modelo **generaliza relativamente bien**, ya que la diferencia entre los errores de entrenamiento y prueba es pequeña.

---

**Observaciones**
- Estos resultados son un buen punto de referencia para comparar con modelos basados en árboles.
- Si el **bosque aleatorio** (u otros modelos) obtiene un **RECM más bajo**, indicará que esos métodos son más adecuados para este problema.


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Muy bien el análisis
</div>

In [20]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

# Entrenar el modelo de bosque aleatorio
rf_model = RandomForestRegressor(n_estimators=100, max_depth=10, random_state=42)
rf_model.fit(X_train, y_train)

# Realizar predicciones
y_train_pred_rf = rf_model.predict(X_train)
y_test_pred_rf = rf_model.predict(X_test)

# Evaluar el modelo usando RECM (Raíz del Error Cuadrático Medio)
train_rmse_rf = mean_squared_error(y_train, y_train_pred_rf, squared=False)
test_rmse_rf = mean_squared_error(y_test, y_test_pred_rf, squared=False)

# Mostrar resultados
rf_results = {
    "RECM en entrenamiento (Random Forest)": train_rmse_rf,
    "RECM en prueba (Random Forest)": test_rmse_rf,
}
print(rf_results)


{'RECM en entrenamiento (Random Forest)': 1837.1081055727277, 'RECM en prueba (Random Forest)': 1913.2222154677431}


 **Resultados del Bosque Aleatorio**

**Entrenamiento**
- **RECM en entrenamiento**: <span style="color: lightgreen;">1837.11</span>.
  - Mejor que los <span style="color: lightgreen;">2595.32</span> de la regresión lineal.
  - Esto sugiere que el modelo **captura mejor las relaciones** en los datos de entrenamiento.

---

 **Prueba**
- **RECM en prueba**: <span style="color: lightgreen;">1913.22</span>.
  - Mejor que los <span style="color: lightgreen;">2638.73</span> de la regresión lineal.
  - Indica que el modelo **generaliza mejor** al conjunto de prueba.

---

 **Diferencia entre Entrenamiento y Prueba**
- La diferencia es razonable: <span style="color: lightgreen;">76.11</span>.
  - Esto indica un **buen balance** entre ajuste y generalización.

---

 **Observaciones**
- El **Bosque Aleatorio** supera ampliamente a la regresión lineal en calidad de predicción.
  - Esto se debe a su capacidad para manejar:
    - **Relaciones no lineales**.
    - **Características categóricas** sin necesidad de codificación compleja.


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Excelente el procedimiento y análisis
</div>

In [21]:
import lightgbm as lgb
from sklearn.metrics import mean_squared_error

# Crear y configurar el modelo LightGBM
lgb_model = lgb.LGBMRegressor(
    boosting_type='gbdt', 
    n_estimators=100, 
    learning_rate=0.1, 
    max_depth=10, 
    random_state=42
)

# Entrenar el modelo
lgb_model.fit(X_train, y_train)

# Realizar predicciones
y_train_pred_lgb = lgb_model.predict(X_train)
y_test_pred_lgb = lgb_model.predict(X_test)

# Evaluar el modelo usando RECM (Raíz del Error Cuadrático Medio)
train_rmse_lgb = mean_squared_error(y_train, y_train_pred_lgb, squared=False)
test_rmse_lgb = mean_squared_error(y_test, y_test_pred_lgb, squared=False)

# Mostrar resultados
lgb_results = {
    "RECM en entrenamiento (LightGBM)": train_rmse_lgb,
    "RECM en prueba (LightGBM)": test_rmse_lgb,
}
print(lgb_results)


{'RECM en entrenamiento (LightGBM)': 1672.6866891100706, 'RECM en prueba (LightGBM)': 1711.2610480639555}


**Resultados de LightGBM**

**Rendimiento General**
- **LightGBM supera** a los modelos anteriores tanto en el conjunto de entrenamiento como en el de prueba.
- Es **eficiente** y puede ajustarse aún más para mejorar el rendimiento.

---
 **Observaciones Clave**
- **Ventajas de LightGBM**:
  - Captura relaciones complejas con alta precisión.
  - Maneja eficientemente grandes volúmenes de datos.
  - No requiere una codificación explícita de variables categóricas.

- **Potencial de Mejora**:
  - Puede optimizarse utilizando técnicas como:
    - **Ajuste de hiperparámetros**.
    - **Validación cruzada** para garantizar un rendimiento robusto.

---

 **Conclusión**
- **LightGBM** se posiciona como el modelo más adecuado para este problema.
  - Combina **precisión**, **eficiencia** y **flexibilidad**.


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Excelente el procedimiento y análisis
</div>

In [23]:
# Ajustar los hiperparámetros de LightGBM
lgb_tuned_model = lgb.LGBMRegressor(
    boosting_type='gbdt',
    n_estimators=200,  # Aumentar el número de árboles
    learning_rate=0.05,  # Reducir la tasa de aprendizaje
    max_depth=15,  # Aumentar la profundidad máxima
    random_state=42
)

# Entrenar el modelo con los nuevos hiperparámetros
lgb_tuned_model.fit(X_train, y_train)

# Realizar predicciones
y_train_pred_lgb_tuned = lgb_tuned_model.predict(X_train)
y_test_pred_lgb_tuned = lgb_tuned_model.predict(X_test)

# Evaluar el modelo usando RECM (Raíz del Error Cuadrático Medio)
train_rmse_lgb_tuned = mean_squared_error(y_train, y_train_pred_lgb_tuned, squared=False)
test_rmse_lgb_tuned = mean_squared_error(y_test, y_test_pred_lgb_tuned, squared=False)

# Mostrar resultados
lgb_tuned_results = {
    "RECM en entrenamiento (LightGBM ajustado)": train_rmse_lgb_tuned,
    "RECM en prueba (LightGBM ajustado)": test_rmse_lgb_tuned,
}
print(lgb_tuned_results)


{'RECM en entrenamiento (LightGBM ajustado)': 1664.0766916037087, 'RECM en prueba (LightGBM ajustado)': 1704.0807757888963}


**Resultados Ajustados de LightGBM**

 **Entrenamiento**
- **RECM en entrenamiento**: <span style="color: lightgreen;">1664.08</span>.
  - Ligeramente mejor que los <span style="color: lightgreen;">1672.69</span> originales.
  - Esto indica un **mejor ajuste** del modelo a los datos de entrenamiento.

---

 **Prueba**
- **RECM en prueba**: <span style="color: lightgreen;">1704.08</span>.
  - Ligeramente mejor que los <span style="color: lightgreen;">1711.26</span> originales.
  - El modelo **generaliza un poco mejor**.

---

**Observación sobre la Mejora**
- El **ajuste de los hiperparámetros** produjo mejoras:
  - **Pequeñas**, pero **notables**.
- Esto confirma que:
  - El modelo ya estaba bien ajustado con los parámetros originales.
  - Las optimizaciones realizadas incrementaron su rendimiento.

---

 **Conclusión**
- **LightGBM** sigue destacándose como el mejor modelo para este problema.
  - A pesar de las mejoras sutiles, demuestra un **balance óptimo** entre precisión y generalización.


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Excelente el hyperparameter tuning manual
</div>

In [24]:
from catboost import CatBoostRegressor

# Crear y configurar el modelo CatBoost
catboost_model = CatBoostRegressor(
    iterations=200,  # Número de iteraciones
    learning_rate=0.1,  # Tasa de aprendizaje
    depth=10,  # Profundidad de los árboles
    random_seed=42,
    verbose=0  # Desactivar logs
)

# Entrenar el modelo
catboost_model.fit(X_train, y_train)

# Realizar predicciones
y_train_pred_catboost = catboost_model.predict(X_train)
y_test_pred_catboost = catboost_model.predict(X_test)

# Evaluar el modelo usando RECM (Raíz del Error Cuadrático Medio)
train_rmse_catboost = mean_squared_error(y_train, y_train_pred_catboost, squared=False)
test_rmse_catboost = mean_squared_error(y_test, y_test_pred_catboost, squared=False)

# Mostrar resultados
catboost_results = {
    "RECM en entrenamiento (CatBoost)": train_rmse_catboost,
    "RECM en prueba (CatBoost)": test_rmse_catboost,
}
print(catboost_results)


{'RECM en entrenamiento (CatBoost)': 1597.5490354317972, 'RECM en prueba (CatBoost)': 1656.253422635431}


 **Resultados de CatBoost**
 **Entrenamiento**
- **RECM en entrenamiento**: <span style="color: lightgreen;">1597.55</span>.
  - Mejor que los:
    - <span style="color: lightgreen;">1664.08</span> del **LightGBM ajustado**.
    - <span style="color: lightgreen;">1672.69</span> del **LightGBM original**.
  - Esto indica que **CatBoost está aprovechando mejor** las características y los datos.

---

 **Prueba**
- **RECM en prueba**: <span style="color: lightgreen;">1656.25</span>.
  - También mejor que los:
    - <span style="color: lightgreen;">1704.08</span> del **LightGBM ajustado**.
    - <span style="color: lightgreen;">1711.26</span> del **LightGBM original**.
  - El modelo **generaliza mejor**, manteniendo una **diferencia razonable** entre entrenamiento y prueba.

---

 **Diferencia entre Entrenamiento y Prueba**
- La diferencia es pequeña: <span style="color: lightgreen;">∼59</span>.
  - Esto indica que el modelo está **bien equilibrado**.

---

**Conclusión**
- **CatBoost** se posiciona como el mejor modelo probado hasta ahora.
  - Demuestra:
    - **Mayor precisión** en el conjunto de entrenamiento.
    - **Mejor capacidad de generalización** en el conjunto de prueba.
  - Su desempeño destaca por un **balance óptimo** entre ajuste y generalización.


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Excelente el procedimiento y análisis
</div>

## Análisis del modelo

 **Comparación de Modelos**

---

**1. Regresión Lineal**

 **Ventajas**
- Es **simple** y fácil de interpretar.
- Sirve como prueba inicial para verificar la **cordura de los datos**.

 **Desventajas**
- Tiene un **RECM significativamente más alto** que los demás modelos, indicando que **no captura bien las relaciones complejas** en los datos.

**Conclusión**
- **No es adecuado** para este problema.

---

**2. Bosque Aleatorio**
 **Ventajas**
- Captura **relaciones no lineales** y maneja bien características categóricas.
- Reduce el RECM en comparación con la regresión lineal:
  - Entrenamiento: <span style="color: lightgreen;">1837.11</span>.
  - Prueba: <span style="color: lightgreen;">1913.22</span>.

 **Desventajas**
- Más **lento** que LightGBM y CatBoost para grandes datasets.
- Ligeramente **menos preciso** que los métodos de potenciación del gradiente.

**Conclusión**
- Es un **buen modelo intermedio**, pero LightGBM y CatBoost lo superan.

---

**3. LightGBM (Original y Ajustado)**

**Ventajas**
- Es **rápido y eficiente**, especialmente con datos grandes.
- Mejora significativamente el RECM tras el ajuste de hiperparámetros:
  - Entrenamiento: <span style="color: lightgreen;">1664.08</span>.
  - Prueba: <span style="color: lightgreen;">1704.08</span>.

 **Desventajas**
- Requiere cierto **ajuste manual** de hiperparámetros.
- Aunque es mejor que el bosque aleatorio, **no alcanza la precisión de CatBoost**
 **Conclusión**
- Es un modelo **fuerte y eficiente**, pero CatBoost tiene una **ligera ventaja** en calidad de predicción.

---

 **4. CatBoost**

 **Ventajas**
- Maneja de forma **nativa** las características categóricas, evitando la necesidad de codificación explícita.
- Logró el menor RECM:
  - Entrenamiento: <span style="color: lightgreen;">1597.55</span>.
  - Prueba: <span style="color: lightgreen;">1656.25</span>.
- Generaliza bien, con una **pequeña diferencia** entre entrenamiento y prueba: <span style="color: lightgreen;">∼59</span>.

 **Desventajas**
- Puede ser más **lento** que LightGBM en ciertos casos.

 **Conclusión**
- Es el modelo **más adecuado** para este problema, considerando calidad de predicción y balance.


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Excelente el análisis
</div>

In [26]:
import time

# Función para medir tiempos
def measure_model_time(model, X_train, y_train, X_test):
    start_train = time.time()
    model.fit(X_train, y_train)  # Entrenar el modelo
    end_train = time.time()
    
    start_predict = time.time()
    _ = model.predict(X_test)  # Realizar predicciones
    end_predict = time.time()
    
    train_time = end_train - start_train
    predict_time = end_predict - start_predict
    
    return train_time, predict_time

# Medir tiempo de cada modelo

# Regresión Lineal
linear_model = LinearRegression()
linear_train_time, linear_predict_time = measure_model_time(linear_model, X_train, y_train, X_test)

# Bosque Aleatorio
rf_model = RandomForestRegressor(n_estimators=100, max_depth=10, random_state=42)
rf_train_time, rf_predict_time = measure_model_time(rf_model, X_train, y_train, X_test)

# LightGBM
lgb_model = lgb.LGBMRegressor(boosting_type='gbdt', n_estimators=100, learning_rate=0.1, max_depth=10, random_state=42)
lgb_train_time, lgb_predict_time = measure_model_time(lgb_model, X_train, y_train, X_test)

# CatBoost
catboost_model = CatBoostRegressor(iterations=200, learning_rate=0.1, depth=10, random_seed=42, verbose=0)
catboost_train_time, catboost_predict_time = measure_model_time(catboost_model, X_train, y_train, X_test)

# Mostrar tiempos
model_times = {
    "Regresión Lineal": {"Entrenamiento": linear_train_time, "Predicción": linear_predict_time},
    "Bosque Aleatorio": {"Entrenamiento": rf_train_time, "Predicción": rf_predict_time},
    "LightGBM": {"Entrenamiento": lgb_train_time, "Predicción": lgb_predict_time},
    "CatBoost": {"Entrenamiento": catboost_train_time, "Predicción": catboost_predict_time},
}
print(model_times)


{'Regresión Lineal': {'Entrenamiento': 9.284387588500977, 'Predicción': 0.18448472023010254}, 'Bosque Aleatorio': {'Entrenamiento': 174.76935148239136, 'Predicción': 0.4293689727783203}, 'LightGBM': {'Entrenamiento': 3.9074418544769287, 'Predicción': 0.4954345226287842}, 'CatBoost': {'Entrenamiento': 12.42863917350769, 'Predicción': 0.04559946060180664}}


# Lista de control

Escribe 'x' para verificar. Luego presiona Shift+Enter

- [x]  Jupyter Notebook está abierto
- [ ]  El código no tiene errores- [ ]  Las celdas con el código han sido colocadas en orden de ejecución- [ ]  Los datos han sido descargados y preparados- [ ]  Los modelos han sido entrenados
- [ ]  Se realizó el análisis de velocidad y calidad de los modelos

## Conclusiones:

**Comparación de Modelos: Rendimiento y Tiempos**

| **Modelo**              | **RECM Entrenamiento** | **RECM Prueba** | **Tiempo Entrenamiento (s)** | **Tiempo Predicción (s)** |
|--------------------------|-----------------------:|----------------:|-----------------------------:|--------------------------:|
| **Regresión Lineal**     | 2595.32               | 2638.73         | 9.28                         | 0.18                      |
| **Bosque Aleatorio**     | 1837.11               | 1913.22         | 174.77                       | 0.43                      |
| **LightGBM (Original)**  | 1672.69               | 1711.26         | 3.91                         | 0.50                      |
| **LightGBM (Ajustado)**  | 1664.08               | 1704.08         | 3.91                         | 0.50                      |
| **CatBoost**             | **1597.55**           | **1656.25**     | 12.43                        | **0.05**                  |

---

 **Observaciones**
1. **Regresión Lineal**:
   - Tiene el **RECM más alto** y es el modelo menos preciso.
   - Sin embargo, tiene **tiempos de entrenamiento y predicción rápidos**, adecuados para pruebas iniciales.

2. **Bosque Aleatorio**:
   - Captura mejor las relaciones que la regresión lineal, con un RECM notablemente menor.
   - Es el **más lento** en tiempo de entrenamiento.

3. **LightGBM (Original y Ajustado)**:
   - Ofrecen un excelente balance entre precisión y eficiencia.
   - El tiempo de entrenamiento es el más **rápido**, mientras que el tiempo de predicción es aceptable.

4. **CatBoost**:
   - Obtiene el **menor RECM** en entrenamiento y prueba.
   - Aunque su tiempo de entrenamiento es mayor que LightGBM, tiene el **tiempo de predicción más rápido**, ideal para aplicaciones en tiempo real.

---

- **CatBoost** es el modelo más adecuado debido a su precisión y velocidad de predicción.
- **LightGBM ajustado** es una excelente alternativa cuando se prioriza la eficiencia de entrenamiento.



<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Eduardo!! Excelente trabajo, sigue asi!!! Todo esta muy bien organizado y tus procedimientos, análisis excelentes. Te diría que experimentaras en el futuro con tecnicas automaticas de hyperparameter tuning (como gridsearch o bayesian optimization) para encontrar aun mejores modelos. 
</div>`