# Hola &#x1F600;,

Soy **Hesus Garcia** – **"Soy el único Hesus que conoces (y probablemente conocerás) 🌟"** – Sí, como "Jesús", pero con una H que me hace único. Puede sonar raro, pero créeme, ¡no lo olvidarás! Como tu revisor en Triple-Ten, estoy aquí para guiarte y ayudarte a mejorar tu código. Si algo necesita un ajuste, no hay de qué preocuparse; ¡aquí estoy para hacer que tu trabajo brille con todo su potencial! ✨

Cada vez que encuentre un detalle importante en tu código, te lo señalaré para que puedas corregirlo y así te prepares para un ambiente de trabajo real, donde el líder de tu equipo actuaría de manera similar. Si en algún momento no logras solucionar el problema, te daré más detalles para ayudarte en nuestra próxima oportunidad de revisión.

Es importante que cuando encuentres un comentario, **no los muevas, no los modifiques, ni los borres**.

---

### Formato de Comentarios

Revisaré cuidadosamente cada implementación en tu notebook para asegurar que cumpla con los requisitos y te daré comentarios de acuerdo al siguiente formato:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>Éxito</b> - ¡Excelente trabajo! Esta parte está bien implementada y contribuye significativamente al análisis de datos o al proyecto. Continúa aplicando estas buenas prácticas en futuras secciones.
    
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>Atención</b> ⚠️ - Este código está correcto, pero se puede optimizar. Considera implementar mejoras para que sea más eficiente y fácil de leer. Esto fortalecerá la calidad de tu proyecto.
    
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>A resolver</b> ❗ - Aquí hay un problema o error en el código que es necesario corregir para aprobar esta sección. Por favor, revisa y corrige este punto, ya que es fundamental para la validez del análisis y la precisión de los resultados.
    
</div>

---

Al final de cada revisión, recibirás un **Comentario General del Revisor** que incluirá:

- **Aspectos positivos:** Un resumen de los puntos fuertes de tu proyecto.
- **Áreas de mejora:** Sugerencias sobre aspectos donde puedes mejorar.
- **Temas adicionales para investigar:** Ideas de temas opcionales que puedes explorar por tu cuenta para desarrollar aún más tus habilidades.

Estos temas adicionales no son obligatorios en esta etapa, pero pueden serte útiles para profundizar en el futuro.

---


Esta estructura en viñetas facilita la lectura y comprensión de cada parte del comentario final.

También puedes responderme de la siguiente manera si tienes alguna duda o quieres aclarar algo específico:


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
    
Aquí puedes escribir tu respuesta o pregunta sobre el comentario.
    
</div>


**¡Empecemos!** &#x1F680;


El servicio de venta de autos usados Rusty Bargain está desarrollando una aplicación para atraer nuevos clientes. Gracias a esa app, puedes averiguar rápidamente el valor de mercado de tu coche. Tienes acceso al historial: especificaciones técnicas, versiones de equipamiento y precios. Tienes que crear un modelo que determine el valor de mercado.
A Rusty Bargain le interesa:
- la calidad de la predicción;
- la velocidad de la predicción;
- el tiempo requerido para el entrenamiento

## Preparación de datos

In [1]:
!pip install sidetable
!pip install catboost

Collecting sidetable
  Downloading sidetable-0.9.1-py3-none-any.whl (19 kB)
Collecting pandas>=1.0
  Downloading pandas-2.2.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (13.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.1/13.1 MB[0m [31m84.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting tzdata>=2022.7
  Downloading tzdata-2025.1-py2.py3-none-any.whl (346 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m346.8/346.8 kB[0m [31m73.5 MB/s[0m eta [36m0:00:00[0m
Collecting numpy>=1.22.4
  Downloading numpy-2.2.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (16.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.4/16.4 MB[0m [31m81.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: tzdata, numpy, pandas, sidetable
Successfully installed numpy-2.2.3 pandas-2.2.3 sidetable-0.9.1 tzdata-2025.1
Collecting catboost
  Downloading catboost-1.2.7-cp310

In [2]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from catboost import CatBoostClassifier
from sklearn.metrics import roc_auc_score
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, make_scorer
from sklearn.ensemble import RandomForestRegressor

from sklearn.model_selection import GridSearchCV
from math import sqrt
import xgboost as xgb
import lightgbm as lgbm
import catboost as cb

In [3]:
data = pd.read_csv('/datasets/car_data.csv')

In [4]:
data


Unnamed: 0,DateCrawled,Price,VehicleType,RegistrationYear,Gearbox,Power,Model,Mileage,RegistrationMonth,FuelType,Brand,NotRepaired,DateCreated,NumberOfPictures,PostalCode,LastSeen
0,24/03/2016 11:52,480,,1993,manual,0,golf,150000,0,petrol,volkswagen,,24/03/2016 00:00,0,70435,07/04/2016 03:16
1,24/03/2016 10:58,18300,coupe,2011,manual,190,,125000,5,gasoline,audi,yes,24/03/2016 00:00,0,66954,07/04/2016 01:46
2,14/03/2016 12:52,9800,suv,2004,auto,163,grand,125000,8,gasoline,jeep,,14/03/2016 00:00,0,90480,05/04/2016 12:47
3,17/03/2016 16:54,1500,small,2001,manual,75,golf,150000,6,petrol,volkswagen,no,17/03/2016 00:00,0,91074,17/03/2016 17:40
4,31/03/2016 17:25,3600,small,2008,manual,69,fabia,90000,7,gasoline,skoda,no,31/03/2016 00:00,0,60437,06/04/2016 10:17
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
354364,21/03/2016 09:50,0,,2005,manual,0,colt,150000,7,petrol,mitsubishi,yes,21/03/2016 00:00,0,2694,21/03/2016 10:42
354365,14/03/2016 17:48,2200,,2005,,0,,20000,1,,sonstige_autos,,14/03/2016 00:00,0,39576,06/04/2016 00:46
354366,05/03/2016 19:56,1199,convertible,2000,auto,101,fortwo,125000,3,petrol,smart,no,05/03/2016 00:00,0,26135,11/03/2016 18:17
354367,19/03/2016 18:57,9200,bus,1996,manual,102,transporter,150000,3,gasoline,volkswagen,no,19/03/2016 00:00,0,87439,07/04/2016 07:15


In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   DateCrawled        354369 non-null  object
 1   Price              354369 non-null  int64 
 2   VehicleType        316879 non-null  object
 3   RegistrationYear   354369 non-null  int64 
 4   Gearbox            334536 non-null  object
 5   Power              354369 non-null  int64 
 6   Model              334664 non-null  object
 7   Mileage            354369 non-null  int64 
 8   RegistrationMonth  354369 non-null  int64 
 9   FuelType           321474 non-null  object
 10  Brand              354369 non-null  object
 11  NotRepaired        283215 non-null  object
 12  DateCreated        354369 non-null  object
 13  NumberOfPictures   354369 non-null  int64 
 14  PostalCode         354369 non-null  int64 
 15  LastSeen           354369 non-null  object
dtypes: int64(7), object(

Hay valores ausentes en: vehicle type, Gearbox, Model, FuelType y NotRepaired

In [5]:
#rellenamos valores ausentes con NaN
data['VehicleType'] = data['VehicleType'].fillna('NaN')
data['Gearbox'] = data['Gearbox'].fillna('NaN')
data['Model'] = data['Model'].fillna('NaN')
data['FuelType'] = data['FuelType'].fillna('NaN')
data['NotRepaired'] = data['NotRepaired'].fillna('NaN')

In [6]:
#convertir datos 
data['DateCrawled'] = pd.to_datetime(data['DateCrawled'])
data['DateCreated'] = pd.to_datetime(data['DateCreated'])


In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   DateCrawled        354369 non-null  datetime64[ns]
 1   Price              354369 non-null  int64         
 2   VehicleType        354369 non-null  object        
 3   RegistrationYear   354369 non-null  int64         
 4   Gearbox            354369 non-null  object        
 5   Power              354369 non-null  int64         
 6   Model              354369 non-null  object        
 7   Mileage            354369 non-null  int64         
 8   RegistrationMonth  354369 non-null  int64         
 9   FuelType           354369 non-null  object        
 10  Brand              354369 non-null  object        
 11  NotRepaired        354369 non-null  object        
 12  DateCreated        354369 non-null  datetime64[ns]
 13  NumberOfPictures   354369 non-null  int64   

In [8]:
data.duplicated().sum()

262

In [9]:
data = data.drop_duplicates()

In [10]:
data.duplicated().sum()

0

In [11]:
data.describe()

Unnamed: 0,Price,RegistrationYear,Power,Mileage,RegistrationMonth,NumberOfPictures,PostalCode
count,354107.0,354107.0,354107.0,354107.0,354107.0,354107.0,354107.0
mean,4416.433287,2004.235355,110.089651,128211.811684,5.714182,0.0,50507.14503
std,4514.338584,90.261168,189.914972,37906.590101,3.726682,0.0,25784.212094
min,0.0,1000.0,0.0,5000.0,0.0,0.0,1067.0
25%,1050.0,1999.0,69.0,125000.0,3.0,0.0,30165.0
50%,2700.0,2003.0,105.0,150000.0,6.0,0.0,49406.0
75%,6400.0,2008.0,143.0,150000.0,9.0,0.0,71083.0
max,20000.0,9999.0,20000.0,150000.0,12.0,0.0,99998.0


En la descripción de datos podemos observar que la media de los precios de los autos es de $4416. En el minimo tenemos 0, el cuál debe ser un error en los datos. 
En cuanto al kilometraje, la media es de 128,211 km, el min es de 5000km y el máximo es de 150,000. La mayoría de los autos en venta tienen un kilometraje de mas de 100,000 km

<div class="alert alert-block alert-success">  
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>  
<b>Éxito</b> - Muy buen trabajo en la preparación de datos. La limpieza y conversión de variables están bien estructuradas, y la detección de valores inusuales en los precios demuestra un buen análisis exploratorio. Continúa con este nivel de detalle en las siguientes etapas del proyecto.  
</div>

## Entrenamiento del modelo 

In [12]:
#Eliminamos las columnas que no necesitamos para el entrenamiento
data.drop(['DateCrawled', 'RegistrationMonth', 'DateCreated', 
         'NumberOfPictures', 'PostalCode', 'LastSeen'], axis = 1, inplace = True)

data.columns

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


Index(['Price', 'VehicleType', 'RegistrationYear', 'Gearbox', 'Power', 'Model',
       'Mileage', 'FuelType', 'Brand', 'NotRepaired'],
      dtype='object')

### One-Hot Encoding

In [13]:
# definimos las variables de entrenamiento y prueba

X = data.drop('Price', axis = 1 )
y = data['Price']


In [14]:
X_dummies = pd.get_dummies(X, drop_first = True)

X_dummies.head()

Unnamed: 0,RegistrationYear,Power,Mileage,VehicleType_bus,VehicleType_convertible,VehicleType_coupe,VehicleType_other,VehicleType_sedan,VehicleType_small,VehicleType_suv,...,Brand_smart,Brand_sonstige_autos,Brand_subaru,Brand_suzuki,Brand_toyota,Brand_trabant,Brand_volkswagen,Brand_volvo,NotRepaired_no,NotRepaired_yes
0,1993,0,150000,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
1,2011,190,125000,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
2,2004,163,125000,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
3,2001,75,150000,0,0,0,0,0,1,0,...,0,0,0,0,0,0,1,0,1,0
4,2008,69,90000,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,1,0


In [15]:
X_train_ohe, X_test_ohe, y_train_ohe, y_test_ohe = train_test_split(X_dummies, y, random_state = 42, test_size = 0.3)

features_train, features_test, target_train, target_test = train_test_split(X, y, random_state = 42, test_size = 0.3)

In [16]:
X_categ = ['VehicleType', 'Gearbox', 'Model', 'FuelType', 'Brand', 'NotRepaired']

In [17]:

X_train_enc = features_train.copy()
X_test_enc = features_test.copy()

In [18]:

X_train_enc[X_categ] = OrdinalEncoder().fit_transform(X_train_enc[X_categ])
X_test_enc[X_categ] = OrdinalEncoder().fit_transform(X_test_enc[X_categ])

<div class="alert alert-block alert-success">  
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>  
<b>Éxito</b> - Excelente preparación de los datos para el entrenamiento. La selección de características, la aplicación de One-Hot Encoding y la codificación ordinal están bien implementadas. La estrategia de división en conjuntos de entrenamiento y prueba es adecuada.  
</div>

## Análisis del modelo

In [19]:
%%time

lineal = LinearRegression()
lineal.fit(X_train_ohe, y_train_ohe)

y_pred_train_lr = lineal.predict(X_train_ohe)
y_pred_test_lr = lineal.predict(X_test_ohe)

# evaluamos las métricas

print('RECM de modelo de entrenamiento:', sqrt(mean_squared_error(y_train_ohe, y_pred_train_lr)))
print('RECM de modelo de prueba:', sqrt(mean_squared_error(y_test_ohe, y_pred_test_lr)))

RECM de modelo de entrenamiento: 3170.6389806444445
RECM de modelo de prueba: 3172.4655956124316
CPU times: user 8.34 s, sys: 1.65 s, total: 9.98 s
Wall time: 9.96 s


In [None]:
#Random Forest
%%time

param = {
    'max_depth': [3, 4, 5],
    'min_samples_split': [2, 3, 4, 5]
}

rf = RandomForestRegressor()

rf = RandomForestRegressor(random_state=42, param=param

rf.fit(X_train_ohe, y_train_ohe)

y_pred_train_rf = rf.predict(X_train_ohe)
y_pred_test_rf = rf.predict(X_test_ohe)

train_rmse_rf = sqrt(mean_squared_error(y_train_ohe, y_pred_train_rf))
test_rmse_rf = sqrt(mean_squared_error(y_test_ohe, y_pred_test_rf))

# Imprimimos las métricas

print("RMSE para modelo de entrenamiento:", train_rmse_rf)
print("RMSE para modelo de prueba:", test_rmse_rf)

In [None]:
#XGBoost
%%time

param_xgb = {
    'max_depth': [3, 4, 5],
    'min_child_weight': [1, 2, 3, 4, 5]}

xgb = xgb.XGBRegressor(param= param_xgb)

xgb_gs.fit(X_train_ohe, y_train_ohe)

y_pred_train_xgb = xgb.predict(X_train_ohe)
y_pred_test_xgb = xgb.predict(X_test_ohe)

train_rmse_xgb = sqrt(mean_squared_error(y_train_ohe, y_pred_train_xgb))
test_rmse_xgb = sqrt(mean_squared_error(y_test_ohe, y_pred_test_xgb))


print("RMSE para modelo de entrenamiento:", train_rmse_xgb)
print("RMSE para modelo de prueba:", test_rmse_xgb)

In [None]:
#LightGBM
%%time

param_lgbm = {
    'num_leaves': [10, 20, 30, 40],
    'max_depth': [3, 4, 5]}

lgbm_model = lgbm.LGBMRegressor(objective='regression')

lgbm = GridSearchCV(lgbm_model, param_grid=param_lgbm, scoring='neg_mean_squared_error', cv=3)

lgbm.fit(X_train_ohe, y_train_ohe)

y_pred_train_lgbm = lgbm.predict(X_train_ohe)
y_pred_test_lgbm = lgbm.predict(X_test_ohe)

train_rmse_lgbm = sqrt(mean_squared_error(y_train_ohe, y_pred_train_lgbm))
test_rmse_lgbm = sqrt(mean_squared_error(y_test_ohe, y_pred_test_lgbm))

print("RMSE para modelo de entrenamiento:", train_rmse_lgbm)
print("RMSE para modelo de prueba:", test_rmse_lgbm)

<div class="alert alert-block alert-success">  
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>  
<b>Éxito</b> - Muy buen análisis del modelo con una variedad de algoritmos. La comparación de RMSE entre los diferentes enfoques proporciona una evaluación clara del rendimiento. La selección de hiperparámetros con GridSearchCV y la validación adecuada refuerzan la solidez del análisis.
</div>

# Lista de control

Escribe 'x' para verificar. Luego presiona Shift+Enter

- [x]  Jupyter Notebook está abierto
- [ ]  El código no tiene errores- [ ]  Las celdas con el código han sido colocadas en orden de ejecución- [ ]  Los datos han sido descargados y preparados- [ ]  Los modelos han sido entrenados
- [ ]  Se realizó el análisis de velocidad y calidad de los modelos

# Comentario general del revisor 

 

<div class="alert alert-block alert-success">  
<b>Comentario del revisor</b> <a class="tocSkip"></a>  

¡Felicidades Estela! Tu proyecto está **aprobado**. Has realizado un excelente trabajo en la preparación, entrenamiento y evaluación de los modelos, asegurando que el análisis sea riguroso y bien fundamentado.  

**Puntos Destacados:** 
    
- Limpieza y transformación de datos: Identificación y tratamiento de valores ausentes, codificación adecuada de variables categóricas y eliminación de datos irrelevantes.  
- Comparación de modelos: Evaluaste múltiples enfoques (Regresión Lineal, Random Forest, XGBoost, LightGBM), asegurando una evaluación completa del rendimiento.  
- Uso de métricas adecuadas: La comparación con RMSE permitió evaluar la precisión de los modelos de manera efectiva.  
- Optimización de hiperparámetros: Uso de GridSearchCV para mejorar el desempeño del modelo, lo que demuestra un enfoque sólido en la selección del mejor algoritmo.  
    
    

**Áreas para Seguir Investigando:  
    
- Feature Engineering: Explorar nuevas combinaciones de características puede mejorar la capacidad predictiva del modelo.  
- Optimización del tiempo de entrenamiento: Considerar estrategias para reducir tiempos sin sacrificar precisión, como la reducción de variables o técnicas de muestreo.  
- Explorar modelos más avanzados: Algoritmos como CatBoost o técnicas de ensamblado pueden mejorar la calidad de la predicción. 
- Implementación en producción: Evaluar estrategias para desplegar el modelo en un entorno real, asegurando su monitoreo y actualización continua.  

Este trabajo demuestra un gran dominio en la preparación de datos y el ajuste de modelos. Sigue explorando y refinando estos enfoques, ¡vas por muy buen camino!  

</div>