¡Hola!

Mi nombre es Tonatiuh Cruz. Me complace revisar tu proyecto hoy.

Al identificar cualquier error inicialmente, simplemente los destacaré. Te animo a localizar y abordar los problemas de forma independiente como parte de tu preparación para un rol como data-scientist. En un entorno profesional, tu líder de equipo seguiría un enfoque similar. Si encuentras la tarea desafiante, proporcionaré una pista más específica en la próxima iteración.

Encontrarás mis comentarios a continuación - **por favor no los muevas, modifiques o elimines**.

Puedes encontrar mis comentarios en cajas verdes, amarillas o rojas como esta:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Éxito. Todo está hecho correctamente.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Observaciones. Algunas recomendaciones.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Necesita corrección. El bloque requiere algunas correcciones. El trabajo no puede ser aceptado con comentarios en rojo.
</div>

Puedes responderme utilizando esto:

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante.</b> <a class="tocSkip"></a>
</div>

<div class="alert alert-block alert-danger">
<b>Resumen de la revisión 1</b> <a class="tocSkip"></a>

Hola, Guillermo! Te dejé comentarios sobre la preparación de los datos y la codificiación óptima para algunos modelos. Implementa los cambios que te sugiero y vuelve a entrenar los modelos. Quedo pendiente.
</div>

El servicio de venta de autos usados Rusty Bargain está desarrollando una aplicación para atraer nuevos clientes. Gracias a esa app, puedes averiguar rápidamente el valor de mercado de tu coche. Tienes acceso al historial: especificaciones técnicas, versiones de equipamiento y precios. Tienes que crear un modelo que determine el valor de mercado.
A Rusty Bargain le interesa:
- la calidad de la predicción;
- la velocidad de la predicción;
- el tiempo requerido para el entrenamiento

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante: 
1.-Para terminar más rapido tuve que utilizar mi computadora ya que la plataforma se tarda en ejecutar el algoritmo hasta 20 minutos y con mi computadora flutua de 5 a 8 minutos. 
    
2.-Podrias ser más especifico con la oración "Actualizar el Código en este Notebook?".
    
3.-Espero que pronta respuesta
    </b> <a class="tocSkip"></a>
</div>

<div class="alert alert-block alert-danger">
<b>Resumen de la revisión 2</b> <a class="tocSkip"></a>

Comprendo que hayas terminado el ejercicio en tu equipo personal, pero podrías actualizar el código en este notebook? Noté que aquí no has actualizado la mayoría de cambios de la preparación de datos y su codificación.
</div>

## Introducción

Rusty Bargain, un servicio de venta de coches de segunda mano, está desarrollando una aplicación para atraer a nuevos clientes mediante la posibilidad de conocer rápidamente el valor de mercado de sus coches. El objetivo de este proyecto es crear un modelo de aprendizaje automático que prediga con precisión el valor de mercado de un coche basado en su historial, especificaciones técnicas, versiones de equipamiento y precios. Para este propósito, se utilizarán varios modelos y técnicas de aprendizaje automático, incluyendo métodos iterativos, descenso de gradiente, regularización de regresión lineal y librerías para potenciación de gradiente como LightGBM, CatBoost y XGBoost.

La preparación de datos es un paso crucial en cualquier proyecto de machine learning.\
Limpiaremos y transformaremos los datos para que sean adecuados para el entrenamiento de modelos.\
Esto incluye manejar valores nulos, codificar características categóricas y dividir los datos en conjuntos de entrenamiento y prueba.

## Preparación de datos

In [None]:
import pandas as pd
import numpy as np
import lightgbm as lgb
import time

import xgboost as xgb
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor

from catboost import CatBoostRegressor


In [None]:
car_data = pd.read_csv('/datasets/car_data.csv')

In [None]:
# Verificar la estructura del DataFrame
print(car_data.info())

In [None]:
# Examinar las primeras filas del dataset
print(car_data.head())

In [None]:
# Verificar valores nulos
print(car_data.isnull().sum())

In [None]:
# Comprobar si las columnas categóricas existen
print(car_data.columns)

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buena exploración inicial de los datos! Como puedes ver, existen algunas columnas con un número significativo de valores nulos, por lo que hay que encontrar la mejor forma de darles tratamiento sin perder una gran cantidad de observaciones.
</div>

### Manejo de valores faltantes o inconsistencias

In [None]:
# Convertir las fechas a datetime
car_data['DateCrawled'] = pd.to_datetime(car_data['DateCrawled'], errors='coerce')
car_data['DateCreated'] = pd.to_datetime(car_data['DateCreated'], errors='coerce')
car_data['LastSeen'] = pd.to_datetime(car_data['LastSeen'], errors='coerce')

In [None]:
# Convertir fechas a timestamp
car_data['DateCrawled'] = car_data['DateCrawled'].apply(lambda x: x.timestamp() if not pd.isnull(x) else np.nan)
car_data['DateCreated'] = car_data['DateCreated'].apply(lambda x: x.timestamp() if not pd.isnull(x) else np.nan)
car_data['LastSeen'] = car_data['LastSeen'].apply(lambda x: x.timestamp() if not pd.isnull(x) else np.nan)


In [None]:
# Identificar columnas categóricas y numéricas
categorical_columns = ['VehicleType', 'Gearbox', 'Model', 'FuelType', 'Brand', 'NotRepaired']
numeric_columns = car_data.select_dtypes(include=[np.number]).columns.tolist()


In [None]:
print(car_data.shape)
print(car_data.dropna().shape)

In [None]:
1-(car_data.dropna().shape[0]/car_data.shape[0])

In [None]:
# Rellenar valores faltantes en variables categóricas con 'unknown'
car_data[categorical_columns] = car_data[categorical_columns].fillna('unknown')


In [None]:
# Rellenar valores faltantes en variables numéricas con la mediana
car_data[numeric_columns] = car_data[numeric_columns].fillna(car_data[numeric_columns].median())


In [None]:
print(car_data.shape)
print(car_data.dropna().shape)

In [None]:
1-(car_data.shape[0]/car_data.dropna().shape[0])

NO FUE FACIL

In [None]:
print(car_data.describe())

Esta es otra forma de determinar cuales solumnas nos pueden ser utilices para el proyecto

### ONE-HOT ENCODING

In [None]:
# Codificación One-Hot Encoding para variables categóricas
encoder = OneHotEncoder(drop='first', sparse=False)
encoded_categorical_data = encoder.fit_transform(car_data[categorical_columns])

In [None]:
# Crear un DataFrame para las variables codificadas
encoded_categorical_df = pd.DataFrame(encoded_categorical_data, columns=encoder.get_feature_names_out(categorical_columns))

In [None]:
# Combinar las variables codificadas con las numéricas
car_data_encoded = pd.concat([car_data.drop(columns=categorical_columns), encoded_categorical_df], axis=1)

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Entiendo tu punto al eliminar los registros con valores nulos, solo que se están perdiendo demasiadas observaciones (el 30% de todos los datos). Debido a esto hay que encontrar una mejor manera de darles tratamiento en caso de que la información lo permita. Al revisar en cuáles columnas están los NA's se puede identificar que son solo variables categóricas, como vehicletype y model, debido a esto es que podemos crear una nueva categoría para todas las columnas con NA's cuyo valor sea 'desconocido'. De esta forma no se pierde toda la información de los registros y queda explícito que es información que no conocemos.  Nuevamente, ya que todas las variables con valores nulos son categóricas podemos rellenar los NA's con la siguiente línea y no eliminarlos directamente como en tu línea anterior:
    
        car_data = car_data.fillna('unknown')
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Comentario atendido correctamente.
</div>



<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Ya que estas columnas de fechas no tienen relación con el precio de los autos podrías remover los bloques de código en los que las manipulas y eliminarlas de tu  tabla. Te aconsejo también identificar qué otras variables no tienen relación con el precio y las elimines ya que al incluirlas solo podrían causar ruido y reducir el rendmiento del modelo.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Además de eliminar las variables sin relación con la variable target recomendaría que hicieras una exploración de algunas columnas que podrían tener valores inválidos, tales como la de power y año de registro. Sabemos que power no puede ser 0 ya que es la potencia de un auto, además de que el año no podría ser mayor a 2024 por ejemplo, ya que es el año del registro del auto. Identificar estos valores inválidos y eliminarlos es un paso importante para reducir sesgos en el modelo.
</div>

In [None]:
# Verificar el resultado de la codificación
print(car_data.head())
print('------------------------------------------------------------------')
print(car_data.info())


<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buen trabajo aplicando OHE a tus variables categóricas; sin embargo es necesario hacer algunos ajustes. Por ejemplo, la variable Brand también es categórica y la estás excluyendo en la transformación, es necesario codificarla. Por otro lado, la variable model hay que eliminarla del conjunto de datos con OHE, esto debido a que al tener demasiadas categorías aumenta considerablemente el tiempo de entrenamiento de los modelos. Aquí hay un punto importante, model es muy importante para la predicción del precio de un auto, pero con OHE la estamos eliminando. Para poder utilizar model es necesario realizarle a los datos Ordinal Encoding, de esta forma podríamos tomarla en cuenta sin aumentar demasiado las dimensiones de los datos. Te dejo una propuesta de cómo podría quedar tu código para realizar la codificación:
    
    # Aplicar OHE sobre las columnas categóricas y guardar en un nuevo dataframe
    categorical_columns_ohe = ['VehicleType', 'Gearbox', 'Brand' ,'FuelType', 'NotRepaired']
    
    data_ohe = car_data
    data_ohe = pd.get_dummies(data_ohe, columns=categorical_columns_ohe, drop_first=True)            
    data_ohe.drop(['Model'], axis=1, inplace=True)
    
    # Aplicar Ordinal Encoding sobre las columnas categóricas y guardar en un nuevo dataframe
    from sklearn.preprocessing import OrdinalEncoder
    # Aquí sí incluimos la variable model 
    categorical_columns = ['VehicleType', 'Gearbox', 'Model', 'Brand', 'FuelType', 'NotRepaired']
    
    data_ordinal_encoding = car_data
    data_ordinal_encoding[categorical_columns] = OrdinalEncoder().fit_transform(data_ordinal_encoding[categorical_columns])

Para implementarlo correctamente deberás comentar o eliminar el bloque de código donde actualmente estás haciendo la codificación
    
</div>

### División de Datos

In [None]:
#Dividir los Datos
X = car_data_encoded.drop(columns=['Price'])
y = car_data_encoded['Price']


# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Ahora cuentas con dos conjuntos de datos con diferentes codificaciones. La forma de separarlos en conjuntos de entrenamiento y prueba es de forma similar, solo asegúrate de guardar los features y el target con nombres intuitivos, por ejemplo:
    
    x_ohe = data_ohe.drop('Price', axis=1)
    y_ohe = data_ohe['Price']
    
Además hay que tener en cuenta ciertas consideraciones sobre cuál conjunto de datos usar en cada modelo. OHE es ideal para regresión lineal y logística, pero no se recomienda ni para random forest, árbol de decisión. Y con Ordinal Encoding es al revés, usarlo en regresión lineal y logística da resultados con muchos supuestos falsos, por lo que se debe evitar, pero es muy buena codificación para usar en árbol de decisión y random forest.
</div>

## Entrenamiento del modelo 

### Regresión Lineal

In [None]:
# Entrenar y evaluar Regresión Lineal
start_time_lr = time.time()
lr_model = LinearRegression()
lr_model.fit(X_train, y_train)
end_time_lr = time.time()
y_pred_lr = lr_model.predict(X_test)

In [None]:

rmse_lr = np.sqrt(mean_squared_error(y_test, y_pred_lr))
time_lr = end_time_lr - start_time_lr

In [None]:
# Imprimir resultados
print(f'Tiempo de entrenamiento - Regresión Lineal: {time_lr:.2f} s')
print('------------------------------------------------------------------')
print(f'RMSE - Regresión Lineal: {rmse_lr:.2f}')

Aunque no es adecuada para el ajuste de hiperparámetros, sirve como una prueba de cordura. Si los modelos más complejos no superan a la regresión lineal, es una señal de que algo está mal.

### Árbol de Decisión

In [None]:
# Entrenar el modelo de árbol de decisión
start_time_dt = time.time()
dt_model = DecisionTreeRegressor(random_state=42)
dt_model.fit(X_train, y_train)
end_time_dt = time.time()
y_pred_dt = dt_model.predict(X_test)

In [None]:
rmse_dt = np.sqrt(mean_squared_error(y_test, y_pred_dt))
time_dt = end_time_dt - start_time_dt


In [None]:
# Imprimir resultados
print(f'Tiempo de entrenamiento - Árbol de Decisión: {time_dt:.2f} s')
print('------------------------------------------------------------------')
print(f'RMSE - Árbol de Decisión: {rmse_dt:.2f}')

Basados en árboles son más interpretables y a menudo proporcionan buenos resultados iniciales, pero pueden ser propensos al sobreajuste.

### Bosque Aleatorio

In [None]:
# Entrenar el modelo de bosque aleatorio
start_time_rf = time.time()
rf_model = RandomForestRegressor(random_state=42)
rf_model.fit(X_train, y_train)
end_time_rf = time.time()
y_pred_rf = rf_model.predict(X_test)

In [None]:
rmse_rf = np.sqrt(mean_squared_error(y_test, y_pred_rf))
time_rf = end_time_rf - start_time_rf


In [None]:
# Imprimir resultados
print(f'Tiempo de entrenamiento - Bosque Aleatorio: {time_rf:.2f} s')
print('------------------------------------------------------------------')
print(f'RMSE - Bosque Aleatorio: {rmse_rf:.2f}')

Basados en árboles son más interpretables y a menudo proporcionan buenos resultados iniciales, pero pueden ser propensos al sobreajuste.

### Dataset para LightGBM

In [None]:
# Configuración y entrenamiento del modelo LightGBM
lgb_train = lgb.Dataset(X_train, y_train)
lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)
params = {
    'objective': 'regression',
    'metric': 'rmse',
    'boosting_type': 'gbdt',
    'num_leaves': 31,
    'learning_rate': 0.05,
    'feature_fraction': 0.9
}
start_time_lgb = time.time()
gbm = lgb.train(params, lgb_train, num_boost_round=100, valid_sets=lgb_eval)
end_time_lgb = time.time()
y_pred_lgb = gbm.predict(X_test, num_iteration=gbm.best_iteration)

In [None]:
# Hacer predicciones y calcular el RECM
rmse_lgb = np.sqrt(mean_squared_error(y_test, y_pred_lgb))
time_lgb = end_time_lgb - start_time_lgb

In [None]:
# Imprimir resultados
print(f'Tiempo de entrenamiento - LightGBM: {time_lgb:.2f} s')
print('------------------------------------------------------------------')
print(f'RMSE - LightGBM: {rmse_lgb:.2f}')

## Análisis del modelo

### Entrenar el Modelo XGBoost

In [None]:
# Entrenar y evaluar XGBoost
start_time_xgb = time.time()
xgb_model = xgb.XGBRegressor(objective='reg:squarederror', n_estimators=100, learning_rate=0.05)
xgb_model.fit(X_train, y_train)
end_time_xgb = time.time()
y_pred_xgb = xgb_model.predict(X_test)

In [None]:
rmse_xgb = np.sqrt(mean_squared_error(y_test, y_pred_xgb))
time_xgb = end_time_xgb - start_time_xgb

In [None]:
# Imprimir resultados
print(f'Tiempo de entrenamiento - XGBoost: {time_xgb:.2f} s')
print('------------------------------------------------------------------')
print(f'RMSE - XGBoost: {rmse_xgb:.2f}')

### Entrenar el Modelo CatBoost

In [None]:
# Entrenar y evaluar CatBoost
start_time_cb = time.time()
cb_model = CatBoostRegressor(loss_function='RMSE', iterations=100, learning_rate=0.05, verbose=0)
cb_model.fit(X_train, y_train)
end_time_cb = time.time()
y_pred_cb = cb_model.predict(X_test)

In [None]:
rmse_cb = np.sqrt(mean_squared_error(y_test, y_pred_cb))
time_cb = end_time_cb - start_time_cb

In [None]:
# Imprimir resultados
print(f'Tiempo de entrenamiento - CatBoost: {time_cb:.2f} s')
print('------------------------------------------------------------------')
print(f'RMSE - CatBoost: {rmse_cb:.2f}')

Conclusión sobre los algoritmos LightGBM, XGBoost y CatBoost: con ellos se potencia un gradiente son más avanzados y a menudo proporcionan mejores resultados en términos de precisión, aunque pueden requerir más tiempo de entrenamiento y ajuste de hiperparámetros. LightGBM y CatBoost tienen la ventaja de manejar datos categóricos de manera eficiente sin necesidad de codificación adicional.

# Conclusión del Proyecto

El proyecto ha demostrado que los modelos de potenciación de gradiente como LightGBM, XGBoost y CatBoost tienden a ofrecer mejores resultados en términos de precisión en comparación con la regresión lineal y los métodos basados en árboles como el árbol de decisión y el bosque aleatorio. Sin embargo, el tiempo de entrenamiento y la complejidad computacional son factores a considerar.

# Lista de control

Escribe 'x' para verificar. Luego presiona Shift+Enter

- [x]  Jupyter Notebook está abierto
- [x]  El código no tiene errores- [x]  Las celdas con el código han sido colocadas en orden de ejecución- [x]  Los datos han sido descargados y preparados- [x]  Los modelos han sido entrenados
- [x]  Se realizó el análisis de velocidad y calidad de los modelos