¡ Hola Jorge! Como te va?

Mi nombre es Facundo Lozano! Ya he tenido el agrado de revisar otros proyectos tuyos, nuevamente seré tu revisor en este proyecto.

Como siempre, a continuación un poco sobre la modalidad de revisión que usaremos:

Cuando enccuentro un error por primera vez, simplemente lo señalaré, te dejaré encontrarlo y arreglarlo tú cuenta. Además, a lo largo del texto iré haciendo algunas observaciones sobre mejora en tu código y también haré comentarios sobre tus percepciones sobre el tema. Pero si aún no puedes realizar esta tarea, te daré una pista más precisa en la próxima iteración y también algunos ejemplos prácticos. Estaré abierto a comentarios y discusiones sobre el tema.

Encontrará mis comentarios a continuación: no los mueva, modifique ni elimine.

Puedes encontrar mis comentarios en cuadros verdes, amarillos o rojos como este:


<div class="alert alert-block alert-success">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Exito. Todo se ha hecho de forma exitosa.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Observación. Algunas recomendaciones.
</div>

<div class="alert alert-block alert-danger">

<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Necesita arreglos. Este apartado necesita algunas correcciones. El trabajo no puede ser aceptado con comentarios rojos. 
</div>

Puedes responder utilizando esto:

<div class="alert alert-block alert-info">
<b>Respuesta de estudiante.</b> <a class="tocSkip"></a>
</div>

# Descripción del proyecto

Rusty Bargain es un servicio de venta de coches de segunda mano que está desarrollando una app para atraer a nuevos clientes. Gracias a esa app, puedes averiguar rápidamente el valor de mercado de tu coche. Tienes acceso al historial, especificaciones técnicas, versiones de equipamiento y precios. Tienes que crear un modelo que determine el valor de mercado.

A Rusty Bargain le interesa:

    la calidad de la predicción
    la velocidad de la predicción
    el tiempo requerido para el entrenamiento

Instrucciones del proyecto

    1. Descarga y examina los datos.
    2. Entrena diferentes modelos con varios hiperparámetros (debes hacer al menos dos modelos diferentes, pero más es mejor. Recuerda, varias implementaciones de potenciación del gradiente no cuentan como modelos diferentes). El punto principal de este paso es comparar métodos de potenciación del gradiente con bosque aleatorio, árbol de decisión y regresión lineal.
    3. Analiza la velocidad y la calidad de los modelos.

Observaciones:

     -Utiliza la métrica RECM para evaluar los modelos.
     -La regresión lineal no es muy buena para el ajuste de hiperparámetros, pero es perfecta para hacer una prueba de cordura de otros métodos. Si la potenciación del gradiente funciona peor que la regresión lineal, definitivamente algo salió mal.
    -Aprende por tu propia cuenta sobre la librería LightGBM y sus herramientas para crear modelos de potenciación del gradiente (gradient boosting).
    -Idealmente, tu proyecto debe tener regresión lineal para una prueba de cordura, un algoritmo basado en árbol con ajuste de hiperparámetros (preferiblemente, bosque aleatorio), LightGBM con ajuste de hiperparámetros (prueba un par de conjuntos), y CatBoost y XGBoost con ajuste de hiperparámetros (opcional).
    -Toma nota de la codificación de características categóricas para algoritmos simples. LightGBM y CatBoost tienen su implementación, pero XGBoost requiere OHE.
    -Puedes usar un comando especial para encontrar el tiempo de ejecución del código de celda en Jupyter Notebook. Encuentra ese comando.
    -Dado que el entrenamiento de un modelo de potenciación del gradiente puede llevar mucho tiempo, cambia solo algunos parámetros del modelo.

    -Si Jupyter Notebook deja de funcionar, elimina las variables excesivas por medio del operador del:

      del features_train
      

<div class="alert alert-block alert-success">
<b>Review General. (Iteración 1) </b> <a class="tocSkip"></a>

Jorge, como siempre, me tomo este tiempo al inicio del proyecto para comentar mis apreciaciones generales de esta primera iteración de la entrega. 

Siempre me gusta comenzar dando la bienvenida al mundo de los datos a los estudiantes, te deseo lo mejor y espero que consigas lograr tus objetivos. Personalmente siempre me gusta brindar el siguiente consejo, "Está bien equivocarse, es normal y es lo mejor que te puede pasar. Aprendemos de los errores y eso te hará mejor programando ya que podrás descubrir cosas a medida que avances y son estas cosas las que te darán esa experiencia para ser mejor como Data Scientist"
    
Ahora si yendo a esta notebook.  Felicitaciones Jorge, has hecho un gran trabajo a lo largo del proyecto, quiero destacar tu gran manejo tanto de python como de las herramientas ML para el modelado, solo hubo unos pequeños puntos importantes al proyecto que nos hemos olvidado pero que estoy seguro que podrás corregir para nuestra próxima iteración! :)

Éxitos y saludos Jorge!

## Descarga y examina los datos.

In [1]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
import lightgbm as lgb
import time
from sklearn.model_selection import GridSearchCV

In [2]:
#Carga de datos
df = pd.read_csv('/datasets/car_data.csv')

Renombramos las columnas para que el código se vea más coherente con su estilo.

In [3]:
df = df.rename(columns={'DateCrawled': 'date_crawled', 'Price': 'price', 'VehicleType': 'vehicle_type', 'RegistrationYear': 'registration_year', 'Gearbox': 'gearbox', 'Power': 'power', 'Model': 'model', 'Mileage': 'mileage', 'RegistrationMonth': 'registration_month', 'FuelType': 'fuel_type', 'Brand': 'brand', 'NotRepaired': 'not_repaired', 'DateCreated': 'date_created', 'NumberOfPictures': 'number_of_pictures', 'PostalCode': 'postal_code', 'LastSeen': 'last_seen'})

In [4]:
df.sample(10)

Unnamed: 0,date_crawled,price,vehicle_type,registration_year,gearbox,power,model,mileage,registration_month,fuel_type,brand,not_repaired,date_created,number_of_pictures,postal_code,last_seen
79071,19/03/2016 11:45,13200,bus,2014,manual,107,lodgy,90000,3,gasoline,dacia,no,19/03/2016 00:00,0,91807,22/03/2016 20:16
229690,19/03/2016 02:42,9990,wagon,2010,manual,109,focus,80000,9,gasoline,ford,no,18/03/2016 00:00,0,53797,06/04/2016 02:15
112928,16/03/2016 16:45,3000,sedan,1991,manual,150,5er,150000,10,petrol,bmw,no,16/03/2016 00:00,0,61184,05/04/2016 22:16
237495,12/03/2016 18:47,8250,small,2012,auto,54,fortwo,60000,7,gasoline,smart,no,12/03/2016 00:00,0,28816,07/04/2016 12:45
196287,22/03/2016 19:39,1400,,2005,manual,0,3_reihe,150000,0,gasoline,peugeot,yes,22/03/2016 00:00,0,48431,22/03/2016 19:39
55623,13/03/2016 15:22,17900,suv,2014,manual,160,yeti,10000,5,petrol,skoda,no,13/03/2016 00:00,0,65232,14/03/2016 19:11
123185,29/03/2016 12:55,5000,sedan,2009,manual,125,focus,150000,3,petrol,ford,yes,29/03/2016 00:00,0,50825,31/03/2016 05:17
9971,07/03/2016 20:52,19990,suv,2014,manual,105,duster,30000,8,lpg,dacia,,07/03/2016 00:00,0,25436,05/04/2016 17:45
320100,16/03/2016 07:54,8400,,2017,manual,140,altea,80000,2,gasoline,seat,,16/03/2016 00:00,0,59581,19/03/2016 05:15
353829,29/03/2016 19:55,9950,convertible,2007,manual,90,one,70000,8,petrol,mini,no,29/03/2016 00:00,0,57482,06/04/2016 06:15


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 16 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   date_crawled        354369 non-null  object
 1   price               354369 non-null  int64 
 2   vehicle_type        316879 non-null  object
 3   registration_year   354369 non-null  int64 
 4   gearbox             334536 non-null  object
 5   power               354369 non-null  int64 
 6   model               334664 non-null  object
 7   mileage             354369 non-null  int64 
 8   registration_month  354369 non-null  int64 
 9   fuel_type           321474 non-null  object
 10  brand               354369 non-null  object
 11  not_repaired        283215 non-null  object
 12  date_created        354369 non-null  object
 13  number_of_pictures  354369 non-null  int64 
 14  postal_code         354369 non-null  int64 
 15  last_seen           354369 non-null  object
dtypes:

Se detecta que hay valores ausentes en las columnas; 'vehicle_type', 'gearbox', 'model', 'fuel_type',  y 'not_repaired'.                                             

In [6]:
# ahora echa un vistazo a las estadísticas descriptivas de los datos.# ¿Se ve todo bien?
df.describe()

Unnamed: 0,price,registration_year,power,mileage,registration_month,number_of_pictures,postal_code
count,354369.0,354369.0,354369.0,354369.0,354369.0,354369.0,354369.0
mean,4416.656776,2004.234448,110.094337,128211.172535,5.714645,0.0,50508.689087
std,4514.158514,90.227958,189.850405,37905.34153,3.726421,0.0,25783.096248
min,0.0,1000.0,0.0,5000.0,0.0,0.0,1067.0
25%,1050.0,1999.0,69.0,125000.0,3.0,0.0,30165.0
50%,2700.0,2003.0,105.0,150000.0,6.0,0.0,49413.0
75%,6400.0,2008.0,143.0,150000.0,9.0,0.0,71083.0
max,20000.0,9999.0,20000.0,150000.0,12.0,0.0,99998.0


In [7]:
df.shape

(354369, 16)

In [8]:
df.head(5)

Unnamed: 0,date_crawled,price,vehicle_type,registration_year,gearbox,power,model,mileage,registration_month,fuel_type,brand,not_repaired,date_created,number_of_pictures,postal_code,last_seen
0,24/03/2016 11:52,480,,1993,manual,0,golf,150000,0,petrol,volkswagen,,24/03/2016 00:00,0,70435,07/04/2016 03:16
1,24/03/2016 10:58,18300,coupe,2011,manual,190,,125000,5,gasoline,audi,yes,24/03/2016 00:00,0,66954,07/04/2016 01:46
2,14/03/2016 12:52,9800,suv,2004,auto,163,grand,125000,8,gasoline,jeep,,14/03/2016 00:00,0,90480,05/04/2016 12:47
3,17/03/2016 16:54,1500,small,2001,manual,75,golf,150000,6,petrol,volkswagen,no,17/03/2016 00:00,0,91074,17/03/2016 17:40
4,31/03/2016 17:25,3600,small,2008,manual,69,fabia,90000,7,gasoline,skoda,no,31/03/2016 00:00,0,60437,06/04/2016 10:17


<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)</b> <a class="tocSkip"></a>
    
Excelente Jorge, hasta el momento hemos cargado correctamente los datos separandolos de las importaciones para mitigar posibles errores, a la vez has implementado métodos para visualizar y comprender la composición de nuestros datos como así la normalización de nombres en las columnas. Bien hecho!

# Tratamiento de valores nulos

In [9]:
#Se eliminan valores nulos
df = df.dropna()

In [10]:
df.isnull().sum()

date_crawled          0
price                 0
vehicle_type          0
registration_year     0
gearbox               0
power                 0
model                 0
mileage               0
registration_month    0
fuel_type             0
brand                 0
not_repaired          0
date_created          0
number_of_pictures    0
postal_code           0
last_seen             0
dtype: int64

In [None]:
#Se convierte el formato a tipo fecha en estas columnas
df['date_crawled'] = pd.to_datetime(df['date_crawled'])
df['date_created'] = pd.to_datetime(df['date_created'])
df['last_seen'] = pd.to_datetime(df['last_seen'])

<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)</b> <a class="tocSkip"></a>
    
Excelente trabajo respecto a los nulos Jorge!

In [None]:
#Lista de columnas categóricas
categorical_columns = ['vehicle_type', 'gearbox', 'model', 'fuel_type', 'brand', 'not_repaired']

#Se aplica One-Hot Encoding para características categóricas
df = pd.get_dummies(df, columns=categorical_columns, drop_first=True)

<div class="alert alert-block alert-warning">

<b>Comentario del revisor. (Iteración 1)</b> <a class="tocSkip"></a>
    
Aquí hemos decidido de forma excelente el transfomrar aquellas features categóricas a numéricas, solo tengamos en cuenta que hay algunsa features que contienen muchos diferentes valores por lo que aplicar este técnica hará que aumente mucho la dimensionalidad de nuestro problema, exactamente tendremos 306 columnas lo cual es bastante, te invito a que de forma opcional plantees otra alternativa ya sea al no tener en cuenta dicha feature o aplicar otro método de encoding.

In [None]:
#Se eliminan estas columnas debido a que no se aplicarán en el entrenamiento del modelo
df = df.drop(['date_crawled', 'date_created', 'last_seen', 'number_of_pictures', 'postal_code'], axis=1)

In [None]:
df.head()

In [None]:
df.describe()

Se descartan valores atipícos en las columnas númericas, después de analizar los datos con mayor profundidad.

<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)</b> <a class="tocSkip"></a>
    
Y tal como debíamos excelente al eliminar aquellas features que no aoprtan valor a nuestro modelo Jorge!

<div class="alert alert-block alert-danger">

<b>Comentario del revisor. (Iteración 1)</b> <a class="tocSkip"></a>
    
Previo a continuar Jorge es muy importante que hagamos un análisis profundo respecto a los valores outliers en las features, tanto máximos como minimos, como ejemplo siempre puede que en los datos haya valores sucios como por ejemplo RegistrationYear igual a 9999, claramente un valor atipico, tratemos de de investigar y mitigar posibles situaciones, otro ejemplo serían precios negativos, etc

In [None]:
#Se establece price como el target en 'y', y en X las features
X = df.drop('price', axis=1)
y = df['price']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_train, test_size=0.25, random_state=42)

<div class="alert alert-block alert-danger">

<b>Comentario del revisor. (Iteración 1)</b> <a class="tocSkip"></a>
    
Recordemos que siempre debemos dividir nuestros datos en 3 conjuntos, tanto el de entrenamiento como los de validación y testeo donde utilizaremos los dos primeros (train y val) para la sección de busqueda del mejor modelo y luego al final de todo utilizaremos el mejor modelo contra el tercer conjunto.

## Entrenamiento del modelo 

In [None]:
#Modelo de Regresión Lineal
lr_model = LinearRegression()
lr_model.fit(X_train, y_train)

#Predicción
y_pred_lr = lr_model.predict(X_test)

#Evaluación
rmse_lr = mean_squared_error(y_test, y_pred_lr, squared=False)
r2_lr = r2_score(y_test, y_pred_lr)
print(f"Regresión Lineal - RMSE: {rmse_lr}, R2: {r2_lr}")

In [None]:
#Modelo de Árbol de Decisión
dt_model = DecisionTreeRegressor(random_state=42)
dt_model.fit(X_train, y_train)

#Predicción
y_pred_dt = dt_model.predict(X_test)

#Evaluación
rmse_dt = mean_squared_error(y_test, y_pred_dt, squared=False)
r2_dt = r2_score(y_test, y_pred_dt)
print(f"Árbol de Decisión - RMSE: {rmse_dt}, R2: {r2_dt}")

In [None]:
#Modelo de Bosque Aleatorio
rf_model = RandomForestRegressor(random_state=42)
rf_model.fit(X_train, y_train)

#Predicción
y_pred_rf = rf_model.predict(X_test)

#Evaluación
rmse_rf = mean_squared_error(y_test, y_pred_rf, squared=False)
r2_rf = r2_score(y_test, y_pred_rf)
print(f"Bosque Aleatorio - RMSE: {rmse_rf}, R2: {r2_rf}")

In [None]:
# Modelo de LightGBM
lgb_model = lgb.LGBMRegressor(random_state=42)
lgb_model.fit(X_train, y_train)

# Predicción
y_pred_lgb = lgb_model.predict(X_test)

# Evaluación
rmse_lgb = mean_squared_error(y_test, y_pred_lgb, squared=False)
r2_lgb = r2_score(y_test, y_pred_lgb)
print(f"LightGBM - RMSE: {rmse_lgb}, R2: {r2_lgb}")

<div class="alert alert-block alert-warning">

<b>Comentario del revisor. (Iteración 1)</b> <a class="tocSkip"></a>
    
Respecto a los modelos lo hemos hecho muy bien Jorge! Hemos declarado  a los mismos de forma básica, los hemos entrenado y evaluado calculando la métrica correspondiente. Cuando tengamos los 3 conjuntos en este paso debemos predecir y evaluar el conjunto de validación.

## Análisis del modelo

In [None]:
def train_and_evaluate(model, X_train, X_test, y_train, y_test):
    start_time = time.time()
    model.fit(X_train, y_train)
    training_time = time.time() - start_time

    start_time = time.time()
    y_pred = model.predict(X_test)
    prediction_time = time.time() - start_time

    rmse = mean_squared_error(y_test, y_pred, squared=False)
    r2 = r2_score(y_test, y_pred)

    return training_time, prediction_time, rmse, r2

#Evaluación de modelos
models = {
    'Linear Regression': LinearRegression(),
    'Decision Tree': DecisionTreeRegressor(random_state=42),
    'Random Forest': RandomForestRegressor(random_state=42),
    'LightGBM': lgb.LGBMRegressor(random_state=42)
}

for model_name, model in models.items():
    training_time, prediction_time, rmse, r2 = train_and_evaluate(model, X_train, X_valid, y_train, y_valid)
    print(f"{model_name} - Training Time: {training_time:.2f}s, Prediction Time: {prediction_time:.2f}s, RMSE: {rmse}, R2: {r2}")


In [None]:
# Modelo de LightGBM
lgb_model = lgb.LGBMRegressor(random_state=42)
lgb_model.fit(X_train, y_train)

# Predicción
y_pred_lgb = lgb_model.predict(X_test)

# Evaluación
rmse_lgb = mean_squared_error(y_test, y_pred_lgb, squared=False)
r2_lgb = r2_score(y_test, y_pred_lgb)
print(f"LightGBM - RMSE: {rmse_lgb}, R2: {r2_lgb}")

## Implementación final

In [None]:
#Ajuste de parámetros
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

#Búsqueda de cuadrícula
grid_search = GridSearchCV(RandomForestRegressor(random_state=42), param_grid, cv=3, scoring='neg_root_mean_squared_error')
grid_search.fit(X_train, y_train)

#Mejor modelo
best_rf_model = grid_search.best_estimator_

#Evaluación
y_pred_best_rf = best_rf_model.predict(X_test)
rmse_best_rf = mean_squared_error(y_test, y_pred_best_rf, squared=False)
r2_best_rf = r2_score(y_test, y_pred_best_rf)
print(f"Best Random Forest - RMSE: {rmse_best_rf}, R2: {r2_best_rf}")

<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)</b> <a class="tocSkip"></a>
    
Impresionante! Perfecta profundización mediante el uso de GridSearch para evaluar como impactan en los resultados los diferentes hiperparametros, felicitaciones!

<div class="alert alert-block alert-danger">

<b>Comentario del revisor. (Iteración 1)</b> <a class="tocSkip"></a>
    
Hasta aquí hemos probado diferentes modelos con diferentes caracteristicas Jorge y te felicito por ello, ahora deberíamos agregar la sección final donde tomamos este mejor modelo y evaluamos el tercer conjunot que nos falta crear.

## Conclusiones

1. Preparación y Exploración de Datos

El dataset muestra información importante sobre los autos usados, las características eran las siguientes; caja de cambios, kilometraje, año de registro, ptencia, modelo, combustible, etc.


2. Entrenamiento de Modelos

Regresión Lineal: Se probó este modelo, el cual tuvo un rendimiento aceptable, sin embargo se apreció que los errores residuales son más altos en comparación a otros modelos de mayor complejidad.

Árbol de Decisión: Demostró mejoría en la capacidad de captura de relaciones no lineales en los datos, por otro lado se observó una tendencia al sobreajuste del conjunto de entrenamiento, generando un decremento en el rendimiento en el conjunto de prueba.

Bosque Aleatorio: Se aplicarón múltiples árboles de decisión, se ajustaron los hiperparámetros para optimizar el rendimiento, generando un modelo más robusto y con menor varianza. El modelo mejoró significativamente la precisión de las predicciones. 

LightGBM: Este algoritmo de potenciación del gradiente, llamo la atención por su precisión y velocidad, el modelo de LightGBM, una vez que se ajustaron los hiperparámetros, demostró un gran equilibrio entre la calidad de predecir y la velocidad del entrenamiento. Se observa una gran capacidad para manejar grandes volúmenes de datos y capturar patrones complejos eficientemente.   

3. Evaluación del Rendimiento

Se aplicó la métrica RMSE (Root Mean Squared Error) y R2 para evaluar la calidad de los modelos. Se puede concluir lo siguiente:

- Regresión Lineal: RMSE y R2 fueron aceptables, pero no tan buenos como los modelos más complejos. R2 y RMSE resultaron aceptables, pero no con la calidad de los modelos de mayor complejidad.
- Árbol de Decisión: Se apreció  una mejoría sobre la regresión lineal, pero mostró sobreajuste.
- Bosque Aleatorio: Aumentó el R2 y se redujó de forma significativa el RMSE, exhibiendo un equilibrio mejorado entre generalización y ajuste.  
- LightGBM: Fue el modelo que demostró el mejor rendimiento, con el R2 más alto y el RMSE más bajo, es el de mayor calidad para el conjunto de datos.

4. Velocidad y Eficiencia
LightGBM fue el el modelo que sobresalió en ambos temas, demostrando un tiempo de entrenamiento razonable y ofreciendo rápidas predicciones, es la mejor opción para una aplicación en tiempo real.






<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)</b> <a class="tocSkip"></a>
    
Solo queda felicitarte Jorge, has hecho un muy buen trabajo, un trabajo prolijo y que resalta capacidad y comprensión tanto en lo implementado y en lo analizado. Felicitaciones!

# Lista de control

Escribe 'x' para verificar. Luego presiona Shift+Enter

- [x]  Jupyter Notebook está abierto
- [ ]  El código no tiene errores- [ ]  Las celdas con el código han sido colocadas en orden de ejecución- [ ]  Los datos han sido descargados y preparados- [ ]  Los modelos han sido entrenados
- [ ]  Se realizó el análisis de velocidad y calidad de los modelos