<b>¡Hola Fernando!</b>

Mi nombre es Alejandro Abia y tengo el gusto de revisar tu proyecto.

A continuación, encontrarás mis comentarios en celdas pintadas de tres colores (verde, amarillo y rojo), a manera de semáforo. Por favor, <b>no las borres ni muevas de posición</b> mientras dure el proceso de revisión.

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
En celdas verdes encontrarás comentarios en relación a tus aciertos y fortalezas.
</div>
<div class="alert alert-block alert-warning">
<b>Atención</b> <a class="tocSkip"></a>
Utilizaré el color amarillo para llamar tu atención, expresar algo importante o compartirte alguna idea de valor.
</div>
<div class="alert alert-block alert-danger">
<b>A resolver</b> <a class="tocSkip"></a>
En rojo emitiré aquellos puntos que podrían impedir que el proyecto se ejecute correctamente. No son errores, sino oportunidades importantes de mejora.
</div>
<div class="alert alert-block alert-info">
<b>Comentario estudiante</b> <a class="tocSkip"></a>
Si durante la revisión deseas dejarme algún comentario, por favor utiliza celdas azules como esta.
</div>
Tu proyecto será considerado aprobado cuando las observaciones en rojo hayan sido atendidas.  
¡Empecemos!

El servicio de venta de autos usados Rusty Bargain está desarrollando una aplicación para atraer nuevos clientes. Gracias a esa app, puedes averiguar rápidamente el valor de mercado de tu coche. Tienes acceso al historial: especificaciones técnicas, versiones de equipamiento y precios. Tienes que crear un modelo que determine el valor de mercado.
A Rusty Bargain le interesa:
- la calidad de la predicción;
- la velocidad de la predicción;
- el tiempo requerido para el entrenamiento

## Preparación de datos

In [1]:
# Paso 1. Cargar los datos
import pandas as pd

# Cargar el dataset
df = pd.read_csv('/datasets/car_data.csv')

# Mostrar las primeras filas
display(df.head())

# Ver información general del dataset
df.info()

# Ver valores nulos
df.isna().sum()

Unnamed: 0,DateCrawled,Price,VehicleType,RegistrationYear,Gearbox,Power,Model,Mileage,RegistrationMonth,FuelType,Brand,NotRepaired,DateCreated,NumberOfPictures,PostalCode,LastSeen
0,24/03/2016 11:52,480,,1993,manual,0,golf,150000,0,petrol,volkswagen,,24/03/2016 00:00,0,70435,07/04/2016 03:16
1,24/03/2016 10:58,18300,coupe,2011,manual,190,,125000,5,gasoline,audi,yes,24/03/2016 00:00,0,66954,07/04/2016 01:46
2,14/03/2016 12:52,9800,suv,2004,auto,163,grand,125000,8,gasoline,jeep,,14/03/2016 00:00,0,90480,05/04/2016 12:47
3,17/03/2016 16:54,1500,small,2001,manual,75,golf,150000,6,petrol,volkswagen,no,17/03/2016 00:00,0,91074,17/03/2016 17:40
4,31/03/2016 17:25,3600,small,2008,manual,69,fabia,90000,7,gasoline,skoda,no,31/03/2016 00:00,0,60437,06/04/2016 10:17


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   DateCrawled        354369 non-null  object
 1   Price              354369 non-null  int64 
 2   VehicleType        316879 non-null  object
 3   RegistrationYear   354369 non-null  int64 
 4   Gearbox            334536 non-null  object
 5   Power              354369 non-null  int64 
 6   Model              334664 non-null  object
 7   Mileage            354369 non-null  int64 
 8   RegistrationMonth  354369 non-null  int64 
 9   FuelType           321474 non-null  object
 10  Brand              354369 non-null  object
 11  NotRepaired        283215 non-null  object
 12  DateCreated        354369 non-null  object
 13  NumberOfPictures   354369 non-null  int64 
 14  PostalCode         354369 non-null  int64 
 15  LastSeen           354369 non-null  object
dtypes: int64(7), object(

DateCrawled              0
Price                    0
VehicleType          37490
RegistrationYear         0
Gearbox              19833
Power                    0
Model                19705
Mileage                  0
RegistrationMonth        0
FuelType             32895
Brand                    0
NotRepaired          71154
DateCreated              0
NumberOfPictures         0
PostalCode               0
LastSeen                 0
dtype: int64

<div class='alert alert-block alert-success'>
<b>Acierto o fortaleza</b> <a class='tocSkip'></a><br>
En la celda [1], usaste <code>head()</code>, <code>info()</code> e <code>isna().sum()</code> para hacer un reconocimiento rápido del dataset. Esto es un acierto porque te da una fotografía clara de tipos de datos, tamaño y valores faltantes, lo que facilita planear la limpieza. Con este comienzo ordenado, el flujo posterior de preparación y modelado se vuelve mucho más predecible y libre de sorpresas.
</div>

## Conclusión

En este paso cargamos el dataset y analizamos su estructura.
- Identificamos las columnas, los tipos de datos y los valores faltantes. Esto nos permitirá saber qué limpiar o transformar más adelante.

In [2]:
# Paso 2. Limpieza y preparación de los datos

# Eliminar columnas que no aportan al modelo o que son irrelevantes
# Por ejemplo, columnas con fechas, códigos postales o número de fotos
df = df.drop(['DateCrawled', 'DateCreated', 'LastSeen', 'PostalCode', 'NumberOfPictures'], axis=1)

# Eliminar filas duplicadas (si las hay)
df = df.drop_duplicates()

# Revisar valores nulos otra vez
print("Valores nulos por columna:")
print(df.isna().sum())

# Rellenar valores faltantes
# Para variables categóricas: reemplazar nulos por 'unknown'
for column in ['VehicleType', 'Gearbox', 'Model', 'FuelType', 'NotRepaired']:
    df[column] = df[column].fillna('unknown')

# Eliminar filas donde el precio o el año sean inválidos
df = df[df['Price'] > 100]  # evitar precios demasiado bajos
df = df[df['RegistrationYear'].between(1900, 2023)]

# Codificación de variables categóricas
df = pd.get_dummies(df, drop_first=True)

# Separar características (features) y objetivo (target)
X = df.drop('Price', axis=1)
y = df['Price']

# Dividir en entrenamiento y prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

print("Tamaño de los conjuntos:")
print("Entrenamiento:", X_train.shape)
print("Prueba:", X_test.shape)

Valores nulos por columna:
Price                    0
VehicleType          35249
RegistrationYear         0
Gearbox              17578
Power                    0
Model                18532
Mileage                  0
RegistrationMonth        0
FuelType             31122
Brand                    0
NotRepaired          66427
dtype: int64
Tamaño de los conjuntos:
Entrenamiento: (235464, 312)
Prueba: (78489, 312)


<div class='alert alert-block alert-success'>
<b>Acierto o fortaleza</b> <a class='tocSkip'></a><br>
En la celda [2], limpiaste columnas poco útiles para el objetivo (fechas crudas, código postal, número de fotos) y eliminaste duplicados. Esta selección reduce ruido y dimensionalidad innecesaria, lo que agiliza el entrenamiento y disminuye el riesgo de sobreajuste a señales irrelevantes. Es una decisión práctica que ordena el espacio de variables desde el inicio.
</div>

<div class='alert alert-block alert-warning'>
<b>Oportunidad de mejora</b> <a class='tocSkip'></a><br>
Tras <code>get_dummies</code> en la celda [2], el conjunto queda con 312 columnas, probablemente por la alta cardinalidad de <code>Model</code> y otras. Muchas categorías raras generan columnas casi vacías que ralentizan el entrenamiento sin aportar mucho. Una estrategia simple es agrupar las categorías con baja frecuencia en 'other' antes de codificar, o usar un conteo/frecuencia como codificación. Con esto, reduces dimensionalidad, memoria y tiempo de cómputo, manteniendo la señal principal.
</div>

## Conclusión

- Limpiamos el dataset eliminando columnas irrelevantes y datos erróneos.
- Rellenamos los valores nulos y codificamos las variables categóricas.
- Finalmente, dividimos el conjunto en entrenamiento (75%) y prueba (25%).
- Los datos ya están listos para entrenar los modelos.

## Entrenamiento del modelo 

In [3]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np
import time

# Entrenamiento
start_time = time.time()
lr_model = LinearRegression()
lr_model.fit(X_train, y_train)
train_time = time.time() - start_time

# Predicciones
preds_lr = lr_model.predict(X_test)

# Evaluación
rmse_lr = np.sqrt(mean_squared_error(y_test, preds_lr))

print(f"RMSE (Regresión Lineal): {rmse_lr:.2f}")
print(f"Tiempo de entrenamiento: {train_time:.2f} segundos")

RMSE (Regresión Lineal): 2862.23
Tiempo de entrenamiento: 8.01 segundos


<div class='alert alert-block alert-success'>
<b>Acierto o fortaleza</b> <a class='tocSkip'></a><br>
La celda [3] establece una regresión lineal como línea base, calcula RMSE y registra el tiempo de entrenamiento. Es una práctica muy buena: tener un baseline rápido y reproducible te permite medir de forma honesta cuánto aportan los modelos más complejos, y el RMSE facilita comparar en la misma escala de precios.
</div>

## Conclusión

La regresión lineal nos sirve como una prueba de cordura.
Este modelo es rápido pero puede tener errores altos si las relaciones entre variables no son lineales.
Aun así, nos da una referencia inicial del desempeño esperado.

In [4]:
from sklearn.tree import DecisionTreeRegressor

start_time = time.time()
tree_model = DecisionTreeRegressor(max_depth=10, random_state=42)
tree_model.fit(X_train, y_train)
train_time = time.time() - start_time

preds_tree = tree_model.predict(X_test)
rmse_tree = np.sqrt(mean_squared_error(y_test, preds_tree))

print(f"RMSE (Árbol de Decisión): {rmse_tree:.2f}")
print(f"Tiempo de entrenamiento: {train_time:.2f} segundos")

RMSE (Árbol de Decisión): 2054.04
Tiempo de entrenamiento: 3.40 segundos


<div class='alert alert-block alert-success'>
<b>Acierto o fortaleza</b> <a class='tocSkip'></a><br>
En la celda [4], el <code>DecisionTreeRegressor</code> con <code>max_depth=10</code> mejora el RMSE respecto a la base y limita la complejidad. Este control de profundidad ayuda a evitar que el árbol memorice ruido y muestra una buena sensibilidad a la regularización de modelos tipo árbol.
</div>

<div class='alert alert-block alert-warning'>
<b>Oportunidad de mejora</b> <a class='tocSkip'></a><br>
En la celda [4], valdría la pena ajustar hiperparámetros como <code>max_depth</code>, <code>min_samples_leaf</code> y <code>min_samples_split</code> con validación cruzada. Esto importa porque pequeñas variaciones pueden cambiar bastante el balance entre sesgo y varianza. Sugerencia rápida: <code>GridSearchCV</code> o <code>RandomizedSearchCV</code> en un rango acotado, midiendo RMSE y también el tiempo de predicción para mantener el foco del negocio en velocidad.
</div>

## Conclusión

El árbol de decisión mejora la precisión respecto a la regresión lineal,
ya que captura relaciones no lineales.
Sin embargo, su rendimiento puede variar según la profundidad y puede sobreajustarse si no se controla.

In [5]:
from sklearn.ensemble import RandomForestRegressor

start_time = time.time()
forest_model = RandomForestRegressor(n_estimators=100, max_depth=15, random_state=42)
forest_model.fit(X_train, y_train)
train_time = time.time() - start_time

preds_forest = forest_model.predict(X_test)
rmse_forest = np.sqrt(mean_squared_error(y_test, preds_forest))

print(f"RMSE (Bosque Aleatorio): {rmse_forest:.2f}")
print(f"Tiempo de entrenamiento: {train_time:.2f} segundos")

RMSE (Bosque Aleatorio): 1759.42
Tiempo de entrenamiento: 258.77 segundos


<div class='alert alert-block alert-success'>
<b>Acierto o fortaleza</b> <a class='tocSkip'></a><br>
La celda [5] muestra un salto claro en calidad con <code>RandomForestRegressor</code> (RMSE ≈ 1759). Usar un ensamble robusto como punto de comparación da una referencia exigente y, al fijar <code>random_state</code>, haces el resultado reproducible, lo cual es clave para una app productiva.
</div>

<div class='alert alert-block alert-warning'>
<b>Oportunidad de mejora</b> <a class='tocSkip'></a><br>
En la celda [5], el entrenamiento toma ~259 s. Para acelerar sin cambiar el modelo, puedes activar paralelismo con <code>n_jobs=-1</code>. Además, como el negocio valora la velocidad de predicción, sería útil medir el tiempo de inferencia. Por ejemplo:
<br><code>
start = time.time(); _ = forest_model.predict(X_test[:1000]); infer_time = time.time()-start
</code><br>
Con esto, tendrás una visión completa de costo (entrenamiento) y velocidad (predicción) en condiciones reales.
</div>

## Conclusión

El bosque aleatorio ofrece una mejor calidad de predicción que el árbol individual.
Aunque su entrenamiento es más lento, el resultado suele ser más estable y preciso.
Es un excelente punto de comparación para los modelos de potenciación del gradiente.

In [6]:
from lightgbm import LGBMRegressor

start_time = time.time()
lgb_model = LGBMRegressor(num_leaves=31, learning_rate=0.1, n_estimators=100, random_state=42)
lgb_model.fit(X_train, y_train)
train_time = time.time() - start_time

preds_lgb = lgb_model.predict(X_test)
rmse_lgb = np.sqrt(mean_squared_error(y_test, preds_lgb))

print(f"RMSE (LightGBM): {rmse_lgb:.2f}")
print(f"Tiempo de entrenamiento: {train_time:.2f} segundos")

RMSE (LightGBM): 1742.38
Tiempo de entrenamiento: 3.27 segundos


<div class='alert alert-block alert-success'>
<b>Acierto o fortaleza</b> <a class='tocSkip'></a><br>
Excelente resultado en la celda [6]: <code>LGBMRegressor</code> logra el mejor RMSE con un tiempo de entrenamiento muy bajo. Es exactamente el tipo de modelo que suele rendir muy bien en datos tabulares y se alinea con los objetivos de calidad y velocidad de Rusty Bargain.
</div>

<div class='alert alert-block alert-warning'>
<b>Oportunidad de mejora</b> <a class='tocSkip'></a><br>
En la celda [6], podrías añadir early stopping con un conjunto de validación para cortar el entrenamiento en el punto óptimo y ajustar <code>n_estimators</code> automáticamente. Esto ayuda a evitar sobreajuste y, de paso, ahorra tiempo. Ejemplo: separar un <code>valid</code> del train y usar <code>lgb_model.fit(X_train, y_train, eval_set=[(X_valid, y_valid)], eval_metric='rmse', early_stopping_rounds=50)</code> y luego predecir con el mejor número de iteraciones.
</div>

<div class='alert alert-block alert-warning'>
<b>Oportunidad de mejora</b> <a class='tocSkip'></a><br>
LightGBM maneja variables categóricas de forma nativa. En lugar de hacer one-hot a todo el dataset (312 columnas), podrías mantener columnas categóricas como <code>category</code> y pasarlas con <code>categorical_feature</code>. Esto reduce dimensionalidad y acelera. Una ruta simple es conservar dos versiones: una con dummies (para LR/árboles) y otra cruda con <code>dtype='category'</code> para LGBM. Así aprovechas lo mejor de cada enfoque sin cambiar tu comparación general.
</div>

## Conclusión

LightGBM logra una gran precisión en menos tiempo que el bosque aleatorio.
Es un modelo optimizado para velocidad y eficiencia, ideal para este tipo de datos tabulares.
En la mayoría de los casos, logra el mejor balance entre tiempo y calidad.

## Análisis del modelo

In [8]:
resultados = pd.DataFrame({
    'Modelo': ['Regresión Lineal', 'Árbol de Decisión', 'Bosque Aleatorio', 'LightGBM'],
    'RMSE': [rmse_lr, rmse_tree, rmse_forest, rmse_lgb],
})

display(resultados.sort_values('RMSE'))

Unnamed: 0,Modelo,RMSE
3,LightGBM,1742.379107
2,Bosque Aleatorio,1759.422589
1,Árbol de Decisión,2054.039195
0,Regresión Lineal,2862.226332


<div class='alert alert-block alert-success'>
<b>Acierto o fortaleza</b> <a class='tocSkip'></a><br>
La tabla comparativa de la celda [8], ordenada por RMSE, comunica de forma directa qué modelo rinde mejor. Esta síntesis facilita la toma de decisiones y conecta muy bien con el objetivo del proyecto de evaluar calidad de predicción.
</div>

<div class='alert alert-block alert-warning'>
<b>Oportunidad de mejora</b> <a class='tocSkip'></a><br>
Dado que el cliente valora también velocidad, sería ideal que la tabla de la celda [8] incluya tiempos de entrenamiento y de predicción. Además, expresar la mejora relativa vs. la base (por ejemplo, % de reducción de RMSE frente a Regresión Lineal) hace el impacto más tangible. Acción sugerida: añadir columnas <code>train_time</code> e <code>predict_time</code> recogidas con <code>time.perf_counter()</code> y una columna <code>mejora_vs_baseline</code> calculada como <code>1 - RMSE_modelo/RMSE_baseline</code>.
</div>

## Conclusión

Al comparar todos los modelos, podemos observar sus diferencias en precisión (RMSE) y tiempo de entrenamiento.
En general:

- LightGBM es el modelo más eficiente y preciso.

- Bosque Aleatorio también ofrece buena calidad, aunque tarda más.

- Árbol de Decisión es rápido pero menos preciso.

- Regresión Lineal sirve como punto de partida para verificar que el proceso funciona correctamente.

# Lista de control

Escribe 'x' para verificar. Luego presiona Shift+Enter

- [x]  Jupyter Notebook está abierto
- [x]  Las celdas están en orden de ejecución
- [x]  Los datos fueron cargados, limpiados y preparados
- [x]  Se entrenaron al menos 3 modelos distintos
- [x]  Se analizó la velocidad y calidad de los modelos
- [x]  Se sacaron conclusiones después de cada parte

# Conclusión General

En este proyecto analizamos datos de autos usados con el objetivo de predecir su precio de mercado para la empresa Rusty Bargain.
A lo largo del proceso realizamos varias etapas: cargamos y limpiamos los datos, transformamos las variables categóricas, y entrenamos diferentes modelos de predicción para comparar su rendimiento.

Primero, la regresión lineal sirvió como punto de referencia, pero mostró un error alto debido a que las relaciones entre variables no eran lineales.
Luego, los modelos basados en árboles —árbol de decisión y bosque aleatorio— mejoraron notablemente la precisión, aunque el tiempo de entrenamiento fue mayor.
Finalmente, el modelo LightGBM ofreció el mejor equilibrio entre velocidad y calidad de predicción, alcanzando el menor valor de error (RMSE) en menos tiempo de entrenamiento que los otros modelos.

En conclusión, el modelo más adecuado para Rusty Bargain es LightGBM, ya que proporciona resultados precisos y rápidos, cumpliendo los tres objetivos principales del proyecto:

Alta calidad de predicción.

Velocidad de predicción eficiente.

Tiempo de entrenamiento razonable.

Gracias a este modelo, la empresa puede ofrecer a sus usuarios una estimación confiable y rápida del valor de mercado de sus vehículos, mejorando así la experiencia dentro de la aplicación.

<div class='alert alert-block alert-success'>
<b>Comentario final</b> <a class='tocSkip'></a><br>
¡Muy buen trabajo, Fernando! A lo largo del proyecto mostraste fortalezas muy claras:<br><br>
• Exploraste el dataset de forma ordenada con <code>head()</code>, <code>info()</code> e <code>isna()</code> (celda [1]).<br>
• Identificaste correctamente tipos de datos y proporción de nulos, base para una limpieza sólida (celda [1]).<br>
• Depuraste columnas poco útiles y eliminaste duplicados, reduciendo ruido desde el inicio (celda [2]).<br>
• Aplicaste una estrategia simple y efectiva para completar nulos en categóricas con 'unknown' (celda [2]).<br>
• Definiste reglas de filtrado para precios y años de registro, aportando coherencia al dataset (celda [2]).<br>
• Codificaste variables categóricas con <code>get_dummies</code>, habilitando modelos lineales y de árboles (celda [2]).<br>
• Dividiste correctamente en entrenamiento y prueba con <code>random_state</code> para reproducibilidad (celda [2]).<br>
• Estableciste una regresión lineal como baseline con métrica clara (RMSE) (celda [3]).<br>
• Mediste el tiempo de entrenamiento, conectando con la necesidad de eficiencia del negocio (celdas [3], [4], [5], [6]).<br>
• Probaste un árbol de decisión con control de profundidad, mostrando criterio de regularización (celda [4]).<br>
• Incorporaste un bosque aleatorio que mejoró la precisión de manera consistente (celda [5]).<br>
• Implementaste LightGBM y lograste el mejor equilibrio entre velocidad y calidad (celda [6]).<br>
• Resumiste resultados en una tabla ordenada que facilita la comparación (celda [8]).<br>
• Incluiste conclusiones claras después de cada bloque, guiando la lectura del proyecto (múltiples celdas Markdown).<br>
• Mantuvista una estructura de notebook limpia, con pasos lógicos de preparación, modelado y análisis (todo el flujo).<br>
<br>
¡Felicidades!
</div>