<b>¡Hola Esteban!</b>

Mi nombre es Alejandro Abia y tengo el gusto de revisar tu proyecto.

A continuación, encontrarás mis comentarios en celdas pintadas de tres colores (verde, amarillo y rojo), a manera de semáforo. Por favor, <b>no las borres ni muevas de posición</b> mientras dure el proceso de revisión.

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
En celdas verdes encontrarás comentarios en relación a tus aciertos y fortalezas.
</div>
<div class="alert alert-block alert-warning">
<b>Antención</b> <a class="tocSkip"></a>
Utilizaré el color amarillo para llamar tu atención, expresar algo importante o compartirte alguna idea de valor.
</div>
<div class="alert alert-block alert-danger">
<b>A resolver</b> <a class="tocSkip"></a>
En rojo emitiré aquellos puntos que deberás atender para aprobar la revisión.
</div>
<div class="alert alert-block alert-info">
<b>Comentario estudiante</b><a class="tocSkip"></a>
Es factible que, a lo largo del proceso de revisión, quieras dejarme comentarios. Si es el caso, por favor realízalo dentro de celdas azules como esta.
</div>
Respecto del proceso de revisión, tu proyecto será aceptado una vez que los comentarios en rojo hayan sido atendidos.
¡Empecemos!

El servicio de venta de autos usados Rusty Bargain está desarrollando una aplicación para atraer nuevos clientes. Gracias a esa app, puedes averiguar rápidamente el valor de mercado de tu coche. Tienes acceso al historial: especificaciones técnicas, versiones de equipamiento y precios. Tienes que crear un modelo que determine el valor de mercado.
A Rusty Bargain le interesa:
- la calidad de la predicción;
- la velocidad de la predicción;
- el tiempo requerido para el entrenamiento

## Introducción

A continuación se realizará el entrenamiento y prueba de cuatro modelos de aprendizaje automático para resolver la tarea de predicción de precio de venta de autos usados para la empresa RustyBargain. Los modelos a realizar son los siguientes:
* Regresión Lineal
* Árbol de decisión (Decision Tree)
* Bosque aleatorio (Random Forest)
* Árbol con potenciación de gradiente (Gradient Boosted Tree)

El modelo de regresión lineal se utilizará como base para comparar los otros tres modelos, por lo que deben poseer como mínimo un valor del RMSE más bajo para ser considerados satisfactorios.

## Preparación de datos

### Importación de librerías

In [1]:
%%time
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')

rs = 12345 #random state
ts = 0.2 #test size

CPU times: user 541 ms, sys: 277 ms, total: 819 ms
Wall time: 797 ms


<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
Las librerías necesarias se han importado correctamente, cubriendo las necesidades del proyecto.</div>


### Importación y descripción de datos

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
Los datos han sido importados correctamente y has proporcionado una descripción clara de las primeras filas y de las características numéricas del dataset.</div>


In [2]:
df = pd.read_csv("https://practicum-content.s3.us-west-1.amazonaws.com/datasets/car_data.csv")
df.head()

Unnamed: 0,DateCrawled,Price,VehicleType,RegistrationYear,Gearbox,Power,Model,Mileage,RegistrationMonth,FuelType,Brand,NotRepaired,DateCreated,NumberOfPictures,PostalCode,LastSeen
0,24/03/2016 11:52,480,,1993,manual,0,golf,150000,0,petrol,volkswagen,,24/03/2016 00:00,0,70435,07/04/2016 03:16
1,24/03/2016 10:58,18300,coupe,2011,manual,190,,125000,5,gasoline,audi,yes,24/03/2016 00:00,0,66954,07/04/2016 01:46
2,14/03/2016 12:52,9800,suv,2004,auto,163,grand,125000,8,gasoline,jeep,,14/03/2016 00:00,0,90480,05/04/2016 12:47
3,17/03/2016 16:54,1500,small,2001,manual,75,golf,150000,6,petrol,volkswagen,no,17/03/2016 00:00,0,91074,17/03/2016 17:40
4,31/03/2016 17:25,3600,small,2008,manual,69,fabia,90000,7,gasoline,skoda,no,31/03/2016 00:00,0,60437,06/04/2016 10:17


In [3]:
# Breve descripción de la distribución de las columnas numéricas.
df.describe()

Unnamed: 0,Price,RegistrationYear,Power,Mileage,RegistrationMonth,NumberOfPictures,PostalCode
count,354369.0,354369.0,354369.0,354369.0,354369.0,354369.0,354369.0
mean,4416.656776,2004.234448,110.094337,128211.172535,5.714645,0.0,50508.689087
std,4514.158514,90.227958,189.850405,37905.34153,3.726421,0.0,25783.096248
min,0.0,1000.0,0.0,5000.0,0.0,0.0,1067.0
25%,1050.0,1999.0,69.0,125000.0,3.0,0.0,30165.0
50%,2700.0,2003.0,105.0,150000.0,6.0,0.0,49413.0
75%,6400.0,2008.0,143.0,150000.0,9.0,0.0,71083.0
max,20000.0,9999.0,20000.0,150000.0,12.0,0.0,99998.0


In [4]:
# Descripción de las columnas.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   DateCrawled        354369 non-null  object
 1   Price              354369 non-null  int64 
 2   VehicleType        316879 non-null  object
 3   RegistrationYear   354369 non-null  int64 
 4   Gearbox            334536 non-null  object
 5   Power              354369 non-null  int64 
 6   Model              334664 non-null  object
 7   Mileage            354369 non-null  int64 
 8   RegistrationMonth  354369 non-null  int64 
 9   FuelType           321474 non-null  object
 10  Brand              354369 non-null  object
 11  NotRepaired        283215 non-null  object
 12  DateCreated        354369 non-null  object
 13  NumberOfPictures   354369 non-null  int64 
 14  PostalCode         354369 non-null  int64 
 15  LastSeen           354369 non-null  object
dtypes: int64(7), object(

Podemos ver que hay valores faltantes en las columnas:
* VehicleType
* Gearbox
* Model
* FuelType
* NotRepaired

### Procesamiento de columnas

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
Los valores faltantes han sido manejados correctamente, evitando la eliminación innecesaria de datos y preservando la mayor cantidad de información posible.</div>


In [5]:
# Convertimos los nombres de las columnas a minúsculas
df.columns = df.columns.str.lower()
df.columns

Index(['datecrawled', 'price', 'vehicletype', 'registrationyear', 'gearbox',
       'power', 'model', 'mileage', 'registrationmonth', 'fueltype', 'brand',
       'notrepaired', 'datecreated', 'numberofpictures', 'postalcode',
       'lastseen'],
      dtype='object')

In [6]:
%%time
# Convertimos las fechas a numérico.
dates = ["datecrawled","datecreated","lastseen"]
for d in dates:
    df[d] = pd.to_numeric(pd.to_datetime(df[d]))
df.head()

CPU times: user 36.5 s, sys: 37.1 ms, total: 36.6 s
Wall time: 36.7 s


Unnamed: 0,datecrawled,price,vehicletype,registrationyear,gearbox,power,model,mileage,registrationmonth,fueltype,brand,notrepaired,datecreated,numberofpictures,postalcode,lastseen
0,1458820320000000000,480,,1993,manual,0,golf,150000,0,petrol,volkswagen,,1458777600000000000,0,70435,1467602160000000000
1,1458817080000000000,18300,coupe,2011,manual,190,,125000,5,gasoline,audi,yes,1458777600000000000,0,66954,1467596760000000000
2,1457959920000000000,9800,suv,2004,auto,163,grand,125000,8,gasoline,jeep,,1457913600000000000,0,90480,1462366020000000000
3,1458233640000000000,1500,small,2001,manual,75,golf,150000,6,petrol,volkswagen,no,1458172800000000000,0,91074,1458236400000000000
4,1459445100000000000,3600,small,2008,manual,69,fabia,90000,7,gasoline,skoda,no,1459382400000000000,0,60437,1465035420000000000


### Tratamiento de valores faltantes

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
Los valores faltantes han sido manejados correctamente, evitando la eliminación innecesaria de datos y preservando la mayor cantidad de información posible.</div>


In [7]:
df.vehicletype.fillna("other",inplace=True)
df.vehicletype.value_counts(dropna=False)

sedan          91457
small          79831
wagon          65166
other          40778
bus            28775
convertible    20203
coupe          16163
suv            11996
Name: vehicletype, dtype: int64

In [8]:
df.gearbox.fillna("other",inplace=True)
df.gearbox.value_counts(dropna=False)

manual    268251
auto       66285
other      19833
Name: gearbox, dtype: int64

In [9]:
df.model.fillna("other",inplace=True)
df.model.value_counts(dropna=False)

other                 44126
golf                  29232
3er                   19761
polo                  13066
corsa                 12570
                      ...  
serie_2                   8
serie_3                   4
rangerover                4
serie_1                   2
range_rover_evoque        2
Name: model, Length: 250, dtype: int64

In [10]:
df.fueltype.fillna("other",inplace=True)
df.fueltype.value_counts(dropna=False)

petrol      216352
gasoline     98720
other        33099
lpg           5310
cng            565
hybrid         233
electric        90
Name: fueltype, dtype: int64

In [11]:
df.notrepaired.fillna("other",inplace=True)
df.notrepaired.value_counts(dropna=False)

no       247161
other     71154
yes       36054
Name: notrepaired, dtype: int64

### Separar objetivo

In [12]:
X = df.drop("price",axis=1)
y = df["price"]

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
La variable objetivo ha sido correctamente separada, lo cual es esencial para el entrenamiento de los modelos.</div>


### One-Hot Encoding para los datos

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
Las características numéricas han sido escaladas correctamente, lo que ayuda a mejorar el rendimiento de ciertos modelos.</div>


<div class="alert alert-block alert-warning">
<b>Atención</b> <a class="tocSkip"></a>
No te recomiendo usar el código postal como una variable numérica porque no tiene un orden natural de mayor a menor. Por ejemplo, un código postal de 50000 no es "mayor" o "mejor" que uno de 30000. En lugar de eso, podrías considerar otra forma de utilizar los códigos postales. En otros proyectos, por ejemplo, podrías agruparlos por regiones (como estados o zonas geográficas) usando los primeros dígitos del código postal. Así, en vez de tener una variable para cada colonia, podrías tener una variable para cada estado o región. Aunque esta técnica es útil en otros contextos, no es necesaria en este proyecto.</div>


In [13]:
#Nota: se tomará postalcode como numérica por temas de espacio, ya que el kernel muere por explosión de dimensionalidad.
numeric = ["registrationyear","power","mileage","registrationmonth","numberofpictures","datecrawled","lastseen","datecreated","postalcode"]
categorical = [x for x in X.columns.tolist() if (x not in numeric)]

Xo = pd.get_dummies(X,columns=categorical)
Xo.head()
#Xo_train = Xo.iloc[X_train.index]
#Xo_test = Xo.iloc[X_test.index]

Unnamed: 0,datecrawled,registrationyear,power,mileage,registrationmonth,datecreated,numberofpictures,postalcode,lastseen,vehicletype_bus,...,brand_sonstige_autos,brand_subaru,brand_suzuki,brand_toyota,brand_trabant,brand_volkswagen,brand_volvo,notrepaired_no,notrepaired_other,notrepaired_yes
0,1458820320000000000,1993,0,150000,0,1458777600000000000,0,70435,1467602160000000000,0,...,0,0,0,0,0,1,0,0,1,0
1,1458817080000000000,2011,190,125000,5,1458777600000000000,0,66954,1467596760000000000,0,...,0,0,0,0,0,0,0,0,0,1
2,1457959920000000000,2004,163,125000,8,1457913600000000000,0,90480,1462366020000000000,0,...,0,0,0,0,0,0,0,0,1,0
3,1458233640000000000,2001,75,150000,6,1458172800000000000,0,91074,1458236400000000000,0,...,0,0,0,0,0,1,0,1,0,0
4,1459445100000000000,2008,69,90000,7,1459382400000000000,0,60437,1465035420000000000,0,...,0,0,0,0,0,0,0,1,0,0


### Dividir los datos en conjuntos de entrenamiento y prueba

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
Los datos se han dividido correctamente en conjuntos de entrenamiento, validación y prueba, asegurando una evaluación robusta de los modelos.</div>


In [14]:
from sklearn.model_selection import train_test_split

val_size = ts / (1 - ts) # 0.2 / 0.8 = 0.25


X_train0, X_test, y_train0, y_test = train_test_split(Xo, y, test_size=ts, random_state = rs)

X_train, X_val, y_train, y_val = train_test_split(X_train0, y_train0, 
    test_size=val_size, random_state=rs)

### Escalamiento de datos

In [15]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train[numeric])

X_train[numeric] = scaler.transform(X_train[numeric])
X_val[numeric] = scaler.transform(X_val[numeric])
X_test[numeric] = scaler.transform(X_test[numeric])

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
Las características numéricas han sido escaladas correctamente, lo que ayuda a mejorar el rendimiento de ciertos modelos.</div>


## Entrenamiento del modelo 

### Modelo de Regresión Lineal de Base

<div class="alert alert-block alert-warning">
<b>Atención</b> <a class="tocSkip"></a>
Aunque el modelo de regresión lineal fue entrenado correctamente, el RMSE resultante es alto, lo que es de esperarse para un modelo base.</div>


In [16]:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error

model = LinearRegression()

In [17]:
%%time
model.fit(X_train, y_train)

CPU times: user 7.68 s, sys: 1.23 s, total: 8.91 s
Wall time: 8.9 s


LinearRegression()

In [18]:
%%time
predicted_valid = model.predict(X_test)

CPU times: user 36.8 ms, sys: 48.6 ms, total: 85.5 ms
Wall time: 106 ms


In [19]:
mse = mean_squared_error(y_test, predicted_valid)
target_score = mse **0.5
    
# Presentación de métricas
print("Valor R2 en un conjunto de entrenamiento", f"{model.score(X_train, y_train):5.2f}")
print("Valor R2 en un conjunto de validación:", f"{model.score(X_test, y_test):5.2f}")

print('Linear Regression')
print('MSE =', f"{mse:5.2f}")
print('RMSE =', f"{mse ** 0.5:5.2f}")
print("MAE = ",f"{mean_absolute_error(y_test, predicted_valid):5.2f}","\n")

Valor R2 en un conjunto de entrenamiento  0.51
Valor R2 en un conjunto de validación:  0.51
Linear Regression
MSE = 10028855.24
RMSE = 3166.84
MAE =  2276.82 



### Decision Tree Regressor

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
El modelo de árbol de decisión fue correctamente entrenado y optimizado, mostrando una mejora significativa en el RMSE en comparación con la regresión lineal.</div>


In [20]:
from sklearn.tree import DecisionTreeRegressor

dt_best_model = None
dt_best_result = float("inf")
dt_best_depth = 0

In [21]:
%%time
for depth in range(5, 40, 5): # selecciona el rango del hiperparámetro
    model = DecisionTreeRegressor(random_state=rs,max_depth=depth) # entrena el modelo en el conjunto de entrenamiento
    model.fit(X_train,y_train) # entrena el modelo en el conjunto de entrenamiento
    predictions_valid = model.predict(X_val) # obtén las predicciones del modelo en el conjunto de validación
    result = mean_squared_error(y_val,predictions_valid)**0.5 # calcula la RECM en el conjunto de validación
    if result < dt_best_result:
        dt_best_model = model
        dt_best_result = result
        dt_best_depth = depth

print(f"RECM del mejor modelo en el conjunto de validación (max_depth = {dt_best_depth}): {dt_best_result}")

RECM del mejor modelo en el conjunto de validación (max_depth = 15): 2113.7325218126844
CPU times: user 31.6 s, sys: 615 ms, total: 32.2 s
Wall time: 32.3 s


In [22]:
%%time
dt_final_preds = dt_best_model.predict(X_test)

CPU times: user 31.3 ms, sys: 28 ms, total: 59.3 ms
Wall time: 64.4 ms


In [23]:
dt_final_score = dt_best_model.score(X_test, y_test)
dt_final_rmse = mean_squared_error(y_test, dt_final_preds) ** 0.5

print("El R2 del modelo de árbol de decisión en el conjunto de prueba (max_depth = {}): {}".
      format(dt_best_depth,dt_final_score))
print("El RMSE del modelo de árbol de decisión en el conjunto de prueba (max_depth = {}): {}".
      format(dt_best_depth,dt_final_rmse))
if dt_final_rmse > target_score:
    print("El modelo no supera el objetivo de {}.".format(target_score))
else:
    print("El modelo alcanza el score objetivo.")

El R2 del modelo de árbol de decisión en el conjunto de prueba (max_depth = 15): 0.776104715365453
El RMSE del modelo de árbol de decisión en el conjunto de prueba (max_depth = 15): 2139.1063707915655
El modelo alcanza el score objetivo.


### Random Forest Regressor

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
El modelo de Random Forest fue entrenado correctamente y sus resultados superan los modelos previos en términos de RMSE.</div>


#### Entrenamiento

In [24]:
from sklearn.ensemble import RandomForestRegressor

rf_best_score = float("inf")
rf_best_est = 0
rf_best_depth = 0
rf_best_model = None

In [25]:
%%time
# Seleccionamos el rango del hiperparámetro.
for est in range(50, 70,10):
    for depth in range(20,30,5):
    
        # Iniciamos el constructor.
        model = RandomForestRegressor(random_state=rs, n_estimators=est, max_depth = depth)
    
        # Entrenamos el modelo en el conjunto de entrenamiento.
        model.fit(X_train, y_train)
    
        # Realizamos predicciones en el conjunto de validación
        preds = model.predict(X_val)
    
        # Calculamos la exactitud.
        #score = model.score(features_val,target_val)
    
        # Calculamos el RMSE
        score = mean_squared_error(y_val,preds) ** 0.5
    
        # Guardamos la cantidad de estimadores que generaron el mejor puntaje.
        if score < rf_best_score:
            rf_best_model = model
            rf_best_score = score
            rf_best_est = est
            rf_best_depth = depth

print("El RMSE del mejor modelo en el conjunto de validación (n_estimators = {}, max_depth = {}): {}".format(
    rf_best_est, rf_best_depth, rf_best_score))

El RMSE del mejor modelo en el conjunto de validación (n_estimators = 60, max_depth = 25): 1720.7829354742023
CPU times: user 12min 17s, sys: 976 ms, total: 12min 18s
Wall time: 12min 31s


#### Prueba del modelo

In [26]:
%%time
rf_final_preds = rf_best_model.predict(X_test)

CPU times: user 1.31 s, sys: 4.02 ms, total: 1.32 s
Wall time: 1.32 s


In [27]:
rf_final_score = rf_best_model.score(X_test, y_test)
rf_final_rmse = mean_squared_error(y_test, rf_final_preds) ** 0.5

print("El R2 del modelo de bosque aleatorio en el conjunto de prueba (n_estimators = {}, max_depth = {}): {}".
      format(rf_best_est, rf_best_depth,rf_final_score))
print("El RMSE del modelo de bosque aleatorio en el conjunto de prueba (n_estimators = {}, max_depth = {}): {}".
      format(rf_best_est, rf_best_depth,rf_final_rmse))
if rf_final_rmse > target_score:
    print("El modelo no supera el objetivo de {}.".format(target_score))
else:
    print("El modelo alcanza el score objetivo.")
    

El R2 del modelo de bosque aleatorio en el conjunto de prueba (n_estimators = 60, max_depth = 25): 0.8470351339545505
El RMSE del modelo de bosque aleatorio en el conjunto de prueba (n_estimators = 60, max_depth = 25): 1768.0956388494299
El modelo alcanza el score objetivo.


### Gradient Boosting con LightGBM

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
El modelo de LightGBM fue entrenado correctamente, logrando el mejor resultado en términos de RMSE, cumpliendo con los objetivos del proyecto.</div>


In [28]:
#Se realiza un encoding para las columnas categóricas
from sklearn.preprocessing import OrdinalEncoder
lgb_categorical = ['vehicletype', 'gearbox', 'model', 'fueltype', 'brand', 'notrepaired','postalcode']
#print(categorical)

X2 = df.drop("price",axis=1)

oenc = OrdinalEncoder()
X2[lgb_categorical] = oenc.fit_transform(X2[lgb_categorical])

X2_train = X2.iloc[X_train.index]
X2_val = X2.iloc[X_val.index]
X2_test = X2.iloc[X_test.index]
#del X2

In [29]:
import lightgbm as lgb

lgb_train = lgb.Dataset(X2_train, label = y_train, categorical_feature = lgb_categorical,free_raw_data=False)
lgb_val =  lgb.Dataset(X2_val,  label = y_val, reference = lgb_train,free_raw_data=False)
lgb_test = lgb.Dataset(X2_test, label= y_test, reference = lgb_train,free_raw_data=False)

In [30]:
num_round = 300
learning_rates = [0.08,0.095,0.1,0.11,0.2,0.5]
models = []

In [31]:
%%time
# Train the model
for l in learning_rates:
    # Set parameters for regression
    print("Learning rate: ", l)
    params = {
        'objective': 'regression',
        'metric': 'rmse',
        'verbosity': -1,
        'seed': rs,
        'learning_rate': l
    }
    lgb_model = lgb.train(params, lgb_train, num_round, valid_sets=[lgb_val], early_stopping_rounds=10)
    models.append({"learning_rate": l,
                   "model": lgb_model,
                   "rmse": lgb_model.best_score["valid_0"]["rmse"],
                   "best_iteration": lgb_model.best_iteration})

Learning rate:  0.08
[1]	valid_0's rmse: 4250.32
Training until validation scores don't improve for 10 rounds
[2]	valid_0's rmse: 4025.77
[3]	valid_0's rmse: 3823.6
[4]	valid_0's rmse: 3635.74
[5]	valid_0's rmse: 3470.88
[6]	valid_0's rmse: 3317.98
[7]	valid_0's rmse: 3180.09
[8]	valid_0's rmse: 3055.09
[9]	valid_0's rmse: 2943.63
[10]	valid_0's rmse: 2841.2
[11]	valid_0's rmse: 2748.87
[12]	valid_0's rmse: 2663.59
[13]	valid_0's rmse: 2587.78
[14]	valid_0's rmse: 2517.24
[15]	valid_0's rmse: 2454.63
[16]	valid_0's rmse: 2396.61
[17]	valid_0's rmse: 2345.15
[18]	valid_0's rmse: 2298.8
[19]	valid_0's rmse: 2256.75
[20]	valid_0's rmse: 2218.87
[21]	valid_0's rmse: 2183.15
[22]	valid_0's rmse: 2151.24
[23]	valid_0's rmse: 2121.74
[24]	valid_0's rmse: 2095.8
[25]	valid_0's rmse: 2070.06
[26]	valid_0's rmse: 2046
[27]	valid_0's rmse: 2024.91
[28]	valid_0's rmse: 2005.49
[29]	valid_0's rmse: 1987.69
[30]	valid_0's rmse: 1971.91
[31]	valid_0's rmse: 1956.55
[32]	valid_0's rmse: 1943.32
[33]	v

[278]	valid_0's rmse: 1705.84
[279]	valid_0's rmse: 1705.8
[280]	valid_0's rmse: 1705.79
[281]	valid_0's rmse: 1705.64
[282]	valid_0's rmse: 1705.54
[283]	valid_0's rmse: 1705.49
[284]	valid_0's rmse: 1705.62
[285]	valid_0's rmse: 1705.6
[286]	valid_0's rmse: 1705.7
[287]	valid_0's rmse: 1705.67
[288]	valid_0's rmse: 1705.61
[289]	valid_0's rmse: 1705.44
[290]	valid_0's rmse: 1705.15
[291]	valid_0's rmse: 1705.03
[292]	valid_0's rmse: 1705.07
[293]	valid_0's rmse: 1704.94
[294]	valid_0's rmse: 1704.88
[295]	valid_0's rmse: 1704.88
[296]	valid_0's rmse: 1704.74
[297]	valid_0's rmse: 1704.58
[298]	valid_0's rmse: 1704.59
[299]	valid_0's rmse: 1704.42
[300]	valid_0's rmse: 1704.43
Did not meet early stopping. Best iteration is:
[299]	valid_0's rmse: 1704.42
Learning rate:  0.095
[1]	valid_0's rmse: 4204.44
Training until validation scores don't improve for 10 rounds
[2]	valid_0's rmse: 3943.81
[3]	valid_0's rmse: 3707.54
[4]	valid_0's rmse: 3499.93
[5]	valid_0's rmse: 3316.67
[6]	valid_0'

[251]	valid_0's rmse: 1703.4
[252]	valid_0's rmse: 1703.04
[253]	valid_0's rmse: 1703.01
[254]	valid_0's rmse: 1702.99
[255]	valid_0's rmse: 1703.11
[256]	valid_0's rmse: 1703.05
[257]	valid_0's rmse: 1702.93
[258]	valid_0's rmse: 1702.54
[259]	valid_0's rmse: 1702.45
[260]	valid_0's rmse: 1702.39
[261]	valid_0's rmse: 1702.39
[262]	valid_0's rmse: 1702.26
[263]	valid_0's rmse: 1702.3
[264]	valid_0's rmse: 1702.17
[265]	valid_0's rmse: 1702.07
[266]	valid_0's rmse: 1702.13
[267]	valid_0's rmse: 1702.07
[268]	valid_0's rmse: 1701.89
[269]	valid_0's rmse: 1701.78
[270]	valid_0's rmse: 1701.76
[271]	valid_0's rmse: 1701.55
[272]	valid_0's rmse: 1701.63
[273]	valid_0's rmse: 1701.63
[274]	valid_0's rmse: 1701.54
[275]	valid_0's rmse: 1701.23
[276]	valid_0's rmse: 1701.16
[277]	valid_0's rmse: 1700.86
[278]	valid_0's rmse: 1700.55
[279]	valid_0's rmse: 1700.31
[280]	valid_0's rmse: 1700.14
[281]	valid_0's rmse: 1700.05
[282]	valid_0's rmse: 1699.85
[283]	valid_0's rmse: 1699.85
[284]	valid_

[225]	valid_0's rmse: 1707.48
[226]	valid_0's rmse: 1707.34
[227]	valid_0's rmse: 1707.11
[228]	valid_0's rmse: 1706.71
[229]	valid_0's rmse: 1706.42
[230]	valid_0's rmse: 1706.38
[231]	valid_0's rmse: 1706.29
[232]	valid_0's rmse: 1706.08
[233]	valid_0's rmse: 1705.92
[234]	valid_0's rmse: 1705.74
[235]	valid_0's rmse: 1705.24
[236]	valid_0's rmse: 1705.16
[237]	valid_0's rmse: 1704.82
[238]	valid_0's rmse: 1704.72
[239]	valid_0's rmse: 1704.71
[240]	valid_0's rmse: 1704.59
[241]	valid_0's rmse: 1704.08
[242]	valid_0's rmse: 1703.99
[243]	valid_0's rmse: 1703.77
[244]	valid_0's rmse: 1703.6
[245]	valid_0's rmse: 1703.5
[246]	valid_0's rmse: 1703.42
[247]	valid_0's rmse: 1702.96
[248]	valid_0's rmse: 1702.76
[249]	valid_0's rmse: 1702.85
[250]	valid_0's rmse: 1702.84
[251]	valid_0's rmse: 1702.65
[252]	valid_0's rmse: 1702.69
[253]	valid_0's rmse: 1702.61
[254]	valid_0's rmse: 1702.55
[255]	valid_0's rmse: 1702.54
[256]	valid_0's rmse: 1702.54
[257]	valid_0's rmse: 1702.41
[258]	valid_

[199]	valid_0's rmse: 1709.48
[200]	valid_0's rmse: 1709.2
[201]	valid_0's rmse: 1708.83
[202]	valid_0's rmse: 1708.76
[203]	valid_0's rmse: 1708.69
[204]	valid_0's rmse: 1708.8
[205]	valid_0's rmse: 1708.83
[206]	valid_0's rmse: 1708.91
[207]	valid_0's rmse: 1708.38
[208]	valid_0's rmse: 1708.38
[209]	valid_0's rmse: 1708.23
[210]	valid_0's rmse: 1708.33
[211]	valid_0's rmse: 1707.96
[212]	valid_0's rmse: 1707.75
[213]	valid_0's rmse: 1707.45
[214]	valid_0's rmse: 1707.34
[215]	valid_0's rmse: 1707.29
[216]	valid_0's rmse: 1706.99
[217]	valid_0's rmse: 1706.99
[218]	valid_0's rmse: 1706.74
[219]	valid_0's rmse: 1706.54
[220]	valid_0's rmse: 1706.32
[221]	valid_0's rmse: 1706.36
[222]	valid_0's rmse: 1706.46
[223]	valid_0's rmse: 1706.17
[224]	valid_0's rmse: 1706.04
[225]	valid_0's rmse: 1705.61
[226]	valid_0's rmse: 1705.23
[227]	valid_0's rmse: 1705.13
[228]	valid_0's rmse: 1705.05
[229]	valid_0's rmse: 1705.05
[230]	valid_0's rmse: 1705.18
[231]	valid_0's rmse: 1704.9
[232]	valid_0

[43]	valid_0's rmse: 1797.23
[44]	valid_0's rmse: 1796.33
[45]	valid_0's rmse: 1795.53
[46]	valid_0's rmse: 1794.16
[47]	valid_0's rmse: 1794.49
[48]	valid_0's rmse: 1793.99
[49]	valid_0's rmse: 1794.82
[50]	valid_0's rmse: 1795.08
[51]	valid_0's rmse: 1795.12
[52]	valid_0's rmse: 1795.89
[53]	valid_0's rmse: 1795.22
[54]	valid_0's rmse: 1795.78
[55]	valid_0's rmse: 1796.21
[56]	valid_0's rmse: 1796.73
[57]	valid_0's rmse: 1796.82
[58]	valid_0's rmse: 1796.95
Early stopping, best iteration is:
[48]	valid_0's rmse: 1793.99
CPU times: user 1min 50s, sys: 326 ms, total: 1min 50s
Wall time: 1min 51s


In [32]:
# Mostramos los resultados de los mejores modelos por cada learning rate.
pd.DataFrame(models)

Unnamed: 0,learning_rate,model,rmse,best_iteration
0,0.08,<lightgbm.basic.Booster object at 0x7fd5f1edabb0>,1704.421871,299
1,0.095,<lightgbm.basic.Booster object at 0x7fd5f1edaa60>,1699.359598,300
2,0.1,<lightgbm.basic.Booster object at 0x7fd5f2745d60>,1699.927057,297
3,0.11,<lightgbm.basic.Booster object at 0x7fd5f27459d0>,1698.888414,300
4,0.2,<lightgbm.basic.Booster object at 0x7fd5f1edaaf0>,1717.792937,117
5,0.5,<lightgbm.basic.Booster object at 0x7fd5f2745ac0>,1793.985077,48


In [33]:
# Elegimos el modelo con el mejor desempeño.
boosted_best_model = min(models, key=lambda x:x['rmse'])
boosted_best_model

{'learning_rate': 0.11,
 'model': <lightgbm.basic.Booster at 0x7fd5f27459d0>,
 'rmse': 1698.8884136734573,
 'best_iteration': 300}

In [34]:
%%time
# Predicción con el conjunto de prueba
lgb_y_pred = boosted_best_model["model"].predict(X2_test)

CPU times: user 3.09 s, sys: 0 ns, total: 3.09 s
Wall time: 3.09 s


In [35]:
# Calcular el RMSE
lgb_rmse = mean_squared_error(y_test, lgb_y_pred, squared=False)
print(f'RMSE: {lgb_rmse}')

RMSE: 1746.2611315835313


## Análisis del modelo

En el presente proyecto se crearon distintos modelos de regresión para el servicio de venta de autos usados Rusty Bargain. Los modelos a probar fueron los siguientes:
* Regresión Lineal
* Árbol de decisión (Decision Tree)
* Bosque aleatorio (Random Forest)
* Árbol con potenciación de gradiente (Gradient Boosted Tree)

A continuación se presentarán los resultados de acuerdo a las métricas de interés de la empresa.

### Calidad de la Predicción

Para medir la calidad de la predicción se utilizó la métrica de raíz del error cuadrado medio o RMSE, por sus siglas en inglés. Los resultados fueron los siguientes:

| Modelo | RMSE |
|---|---|
| Regresión Lineal | 3166.84 |
| Árbol de Decisión | 2139.10 |
| Bosque Aleatorio | 1768.09 |
| Árbol Potenciado por Gradiente | 1746.26 |

Por lo que podemos concluir que el árbol potenciado por gradiente es el que presenta un mejor desempeño.

### Tiempo de Ejecución del Entrenamiento

Para medir el tiempo de ejecución del entrenamiento y validación de los modelos, que incluye la búsqueda de hiperparámetros se utilizó el comando %%time para medir el tiempo de ejecución de la celda en Jupyter. Los resultados fueron los siguientes:

| Modelo | Tiempo de Ejecución del Entrenamiento |
|---|---|
| Regresión Lineal | 8.14 s |
| Árbol de Decisión | 31.7 s |
| Bosque Aleatorio | 11min 27s |
| Árbol Potenciado por Gradiente | 1min 46s |

El modelo de regresión lineal es el que presenta un menor tiempo de ejecución al entrenar. Sin embargo, si tomamos en cuenta la complejidad de cada modelo, podemos concluir que el árbol potenciado por gradiente es el que presenta un menor tiempo de ejecución en relación a su desempeño y complejidad.

### Tiempo de Ejecución de la Predicción

Para el tiempo de ejecución de la predicción de los modelos con el conjunto de datos de prueba se utilizó el comando %%time para medir el tiempo de ejecución de la celda en Jupyter. Los resultados fueron los siguientes:

| Modelo | Tiempo de Ejecución de la Predicción |
|---|---|
| Regresión Lineal | 86.2 ms |
| Árbol de Decisión | 58.2 ms |
| Bosque Aleatorio | 1.26 s |
| Árbol Potenciado por Gradiente | 2.99 s |

El modelo de árbol de decisión es el que presenta un menor tiempo de ejecución al entrenar. Sin embargo, los tiempos de ejecución en el conjunto de entrenamiento son lo suficientemente pequeños como para que sea razonable restarles importancia.

## Conclusión

Dados los resultados presentados anteriormente, podemos concluir que el modelo de árbol potenciado por gradiente es el más indicado para la tarea que Rusty Bargain desea realizar, ya que presenta el mejor desempeño en cuanto a la relación calidad/tiempo de ejecución. Esperamos seguir contando con su confianza para la realización de más modelos que sean de utilidad para su organización.

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
¡Felicidades por un proyecto bien estructurado y ejecutado! Has seguido los pasos de preparación de datos, entrenamiento y análisis de modelos correctamente. </div>


# Lista de control

Escribe 'x' para verificar. Luego presiona Shift+Enter

- [x]  Jupyter Notebook está abierto
- [ ]  El código no tiene errores- [ ]  Las celdas con el código han sido colocadas en orden de ejecución- [ ]  Los datos han sido descargados y preparados- [ ]  Los modelos han sido entrenados
- [ ]  Se realizó el análisis de velocidad y calidad de los modelos