# Hola Carlos! <a class="tocSkip"></a>

Mi nombre es Oscar Flores y tengo el gusto de revisar tu proyecto. Si tienes algún comentario que quieras agregar en tus respuestas te puedes referir a mi como Oscar, no hay problema que me trates de tú.

Si veo un error en la primera revisión solamente lo señalaré y dejaré que tú encuentres de qué se trata y cómo arreglarlo. Debo prepararte para que te desempeñes como especialista en Data, en un trabajo real, el responsable a cargo tuyo hará lo mismo. Si aún tienes dificultades para resolver esta tarea, te daré indicaciones más precisas en una siguiente iteración.

Te dejaré mis comentarios más abajo - **por favor, no los muevas, modifiques o borres**

Comenzaré mis comentarios con un resumen de los puntos que están bien, aquellos que debes corregir y aquellos que puedes mejorar. Luego deberás revisar todo el notebook para leer mis comentarios, los cuales estarán en rectángulos de color verde, amarillo o rojo como siguen:

<div class="alert alert-block alert-success">
<b>Comentario de Reviewer</b> <a class="tocSkip"></a>
    
Muy bien! Toda la respuesta fue lograda satisfactoriamente.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario de Reviewer</b> <a class="tocSkip"></a>

Existen detalles a mejorar. Existen recomendaciones.
</div>

<div class="alert alert-block alert-danger">

<b>Comentario de Reviewer</b> <a class="tocSkip"></a>

Se necesitan correcciones en el bloque. El trabajo no puede ser aceptado con comentarios en rojo sin solucionar.
</div>

Cualquier comentario que quieras agregar entre iteraciones de revisión lo puedes hacer de la siguiente manera:

<div class="alert alert-block alert-info">
<b>Respuesta estudiante.</b> <a class="tocSkip"></a>
</div>

Mucho éxito en el proyecto!

## Resumen de la revisión 1 <a class="tocSkip"></a>

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Bien hecho Carlos, has completado el notebook. En general tu desarrollo está bien, pero hay algunos aspectos que debes considerar acerca del encoding. Te dejé comentarios respecto a eso y a un par de correcciones adicionales.
    
Saludos!    

</div>

## Resumen de la revisión 2<a class="tocSkip"></a>

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor v2</b> <a class="tocSkip"></a>

Buen trabajo Carlos, se incluyeron correctamente las correcciones de los puntos señalados en la iteración anterior. Lo último que falta es que revises la cantidad de variables incluidas en la data dummy para los modelos, no se debería tener tantas columnas. Revisa el comentario que dejé en esa parte.
    
Saludos!    

</div>

## Resumen de la revisión 3<a class="tocSkip"></a>

<div class="alert alert-block alert-success">
<b>Comentario de Revisor v3</b> <a class="tocSkip"></a>

Bien hecho Carlos, has completado correctamente todo lo necesario del notebook. No tengo comentarios de corrección adicionales, está aprobado.

Saludos!

</div>

----

El servicio de venta de autos usados Rusty Bargain está desarrollando una aplicación para atraer nuevos clientes. Gracias a esa app, puedes averiguar rápidamente el valor de mercado de tu coche. Tienes acceso al historial: especificaciones técnicas, versiones de equipamiento y precios. Tienes que crear un modelo que determine el valor de mercado.
A Rusty Bargain le interesa:
- la calidad de la predicción;
- la velocidad de la predicción;
- el tiempo requerido para el entrenamiento

## Preparación de datos

In [1]:
# importe librerias
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder


# Medición de tiempo
import time

# Librerías lightgbm
import lightgbm as lgb

# cargue de data
df = pd.read_csv('/datasets/car_data.csv')

# inspección de dataframe
print(df.head(5))
df.info()

        DateCrawled  Price VehicleType  RegistrationYear Gearbox  Power  \
0  24/03/2016 11:52    480         NaN              1993  manual      0   
1  24/03/2016 10:58  18300       coupe              2011  manual    190   
2  14/03/2016 12:52   9800         suv              2004    auto    163   
3  17/03/2016 16:54   1500       small              2001  manual     75   
4  31/03/2016 17:25   3600       small              2008  manual     69   

   Model  Mileage  RegistrationMonth  FuelType       Brand NotRepaired  \
0   golf   150000                  0    petrol  volkswagen         NaN   
1    NaN   125000                  5  gasoline        audi         yes   
2  grand   125000                  8  gasoline        jeep         NaN   
3   golf   150000                  6    petrol  volkswagen          no   
4  fabia    90000                  7  gasoline       skoda          no   

        DateCreated  NumberOfPictures  PostalCode          LastSeen  
0  24/03/2016 00:00               

In [2]:
# exploración de dataframe
df.describe()

Unnamed: 0,Price,RegistrationYear,Power,Mileage,RegistrationMonth,NumberOfPictures,PostalCode
count,354369.0,354369.0,354369.0,354369.0,354369.0,354369.0,354369.0
mean,4416.656776,2004.234448,110.094337,128211.172535,5.714645,0.0,50508.689087
std,4514.158514,90.227958,189.850405,37905.34153,3.726421,0.0,25783.096248
min,0.0,1000.0,0.0,5000.0,0.0,0.0,1067.0
25%,1050.0,1999.0,69.0,125000.0,3.0,0.0,30165.0
50%,2700.0,2003.0,105.0,150000.0,6.0,0.0,49413.0
75%,6400.0,2008.0,143.0,150000.0,9.0,0.0,71083.0
max,20000.0,9999.0,20000.0,150000.0,12.0,0.0,99998.0


<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Bien, correcta la revisión inicial de la data

</div>

In [3]:
# Preprocesamiento de dataframe

%time
print()

# eliminación de columnas irrelevantes para el ejercicio
df_copy = df.drop(['DateCrawled', 'DateCreated', 'LastSeen', 'PostalCode', 'NumberOfPictures'], axis=1)
print(df.isna().sum())

# depuración de precios de vehiculos <= 0 
df_copy = df_copy[df_copy['Price'] > 0]
print()
print("Cantidad de datos en columna precios: ", df['Price'].count())

# eliminación valores nulos
df_copy = df_copy.dropna()

CPU times: user 2 µs, sys: 1 µs, total: 3 µs
Wall time: 6.2 µs

DateCrawled              0
Price                    0
VehicleType          37490
RegistrationYear         0
Gearbox              19833
Power                    0
Model                19705
Mileage                  0
RegistrationMonth        0
FuelType             32895
Brand                    0
NotRepaired          71154
DateCreated              0
NumberOfPictures         0
PostalCode               0
LastSeen                 0
dtype: int64

Cantidad de datos en columna precios:  354369


<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Correcto, bien al remover las variables no informativas y los precios en 0.

</div>

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Revisa las otras variables numéricas y descarta las observaciones que puedan ser consideradas como anomalías

</div>

In [4]:
# revisión de columnas númericas con datos anomalos

# Eliminación de autos registrados antes de 1900 o después de 2025
df_copy = df_copy[(df_copy['RegistrationYear'] >= 1900) & (df_copy['RegistrationYear'] <= 2025)]

# Eliminación de autos con 50HP o más de 1000HP
df_copy = df_copy[(df_copy['Power'] > 10) & (df_copy['Power'] < 1000)]

df_copy.describe()

Unnamed: 0,Price,RegistrationYear,Power,Mileage,RegistrationMonth
count,233117.0,233117.0,233117.0,233117.0,233117.0
mean,5292.660063,2003.090169,123.034716,127025.056088,6.220065
std,4729.92477,6.076673,54.010236,37067.226079,3.452931
min,1.0,1923.0,11.0,5000.0,0.0
25%,1575.0,1999.0,82.0,125000.0,3.0
50%,3690.0,2004.0,116.0,150000.0,6.0
75%,7750.0,2007.0,150.0,150000.0,9.0
max,20000.0,2018.0,999.0,150000.0,12.0


<div class="alert alert-block alert-success">
<b>Comentario de Revisor v2</b> <a class="tocSkip"></a>

Excelente, muy bien al eliminar estos valores que no son realistas.
    

</div>

In [5]:
# división del dataframe en variable objetivo y características
df_copy_target = df_copy['Price']
df_copy_features = df_copy.drop(['Price'], axis=1)

In [6]:
# codificación de variables categóricas para modelos de lineales
df_linear_features = df_copy_features.copy()

# agrupación por promedio de precios
brand_avg_price = df_copy.groupby('Brand')['Price'].mean().sort_values()

# Clasificación en 4 grupos
luxury = brand_avg_price[brand_avg_price > 20000].index.tolist()
semiluxury = brand_avg_price[(brand_avg_price <= 20000) & (brand_avg_price > 10000)].index.tolist()
standard = brand_avg_price[(brand_avg_price <= 10000) & (brand_avg_price > 5000)].index.tolist()
accessible = brand_avg_price[brand_avg_price <= 5000].index.tolist()

# Función de agrupamiento
def categorize_brand(brand):
    if brand in luxury:
        return 'Luxury'
    elif brand in semiluxury:
        return 'SemiLuxury'
    elif brand in standard:
        return 'Standard'
    else:
        return 'Accessible'

# apliación de la función
df_linear_features['BrandCategory'] = df_linear_features['Brand'].apply(categorize_brand)

df_linear_features = df_linear_features.drop(['Model', 'Brand'], axis=1)
categorical_columns = ['VehicleType', 'Gearbox', 'FuelType', 'NotRepaired', 'BrandCategory']

df_linear = pd.get_dummies(df_linear_features, columns=categorical_columns, drop_first=True)
df_linear.head(5)

Unnamed: 0,RegistrationYear,Power,Mileage,RegistrationMonth,VehicleType_convertible,VehicleType_coupe,VehicleType_other,VehicleType_sedan,VehicleType_small,VehicleType_suv,...,Gearbox_manual,FuelType_electric,FuelType_gasoline,FuelType_hybrid,FuelType_lpg,FuelType_other,FuelType_petrol,NotRepaired_yes,BrandCategory_SemiLuxury,BrandCategory_Standard
3,2001,75,150000,6,0,0,0,0,1,0,...,1,0,0,0,0,0,1,0,0,1
4,2008,69,90000,7,0,0,0,0,1,0,...,1,0,1,0,0,0,0,0,0,1
5,1995,102,150000,10,0,0,0,1,0,0,...,1,0,0,0,0,0,1,1,0,1
6,2004,109,150000,8,1,0,0,0,0,0,...,1,0,0,0,0,0,1,0,0,0
10,2004,105,150000,12,0,0,0,1,0,0,...,1,0,0,0,0,0,1,0,0,0


In [7]:
# codificación de variables categóricas para modelos de árboles (tree)
df_tree_features = df_copy_features.copy()
df_tree_features['BrandCategory'] = df_tree_features['Brand'].apply(categorize_brand)
df_tree_features = df_tree_features.drop(['Brand'], axis=1)

categorical_columns = ['VehicleType', 'Gearbox', 'Model', 'FuelType', 'NotRepaired', 'BrandCategory']
encoder = OrdinalEncoder()
df_tree_features[categorical_columns] = encoder.fit_transform(df_tree_features[categorical_columns])

df_tree_features.head(5)

Unnamed: 0,VehicleType,RegistrationYear,Gearbox,Power,Model,Mileage,RegistrationMonth,FuelType,NotRepaired,BrandCategory
3,5.0,2001,1.0,75,116.0,150000,6,6.0,0.0,2.0
4,5.0,2008,1.0,69,101.0,90000,7,2.0,0.0,2.0
5,4.0,1995,1.0,102,11.0,150000,10,6.0,1.0,2.0
6,1.0,2004,1.0,109,8.0,150000,8,6.0,0.0,0.0
10,4.0,2004,1.0,105,10.0,150000,12,6.0,0.0,0.0


<div class="alert alert-block alert-warning">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Ok, pero en general el ordinal encoding es útil cuando hay cierto orden inherente en las variables categóricas o para uso exclusivo de modelos que no se ven tan afectados por un orden de variables categóricas. Usa esta data para modelos de tipo árbol y gradient boosting.

</div>

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

También debes generar data con one-hot encoding, para los modelos como regresión lineal, que dan mucha importancia al orden numérico de los valores de las columnas.

</div>

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor v2</b> <a class="tocSkip"></a>

Ok, muy bien con la aplicación de dummy encoding. Sin embargo, nota que se generaron 305 columnas. Esto genera un espacio de dimensión inmenso, lo cual no es ideal para los modelos de machine learning. En general, no deberíamos usar demasiadas features, los modelos en producción de aplicaciones reales normalmente no tienen más de 20. 
    
Reduce la cantidad de columnas utilizadas, para ello puedes remover alguna variable como model o brand. También podrías agruparlas, por ejemplo, por tipo de marca según el precio (lujo, semilujo, estándar, accesible). Lo importante es que no queden tantas columnas, máximo 40.
    

</div>

<div class="alert alert-block alert-success">
<b>Comentario de Revisor v3</b> <a class="tocSkip"></a>

Excelente, muy bien con la corrección

</div>

In [8]:
# División datos de entranamiento y prueba modelos tree

# División del conjunto de prueba final (20%)
features_tree_train_valid, features_tree_test, target_tree_train_valid, target_tree_test = train_test_split(
    df_tree_features, df_copy_target, test_size=0.20, random_state=92124)

# División del conjunto train_valid en train (75%) y validation (25%)
features_tree_train, features_tree_valid, target_tree_train, target_tree_valid = train_test_split(
    features_tree_train_valid, target_tree_train_valid, test_size=0.25, random_state=92124)

In [9]:
# División datos de entranamiento y prueba modelos linear

# División del conjunto de prueba final (20%)
features_linear_train_valid, features_linear_test, target_linear_train_valid, target_linear_test = train_test_split(
    df_linear, df_copy_target, test_size=0.20, random_state=92124)

# División del conjunto train_valid en train (75%) y validation (25%)
features_linear_train, features_linear_valid, target_linear_train, target_linear_valid = train_test_split(
    features_linear_train_valid, target_linear_train_valid, test_size=0.25, random_state=92124)

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Divide la data en 3 partes, train, validación y test. La idea es que quede un 20% de la data al final para poder hacer un test final contra el mejor modelo escogido de la validación. Para esto, divide la data dos veces con train_test_split, primero un 20% de test y un 80% de train_valid, luego la data train_valid la divides nuevamente con train_test_split para usar un 75% para train y un 25% para validación.

</div>

<div class="alert alert-block alert-success">
<b>Comentario de Revisor v2</b> <a class="tocSkip"></a>

Bien hecho, corregido.
    

</div>

## Entrenamiento del modelo 

In [10]:
# Función para entrenar y evaluar modelos de árbol
def model_evaluation_tree(model, model_name):
    start_time = time.time()
    model.fit(features_tree_train, target_tree_train)
    predictions = model.predict(features_tree_valid)
    end_time = time.time()

    mse = mean_squared_error(target_tree_valid, predictions)
    rmse = np.sqrt(mse)
    duration = end_time - start_time

    print(f'{model_name} RMSE: {rmse:.2f}')
    print(f'{model_name} tiempo de entrenamiento y predicción: {duration:.2f} segundos\n')
    return rmse, duration

# Función para entrenar y evaluar modelos lineales
def model_evaluation_linear(model, model_name):
    start_time = time.time()
    model.fit(features_linear_train, target_linear_train)
    predictions = model.predict(features_linear_valid)
    end_time = time.time()

    mse = mean_squared_error(target_linear_valid, predictions)
    rmse = np.sqrt(mse)
    duration = end_time - start_time

    print(f'{model_name} RMSE: {rmse:.2f}')
    print(f'{model_name} tiempo de entrenamiento y predicción: {duration:.2f} segundos\n')
    return rmse, duration

# Función de validación para el mejor modelo
def final_model_evaluation(model, model_name):
    start_time = time.time()
    model.fit(features_tree_train_valid, target_tree_train_valid) 
    predictions = model.predict(features_tree_test)
    end_time = time.time()

    mse = mean_squared_error(target_tree_test, predictions)
    rmse = np.sqrt(mse)
    duration = end_time - start_time

    print(f'{model_name} RMSE: {rmse:.2f}')
    print(f'{model_name} tiempo de entrenamiento y predicción: {duration:.2f} segundos\n')
    return rmse, duration

## Análisis del modelo

In [11]:
# LinearRegression
model_lr = LinearRegression()
rmse_lr, time_lr = model_evaluation_linear(model_lr, 'Regresión Lineal')

# DecisionTreeRegressor
model_tree = DecisionTreeRegressor(random_state=92124)
rmse_tree, time_tree = model_evaluation_tree(model_tree, 'Árbol de Decisión')

# RandomForestRegressor
model_rf = RandomForestRegressor(n_estimators=100, random_state=92124)
rmse_rf, time_rf = model_evaluation_tree(model_rf, 'Random Forest')

# LightGBM
model_lgb = lgb.LGBMRegressor(random_state=92124, n_estimators=100, learning_rate=0.2)
rmse_lgb, time_lgb = model_evaluation_tree(model_lgb, 'LightGBM')

Regresión Lineal RMSE: 2733.56
Regresión Lineal tiempo de entrenamiento y predicción: 0.11 segundos

Árbol de Decisión RMSE: 2086.55
Árbol de Decisión tiempo de entrenamiento y predicción: 0.56 segundos

Random Forest RMSE: 1607.93
Random Forest tiempo de entrenamiento y predicción: 36.44 segundos

LightGBM RMSE: 1625.24
LightGBM tiempo de entrenamiento y predicción: 1.59 segundos



<div class="alert alert-block alert-danger">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Ok, bien con los modelos, pero para regresión lineal utiliza data con one-hot encoding.

</div>

<div class="alert alert-block alert-success">
<b>Comentario de Revisor v2</b> <a class="tocSkip"></a>

Muy bien, mucho mejor, pero compara este resultado con el que obtienes si se usan menos columnas. En general, no deberíamos requerir tantas para un buen desempeño

</div>

In [12]:
# resultados finales y comparativo

results = pd.DataFrame({
    'Modelo': ['Regresión Lineal', 'Árbol de Decisión', 'Random Forest', 'LightGBM'],
    'RMSE': [rmse_lr, rmse_tree, rmse_rf, rmse_lgb],
    'Tiempo (segundos)': [time_lr, time_tree, time_rf, time_lgb]
})

print('\n Comparación de resultados:\n')
print(results.sort_values(by='RMSE'))


 Comparación de resultados:

              Modelo         RMSE  Tiempo (segundos)
2      Random Forest  1607.931776          36.435206
3           LightGBM  1625.240276           1.587667
1  Árbol de Decisión  2086.553278           0.555091
0   Regresión Lineal  2733.560877           0.113331


In [13]:
# prueba 2 mejores modelos con datos test
# - LightGBM
model_lgb = lgb.LGBMRegressor(random_state=92124, n_estimators=100, learning_rate=0.2)
rmse_lgb, time_lgb = final_model_evaluation(model_lgb, 'LightGBM')

# - RandomForestRegressor
model_rf = RandomForestRegressor(n_estimators=100, random_state=92124)
rmse_rf, time_rf = final_model_evaluation(model_rf, 'Random Forest')

LightGBM RMSE: 1642.63
LightGBM tiempo de entrenamiento y predicción: 1.88 segundos

Random Forest RMSE: 1592.61
Random Forest tiempo de entrenamiento y predicción: 40.46 segundos



<div class="alert alert-block alert-success">
<b>Comentario de Revisor v3</b> <a class="tocSkip"></a>

Bien hecho, correcto

</div>

##  Conclusión

De acuerdo con los resultados obtenidos y teniendo en cuenta los tres factores que me piden en la descripción del proyecto:

-   la calidad de la predicción
-   la velocidad de la predicción
-   el tiempo requerido para el entrenamiento

Se podria determinar que el modelo que mejor se ajustaria a la necesidad del cliente es el _"3. LightGBM"_, ya que no toma tanto tiempo en hacer la predicción y la calidad es buena con respecto a los demás modelos, así al ejecutar la prueba con los datos de test la calidad se vea afectada, no obstante, a pesar de esta situación, el modelo "_2. RandomForest_" mejora un poco su calidad, pero se ve un incremento en el tiempo de entrenamiento y predicción. 

Por lo anterior, mi recomendación se basa en que el modelo que presenta mejor calidad  _"2. Random Forest"_ aunque es el de mejor calidad toma mucho más tiempo en ejecutarse y a su vez el que escogí presenta una buena calidad, aseveraciones que tomo con respecto a la media que presenta la variable objetivo (_df_copy_target_) que es de $\approx$ 5292.

<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Excelentes conclusiones. Haces muy bien al incluir valores de las métricas muy importantes y resumes los principales hallazgos, buen trabajo!
    
</div>

# Lista de control

Escribe 'x' para verificar. Luego presiona Shift+Enter

- [x]  Jupyter Notebook está abierto
- [x]  El código no tiene errores- [x]  Las celdas con el código han sido colocadas en orden de ejecución- [x]  Los datos han sido descargados y preparados- [x]  Los modelos han sido entrenados
- [x]  Se realizó el análisis de velocidad y calidad de los modelos