<div style="text-align: center; font-size: 30px; color: #1e3a8a; font-family: 'Arial', sans-serif;">
    <b>"Rusty Bargain: Predicción del Valor de Mercado de Coches"</b>
</div>

## Descripción del Proyecto

Este proyecto se centra en la creación de un modelo de machine learning para predecir el valor de mercado de coches de segunda mano. Utilizando un conjunto de datos que incluye características detalladas de los vehículos, como el tipo de carrocería, el kilometraje, la marca, el modelo, entre otros, el objetivo es desarrollar un modelo preciso que estime el precio de un coche basado en sus especificaciones.

El proyecto involucra la exploración y comparación de diferentes algoritmos de machine learning, como regresión lineal, árboles de decisión, bosques aleatorios, y métodos de potenciación del gradiente como LightGBM, CatBoost y XGBoost. Además, se evaluarán las métricas de rendimiento de cada modelo, incluyendo la calidad de la predicción, la velocidad de predicción y el tiempo de entrenamiento, con el fin de identificar el modelo más eficiente.

El modelo final será capaz de predecir el precio de vehículos de segunda mano de manera rápida y precisa, con el análisis de los resultados orientado a mejorar la precisión de la estimación de precios y optimizar el proceso de predicción.

Este proyecto es ideal para demostrar habilidades en preprocesamiento de datos, ajuste de hiperparámetros, y la comparación de modelos de machine learning para tareas de regresión.


# Contenido <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Carga y Exploración de los Datos](#data_review)
    * [1.1 Descripción de los Datos](#data_review)
* [Etapa 2. Preparación de los Datos](#data_preparing)
    * [2.1 Manejo correcto de Tipos de Datos](#data_type)
    * [2.2 Manejo de datos nulos](#nan_data)
    * [2.3 Escalado de variables numéricas y codificación de valores categóricos](#data_escalade)
    * [2.4 División de datos para modelo de entrenamiento y de prueba](#data_test)
    * [Conclusiones de la Etapa 2](#conclusions_etapa2)
* [Etapa 3. Evaluación de los Modelos de Machine Learning](#datas_models)
    * [3.1 Modelo 1: Regresión Lineal](#lineal_regression)
    * [3.2 Modelo 2: Árbol de decisión](#arboles_decision)
    * [3.3 Modelo 3: Bosque Aleatorio](#bosque_aleatorio)
    * [3.4 Modelo 4: LightGBM](#lightgbm)
    * [3.5 Modelo 5: Catboost](#catboost)
    * [3.6 Modelo 6: XGBoost](#xgboost)
    * [Conclusión de la etapa 3](#etapa3_conclusión)
* [Conclusiones finales del proyecto](#end)

## Introducción <a id='intro'></a>


En la actualidad, la compra y venta de coches de segunda mano representa una parte significativa del mercado automotriz. Sin embargo, uno de los mayores desafíos tanto para compradores como vendedores es determinar un precio justo y preciso para los vehículos. Este proyecto tiene como objetivo desarrollar un modelo de machine learning que prediga el valor de mercado de coches de segunda mano, utilizando datos históricos de vehículos, sus especificaciones técnicas y precios previos.

El modelo será entrenado utilizando un conjunto de datos que incluye características clave como el tipo de carrocería, el kilometraje, el año de matriculación, la potencia, la marca, entre otros. A través de diferentes técnicas de machine learning, se evaluará qué algoritmo es el más efectivo para realizar predicciones precisas y rápidas del precio de los vehículos, considerando tanto la calidad de las predicciones como la eficiencia en el tiempo de ejecución.

Con este proyecto, se busca proporcionar una herramienta automatizada que facilite la estimación del valor de coches de segunda mano, ayudando tanto a compradores como vendedores a tomar decisiones más informadas y justas en el proceso de transacción de vehículos.


# Etapa 1. Carga y Exploración de los Datos <a id=data_review></a>

In [38]:
# Cargamos los módulos a utilizar, e importamos funciones específicas de módulos
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt
from  sklearn.tree import DecisionTreeRegressor
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
import time
import lightgbm as lgb
from catboost import CatBoostRegressor
import xgboost as xgb

In [2]:
# Cargamos los datos que se utilizarán

df_car_data = pd.read_csv('/home/josue/Predicción_de_ Valor_de_Mercado_de_Coches_de_Segunda_Mano/car_data.csv')

## 1.1 Descripción de los Datos <a id='data_review'></a>

In [3]:
# Observación de la calidad de los Datos
df_car_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   DateCrawled        354369 non-null  object
 1   Price              354369 non-null  int64 
 2   VehicleType        316879 non-null  object
 3   RegistrationYear   354369 non-null  int64 
 4   Gearbox            334536 non-null  object
 5   Power              354369 non-null  int64 
 6   Model              334664 non-null  object
 7   Mileage            354369 non-null  int64 
 8   RegistrationMonth  354369 non-null  int64 
 9   FuelType           321474 non-null  object
 10  Brand              354369 non-null  object
 11  NotRepaired        283215 non-null  object
 12  DateCreated        354369 non-null  object
 13  NumberOfPictures   354369 non-null  int64 
 14  PostalCode         354369 non-null  int64 
 15  LastSeen           354369 non-null  object
dtypes: int64(7), object(

In [4]:
df_car_data.head()

Unnamed: 0,DateCrawled,Price,VehicleType,RegistrationYear,Gearbox,Power,Model,Mileage,RegistrationMonth,FuelType,Brand,NotRepaired,DateCreated,NumberOfPictures,PostalCode,LastSeen
0,24/03/2016 11:52,480,,1993,manual,0,golf,150000,0,petrol,volkswagen,,24/03/2016 00:00,0,70435,07/04/2016 03:16
1,24/03/2016 10:58,18300,coupe,2011,manual,190,,125000,5,gasoline,audi,yes,24/03/2016 00:00,0,66954,07/04/2016 01:46
2,14/03/2016 12:52,9800,suv,2004,auto,163,grand,125000,8,gasoline,jeep,,14/03/2016 00:00,0,90480,05/04/2016 12:47
3,17/03/2016 16:54,1500,small,2001,manual,75,golf,150000,6,petrol,volkswagen,no,17/03/2016 00:00,0,91074,17/03/2016 17:40
4,31/03/2016 17:25,3600,small,2008,manual,69,fabia,90000,7,gasoline,skoda,no,31/03/2016 00:00,0,60437,06/04/2016 10:17


In [5]:
df_car_data.shape

(354369, 16)

Después de observar este conjunto de datos, podemos concluir lo siguiente. Tiene un total de 16 características y 354,369 observaciones. Este conjunto de datos, necesita algunas cosas importantes que se realicen antes de comenzar con el entrenamiento, como normalizar los nombres de las características a minúsculas, tratar los valores ausentes y corregir el tipo de datos, de fechas, una vez realizando esto, este conjunto de datos podrá pasar a la siguiente etapa.

## 1.2 Normalización de los Datos a Minúsculas

In [6]:
# Normalizamos los datos del df
df_car_data.columns = df_car_data.columns.str.lower()

In [7]:
# Imprimimos el nuevo df
df_car_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   datecrawled        354369 non-null  object
 1   price              354369 non-null  int64 
 2   vehicletype        316879 non-null  object
 3   registrationyear   354369 non-null  int64 
 4   gearbox            334536 non-null  object
 5   power              354369 non-null  int64 
 6   model              334664 non-null  object
 7   mileage            354369 non-null  int64 
 8   registrationmonth  354369 non-null  int64 
 9   fueltype           321474 non-null  object
 10  brand              354369 non-null  object
 11  notrepaired        283215 non-null  object
 12  datecreated        354369 non-null  object
 13  numberofpictures   354369 non-null  int64 
 14  postalcode         354369 non-null  int64 
 15  lastseen           354369 non-null  object
dtypes: int64(7), object(

# Etapa 2. Preparación de los Datos <a id='data_preparing'></a>

## 2.1 Manejo correcto de Tipos de Datos <a id='data_type'></a>

In [8]:
# Convertir las columnas de fecha de tipo object a datetime64
df_car_data['datecrawled'] = pd.to_datetime(df_car_data['datecrawled'], errors='coerce', dayfirst=True)
df_car_data['datecreated'] = pd.to_datetime(df_car_data['datecreated'], errors='coerce', dayfirst=True)
df_car_data['lastseen'] = pd.to_datetime(df_car_data['lastseen'], errors='coerce', dayfirst=True)

Se realizaron  transformaciones de columnas de fecha para asegurar su formato correcto:

**Conversión a `datetime64`**: Se convirtieron las columnas **`datecrawled`**, **`datecreated`** y **`lastseen`** usando **`pd.to_datetime()`** con **`dayfirst=True`** y **`errors='coerce'`** para manejar valores inválidos.


In [9]:
df_car_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   datecrawled        354369 non-null  datetime64[ns]
 1   price              354369 non-null  int64         
 2   vehicletype        316879 non-null  object        
 3   registrationyear   354369 non-null  int64         
 4   gearbox            334536 non-null  object        
 5   power              354369 non-null  int64         
 6   model              334664 non-null  object        
 7   mileage            354369 non-null  int64         
 8   registrationmonth  354369 non-null  int64         
 9   fueltype           321474 non-null  object        
 10  brand              354369 non-null  object        
 11  notrepaired        283215 non-null  object        
 12  datecreated        354369 non-null  datetime64[ns]
 13  numberofpictures   354369 non-null  int64   

## 2.2 Manejo de datos nulos <a id='nan_data'> </a>

Después de echar un vistazo a los datos, normalizar sus nombres de características, y, corregir los tipos de datos a un formato correcto, nos dirigimos al paso de tratar los valores ausentes, un paso importante para tener todo correcto a la hora de entrenar los modelos de ML.    

## Característica `vehicletype`

In [10]:
df_car_data['vehicletype'].isna().sum()

37490

Tenemos 37,490 observaciones faltantes, una cantidad considerablemente alta, por lo tanto vamos a resolverlo de la forma que menos sesgo pueda producir. Utilizaremos un modelo de ML, para imputar los valores faltantes, se ocupará un DecisionTreeClassifier para esta imputación. Se utilizarán 2 características del DF para la imputación, que son: `Price`, `Brand`. Estas características son excelentes de usar porque no tienen valores nulos, ya que para ocupar un modelo para imputar datos en cierta característica, las características a usar para ellos, deben ser características que no tengan datos NaN.

In [11]:

# Codificar las columnas categóricas 'brand' y 'model' con Label Encoding
le_brand = LabelEncoder()


# Convertir 'brand' y 'model' en valores numéricos
df_car_data['brand_encoded'] = le_brand.fit_transform(df_car_data['brand'])


# Variable objetivo a predecir (vehicletype)
df_train = df_car_data.dropna(subset=['vehicletype'])  # Solo eliminamos las filas con NaN en 'vehicletype'

# Dividir los datos en características (features) y variable objetivo (target)
features_train = df_train[['price',  'brand_encoded']]
target_train = df_train['vehicletype']

# Crear el Modelo de Machine Learning
model = RandomForestClassifier()

# Entrenar el modelo con los datos de entrenamiento
model.fit(features_train, target_train)

# Seleccionar las observaciones con valores NaN en 'vehicletype' para predecirlos
df_missing = df_car_data[df_car_data['vehicletype'].isna()]

# Variables para las filas con valores faltantes
features_missing = df_missing[['price', 'brand_encoded']]

# Predecir los valores faltantes en 'vehicletype'
predictions = model.predict(features_missing)

# Imputar las observaciones faltantes en la columna 'vehicletype' usando las predicciones
df_car_data.loc[df_car_data['vehicletype'].isna(), 'vehicletype'] = predictions



In [12]:
df_car_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 17 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   datecrawled        354369 non-null  datetime64[ns]
 1   price              354369 non-null  int64         
 2   vehicletype        354369 non-null  object        
 3   registrationyear   354369 non-null  int64         
 4   gearbox            334536 non-null  object        
 5   power              354369 non-null  int64         
 6   model              334664 non-null  object        
 7   mileage            354369 non-null  int64         
 8   registrationmonth  354369 non-null  int64         
 9   fueltype           321474 non-null  object        
 10  brand              354369 non-null  object        
 11  notrepaired        283215 non-null  object        
 12  datecreated        354369 non-null  datetime64[ns]
 13  numberofpictures   354369 non-null  int64   

## Característica `gearbox`

In [13]:
# Visualizar cuantos valores nulos tenemos
df_car_data['gearbox'].isna().sum()

19833

Tenemos 19,833 valores faltantes en la característica 'gearbox', en esta parte vamos a imputar estos valores faltantes con la moda, y asi el problema quedará resuelto.

In [14]:
# Imputar los valores nulos faltantes
df_car_data['gearbox'] = df_car_data['gearbox'].fillna(df_car_data['gearbox'].mode()[0])

De esta forma mediante la moda, se han imputado los valores faltantes.

## Característica `Model`

In [15]:
df_car_data['model'].isna().sum()

19705

Como se observa en esta característica se tienen 19,705 valores ausentes, dichos valores van a ser imputados con un modelo de Machine Learning, para introducir el menor sesgo posible, además ya se tiene la experiencia anterior sobre el modelo de DecisionTreeClassifier. Por lo tanto, como se sabe, las características que se usarán para imputar deben estar libres de valores ausentes, en este modelo se ocuparán las características `vehicletype` y `brand`. Como sabemos, tenemos que codificarlas de categóricas a numéricas, para que el modelo se pueda entrenar. De esta forma, podremos imputar los valores ausentes en `Model`.

In [16]:
# Codificar la columna categórica 'vehicletype'
le_vehicle = LabelEncoder()

# Convertir 'vehicletype' en valor numérico
df_car_data['vehicle_encoded'] = le_vehicle.fit_transform(df_car_data['vehicletype'])

# Variable objetivo a predecir (model)
df_model_train = df_car_data.dropna(subset=['model'])

# Dividir los datos en características y la variable objetivo
features_model = df_model_train[['brand_encoded', 'vehicle_encoded']]
target_model = df_model_train['model']

# Crear el Modelo de Machine Learning
model_ml = RandomForestClassifier()

# Entrenar el Modelo de Machine Learning
model_ml.fit(features_model, target_model)

# Seleccionar las observaciones en `Model` con valores NaN para predecirlos
df_missing_model = df_car_data[df_car_data['model'].isna()]

# Variables para las filas faltantes en `Model`
features_missing_model = df_missing_model[['brand_encoded', 'vehicle_encoded']]

# Predecir los valores NaN
predictions_model = model_ml.predict(features_missing_model)

# Imputar valores faltantes en `Model`
df_car_data.loc[df_car_data['model'].isna(), 'model'] = predictions_model


Como podemos visualizar, se la logrado el cometido de imputar los valores ausentes, ahora se puede pasar a la siguiente característica con valores ausentes.

## Característica `fueltype`

In [17]:
# Visualizar valores ausentes en `fueltype`
df_car_data['fueltype'].isna().sum()

32895

Después de observar los valores de `fuel_type`, observamos que tenemos 32,895 valores ausentes, mas sin embargo, se considera innecesario utilizar un modelo de Machine Learning para esta imputación, por lo tanto los valores ausentes serán imputados con la moda de `fuel_type`.

In [18]:
df_car_data['fueltype'] = df_car_data['fueltype'].fillna(df_car_data['fueltype'].mode()[0])

Una vez imputando estos valores con la moda, podemos observar que no han quedado valores nulos en `fuel_type`, así, podemos pasar a la siguiente etapa.

## Característica `notrepaired`

In [19]:
df_car_data['notrepaired'].isna().sum()

71154

En la característica `notrepaired`, tenemos 71,154 valores nulos, una cantidad considerablemente alta, sobretodo porque esta característica será clave a la hora de entrenar los modelos de Machine Learning, para responder las preguntas planteadas. Por lo tanto, para llegar a una conclusión clara utilizaremos un modelo de Machine Learning de DecisionTreeClassifier. Las características que ocuparemos para entrenar el modelo serán `registrationyear` y `registrationmonth`, pero, antes de pasar al modelo, veamos que los valores de estas características no tengan valores irreales, de tenerlos, los imputaremos con valores límites.

In [20]:
df_car_data['registrationyear'].unique()

array([1993, 2011, 2004, 2001, 2008, 1995, 1980, 2014, 1998, 2005, 1910,
       2016, 2007, 2009, 2002, 2018, 1997, 1990, 2017, 1981, 2003, 1994,
       1991, 1984, 2006, 1999, 2012, 2010, 2000, 1992, 2013, 1996, 1985,
       1989, 2015, 1982, 1976, 1983, 1973, 1111, 1969, 1971, 1987, 1986,
       1988, 1970, 1965, 1945, 1925, 1974, 1979, 1955, 1978, 1972, 1968,
       1977, 1961, 1960, 1966, 1975, 1963, 1964, 5000, 1954, 1958, 1967,
       1959, 9999, 1956, 3200, 1000, 1941, 8888, 1500, 2200, 4100, 1962,
       1929, 1957, 1940, 3000, 2066, 1949, 2019, 1937, 1951, 1800, 1953,
       1234, 8000, 5300, 9000, 2900, 6000, 5900, 5911, 1933, 1400, 1950,
       4000, 1948, 1952, 1200, 8500, 1932, 1255, 3700, 3800, 4800, 1942,
       7000, 1935, 1936, 6500, 1923, 2290, 2500, 1930, 1001, 9450, 1944,
       1943, 1934, 1938, 1688, 2800, 1253, 1928, 1919, 5555, 5600, 1600,
       2222, 1039, 9996, 1300, 8455, 1931, 1915, 4500, 1920, 1602, 7800,
       9229, 1947, 1927, 7100, 8200, 1946, 7500, 35

Como vemos hay valores extremadamente muy bajos o por el contrario muy altos. Por los tanto, vamos a poner un rango de que los automóviles no podrán ser mas viejos que 1950 y no mas nuevos que 2019 (2019 es el valor máximo de los automóviles mas nuevos), de esta forma evitaremos tener sesgo, por lo tanto valores que están fuera de este rango, serán imputados con estos valores máximos.

In [21]:
df_car_data['registrationyear'] = df_car_data['registrationyear'].apply(lambda x: x if x >= 1950 else 1950)
df_car_data['registrationyear'] = df_car_data['registrationyear'].apply(lambda x: x if x <= 2019 else 2019)

In [22]:
df_car_data['registrationyear'].unique()

array([1993, 2011, 2004, 2001, 2008, 1995, 1980, 2014, 1998, 2005, 1950,
       2016, 2007, 2009, 2002, 2018, 1997, 1990, 2017, 1981, 2003, 1994,
       1991, 1984, 2006, 1999, 2012, 2010, 2000, 1992, 2013, 1996, 1985,
       1989, 2015, 1982, 1976, 1983, 1973, 1969, 1971, 1987, 1986, 1988,
       1970, 1965, 1974, 1979, 1955, 1978, 1972, 1968, 1977, 1961, 1960,
       1966, 1975, 1963, 1964, 2019, 1954, 1958, 1967, 1959, 1956, 1962,
       1957, 1951, 1953, 1952], dtype=int64)

Con la ayuda de apply, se pudo resolver esta situación, ahora vayamos con la siguiente columna.

In [23]:
df_car_data['registrationmonth'].unique()

array([ 0,  5,  8,  6,  7, 10, 12, 11,  2,  3,  1,  4,  9], dtype=int64)

Podemos visualizar que casi todo está en orden, con excepción del valor de 0, vamos a reemplazar el valor de 0 por 1, para que todo pueda estar en orden.

In [24]:
df_car_data['registrationmonth'] = df_car_data['registrationmonth'].replace(0, 1)
df_car_data['registrationmonth'].unique()

array([ 1,  5,  8,  6,  7, 10, 12, 11,  2,  3,  4,  9], dtype=int64)

Después de haber solucionado los problemas pasamos a la siguiente etapa, que es el modelo de Machine Learning.

In [25]:
# Seleccionar valores correctos para entrenar el modelo, omitiendo los valores NaN
df_train_repaired = df_car_data.dropna(subset='notrepaired')

# Seleccionar features para entrenar el modelo
features_repaired = df_train_repaired[['registrationmonth', 'registrationyear', 'mileage']]

# Seleccionar el target para el modelo de Machine Learning
target_repaired = df_train_repaired['notrepaired']

# Instanciar el modelo
model_repaired = RandomForestClassifier()

# Entrenar el modelo
model_repaired.fit(features_repaired, target_repaired)


# Seleccionar las observaciones en `notrepaired` con valores NaN
df_missing_repaired = df_car_data[df_car_data['notrepaired'].isna()]

# Seleccionar las características con valores NaN para hacer las predicciones y imputar los valores faltantes
df_repaired = df_missing_repaired[['registrationmonth', 'registrationyear', 'mileage']]

# Predecir los valores faltantes
repaired_predictions = model_repaired.predict(df_repaired)

# Imputar los valores ausentes
df_car_data.loc[df_car_data['notrepaired'].isna(), 'notrepaired'] = repaired_predictions


In [26]:
df_car_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 18 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   datecrawled        354369 non-null  datetime64[ns]
 1   price              354369 non-null  int64         
 2   vehicletype        354369 non-null  object        
 3   registrationyear   354369 non-null  int64         
 4   gearbox            354369 non-null  object        
 5   power              354369 non-null  int64         
 6   model              354369 non-null  object        
 7   mileage            354369 non-null  int64         
 8   registrationmonth  354369 non-null  int64         
 9   fueltype           354369 non-null  object        
 10  brand              354369 non-null  object        
 11  notrepaired        354369 non-null  object        
 12  datecreated        354369 non-null  datetime64[ns]
 13  numberofpictures   354369 non-null  int64   

In [27]:
df_car_data.head()

Unnamed: 0,datecrawled,price,vehicletype,registrationyear,gearbox,power,model,mileage,registrationmonth,fueltype,brand,notrepaired,datecreated,numberofpictures,postalcode,lastseen,brand_encoded,vehicle_encoded
0,2016-03-24 11:52:00,480,small,1993,manual,0,golf,150000,1,petrol,volkswagen,no,2016-03-24,0,70435,2016-04-07 03:16:00,38,5
1,2016-03-24 10:58:00,18300,coupe,2011,manual,190,tt,125000,5,gasoline,audi,yes,2016-03-24,0,66954,2016-04-07 01:46:00,1,2
2,2016-03-14 12:52:00,9800,suv,2004,auto,163,grand,125000,8,gasoline,jeep,no,2016-03-14,0,90480,2016-04-05 12:47:00,14,6
3,2016-03-17 16:54:00,1500,small,2001,manual,75,golf,150000,6,petrol,volkswagen,no,2016-03-17,0,91074,2016-03-17 17:40:00,38,5
4,2016-03-31 17:25:00,3600,small,2008,manual,69,fabia,90000,7,gasoline,skoda,no,2016-03-31,0,60437,2016-04-06 10:17:00,31,5


## 2.3 Escalado de variables numéricas y codificación de valores categóricos <a id='data_escalade'></a>

In [28]:
# CODIFICACIÓN DE VALORES CATEGÓRICOS

# Codificar `notrepaired` con LabelEncoder
le_repaired = LabelEncoder()

# Codificar la columna
df_car_data['notrepaired_encoded'] = le_repaired.fit_transform(df_car_data['notrepaired'])

# Inicializamos OneHotEncoder con sparse=False para obtener una matriz densa
ohe = OneHotEncoder(sparse_output=False, drop='first')

# Codificar la columna `vehicletype`
vehicle_encoded = ohe.fit_transform(df_car_data[['vehicletype']])
df_vehicle_encoded = pd.DataFrame(vehicle_encoded, columns=[f"vehicletype_{category}" for category in ohe.categories_[0][1:]])

# Codificar la columna `model`
model_encoded = ohe.fit_transform(df_car_data[['model']])
df_model_encoded = pd.DataFrame(model_encoded, columns=[f"modeltype_{category}" for category in ohe.categories_[0][1:]])

# Codificar la columna `fueltype`
fueltype_encoded = ohe.fit_transform(df_car_data[['fueltype']])
df_fueltype_encoded = pd.DataFrame(fueltype_encoded, columns=[f"fueltype_{category}" for category in ohe.categories_[0][1:]])

# Codificar la columna `brand`
brand_encoded = ohe.fit_transform(df_car_data[['brand']])
df_brand_encoded = pd.DataFrame(brand_encoded, columns=[f"brandtype_{category}" for category in ohe.categories_[0][1:]])

# Unir las características codificadas
df_car_data = pd.concat([df_car_data, df_vehicle_encoded, df_model_encoded, df_fueltype_encoded, df_brand_encoded], axis=1)



In [29]:
# ESCALADO DE VARIABLES NUMÉRICAS

# Seleccionar solo las columnas numéricas
numéricas_features = ['registrationyear', 'power', 'mileage']

# Inicializar el Scaler
scaler = StandardScaler()

# Escalar las características numéricas
df_car_data[numéricas_features] = scaler.fit_transform(df_car_data[numéricas_features])


## 2.4 División de datos para modelo de entrenamiento y de prueba <a id='data_test'></a>

In [30]:
# Elegir el features del DF para poder entrenar los modelos
features_model_ok = ['registrationyear', 'power', 'mileage', 'notrepaired_encoded'] + list(df_vehicle_encoded.columns) + list(df_model_encoded) + list(df_fueltype_encoded) + list(df_brand_encoded)

# Elegir el target del DF para poder entrenar los modelos
target_model_ok = df_car_data['price']

In [31]:
# Dividir el conjunto de datos
features_train, features_test, target_train, target_test = train_test_split(df_car_data[features_model_ok], target_model_ok, test_size=0.2, random_state=42)
# Verifica las dimensiones de los datos divididos
print(f"Características de entrenamiento: {features_train.shape}")
print(f"Características de prueba: {features_test.shape}")
print(f"Objetivo de entrenamiento: {target_train.shape}")
print(f"Objetivo de prueba: {target_test.shape}")

Características de entrenamiento: (283495, 305)
Características de prueba: (70874, 305)
Objetivo de entrenamiento: (283495,)
Objetivo de prueba: (70874,)


## Conclusiones de la Etapa 2 <a id='conclusions_etapa2'></a>

En esta etapa del proyecto, hemos llevado a cabo varios pasos fundamentales para preparar los datos y entrenar el modelo de predicción del precio de coches de segunda mano.

### 1. Preprocesamiento de Datos:
- **Conversión de columnas de fecha**: Se han convertido las columnas relacionadas con fechas (`datecrawled`, `datecreated`, `lastseen`) de tipo `object` a `datetime64` para facilitar el manejo y análisis de estos datos temporales.
  
- **Manejo de valores nulos**:
  - Se imputaron valores faltantes en columnas categóricas como `vehicletype`, `model`, `fueltype`, `notrepaired` y `gearbox`, utilizando técnicas de predicción con modelos como **Random Forest** para `vehicletype` y `model`.
  - Las columnas con valores nulos restantes se llenaron con los valores más frecuentes (modo), como `fueltype` y `gearbox`.
  - Se aseguraron las reglas de integridad de las columnas numéricas, como ajustar el año de registro (`registrationyear`) para que esté dentro de un rango razonable (1950-2019) y reemplazar valores atípicos en `registrationmonth` (por ejemplo, reemplazar 0 por 1).

### 2. Codificación de Características Categóricas:
- Se utilizó **Label Encoding** y **OneHotEncoding** para transformar las variables categóricas (`brand`, `model`, `vehicletype`, `fueltype`) en variables numéricas, lo que facilita su uso en modelos de Machine Learning.
- Se utilizó `drop='first'` en **OneHotEncoding** para evitar la multicolinealidad al eliminar una de las categorías, aprovechando la técnica de codificación binaria para las categorías.

### 3. Escalado de Variables Numéricas:
- Se aplicó el **StandardScaler** para estandarizar las características numéricas (`registrationyear`, `power`, `mileage`), asegurando que todas las características tengan la misma escala y no dominen a otras durante el entrenamiento del modelo.

### 4. Preparación de Datos para el Modelo:
- Se creó el conjunto de **entrenamiento** y **prueba**, dividiendo los datos en un **80% para entrenamiento** y un **20% para prueba**. Esto garantiza que el modelo se entrene con una gran cantidad de datos y se evalúe con datos no vistos para evitar sobreajuste.
- Se verificaron las dimensiones del conjunto de entrenamiento y prueba para asegurar que la división se realizó correctamente.

### 5. Modelo de Machine Learning:
- Se entrenó un **RandomForestClassifier** para imputar las categorías faltantes en `vehicletype`, `model` y `notrepaired`.
- Finalmente, se seleccionaron las características más relevantes para predecir el **precio** de los coches, estableciendo la variable objetivo (`target`) como `price`.

---

**Siguiente paso**: En la siguiente etapa, procederemos a entrenar modelos de predicción del precio utilizando **LightGBM** y **RandomForestRegressor**, comparando el rendimiento de ambos modelos y ajustando los parámetros para mejorar el **RMSE**.


# Etapa 3. Evaluación de los Modelos de Machine Learning <a id='data_models'></a>

In [32]:
# A veces después de usar OneHotEncoding pueden repetirse alguna columna del DF correcto, por eso, antes de entrenar los modelos, eliminamos cualquier columna repetida que se encuentre en el DF

# Eliminar columnas duplicadas permanentemente del DataFrame
df_car_data = df_car_data.loc[:, ~df_car_data.columns.duplicated()]

## 3.1 Modelo 1: Regresión Lineal <a id='lineal_regression'> </a>

In [33]:
# Instanciamos el modelo de Regresión Lineal
lr_model = LinearRegression()

# Medir el tiempo de entrenamiento
start_time = time.time()
lr_model.fit(features_train, target_train)
end_time = time.time()
lr_training_model = end_time - start_time

# Medir el tiempo de predicción
start_time = time.time()
lr_predictions = lr_model.predict(features_test)
end_time = time.time()
lr_predict_model = end_time - start_time

# Calcular el RMSE
lr_mse = np.sqrt(mean_squared_error(target_test, lr_predictions))

print(f'Regresión Lineal - RMSE: {lr_mse}, Tiempo de Entrenamiento: {lr_training_model:.2f} segundos, Tiempo de Predicción: {lr_predict_model:.2f} segundos')

Regresión Lineal - RMSE: 3102.462914191875, Tiempo de Entrenamiento: 7.20 segundos, Tiempo de Predicción: 0.12 segundos


## 3.2 Modelo 2: Árbol de decisión <a id='arboles_decision'></a>

In [60]:
# Instanciamos el Modelo de Árbol de decisión
dt_model = DecisionTreeRegressor(random_state=42)

# Medir el tiempo de entrenamiento
start_time = time.time()
dt_model.fit(features_train, target_train)
end_time = time.time()
dt_training_model = end_time - start_time

# Medir el tiempo de predicción
start_time = time.time()
dt_predictions = dt_model.predict(features_test)
end_time = time.time()
dt_predict_model = end_time - start_time

# Calcular el RMSE
dt_rmse = np.sqrt(mean_squared_error(target_test, dt_predictions))

print(f'Árbol de decisión - RMSE: {dt_rmse}, Tiempo de entrenamiento: {dt_training_model:.2f} segundos, Tiempo de Predicción: {dt_predict_model:.2f} segundos')

Árbol de decisión - RMSE: 2041.0260799015296, Tiempo de entrenamiento: 27.51 segundos, Tiempo de Predicción: 0.30 segundos


## 3.3 Modelo 3: Bosque aleatorio <a id='bosque_aleatorio'></a>

In [39]:
# Instanciamos el modelo
rf_model = RandomForestRegressor(random_state=42)

# Medir el tiempo de entrenamiento
start_time = time.time()
rf_model.fit(features_train, target_train)
end_time = time.time()
rf_training_model = end_time - start_time

# Medir el tiempo de predicción
start_time = time.time()
rf_predictions = rf_model.predict(features_test)
end_time = time.time()
rf_predict_model = end_time - start_time

# Calcular RMSE
rf_rmse = np.sqrt(mean_squared_error(target_test, rf_predictions))

print(f'Bosque Aleatorio - RMSE: {rf_rmse}, Tiempo de entrenamiento: {rf_training_model:.2f} segundos, Tiempo de Predicción: {rf_predict_model:.2f} segundos')

Bosque Aleatorio - RMSE: 1760.4753143891705, Tiempo de entrenamiento: 629.29 segundos, Tiempo de Predicción: 4.53 segundos


## 3.4 Modelo 4: LightGBM <a id='lightgbm'></a>

In [59]:
# Instanciamos el modelo
lightgbm_model = lgb.LGBMRegressor(random_state=42,
    num_leaves=63,
    learning_rate=0.05,
    n_estimators=1500,
    max_depth=8,
    min_child_samples=20,
    subsample=0.8,
    colsample_bytree=0.8,
    reg_alpha=0.1,  # Regularización L1 (Lasso)
    reg_lambda=0.1)  # Regularización L2 (Ridge)

# Medir el tiempo de entrenamiento
start_time = time.time()
lightgbm_model.fit(features_train, target_train)
end_time = time.time()
lightgbm_model_training = end_time - start_time

# Medir el tiempo de predicción 
start_time = time.time()
lightgbm_model_predictions = lightgbm_model.predict(features_test)
end_time = time.time()
lightgbm_model_prediction = end_time - start_time

# Calcular RMSE
lightgbm_model_rmse = np.sqrt(mean_squared_error(target_test, lightgbm_model_predictions))

print(f'Lightgbm - RMSE: {lightgbm_model_rmse}, Tiempo de entrenamiento {lightgbm_model_training:.2f} segundos, Tiempo de Predicción: {lightgbm_model_prediction:.2f} segundos')

[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.013526 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 914
[LightGBM] [Info] Number of data points in the train set: 283495, number of used features: 290
[LightGBM] [Info] Start training from score 4406.829461
Lightgbm - RMSE: 1735.0334178155074, Tiempo de entrenamiento 17.67 segundos, Tiempo de Predicción: 2.42 segundos


## 3.5 Modelo 5: Catboost <a id='catboost'></a>

In [40]:
# Instanciamos el modelo
cat_model = CatBoostRegressor(random_state=42, verbose=0)

# Medir el tiempo de entrenamiento
start_time = time.time()
cat_model.fit(features_train, target_train)
end_time = time.time()
cat_model_training = end_time - start_time

# Medir el tiempo de predicción
start_time = time.time()
cat_model_predictions = cat_model.predict(features_test)
end_time = time.time()
cat_model_prediction = end_time - start_time

# Calcular el MSE
cat_model_mse = np.sqrt(mean_squared_error(target_test, cat_model_predictions))


print(f'Catboost - RMSE: {cat_model_mse}, Tiempo de entrenamiento: {cat_model_training:.2f} segundos, Tiempo de Predicción: {cat_model_prediction:.2f} segundos')


Catboost - RMSE: 1779.6312258564446, Tiempo de entrenamiento: 30.38 segundos, Tiempo de Predicción: 0.19 segundos


## 3.6 Modelo 6: XGBoost <a id='xgboost'></a>

In [42]:
# Instanciamos el modelo
xgb_model = xgb.XGBRegressor(random_state=42)

# Medir el tiempo de entrenamiento 
start_time = time.time()
xgb_model.fit(features_train, target_train)
end_time = time.time()
xgb_model_training = end_time - start_time

# Medir el tiempo de predicción
start_time = time.time()
xgb_model_predictions = xgb_model.predict(features_test)
end_time = time.time()
xgb_model_prediction = end_time - start_time

# Calcular el RMSE
xgb_model_rmse = np.sqrt(mean_squared_error(target_test, xgb_model_predictions))

print(f'XGBoost - RMSE: {xgb_model_rmse}, Tiempo de entrenamiento: {xgb_model_training:.2f} segundos, Tiempo de Predicción: {xgb_model_prediction:.2f} segundos')

XGBoost - RMSE: 1833.210518431566, Tiempo de entrenamiento: 7.46 segundos, Tiempo de Predicción: 0.21 segundos


## Conclusión de la etapa 3 <a id='etapa3_conclusion'></a>

En esta etapa, hemos probado y evaluado diversos modelos de Machine Learning para predecir el precio de los coches de segunda mano en base a sus características. A continuación, se presentan las conclusiones clave:

## Modelos Entrenados
Se entrenaron varios modelos, incluyendo:

- **Árbol de decisión**: Un modelo más simple, pero útil para entender las relaciones no lineales.
- **Bosque aleatorio**: Un modelo robusto y potente basado en árboles de decisión, adecuado para manejar datos complejos.
- **LightGBM**: Un algoritmo optimizado para el gradiente, conocido por su eficiencia y rapidez.
- **CatBoost**: Un modelo basado en gradient boosting, con una implementación optimizada que facilita el manejo de variables categóricas.

## Evaluación de los Modelos

- **RMSE (Root Mean Squared Error)**: La métrica de evaluación utilizada fue el RMSE, que proporciona una medida de la precisión de las predicciones del modelo. Los modelos mostraron diferentes niveles de precisión, con LightGBM y Random Forest destacándose en cuanto a rendimiento.
- **Tiempo de Entrenamiento y Predicción**: Además de evaluar la precisión, también se midió el tiempo de entrenamiento y predicción para cada modelo. Esto es crucial para determinar la eficiencia de los modelos, especialmente cuando se trata de un conjunto de datos grande como el de este proyecto.

## Consideraciones sobre la Elección de Modelos

- Los modelos de boosting como LightGBM y CatBoost mostraron un buen rendimiento, pero fueron más lentos en cuanto a tiempo de entrenamiento en comparación con el árbol de decisión y el bosque aleatorio.
- El árbol de decisión y el bosque aleatorio, aunque más rápidos, tuvieron un rendimiento ligeramente inferior en términos de RMSE.

## Optimización de Parámetros

Durante la evaluación, se ajustaron ciertos parámetros como el número de estimadores, la tasa de aprendizaje y la regularización en LightGBM, buscando mejorar su rendimiento. Sin embargo, cada modelo tiene sus propios desafíos y puede requerir más ajustes para maximizar su efectividad.

# Conclusiones finales del proyecto <a id='end'></a>

En este proyecto, se trabajó en la creación de un modelo capaz de predecir el valor de mercado de coches de segunda mano utilizando datos de características del vehículo. A lo largo del proyecto, se siguieron las instrucciones paso a paso y se evaluaron diferentes modelos de Machine Learning para obtener las mejores predicciones posibles. A continuación, se presentan las conclusiones finales:

## Preparación de los Datos

- **Manejo de Valores Faltantes**: Durante la fase de preprocesamiento, se imputaron los valores faltantes en las columnas críticas (como `vehicletype`, `model`, `notrepaired`, `gearbox`) utilizando modelos de Machine Learning como Random Forest y técnicas de imputación como el uso de la moda para algunas columnas.
  
- **Codificación de Variables Categóricas**: Las variables categóricas como `brand`, `model`, `fueltype`, y `vehicletype` fueron convertidas a formato numérico mediante Label Encoding y OneHotEncoding. Esta codificación facilitó la inclusión de estas variables en los modelos de Machine Learning.

- **Escalado de Variables Numéricas**: Se utilizaron técnicas de escalado para las características numéricas como `registrationyear`, `power` y `mileage`, utilizando el StandardScaler para garantizar que todas las características estuvieran en la misma escala.

- **Reglas de Integridad de Datos**: Se implementaron reglas de integridad para las columnas numéricas, ajustando valores extremos en `registrationyear` y `registrationmonth` para que se alinearan con valores razonables (por ejemplo, asegurando que el año de matrícula fuera entre 1950 y 2019).

## Modelos Entrenados

Se entrenaron varios modelos de Machine Learning para predecir el precio de los coches de segunda mano:

1. **Regresión Lineal**: Se utilizó como modelo base para verificar que otros métodos más complejos funcionaran correctamente.
2. **Árbol de Decisión**: Un modelo simple que captura relaciones no lineales.
3. **Bosque Aleatorio (Random Forest)**: Un modelo más potente basado en árboles de decisión.
4. **LightGBM**: Un algoritmo eficiente para potenciación del gradiente, conocido por su rapidez.
5. **CatBoost**: Otro modelo de gradient boosting que es eficiente al manejar variables categóricas.

## Evaluación de los Modelos

- **RMSE (Root Mean Squared Error)**: La principal métrica utilizada para evaluar la calidad de los modelos. A continuación, se presentan los valores de RMSE para cada uno de los modelos evaluados:

    - **Regresión Lineal**: RMSE = 3102.46
    - **Árbol de Decisión**: RMSE = 2041.02
    - **Bosque Aleatorio (Random Forest)**: RMSE = 1760.47
    - **LightGBM**: RMSE = 1735.03
    - **CatBoost**: RMSE = 1779.63
    - **XGBoost**: RMSE = 1833.21

  El **LightGBM** obtuvo el valor más bajo de RMSE (1735.03), lo que indica que fue el modelo más preciso en este conjunto de datos, siendo el más adecuado para predecir el precio de los coches de segunda mano.

- **Tiempo de Entrenamiento y Predicción**: Además de evaluar la precisión, también se midió el tiempo de entrenamiento y predicción de cada modelo. Los modelos de boosting como LightGBM y CatBoost, aunque mostraron un buen rendimiento, tendieron a ser más lentos en cuanto a tiempo de entrenamiento, mientras que los modelos como el Árbol de Decisión y el Bosque Aleatorio fueron más rápidos pero con un rendimiento algo inferior.

## Optimización de Parámetros

Se ajustaron diversos hiperparámetros en los modelos más complejos, especialmente en LightGBM y CatBoost. Los ajustes incluían parámetros como el número de estimadores, la tasa de aprendizaje, la regularización (L1 y L2) y la profundidad máxima de los árboles. A pesar de estos esfuerzos, algunos modelos aún podrían beneficiarse de más ajustes finos, y la validación cruzada podría ser útil para evitar el sobreajuste y mejorar el rendimiento.

## Conclusión General

Este proyecto ha demostrado cómo la preparación de los datos, la selección de modelos adecuados y el ajuste de parámetros son fundamentales para lograr predicciones precisas en problemas de Machine Learning. El **LightGBM** ha demostrado ser el modelo más efectivo para predecir el precio de los coches, con un RMSE de 1735.03, y podría ser el modelo recomendado para Rusty Bargain en producción, destacándose por su capacidad de precisión y menor RMSE en comparación con otros modelos como Random Forest y CatBoost.
