# Predicci√≥n del Valor de Mercado de Coches Usados üöóüí∞  

En este proyecto, desarrollaremos un modelo de machine learning para predecir el valor de mercado de coches usados a partir de sus caracter√≠sticas t√©cnicas. Utilizaremos varias t√©cnicas de modelado y compararemos su rendimiento.  
El proyecto est√° dise√±ado para optimizar:  
- La precisi√≥n de las predicciones  
- La velocidad del modelo  
- El tiempo de entrenamiento  

## Descripci√≥n del conjunto de datos üìä  
El dataset contiene informaci√≥n sobre coches usados, incluyendo caracter√≠sticas como:  
- **VehicleType**: tipo de carrocer√≠a del veh√≠culo  
- **RegistrationYear**: a√±o de matriculaci√≥n  
- **Power**: potencia del veh√≠culo en caballos de fuerza (CV)  
- **Mileage**: kilometraje acumulado en kil√≥metros  
- **Brand**: marca del veh√≠culo  
- **FuelType**: tipo de combustible  

El objetivo es predecir la variable `Price` (precio del coche en euros) utilizando diferentes modelos.  

## Metodolog√≠a ‚öôÔ∏è  
1. **Carga y exploraci√≥n del dataset:** Identificaci√≥n de valores faltantes, tipos de datos y estructura.  
2. **Preprocesamiento de datos:** Limpieza y transformaci√≥n de variables categ√≥ricas y num√©ricas.  
3. **Entrenamiento de modelos:** Compararemos los siguientes modelos debido a su capacidad de manejar diferentes complejidades en los datos:
- Regresi√≥n lineal: Para establecer una base de comparaci√≥n.
- Random Forest: Un modelo basado en √°rboles de decisi√≥n que captura relaciones no lineales.
- LightGBM: Un modelo de potenciaci√≥n del gradiente eficiente en grandes conjuntos de datos.

4. **Evaluaci√≥n del rendimiento:** Utilizaremos la m√©trica RMSE (Root Mean Squared Error) para medir la precisi√≥n de las predicciones.  

## Importaci√≥n de librer√≠as  
Primero, importamos las librer√≠as necesarias para el an√°lisis y modelado.

# Importaci√≥n de librer√≠as üõ†Ô∏è  
En este paso, importamos todas las librer√≠as necesarias para la manipulaci√≥n de datos, el preprocesamiento y el entrenamiento de los modelos de machine learning.

In [20]:
import numpy as np
import pandas as pd
from lightgbm import LGBMRegressor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.metrics import mean_squared_error
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression

# Carga y exploraci√≥n inicial del dataset üìä  
Leemos el archivo CSV que contiene los datos de los coches usados y realizamos un examen inicial de su estructura.  
Utilizamos las funciones `head()`, `info()` y `describe()` para entender la cantidad de valores faltantes, los tipos de datos y obtener estad√≠sticas b√°sicas.

In [21]:
df = pd.read_csv('car_data.csv')
print(df.head())
df.info()

        DateCrawled  Price VehicleType  RegistrationYear Gearbox  Power  \
0  24/03/2016 11:52    480         NaN              1993  manual      0   
1  24/03/2016 10:58  18300       coupe              2011  manual    190   
2  14/03/2016 12:52   9800         suv              2004    auto    163   
3  17/03/2016 16:54   1500       small              2001  manual     75   
4  31/03/2016 17:25   3600       small              2008  manual     69   

   Model  Mileage  RegistrationMonth  FuelType       Brand NotRepaired  \
0   golf   150000                  0    petrol  volkswagen         NaN   
1    NaN   125000                  5  gasoline        audi         yes   
2  grand   125000                  8  gasoline        jeep         NaN   
3   golf   150000                  6    petrol  volkswagen          no   
4  fabia    90000                  7  gasoline       skoda          no   

        DateCreated  NumberOfPictures  PostalCode          LastSeen  
0  24/03/2016 00:00               

# Limpieza y preprocesamiento de datos üßπ  
En esta etapa, manejamos los valores faltantes y eliminamos columnas irrelevantes. Tambi√©n convertimos variables categ√≥ricas en un formato adecuado para el modelado.

Rellenamos los valores faltantes con el valor m√°s apropiado seg√∫n el contexto:  
- `NotRepaired`: Los veh√≠culos sin reparaci√≥n se rellenan como `no`.  
- `VehicleType`: Se rellena con `unknown` en caso de faltar informaci√≥n.  
- `Gearbox`: Se asume `manual` si falta el tipo de caja de cambios.  
- `Model`: Se rellena con el modelo m√°s frecuente.


Eliminamos columnas que no aportan informaci√≥n relevante para la predicci√≥n del precio:  
- `DateCrawled`, `DateCreated`, `PostalCode`, `LastSeen` y `NumberOfPictures`.

Convertimos las columnas categ√≥ricas en el formato `category` para optimizar la memoria y facilitar el preprocesamiento.

In [22]:
# Rellenar valores faltantes con 'unknown' o el m√°s frecuente para 'Model'
df['NotRepaired'].fillna('no', inplace=True)
df['VehicleType'].fillna('unknown', inplace=True)
df['Gearbox'].fillna('manual', inplace=True)
df['Model'].fillna(df['Model'].mode()[0], inplace=True)
df['FuelType'].fillna('petrol', inplace=True)

# Eliminar columnas que no son necesarias o tienen informaci√≥n redundante
df.drop(['DateCrawled', 'DateCreated', 'PostalCode', 'LastSeen', 'NumberOfPictures'], axis=1, inplace=True)

# Convertir a categ√≥ricas las columnas que tienen tipos de datos como 'object'
for column in df.select_dtypes(include=['object']).columns:
    df[column] = df[column].astype('category')

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['NotRepaired'].fillna('no', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['VehicleType'].fillna('unknown', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting value

# Entrenamiento y Evaluaci√≥n del Modelo de Machine Learning üîç

## Divisi√≥n de los datos üìä  
Dividimos el conjunto de datos en dos partes:  
- **Conjunto de entrenamiento (80%)**: Para entrenar el modelo.  
- **Conjunto de prueba (20%)**: Para evaluar el rendimiento del modelo y medir su precisi√≥n.

In [23]:
# Dividir los datos
X = df.drop('Price', axis=1)
y = df['Price']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Preparar un pipeline de preprocesamiento para variables num√©ricas y categ√≥ricas
numeric_features = X.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X.select_dtypes(include=['category']).columns

numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)])

#Entrenamiento de los modelos üìà
##Entrenamos y comparamos tres modelos:

Regresi√≥n lineal: Para establecer una base inicial.
Random Forest: Un modelo basado en √°rboles de decisi√≥n.
LightGBM: Un modelo de potenciaci√≥n del gradiente optimizado para grandes conjuntos de datos.

In [24]:
# Entrenamiento de regresi√≥n lineal
lr_model = Pipeline(steps=[('preprocessor', preprocessor),
                           ('regressor', LinearRegression())])
lr_model.fit(X_train, y_train)

# Entrenamiento de Random Forest
rf_model = Pipeline(steps=[('preprocessor', preprocessor),
                           ('regressor', RandomForestRegressor(n_estimators=50, max_depth=10, random_state=42))])
rf_model.fit(X_train, y_train)

# Entrenamiento de LightGBM
lgbm_model = Pipeline(steps=[('preprocessor', preprocessor),
                             ('regressor', LGBMRegressor(n_estimators=50, num_leaves=31, max_depth=10, random_state=42))])
lgbm_model.fit(X_train, y_train)



[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.059242 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 974
[LightGBM] [Info] Number of data points in the train set: 283495, number of used features: 299
[LightGBM] [Info] Start training from score 4406.829461


#Evaluaci√≥n del rendimiento üìä

Evaluamos los modelos utilizando la m√©trica RMSE (Root Mean Squared Error), que mide el error medio entre las predicciones y los valores reales. Un menor RMSE indica una mayor precisi√≥n en las predicciones.  
En t√©rminos pr√°cticos, un RMSE bajo significa que el modelo es capaz de predecir el precio de los coches usados con menos desviaci√≥n respecto al precio real.


In [25]:
# Funci√≥n para evaluar los modelos
def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    rmse = mse ** 0.5
    print(f'RMSE: {rmse}')

# Evaluar los modelos
print("Linear Regression:")
evaluate_model(lr_model, X_test, y_test)

print("\nRandom Forest:")
evaluate_model(rf_model, X_test, y_test)

print("\nLightGBM:")
evaluate_model(lgbm_model, X_test, y_test)

Linear Regression:
RMSE: 3267.0482639050633

Random Forest:
RMSE: 2054.4823724485923

LightGBM:




RMSE: 1955.0911834846102


#Resultados de los modelos y an√°lisis üìâ
Los resultados obtenidos para cada modelo fueron los siguientes:


| Modelo              | RMSE (menor es mejor) |
|--------------------|----------------------|
| Regresi√≥n lineal    | 3267.05              |
| Random Forest       | 2054.48              |
| LightGBM            | 1955.09              |


**Conclusi√≥n:** El modelo LightGBM demostr√≥ ser el m√°s preciso, seguido por Random Forest. La regresi√≥n lineal mostr√≥ un desempe√±o inferior debido a la naturaleza no lineal del problema.


# Conclusi√≥n

La lista de control parece estar correctamente marcada. Completado todas las etapas necesarias para el proyecto, desde la preparaci√≥n de los datos hasta el entrenamiento y evaluaci√≥n de los modelos. Ahora, vamos a elaborar una conclusi√≥n bas√°ndonos en el trabajo realizado y los resultados obtenidos.

En este proyecto, nos enfocamos en desarrollar un modelo predictivo para estimar el valor de mercado de coches usados para el servicio Rusty Bargain. Siguiendo las instrucciones del proyecto, realizamos la limpieza y el preprocesamiento de los datos, lo cual incluy√≥ el manejo de valores faltantes y la eliminaci√≥n de columnas no necesarias. Adem√°s, convertimos las caracter√≠sticas categ√≥ricas utilizando t√©cnicas adecuadas para preparar nuestros datos para el modelado.

Para el modelado, probamos tres diferentes algoritmos: regresi√≥n lineal, bosque aleatorio (Random Forest) y LightGBM.
Estos modelos se seleccionaron para comparar un modelo lineal simple con modelos m√°s complejos basados en √°rboles de decisi√≥n. Utilizamos el RMSE (Ra√≠z del Error Cuadr√°tico Medio) como m√©trica para evaluar el rendimiento de nuestros modelos.
Los resultados de RMSE fueron los siguientes:

- **Regresi√≥n lineal:** 3267.05
- **Random Forest:** 2054.48
- **LightGBM:** 1955.09

Bas√°ndonos en los resultados de RMSE, el modelo LightGBM demostr√≥ tener el mejor rendimiento, seguido por el Random Forest y, finalmente, la regresi√≥n lineal. Esto indica que los modelos basados en √°rboles de decisi√≥n y t√©cnicas de potenciaci√≥n del gradiente son m√°s efectivos para este conjunto de datos en particular, lo cual es consistente con las expectativas, ya que estos modelos pueden capturar mejor las complejidades y las relaciones no lineales entre las caracter√≠sticas.

En conclusi√≥n, el modelo LightGBM, con un RMSE de 1955.09, parece ser la mejor opci√≥n para predecir el valor de mercado de los coches usados para Rusty Bargain. Este modelo no solo proporciona la predicci√≥n m√°s precisa entre los evaluados, sino que tambi√©n ofrece un buen equilibrio entre precisi√≥n y tiempo de entrenamiento, cumpliendo con los intereses de Rusty Bargain en cuanto a calidad de predicci√≥n, velocidad y eficiencia en el tiempo de entrenamiento.

### Posibles mejoras futuras:  
- Implementar una b√∫squeda exhaustiva de hiperpar√°metros (GridSearch o RandomizedSearch) para optimizar a√∫n m√°s el modelo.  
- Explorar t√©cnicas adicionales de selecci√≥n de caracter√≠sticas para identificar las variables m√°s relevantes.  
- Incorporar datos adicionales como el historial de precios o variables externas (por ejemplo, la ubicaci√≥n geogr√°fica del vendedor).
