# Modelado Predictivo


# Presentación



## Docente:

-  Charletti, Carlos



## Alumnos integrantes:

- Galeano, Agustín
- López, Erick
- Nüesch, Christian
- Zurita Rojo, Débora


## Objetivo:

Desarrollar y evaluar modelos predictivos utilizando el conjunto de datos analizado previamente, con el fin de hacer predicciones basadas en los datos y evaluar el rendimiento de los modelos.


<br>
<br>

# Selección y Preparación de Modelos


En este trabajo, se compararán cuatro algoritmos de uso común en el ámbito del aprendizaje automático: regresión lineal, árboles de decisión, máquinas de soporte vectorial y bosques aleatorios. Cada uno de estos algoritmos posee características únicas y se adapta de manera óptima a distintos tipos de datos y problemas.

Evaluaremos el rendimiento de estos modelos en la predicción de precios de automóviles, prestando especial atención a factores como la precisión, la capacidad de generalización y la interpretabilidad de los resultados. El propósito de este análisis es identificar el algoritmo que mejor se ajuste a nuestro conjunto de datos y que brinde las predicciones más exactas.

<br>

## Selección de algoritmos

**Regresión Lineal Múltiple**

La regresión lineal múltiple es una extensión de la regresión lineal que permite modelar la relación entre una variable dependiente (como el Precio) y múltiples variables independientes (como Kilómetros, Año, Motor y otras características del vehículo). Este modelo busca ajustar una línea (o un hiperplano en dimensiones superiores) que minimiza la suma de los errores al cuadrado.

Ventajas:

- Los coeficientes de la regresión permiten entender la influencia de cada variable independiente sobre el precio, lo que facilita la interpretación de los resultados.
- Es un método relativamente rápido de entrenar, incluso con conjuntos de datos grandes, lo que lo hace adecuado para análisis exploratorios iniciales.
- Si las relaciones son realmente lineales, la regresión múltiple puede ofrecer predicciones muy precisas.

Desventajas:

- Este método asume que las relaciones entre las variables son lineales, lo que puede no ser el caso en situaciones más complejas.
- La presencia de alta correlación entre las variables independientes puede afectar negativamente la estabilidad y la interpretabilidad del modelo.
- No captura interacciones a menos que se incluyan explícitamente términos de interacción, la regresión lineal múltiple no puede modelar relaciones más complejas entre las variables.

La regresión lineal múltiple puede ser efectiva si se verifica que las variables numéricas (como Kilómetros, Año y Motor) presentan relaciones lineales con el precio. No obstante, es crucial analizar la multicolinealidad y considerar transformaciones o interacciones si los datos sugieren relaciones más complejas.

<br>

**Árboles de Decisión**

Los árboles de decisión son modelos no paramétricos que dividen el espacio de características en particiones basadas en reglas de decisión. Cada nodo del árbol representa una decisión tomada en función del valor de una característica, lo que permite una fácil interpretación de cómo se toman las decisiones.

Ventajas:
- A diferencia de la regresión lineal, los árboles de decisión pueden modelar relaciones no lineales entre las variables.
- No requieren una preparación exhaustiva de los datos, como normalización o estandarización. Esto simplifica el flujo de trabajo.
- Pueden trabajar directamente con variables categóricas (como Marca, Modelo, y Color) sin necesidad de codificación previa.

Desventajas:
- Son propensos al sobreajuste, lo que significa que pueden ajustarse demasiado a los datos de entrenamiento, comprometiendo su capacidad de generalización en datos nuevos.
- Pequeñas variaciones en los datos pueden dar lugar a árboles de decisión muy diferentes, lo que puede afectar la consistencia del modelo.

Dado que el dataset incluye tanto variables numéricas (como Kilómetros y Año) como categóricas (Marca, Modelo, Color), los árboles de decisión son una opción adecuada. Su capacidad para manejar diferentes tipos de datos sin un preprocesamiento complicado los convierte en una herramienta muy util para explorar la relación entre las características del auto y su precio. Para mejorar la robustez del modelo y mitigar el riesgo de sobreajuste, se pueden implementar técnicas como la poda del árbol o el uso de ensemble methods, como Random Forests, que combinan múltiples árboles para obtener mejores predicciones.

<br>

**Gradient Boosting Machines (GBM)**

Gradient Boosting Machines (GBM) es un método de aprendizaje automático que combina múltiples modelos débiles (generalmente árboles de decisión) para crear un modelo fuerte mediante la técnica de boosting. En este enfoque, se construyen árboles secuencialmente, donde cada nuevo árbol corrige los errores cometidos por el anterior.

Ventajas:

- GBM es conocido por su capacidad para producir predicciones altamente precisas al combinar múltiples árboles, lo que a menudo supera a otros métodos.
- Puede manejar tanto variables continuas como categóricas, y permite la incorporación de diversas funciones de pérdida, lo que lo hace adecuado para una amplia gama de problemas.
- GBM captura automáticamente interacciones complejas entre variables, lo que puede mejorar el rendimiento en datos no lineales.

Desventajas:

- El rendimiento de GBM puede ser muy sensible a la elección de hiperparámetros (como la tasa de aprendizaje y la profundidad del árbol), lo que puede requerir un ajuste cuidadoso.
- Si no se regula adecuadamente, GBM puede ajustarse demasiado a los datos de entrenamiento, comprometiendo su capacidad de generalización.
Requerimientos computacionales: Dado que construye árboles de manera secuencial, puede ser más lento en comparación con otros algoritmos, especialmente en conjuntos de datos grandes.

Dado que el conjunto de datos incluye tanto variables numéricas (como Kilómetros y Año) como categóricas (Marca, Modelo, Color), GBM puede ser una excelente opción para modelar la relación entre las características del vehículo y su precio. Su capacidad para modelar interacciones y relaciones no lineales lo convierte en un método poderoso en este contexto. Para optimizar su rendimiento, es recomendable realizar un ajuste de hiperparámetros mediante técnicas de validación cruzada y considerar el uso de regularización (como la poda) para prevenir el sobreajuste.

Además, se puede explorar el uso de variantes de GBM, como XGBoost o LightGBM, que están diseñadas para ser más rápidas y eficientes, mejorando aún más la capacidad de predicción y reduciendo el tiempo de entrenamiento.




<br>

## Preparación de datos



<br>

En este paso cargaremos el dataset que, en nuestro caso, es el conjunto de datos ya procesado o curado en etapas previas.

<br>

Para realizar este paso configuramos dos opciones:
- cargar el dataset en formato `csv` en el entorno de trabajo local, por ejemplo Jupyter Notebook
- o si se está trabajando en Google Colab leerlo con la librería Pandas directamente desde un recurso online, en nuestro caso GitHub

<br>


<br>

### Carga del conjunto de datos

En esta etapa, procederemos a cargar el conjunto de datos, que ha sido procesado y curado en fases anteriores para asegurar su calidad y relevancia.

Para realizar este paso configuramos dos opciones:

- cargar el dataset en formato csv en el entorno de trabajo local, por ejemplo Jupyter Notebook
- o si se está trabajando en Google Colab leerlo con la librería Pandas directamente desde un recurso online, en nuestro caso GitHub

In [None]:
# Importamos la librería con la que vamos a poder cargar el dataset y
# realizar más acciones más adelante
import pandas as pd

# Configuramos Pandas para que muestre los números flotantes con dos decimales
pd.set_option('display.float_format', lambda x: '%.2f' % x)


# Cargamos el dataset en dataframe 'data'

# Si se desea cargar el dataset en el entorno de trabajo local se deja activada
# esta línea de código, y se comenta la siguiente
#data = pd.read_csv('autos_argentina_curado.csv')

# Para leer el archivo directamente desde GitHub se deja activada esta línea
# de código, y se comenta la anterior
data = pd.read_csv('https://raw.githubusercontent.com/ISPC-TSCDIA/Data24_PPI/refs/heads/main/datos/autos_argentina_curado.csv')

# Verificamos el dataset
data


Unnamed: 0,Marca,Modelo,Año,Color,Combustible,Puertas,Caja,Motor,Carrocería,Kilómetros,Precio,Moneda,Año_zscore
0,Jeep,Compass,2022,Blanco,Nafta,5,Automática,2.40,SUV,500,10850000,pesos,1.55
1,Jeep,Compass,2022,Gris oscuro,Nafta,5,Automática,2.40,SUV,500,35500,dólares,1.55
2,Toyota,Corolla,2019,Gris,Nafta,4,Manual,1.80,Sedán,9000,5800000,pesos,0.74
3,Jeep,Compass,2022,Negro,Nafta,5,Automática,1.30,SUV,10500,34500,dólares,1.55
4,Kia,Sorento,2014,Negro,Diésel,5,Automática,2.20,SUV,156000,25000,dólares,-0.61
...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,Chevrolet,Tracker,2018,Gris,Nafta,5,Automática,1.80,SUV,52000,5250000,pesos,0.47
496,Volkswagen,Amarok,2019,Gris,Diésel,4,Automática,3.00,Pick-Up,49000,46000,dólares,0.74
497,Peugeot,2008,2017,Blanco,Nafta,5,Manual,1.60,SUV,75358,3960000,pesos,0.20
498,Volkswagen,Amarok,2019,Gris,Diésel,4,Automática,3.00,Pick-Up,57500,44900,dólares,0.74


<br>

En los datos recolectados, se encuentran registros de vehículos en pesos y en dólares. Para unificar la moneda, realizamos una transformación en el dataframe para convertir todos los valores a dólares.

<br>

Optamos por esta alternativa considerando la posibilidad de añadir más registros en el futuro, lo que garantiza que todos los datos estén en una moneda constante y unificada.

<br>

Sin esta unificación, los análisis quedarían sesgados. La primera visualización del dataset muestra una gran diferencia nominal debido a la brecha cambiaria.

<br>

**Elección del tipo de cambio**

En Argentina, el tipo de cambio paralelo, conocido como "dólar blue", ofrece una mejor representación de la realidad económica para dolarizar precios en un dataset, especialmente para bienes de alto valor como vehículos. Esto se debe a que refleja de manera más precisa el acceso real a dólares, el poder adquisitivo y un ajuste más fiel a la realidad económica. Por lo tanto, utilizar el tipo de cambio paralelo puede mejorar la capacidad predictiva de los modelos. En conclusión, el tipo de cambio paralelo ofrece una mejor representación de la realidad económica de las transacciones de vehículos en Argentina.

<br>

**Tipo de cambio con el que se trabajará:** 1USD = 380ARS

Fuente de la cotización: https://dolarhistorico.com/cotizacion-dolar-blue/mes/enero-2023

<br>


In [None]:
# Definimos la tasa de cambio (1 USD = 380 ARS)
tipo_cambio = 380

# Función para convertir precios de pesos a dólares
def convertir_a_dolar(row):
    if row['Moneda'] == 'pesos':
        return row['Precio'] / tipo_cambio
    return row['Precio']

# Aplicamos la función a cada fila del dataframe y redondeamos a dos decimales
data['Precio'] = data.apply(lambda x: round(convertir_a_dolar(x), 2), axis=1)


<br>

Dado que las columnas `Moneda` y `Año_zscore` (esta última proveniente de otro análisis) ya no serán necesarias, las eliminamos del dataframe.

Para realizar esta acción utilizamos el método `drop()` de Pandas, donde:

- El parámetro `columns=['Moneda', 'Año_zscore']` especifica las columnas que se quieren eliminar

- `drop()` devuelve una copia del dataframe sin las columnas especificadas, por lo que reasignamos el resultado a `data`.

<br>


In [None]:
# Eliminamos las columnas 'Moneda' y 'Año_zscore'
data = data.drop(columns=['Moneda', 'Año_zscore'])

# Verificamos el dataframe transformado
data


Unnamed: 0,Marca,Modelo,Año,Color,Combustible,Puertas,Caja,Motor,Carrocería,Kilómetros,Precio
0,Jeep,Compass,2022,Blanco,Nafta,5,Automática,2.40,SUV,500,75.14
1,Jeep,Compass,2022,Gris oscuro,Nafta,5,Automática,2.40,SUV,500,35500.00
2,Toyota,Corolla,2019,Gris,Nafta,4,Manual,1.80,Sedán,9000,40.17
3,Jeep,Compass,2022,Negro,Nafta,5,Automática,1.30,SUV,10500,34500.00
4,Kia,Sorento,2014,Negro,Diésel,5,Automática,2.20,SUV,156000,25000.00
...,...,...,...,...,...,...,...,...,...,...,...
495,Chevrolet,Tracker,2018,Gris,Nafta,5,Automática,1.80,SUV,52000,36.36
496,Volkswagen,Amarok,2019,Gris,Diésel,4,Automática,3.00,Pick-Up,49000,46000.00
497,Peugeot,2008,2017,Blanco,Nafta,5,Manual,1.60,SUV,75358,27.42
498,Volkswagen,Amarok,2019,Gris,Diésel,4,Automática,3.00,Pick-Up,57500,44900.00


<br>

## Preprocesamiento de los datos

<br>
<br>

### División del dataset en conjunto de entrenamiento y prueba

<br>

Una vez cargado el dataset en `data`, podemos proceder a dividirlo. Para dividir el conjunto de datos en entrenamiento y prueba, comúnmente se utiliza la función `train_test_split` de la librería scikit-learn. Entonces:
1. Importamos la función necesaria.
2. Separamos las características (X) y la variable objetivo (y).
3. Dividimos los datos en conjuntos de entrenamiento y prueba.


In [None]:
from sklearn.model_selection import train_test_split

# Seleccionamos las características (X) y la variable objetivo (y)
X = data.drop(['Precio'], axis=1)  # Características (todas las columnas excepto el Precio)
y = data['Precio']                 # Variable objetivo (Precio)

# Dividimos el dataset en un 80% para entrenamiento y un 20% para prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ahora tenemos:
# - X_train, y_train: datos de entrenamiento
# - X_test, y_test: datos de prueba


<br>

Los elementos y parámetros principales que nos quedan son los siguientes:

- `X` : Es el conjunto de características o todas las variables que se usarán para predecir. Es todo el conjunto de datos excepto la columna que se está tratando de predecir (en nuestro caso, el "Precio"). En otras palabras, son las entradas que se utilizan para hacer las predicciones.

  Ejemplo de columnas en `X`: Marca, Modelo, Año, Kilómetros, Motor, etc.

- `y` : La variable objetivo  o respuesta. Es la columna que estamos tratando de predecir, que en este caso es "Precio".

  Ejemplo: Los precios de los autos.

<br>

- `train_test_split` : Esta es la función que divide propiamente el conjunto de datos en dos partes:
  - Un conjunto de entrenamiento (`train`), que se usa para entrenar el modelo.
  - Un conjunto de prueba (`test`), que se usa para evaluar el modelo una vez entrenado.

<br>

- `X_train`, `X_test`, `y_train`, `y_test` :

  - `X_train` : Estas son las características (variables predictoras) que el modelo utilizará para entrenarse. Es una parte de las filas de X.
  Ejemplo: Si se tienen 1000 filas en total y se decide usar el 80% para entrenamiento, entonces `X_train` contendrá las características de 800 filas.

  - `y_train` : Estos son los valores de la variable objetivo (Precio) correspondientes a las filas seleccionadas en `X_train` . Aquí es donde el modelo aprenderá la relación entre las características y el valor a predecir (Precio).

  - `X_test` : Estas son las características de las filas que el modelo no verá durante el entrenamiento. Se utilizan para evaluar cómo de bien generaliza el modelo. Estas características provienen del 20% restante (test).

  - `y_test` : Son los valores reales del precio de las filas seleccionadas en `X_test` . Después de entrenar el modelo, se usará este conjunto para ver qué tan bien el modelo predice el precio en datos nuevos (que no se usaron en el entrenamiento).

<br>

- `test_size=0.2` : Este parámetro indica el porcentaje de los datos que se usarán para el conjunto de prueba. En este caso, el 20% de los datos (0.2) serán utilizados para prueba, y el 80% restante (0.8) se usarán para entrenar el modelo.

- `random_state=40` : El parámetro `random_state` es una semilla que se utiliza para asegurar que la división de los datos sea reproducible. En este caso, se usa el valor 40 (aunque puede ser cualquier número). Esto significa que si se vuelve a ejecutar el código con el mismo valor de `random_state`, se obtendrá siempre la misma división entre entrenamiento y prueba.
  - Sin este valor, cada vez que se ejecute `train_test_split`, se obtendría una división diferente de los datos. `random_state` es útil cuando se quiere que los experimentos sean reproducibles y que otras personas (o uno mismo) obtengan los mismos resultados en el futuro.

De esta manera, podemos entrenar los modelos con `X_train` e `y_train`, y luego evaluar su rendimiento con los conjuntos `X_test` e `y_test`.

<br>

**Como ayuda-memoria:**

|||
|-|-|
|`X_train`|Características para entrenar el modelo.|
|`y_train`|Valores de la variable objetivo para entrenar el modelo.|
|`X_test`|Características para evaluar el modelo.|
|`y_test`|Valores reales (objetivo) correspondientes a `X_test` para evaluar el rendimiento del modelo.|
|`test_size=0.2`|Usa el 20% de los datos para prueba, y el 80% para entrenamiento.|
|`random_state=42`|Garantiza que la división sea la misma cada vez que ejecutes el código.|


<br>
<br>

Antes de seguir adelante, verificamos la forma de los conjuntos divididos:


In [None]:
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)


(400, 10) (100, 10) (400,) (100,)


<br>

### Codificación y transformación de las variables categóricas en dummys.

**Es fundamental ejecutar esta línea de código para `todos los modelos`.**
<br>


<br>


**Para los modelos RLM y SVM,** se deben realizar la transformación de las variables categóricas a numéricas, ya que estas trabajan con este tipo de valores.
<br>
<br>


Cuando se introduce una variable categórica como predictor, un nivel se considera el de referencia (normalmente codificado como 0) y el resto de niveles se comparan con él. En el caso de que el predictor categórico tenga más de dos niveles, se generan lo que se conoce como variables dummy o one-hot-encodding, que son variables creadas para cada uno de los niveles del predictor categórico y que pueden tomar el valor de 0 o 1. Cada vez que se emplee el modelo para predecir un valor, solo una variable dummy por predictor adquiere el valor 1 (la que coincida con el valor que adquiere el predictor en ese caso) mientras que el resto se consideran 0.




In [None]:
# Importar las bibliotecas necesarias
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# Identificar las columnas categóricas en X_train_scaled_df
categorical_cols = X_train_scaled_df.select_dtypes(include=['object', 'category']).columns

# Si hay columnas categóricas, crear un OneHotEncoder
if categorical_cols.size > 0:
    encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')  # sparse=False para obtener una matriz densa

    # Ajustar el encoder a las columnas categóricas de X_train_scaled_df
    encoder.fit(X_train_scaled_df[categorical_cols])

    # Transformar las columnas categóricas en X_train_scaled_df y X_test_scaled_df
    train_encoded = encoder.transform(X_train_scaled_df[categorical_cols])
    test_encoded = encoder.transform(X_test_scaled_df[categorical_cols])

    # Crear DataFrames con las variables codificadas
    train_encoded_df = pd.DataFrame(train_encoded, columns=encoder.get_feature_names_out(categorical_cols))
    test_encoded_df = pd.DataFrame(test_encoded, columns=encoder.get_feature_names_out(categorical_cols))

    # Concatenar las variables codificadas con las numéricas
    X_train_final = pd.concat([X_train_scaled_df.drop(columns=categorical_cols), train_encoded_df], axis=1)
    X_test_final = pd.concat([X_test_scaled_df.drop(columns=categorical_cols), test_encoded_df], axis=1)
else:
    # Si no hay columnas categóricas, no es necesario hacer nada
    X_train_final = X_train_scaled_df
    X_test_final = X_test_scaled_df

# Ahora X_train_final y X_test_final contienen las variables numéricas estandarizadas y las categóricas codificadas.

Con esta visualización Verificamos la correcta transformación



> **Ahora X_train_final y X_test_final contienen las variables numéricas estandarizadas y las categóricas codificadas.**





In [None]:
# Verificar las dimensiones
print("Dimensiones de X_train_final:", X_train_final.shape)
print("Dimensiones de X_test_final:", X_test_final.shape)

# Mostrar las primeras filas
print("Primeras filas de X_train_final:")
print(X_train_final.head())

print("Primeras filas de X_test_final:")
print(X_test_final.head())

# Comprobar los tipos de datos
print("Tipos de datos en X_train_final:")
print(X_train_final.dtypes)

print("Tipos de datos en X_test_final:")
print(X_test_final.dtypes)


Dimensiones de X_train_final: (400, 200)
Dimensiones de X_test_final: (100, 200)
Primeras filas de X_train_final:
   num__Año  num__Puertas  num__Motor  num__Kilómetros  cat__Marca_Audi  \
0     -0.28          0.71       -0.40             0.19             0.00   
1     -1.34         -1.97       -0.40             0.42             0.00   
2      0.77          0.71       -0.54            -0.34             0.00   
3     -0.81         -0.63       -0.68            -0.28             0.00   
4      0.25          0.71       -0.40            -0.13             0.00   

   cat__Marca_BMW  cat__Marca_Baic  cat__Marca_Chery  cat__Marca_Chevrolet  \
0            0.00             0.00              0.00                  0.00   
1            0.00             0.00              0.00                  0.00   
2            0.00             0.00              0.00                  0.00   
3            0.00             0.00              0.00                  1.00   
4            0.00             0.00           

<br>

### Estandarización de las variables.

**Es fundamental ejecutar esta línea de código para `todos los modelos`.**
<br>


<br>

Se procederá a realizar
la estandarización de las características numéricas utilizando StandardScaler de scikit-learn. La estandarización es un proceso de preprocesamiento de datos que **transforma las características para que tengan una media de 0 y una desviación estándar de 1**.
<br>
<br>

La **estandarización se realiza para evitar que las características con escalas más grandes dominen el proceso de aprendizaje** y para mejorar el rendimiento de algunos algoritmos de aprendizaje automático que son sensibles a la escala de las características, como RLM (Regresión Lineal Robusta) y SVM (Máquinas de Vectores de Soporte). En el caso del Árbol de Decisión, la estandarización no es estrictamente necesaria, pero puede ser beneficiosa si las escalas de las características son muy diferentes, lo que si ocurre en nuestros datos ya que tenemos variables unitarias y variables, como precio, expresadas en valores superiores a miles.
<br>
<br>


In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer
import pandas as pd

# Definimos columnas numéricas y categóricas
numerical_cols = X.select_dtypes(include=['number']).columns
categorical_cols = X.select_dtypes(include=['object']).columns

# Definimos preprocesador
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_cols),
        ('cat', 'passthrough', categorical_cols)
    ]
)

# Ajustamos el preprocesador en los datos de entrenamiento
preprocessor.fit(X_train)

# Transformamos tanto el conjunto de entrenamiento como el de prueba
X_train_scaled = preprocessor.transform(X_train)
X_test_scaled = preprocessor.transform(X_test)

# Convertimos los datos estandarizados de vuelta a DataFrame para visualización
X_train_scaled_df = pd.DataFrame(X_train_scaled, columns=preprocessor.get_feature_names_out())
X_test_scaled_df = pd.DataFrame(X_test_scaled, columns=preprocessor.get_feature_names_out())

# Se convierte solo las columnas numéricas de vuelta a float
for col in numerical_cols:
    X_train_scaled_df[f'num__{col}'] = X_train_scaled_df[f'num__{col}'].astype(float)

# Finalmente, verificamos los resultados de la estandarización
print("Estadísticas de datos numéricos - Entrenamiento")
print(X_train_scaled_df.select_dtypes(include=['float64', 'int64']).describe())


Estadísticas de datos numéricos - Entrenamiento
       num__Año  num__Puertas  num__Motor  num__Kilómetros
count    400.00        400.00      400.00           400.00
mean      -0.00          0.00        0.00            -0.00
std        1.00          1.00        1.00             1.00
min       -5.56         -3.30       -1.25            -1.63
25%       -0.55         -0.63       -0.40            -0.69
50%        0.25          0.71       -0.40            -0.18
75%        0.77          0.71        0.17             0.54
max        1.56          0.71        6.39             5.48


Ahora, observamos en las características numéricas que tienen una media igual a 0 y una desviación estándar igual a 1. Esto quiere decir que se llevo a cabo el proceso de forma correcta.
<br>
<br>
Con esto **aseguramos que todas las características tendran una influencia similar en el modelo** y que el algoritmo de aprendizaje no se ve afectado por las diferencias en las escalas de las características originales.
<br>
<br>

> **debemos usar solo el DataFrame estandarizado (X_train_scaled_df y X_test_scaled_df), ya que este modelo puede manejar variables categóricas sin necesidad de codificación.**
<br>
<br>

**Nota:** *Se descartó la normalización en nuestro caso porque la estandarización es generalmente más adecuada para los modelos utilizados (RLM, Árbol de Decisión y SVM) y porque la estandarización ya aborda el problema de las diferentes escalas de las características.*

In [None]:
# Convertiremos las columnas numéricas a float en X_test_scaled_df
numerical_feature_names = [f'num__{col}' for col in numerical_cols]

for col in numerical_feature_names:
    X_test_scaled_df[col] = X_test_scaled_df[col].astype(float)

# Verificamo los tipos de datos después de la conversión
print("Tipos de datos en X_test_scaled_df después de la conversión:")
print(X_test_scaled_df.dtypes)

# Estadísticas descriptivas de datos numéricos
print("Estadísticas de datos numéricos - Entrenamiento")
print(X_train_scaled_df[numerical_feature_names].describe())

print("Estadísticas de datos numéricos - Prueba")
print(X_test_scaled_df[numerical_feature_names].describe())


Tipos de datos en X_test_scaled_df después de la conversión:
num__Año            float64
num__Puertas        float64
num__Motor          float64
num__Kilómetros     float64
cat__Marca           object
cat__Modelo          object
cat__Color           object
cat__Combustible     object
cat__Caja            object
cat__Carrocería      object
dtype: object
Estadísticas de datos numéricos - Entrenamiento
       num__Año  num__Puertas  num__Motor  num__Kilómetros
count    400.00        400.00      400.00           400.00
mean      -0.00          0.00        0.00            -0.00
std        1.00          1.00        1.00             1.00
min       -5.56         -3.30       -1.25            -1.63
25%       -0.55         -0.63       -0.40            -0.69
50%        0.25          0.71       -0.40            -0.18
75%        0.77          0.71        0.17             0.54
max        1.56          0.71        6.39             5.48
Estadísticas de datos numéricos - Prueba
       num__Año  num__Pue

<br>

Al realizar las transformaciones nos encontramos con el **problema** de que, después de aplicar transformaciones a nuestros datos, **todas las columnas numéricas se habian convertido a tipo object.** Esto nos impedía realizar análisis y estandarizaciones correctas. Por lo que, para solucionarlo, forzamos las columnas numéricas a float para asegurar que se mantuvieran en el tipo adecuado.

Luego, comprobamos las primeras filas y tipos de datos nuevamente para asegurarnos de que las conversiones fueran correctas.



<br>
<br>

# Entrenamiento de Modelos y Tuning y Optimización

## Verificaciones adicionales de los datos

Antes de iniciar con los modelos, realizaremos algunas verificaciones pertinentes para asegurarnos en la confiabilidad de los datos para que los modelos se ajusten lo mejor posible.

In [None]:
# Convertir X_train_final a DataFrame si aún no lo es
X_train_final_df = pd.DataFrame(X_train_final)

# Verificar si hay columnas de tipo object
object_columns = X_train_final_df.select_dtypes(include=['object']).columns
print("Columnas de tipo object en X_train_final:", object_columns)


Columnas de tipo object en X_train_final: Index([], dtype='object')


**Se verifican TODAS las columnas en valor numéricos.**


In [None]:
# Mostrar estadísticas descriptivas de las variables numéricas
print("Estadísticas de datos numéricos - Entrenamiento")
print(pd.DataFrame(X_train_final).describe())

print("Estadísticas de datos numéricos - Prueba")
print(pd.DataFrame(X_test_final).describe())


Estadísticas de datos numéricos - Entrenamiento
       num__Año  num__Puertas  num__Motor  num__Kilómetros  cat__Marca_Audi  \
count    400.00        400.00      400.00           400.00           400.00   
mean      -0.00          0.00        0.00            -0.00             0.01   
std        1.00          1.00        1.00             1.00             0.12   
min       -5.56         -3.30       -1.25            -1.63             0.00   
25%       -0.55         -0.63       -0.40            -0.69             0.00   
50%        0.25          0.71       -0.40            -0.18             0.00   
75%        0.77          0.71        0.17             0.54             0.00   
max        1.56          0.71        6.39             5.48             1.00   

       cat__Marca_BMW  cat__Marca_Baic  cat__Marca_Chery  \
count          400.00           400.00            400.00   
mean             0.02             0.00              0.00   
std              0.15             0.05              0.05   


<br>

Este modelo busca **encontrar** una **relación lineal** entre las características (variables independientes) y el precio del auto (nuestra variable objetivo).

El primer paso a la hora de crear un modelo lineal múltiple es **estudiar la relación que existe entre variables**. Esta información es crítica a la hora de identificar cuáles pueden ser los mejores predictores para el modelo, y para detectar colinealidad entre predictores. Además, es recomendable analizar la distribución de cada variable.

Por lo tanto, antes de construir el modelo de regresión lineal múltiple, necesitamos realizar verificaciones iniciales como el **análisis de la relación entre variables**, la detección de colinealidad y la transformación de variables categóricas a numéricas.





<br>

## Regrision Lineal Multiple

#### Entrenamiento

Vamos a entrenar el modelo con los datos estandarizados y codificados:



In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score

# Crear y entrenar el modelo
model_rlm = LinearRegression()
model_rlm.fit(X_train_final, y_train)


<br>

#### Validación cruzada

In [None]:
# Validación cruzada
cv_scores = cross_val_score(model_rlm, X_train_final, y_train, cv=5)
print("Cross-validated scores:", cv_scores)


Cross-validated scores: [-3.38493924e+22 -2.89497517e+22 -4.87569854e+24 -8.06839350e+20
 -6.08154314e+21]


**Los valores extremadamente altos y negativos** sugiere que hay un **problema serio en el ajuste** del modelo de Regresión Lineal Múltiple. A menudo, estos valores indican que el modelo no está capturando bien la relación entre las variables independientes y la variable dependiente, lo cual puede ser causado por:


1. **Multicolinealidad:** Las variables independientes están altamente correlacionadas entre sí.

2. **Escalado incorrecto:** Las variables pueden no estar correctamente estandarizadas o normalizadas.

3. **Datos erróneos o outliers extremos:** Datos atípicos pueden estar afectando el modelo de manera desproporcionada.

### Evaluación del modelo


##### Métricas


Evaluamos el rendimiento del modelo utilizando métricas como MSE, R² y MAE:



In [None]:
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

# Hacer predicciones
predictions_rlm = model_rlm.predict(X_test_final)

# Calcular métricas
mse_rlm = mean_squared_error(y_test, predictions_rlm)
r2_rlm = r2_score(y_test, predictions_rlm)
mae_rlm = mean_absolute_error(y_test, predictions_rlm)

print(f'Error Cuadrático Medio (MSE): {mse_rlm}')
print(f'Coeficiente de Determinación (R²): {r2_rlm}')
print(f'Error Absoluto Medio (MAE): {mae_rlm}')


Error Cuadrático Medio (MSE): 6.092161985691257e+30
Coeficiente de Determinación (R²): -2.717637536660245e+21
Error Absoluto Medio (MAE): 815024591433071.4


Estas métricas indican que **el modelo de regresión lineal múltiple está teniendo problemas significativos para predecir los precios de los automóviles.**

1. Coeficiente de Determinación (R²): Un valor R² negativo, y especialmente uno tan extremo, sugiere que el modelo está muy mal ajustado a los datos. Un R² negativo significa que el modelo está peor que un modelo que simplemente predice el valor medio de la variable objetivo.

2. Error Cuadrático Medio (MSE): El MSE es extremadamente alto, lo que indica que las predicciones del modelo están muy lejos de los valores reales.

3. Error Absoluto Medio (MAE): Un MAE enorme como este sugiere que, en promedio, las predicciones del modelo están fuera por una cantidad muy grande.

<br>

### Optimización del modelo


#### Optimización de hiper parametros.


Para mejorar el rendimiento del modelo de regresión lineal múltiple, implementamos una optimización de hiperparámetros utilizando Grid Search. Este enfoque nos permite evaluar exhaustivamente una serie de combinaciones de hiperparámetros predefinidos y seleccionar aquellos que proporcionan los mejores resultados de validación cruzada. Los parámetros evaluados incluyen *fit_intercept*, *copy_X, n_jobs* y *positive*.

In [None]:
from sklearn.model_selection import GridSearchCV

# Definir la búsqueda de hiperparámetros corregida
param_grid = {
    'fit_intercept': [True, False],
    'copy_X': [True, False],
    'n_jobs': [None, 1, -1],
    'positive': [True, False]
}

# Crear el GridSearchCV
grid_rlm = GridSearchCV(LinearRegression(), param_grid, cv=5)
grid_rlm.fit(X_train_final, y_train)

# para obtener los mejores parámetros
best_params = grid_rlm.best_params_
print("Best parameters:", best_params)

# Evaluando el modelo optimizado
predictions_grid = grid_rlm.predict(X_test_final)
mse_grid = mean_squared_error(y_test, predictions_grid)
r2_grid = r2_score(y_test, predictions_grid)
mae_grid = mean_absolute_error(y_test, predictions_grid)

print(f'MSE después de optimizar: {mse_grid}')
print(f'R² después de optimizar: {r2_grid}')
print(f'MAE después de optimizar: {mae_grid}')


Best parameters: {'copy_X': True, 'fit_intercept': False, 'n_jobs': None, 'positive': False}
MSE después de optimizar: 7.636852326426934e+29
R² después de optimizar: -3.406704646556446e+20
MAE después de optimizar: 193645521500968.1


60 fits failed out of a total of 120.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
60 fits failed with the following error:
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/sklearn/model_selection/_validation.py", line 888, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/usr/local/lib/python3.10/dist-packages/sklearn/base.py", line 1473, in wrapper
    return fit_method(estimator, *args, **kwargs)
  File "/usr/local/lib/python3.10/dist-packages/sklearn/linear_model/_base.py", line 647, in fit
    self.coef_ = optimize.nnls(X, y)[0]
  File "/usr/local/lib/python3.10/dist-packages/scipy/optimize/_nnls.py", line 93, in nnls
    raise RuntimeError("Maximum number of iterations

Los errores sugieren que nuestro enfoque actual para la optimización de la regresión lineal múltiple está fallando. Vamos a intentar otro camino,  usando validación cruzada simple sin ajuste de hiperparámetros, para establecer una línea base más robusta.

**Reentrenamiento y Validación cruzada, ya que no se notan cambios con GridSearchCV.**

In [None]:
#from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score

# Creacion y entrenamiento del modelo
model_rlm = LinearRegression()
model_rlm.fit(X_train_final, y_train)

# Validación cruzada
cv_scores = cross_val_score(model_rlm, X_train_final, y_train, cv=5, scoring='neg_mean_squared_error')
print("Cross-validated MSE scores:", -cv_scores)
print("Mean Cross-validated MSE:", -cv_scores.mean())


Cross-validated MSE scores: [6.28876730e+30 2.60674737e+31 8.46526567e+32 1.52169410e+29
 1.32718404e+30]
Mean Cross-validated MSE: 1.7607243218787357e+32


Los resultados indican que el modelo de regresión lineal múltiple está muy mal ajustado:

* Cross-validated MSE scores: Los valores extremadamente altos y variables del MSE en las diferentes particiones de validación cruzada sugieren que el modelo no captura bien la relación entre las variables.

* Mean Cross-validated MSE: Un valor promedio muy elevado como 1.76e+32 confirma que las predicciones del modelo están muy lejos de los valores reales, indicando un desempeño deficiente.

<br>

#### Evaluación final

Tras la optimización de los hiperparámetros, observamos que el modelo ajustado presentó resultados de MSE y R² aún insatisfactorios. Esto indica que, **a pesar de los esfuerzos de optimización, el modelo de regresión lineal múltiple no es adecuado para capturar la relación compleja entre las variables independientes y la variable objetivo en este conjunto de datos.** Consideramos la exploración de modelos alternativos como Árboles de Decisión para mejorar las predicciones.

<br>

## Árboles de decisión


Los árboles de decisión son un algoritmo ampliamente utilizado para la clasificación y regresión de datos. Son modelos predictivos que utilizan una estructura similar a un árbol para tomar decisiones basadas en características o atributos de los datos de entrada.

<br>

### Entrenamiento


In [None]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

# Crear y entrenar el modelo
model_tree = DecisionTreeRegressor(random_state=42)
model_tree.fit(X_train_final, y_train)

<br>

### Validación cruzada


In [None]:
# Validación cruzada
cv_scores_tree = cross_val_score(model_tree, X_train_final, y_train, cv=5, scoring='neg_mean_squared_error')
print("Cross-validated MSE scores:", -cv_scores_tree)
print("Mean Cross-validated MSE:", -cv_scores_tree.mean())

Cross-validated MSE scores: [1.31382209e+08 4.99633135e+08 3.85914783e+07 6.86577407e+07
 6.75400828e+07]
Mean Cross-validated MSE: 161160929.24969456


**Cross-validated MSE scores:** Estos valores son bastante **consistentes** y muestran que el modelo **se comporta de manera estable** en las distintas particiones de validación cruzada.

<br>

### Evaluación del modelo


#### Métricas

In [None]:
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

# Hacer predicciones
predictions_tree = model_tree.predict(X_test_final)

# Evaluar el modelo
mse_tree = mean_squared_error(y_test, predictions_tree)
r2_tree = r2_score(y_test, predictions_tree)
mae_tree = mean_absolute_error(y_test, predictions_tree)

print(f'R² Árbol de Decisión: {r2_tree}')
print(f'MSE Árbol de Decisión: {mse_tree}')
print(f'MAE Árbol de Decisión: {mae_tree}')


R² Árbol de Decisión: 0.7765294059077364
MSE Árbol de Decisión: 500956819.9892479
MAE Árbol de Decisión: 5946.36


<br>

### Optimización del modelo


<br>

#### Optimización de hiperparámetros

Para mejorar el rendimiento del modelo de Árbol de Decisión, **implementaremos una optimización de hiperparámetros** utilizando Grid Search. Este enfoque nos permite evaluar exhaustivamente una serie de combinaciones de hiperparámetros predefinidos y seleccionar aquellos que proporcionan los mejores resultados de validación cruzada.



In [None]:
from sklearn.model_selection import GridSearchCV

# Definir la búsqueda de hiperparámetros
param_grid = {
    'max_depth': [3, 5, 10, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Crear el GridSearchCV
grid_tree = GridSearchCV(DecisionTreeRegressor(random_state=42), param_grid, cv=5, scoring='neg_mean_squared_error')
grid_tree.fit(X_train_final, y_train)

# Obtener los mejores parámetros
best_params_tree = grid_tree.best_params_
print("Best parameters:", best_params_tree)

# Evaluar el modelo optimizado
predictions_grid_tree = grid_tree.predict(X_test_final)
mse_grid_tree = mean_squared_error(y_test, predictions_grid_tree)
r2_grid_tree = r2_score(y_test, predictions_grid_tree)
mae_grid_tree = mean_absolute_error(y_test, predictions_grid_tree)


print(f'R² después de optimizar: {r2_grid_tree}')
print(f'MSE después de optimizar: {mse_grid_tree}')
print(f'MAE después de optimizar: {mae_grid_tree}')


Best parameters: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2}
R² después de optimizar: 0.7765294059077364
MSE después de optimizar: 500956819.9892479
MAE después de optimizar: 5946.36


**Los mejores parámetros obtenidos tras la optimización de hiperparámetros son:**

1. **max_depth: None:** Esto permite al árbol de decisión crecer sin ninguna restricción sobre su profundidad, permitiéndole capturar más relaciones complejas en los datos.

2. **min_samples_leaf: 1:** Con esto, cada hoja (nodo terminal) del árbol puede tener al menos una muestra, lo cual es el valor mínimo posible.

3. **min_samples_split: 2:** Esto especifica que un nodo interno debe tener al menos 2 muestras para poder dividirse.

<br>

####Evaluación final

<br>

**Sin Optimización**
* R²: 0.7765
* MSE: 500,956,819.99
* MAE: 5,946.36

**Con Optimización**
* R²: 0.7765
* R²: 0.7765
* MSE: 500,956,819.99
* MAE: 5,946.36

<br>

El modelo de Árbol de Decisión, en un inicio, **presentó un buen desempeño**, con un R² de 0.7765, indicando que el modelo explica un 77.65% de la variabilidad en los precios de los automóviles. Las métricas MSE y MAE obtenidas también son significativamente menores que las obtenidas con regresión lineal múltiple. **Esto sugiere que los Árboles de Decisión pueden ser una mejor opción para predecir precios de automóviles en este conjunto de datos.**

**Tras la optimización,** las métricas del modelo de Árbol de Decisión no han cambiado significativamente. Esto sugiere que el modelo ya estaba bien ajustado inicialmente y que los parámetros predeterminados eran prácticamente óptimos para este conjunto de datos. La consistencia en los valores de R², MSE y MAE antes y después de la optimización confirma que el modelo de Árbol de Decisión captura de manera efectiva las relaciones complejas en los datos, proporcionando predicciones precisas sobre los precios de los automóviles.

**Esto demuestra que los Árboles de Decisión, incluso sin una optimización exhaustiva, pueden ser una opción robusta y eficiente para problemas de predicción compleja como éste.**

<br>

## Gradient Boosting Machines (GBM)


<br>

### Preprocesamiento de los datos

In [None]:
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

# Separación de las características numéricas y categóricas
numeric_features = ['Año', 'Kilómetros']  # Características numéricas
categorical_features = ['Marca', 'Modelo', 'Color', 'Combustible', 'Puertas', 'Caja', 'Motor', 'Carrocería']  # Categóricas

# Preprocesamiento: Escalamos las numéricas y aplicamos One-Hot Encoding a las categóricas
# y agregamos handle_unknown='ignore' a OneHotEncoder
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)])


<br>

### Entrenamiento

In [None]:
# Crear el modelo Gradient Boosting
model = GradientBoostingRegressor(random_state=42)

# Crear el pipeline con el preprocesador y el modelo
pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                           ('model', model)])

# Entrenar el modelo usando los datos de entrenamiento
pipeline.fit(X_train, y_train)


<br>

### Evaluación del modelo

#### Métricas

In [None]:
# Predicciones
y_pred = pipeline.predict(X_test)

# Evaluar el modelo
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

print("R² Gradient Boosting Machines:", r2)
print("MSE Gradient Boosting Machines:", mse)
print("MAE Gradient Boosting Machines:", mae)


R² en el conjunto de prueba: 0.6824853170084985
MSE en el conjunto de prueba: 711776627.8709837
MAE en el conjunto de prueba: 6886.819522202933


<br>

### Optimización del modelo

#### Optimización de hiperparámetros

In [None]:
# Definir el rango de hiperparámetros para ajustar
param_grid = {
    'model__n_estimators': [100, 200, 300],
    'model__learning_rate': [0.01, 0.05, 0.1],
    'model__max_depth': [3, 5, 7]
}

# Búsqueda de hiperparámetros con GridSearchCV
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='neg_mean_squared_error', verbose=1)

# Ajustar el modelo con la búsqueda de hiperparámetros
grid_search.fit(X_train, y_train)

# Mostrar los mejores parámetros encontrados
print("Mejores parámetros encontrados:", grid_search.best_params_)

# Realizar predicciones con el mejor modelo
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test)

# Evaluar el rendimiento del mejor modelo
r2_best = r2_score(y_test, y_pred_best)
mse_best = mean_squared_error(y_test, y_pred_best)
mae_best = mean_absolute_error(y_test, y_pred_best)

print("R² del mejor modelo en el conjunto de prueba:", r2_best)
print("MSE del mejor modelo en el conjunto de prueba:", mse_best)
print("MAE del mejor modelo en el conjunto de prueba:", mae_best)


Fitting 5 folds for each of 27 candidates, totalling 135 fits
Mejores parámetros encontrados: {'model__learning_rate': 0.1, 'model__max_depth': 3, 'model__n_estimators': 300}
R² del mejor modelo en el conjunto de prueba: 0.6991797299535785
MSE del mejor modelo en el conjunto de prueba: 674352554.0033422
MAE del mejor modelo en el conjunto de prueba: 6401.492632144722


#### Evaluación final


<br>


**Sin Optimización**

- R² : 0.6825
- MSE : 711,776,627.87
- MAE : 6,886.82

**Con Optimización**

- R² : 0.6992
- MSE : 674,352,554.00
- MAE : 6,401.49

El modelo de Gradient Boosting Machines (GBM), en su versión inicial sin optimización de hiperparámetros, mostró un buen desempeño, con un R² de 0.6825, lo que indica que el modelo explica aproximadamente un 68.25% de la variabilidad en los precios de los automóviles. Las métricas MSE y MAE obtenidas son relativamente altas, lo que sugiere que, aunque el modelo captura una buena parte de las relaciones en los datos, aún podría haber espacio para mejorar la precisión en las predicciones de precios.

Después de la optimización de hiperparámetros, el modelo de Gradient Boosting Machines (GBM) mostró una ligera mejora en el desempeño. El R² aumentó a 0.6992, lo que indica que el modelo optimizado ahora explica un 69.92% de la variabilidad en los precios. Además, el MSE y MAE disminuyeron a 674,352,554.00 y 6,401.49, respectivamente, lo que refleja una reducción en los errores de predicción.

El aumento en el R² y la reducción tanto en el MSE como en el MAE después de la optimización sugiere que la optimización de los hiperparámetros tuvo un efecto positivo, mejorando el ajuste del modelo a los datos. Sin embargo, las mejoras no fueron drásticas, lo que indica que, aunque la optimización ayudó a afinar el modelo, este ya tenía un desempeño razonablemente bueno desde el principio.

Las mejoras en las métricas tras la optimización muestran que, aunque no hubo un cambio radical, la precisión del modelo optimizado es notablemente superior al de la versión sin optimización, especialmente en la reducción de los errores absolutos (MAE).
