# Modelos de Machine learning para la predicción de precios de autos.

[data set kaglee ](https://www.kaggle.com/datasets/bhavikjikadara/car-price-prediction-dataset)

In [1]:
import pandas as pd
import numpy as np

In [2]:
url='/home/julio/jupyter_files/MLM_CarPrediction/car_prediction_data.csv'
df = pd.read_csv(url)

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301 entries, 0 to 300
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Car_Name       301 non-null    object 
 1   Year           301 non-null    int64  
 2   Selling_Price  301 non-null    float64
 3   Present_Price  301 non-null    float64
 4   Kms_Driven     301 non-null    int64  
 5   Fuel_Type      301 non-null    object 
 6   Seller_Type    301 non-null    object 
 7   Transmission   301 non-null    object 
 8   Owner          301 non-null    int64  
dtypes: float64(2), int64(3), object(4)
memory usage: 21.3+ KB


In [4]:
# Supongamos que df es tu DataFrame
porcentaje_nulos = df.isnull().mean() * 100
print(porcentaje_nulos)

Car_Name         0.0
Year             0.0
Selling_Price    0.0
Present_Price    0.0
Kms_Driven       0.0
Fuel_Type        0.0
Seller_Type      0.0
Transmission     0.0
Owner            0.0
dtype: float64


In [5]:
df.head(10)

Unnamed: 0,Car_Name,Year,Selling_Price,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner
0,ritz,2014,3.35,5.59,27000,Petrol,Dealer,Manual,0
1,sx4,2013,4.75,9.54,43000,Diesel,Dealer,Manual,0
2,ciaz,2017,7.25,9.85,6900,Petrol,Dealer,Manual,0
3,wagon r,2011,2.85,4.15,5200,Petrol,Dealer,Manual,0
4,swift,2014,4.6,6.87,42450,Diesel,Dealer,Manual,0
5,vitara brezza,2018,9.25,9.83,2071,Diesel,Dealer,Manual,0
6,ciaz,2015,6.75,8.12,18796,Petrol,Dealer,Manual,0
7,s cross,2015,6.5,8.61,33429,Diesel,Dealer,Manual,0
8,ciaz,2016,8.75,8.89,20273,Diesel,Dealer,Manual,0
9,ciaz,2015,7.45,8.92,42367,Diesel,Dealer,Manual,0


**Cargar y Preprocesar los Datos**

In [6]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
from sklearn.svm import SVR
from sklearn.neural_network import MLPRegressor

In [7]:
# Separar características y variable objetivo
X = df.drop(columns=['Selling_Price'])  # Usar todas las columnas excepto 'Selling_Price'
y = df['Selling_Price']

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [8]:
# Preprocesamiento de datos
# Escalar características numéricas
numeric_features = ['Year', 'Present_Price', 'Kms_Driven', 'Owner']

numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())])

# Crear el pipeline
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features)
    ]
)

In [9]:
# Características categóricas
categorical_features = ['Car_Name', 'Fuel_Type', 'Seller_Type', 'Transmission']
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

In [10]:
# Crear el preprocesador
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ]
)

**1. Regresión Lineal**

La **Regresión Lineal** es una técnica estadística para modelar la relación entre una variable dependiente y una o más variables independientes. Es uno de los métodos más simples y ampliamente utilizados en aprendizaje automático.

**Conceptos Básicos**

1.1 **Modelo de Regresión Lineal:**

   La ecuación de un modelo de regresión lineal es:
   $y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \epsilon$
   - **$y$:** Variable dependiente (o respuesta).
   - **$\beta_0$:** Intercepto de la línea.
   - **$\beta_i$:** Coeficiente de la variable independiente $x_i$.
   - **$x_i$:** Variables independientes (o características).
   - **$\epsilon$:** Término de error o residuo.

1.2 **Estimación de Coeficientes:**

   Los coeficientes $\beta_i$ se estiman mediante el método de **mínimos cuadrados**:
   $
   \hat{\beta} = \text{argmin}_{\beta} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
   $
   - **$\hat{\beta}$:** Estimaciones de los coeficientes.
   - **$\hat{y}_i$:** Predicciones del modelo.

1.3. **Función de Costo (Error Cuadrático Medio):**

   La función de costo para la regresión lineal es el Error Cuadrático Medio (MSE):
   $
   \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
   $
   - **$y_i$:** Valor real del objetivo.
   - **$\hat{y}_i$:** Predicción del modelo.

1.4. **Suposiciones:**

   - **Linealidad:** La relación entre la variable dependiente y las independientes es lineal.
   - **Independencia de los errores:** Los errores son independientes entre sí.
   - **Homoscedasticidad:** La varianza de los errores es constante.
   - **Normalidad de los errores:** Los errores se distribuyen normalmente.

In [11]:
# 1. Regresión Lineal
linear_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', LinearRegression())
])

linear_pipeline.fit(X_train, y_train)
y_pred_linear = linear_pipeline.predict(X_test)

In [12]:
print('Regresión Lineal - Antes de la Optimización:')
print(f'MSE: {mean_squared_error(y_test, y_pred_linear)}')
print(f'R^2: {r2_score(y_test, y_pred_linear)}')

# Optimización del modelo de Regresión Lineal
# Nota: La regresión lineal no suele requerir optimización de hiperparámetros
# Por lo tanto, simplemente se muestra el resultado de la regresión lineal como está
print('Regresión Lineal - Optimización (No Aplicable)')

Regresión Lineal - Antes de la Optimización:
MSE: 1.201626879313684
R^2: 0.9524622488745045
Regresión Lineal - Optimización (No Aplicable)


**2. Gradient Boosting Regressor**

**Gradient Boosting Regressor (GBR)** es un algoritmo de aprendizaje supervisado utilizado para problemas de regresión y clasificación. Funciona combinando varios modelos simples (típicamente árboles de decisión) en un modelo robusto mediante un proceso iterativo. A continuación se desglosa el proceso y los conceptos clave:

**Introducción al Gradient Boosting Regressor**

Gradient Boosting es un enfoque de ensemble que busca mejorar el rendimiento de un modelo mediante la adición de modelos adicionales que corrigen los errores de los modelos anteriores.

**2.1 Conceptos Básicos**

**Modelo Base:**

   - **Modelo Inicial  $F_0(x)$:** En Gradient Boosting, se comienza con un modelo base que realiza una predicción inicial. Para problemas de regresión, esta predicción inicial es a menudo la media de los valores objetivos.
     $F_0(x) = \frac{1}{n} \sum_{i=1}^{n} y_i $
     - **$y_i$:** El valor real del objetivo para la muestra $i$ .
     - **$n$:** El número total de muestras.
     - **$\frac{1}{n} \sum_{i=1}^{n} y_i $:** La media de todos los valores de la variable objetivo $y$ .

2. **Iteraciones:**

   - El proceso se repite en múltiples iteraciones. En cada iteración, se entrena un nuevo modelo para corregir los errores del modelo anterior.

3. **Función de Pérdida:**

   - La **función de pérdida** mide el error del modelo y guía el proceso de entrenamiento. Para regresión, el Error Cuadrático Medio (MSE) es comúnmente utilizado.
     $\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $
     - **$ \hat{y}_i $:** La predicción del modelo para la muestra $ i $.
     - **$ (y_i - \hat{y}_i)^2 $:** El cuadrado del error entre el valor real $ y_i $ y la predicción $ \hat{y}_i $.

**2. Proceso de Gradient Boosting**

**2.1 Proceso de Gradient Boosting**

**Modelo Inicial:**

   - **$ F_0(x) $:** Es la predicción inicial para todos los datos. Para regresión, a menudo es la media de los valores objetivo $y$. Este modelo no tiene ningún poder predictivo al inicio, pero sirve como punto de partida para las iteraciones siguientes.
     $ F_0(x) = \frac{1}{n} \sum_{i=1}^{n} y_i $

**Iteración de Mejora:**

   En cada iteración $ m $:

   - **Cálculo de Residuales:**

     - **$ r_i^{(m)} $:** Son los residuales para cada muestra $i$ en la iteración  $m$. Representan la diferencia entre el valor real y la predicción actual del modelo. Se utilizan para entrenar un nuevo modelo que intenta corregir estos errores.
       $ r_i^{(m)} = y_i - F_{m-1}(x_i) $
       - **$y_i $:** El valor real del objetivo para la muestra $i$.
       - **$F_{m-1}(x_i)$:** La predicción del modelo en la iteración $ m-1 $ para la muestra $i$.

   - **Entrenamiento del Árbol:**

     - **$h_m(x)$: ** Un modelo simple, típicamente un árbol de decisión, que se entrena para predecir los residuales $r_i^{(m)}$. Este árbol se ajusta para capturar los patrones en los errores del modelo anterior.
       - **$h_m(x)$**: El modelo simple (árbol de decisión) que intenta predecir los errores residuales.

   - **Actualización del Modelo:**

     - **Actualización:** El modelo se actualiza añadiendo las predicciones del árbol entrenado, ponderadas por una tasa de aprendizaje $\eta $:
       $F_m(x) = F_{m-1}(x) + \eta \cdot h_m(x) $
       - **$ F_{m-1}(x)$:** La predicción del modelo en la iteración anterior (iteración \( m-1 \)).
       - **$\eta$:** Tasa de aprendizaje, un hiperparámetro que controla cuánto contribuye el nuevo árbol al modelo. Ajusta la magnitud del cambio en cada iteración.

**2.2 Gradiente y Función de Pérdida**

**Gradiente:**

   - El gradiente es una medida de la tasa de cambio de la función de pérdida con respecto a las predicciones del modelo. En el contexto de Gradient Boosting, se utiliza el gradiente para ajustar el modelo y minimizar la función de pérdida.

   - Para un modelo de regresión, el gradiente en la iteración \( m \) se calcula como:
     $\nabla_{F_{m-1}} \text{L}(y, F_{m-1}(x)) = -\frac{\partial \text{L}(y, F_{m-1}(x))}{\partial F_{m-1}(x)}$
     - **$\text{L}(y, F_{m-1}(x))$:** La función de pérdida en función de las predicciones del modelo.
     - **$\frac{\partial \text{L}(y, F_{m-1}(x))}{\partial F_{m-1}(x)}$:** Derivada parcial de la función de pérdida con respecto a las predicciones del modelo.

**Función de Pérdida $L$:**

   - La función de pérdida mide cuán bien el modelo se ajusta a los datos. En regresión, el Error Cuadrático Medio (MSE) se usa comúnmente:
     $\text{L}(y, F_{m-1}(x)) = (y - F_{m-1}(x))^2 $
     - **$ y $:** Valor real del objetivo.
     - **$F_{m-1}(x)$:** Predicción del modelo.

   - Para cada iteración, el modelo ajusta las predicciones según el gradiente descendente, minimizando así la función de pérdida.

**Función de Pérdida Generalizada:**

   - En Gradient Boosting, se utiliza una forma generalizada de la función de pérdida, conocida como la **"función de pérdida diferenciable"**, para adaptar el algoritmo a diferentes tipos de problemas y funciones de pérdida.

   - Ejemplo de funciones de pérdida diferenciables:
     - **Error Absoluto Medio (MAE):** $\text{L}(y, F_{m-1}(x)) = |y - F_{m-1}(x)| $
     - **Error Cuadrático Medio (MSE):** $\text{L}(y, F_{m-1}(x)) = (y - F_{m-1}(x))^2 $

In [13]:
gbr_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', GradientBoostingRegressor())
])

gbr_pipeline.fit(X_train, y_train)
y_pred_gbr = gbr_pipeline.predict(X_test)

In [14]:
print('Gradient Boosting Regressor - Antes de la Optimización:')
print(f'MSE: {mean_squared_error(y_test, y_pred_gbr)}')
print(f'R^2: {r2_score(y_test, y_pred_gbr)}')

Gradient Boosting Regressor - Antes de la Optimización:
MSE: 0.9830688914027989
R^2: 0.9611086560202325


**Optimización del Gradient Boosting Regressor**

In [15]:

gbr_param_grid = {
    'regressor__n_estimators': [100, 200],
    'regressor__learning_rate': [0.01, 0.1],
    'regressor__max_depth': [3, 5]
}

gbr_grid_search = GridSearchCV(gbr_pipeline, gbr_param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)

In [16]:
gbr_grid_search.fit(X_train, y_train)

In [17]:
best_gbr_model = gbr_grid_search.best_estimator_

In [18]:
y_pred_gbr_opt = best_gbr_model.predict(X_test)

In [19]:
print('Gradient Boosting Regressor - Después de la Optimización:')
print(f'MSE: {mean_squared_error(y_test, y_pred_gbr_opt)}')
print(f'R^2: {r2_score(y_test, y_pred_gbr_opt)}')

Gradient Boosting Regressor - Después de la Optimización:
MSE: 0.9941158007933018
R^2: 0.9606716274897027


**3. Support Vector Regressor (SVR)**


**Soporte Vector Regression (SVR)** es una extensión de las Máquinas de Vectores de Soporte (SVM) adaptada para problemas de regresión. El objetivo de SVR es encontrar una función que tenga un margen de error tolerable, mientras se ajusta lo más cerca posible a los datos. SVR se basa en el mismo principio que SVM para clasificación, que busca encontrar un hiperplano en un espacio de características que maximice el margen entre los puntos de datos.

- **Hiperplano en SVR:**
  En el contexto de regresión, en lugar de encontrar un hiperplano que separe dos clases, el objetivo es encontrar una función de regresión que esté dentro de un margen de error \(\epsilon\) de los valores reales. Matemáticamente, el problema se puede formular como encontrar una función \(f(x)\) tal que la diferencia entre \(f(x)\) y el valor objetivo \(y\) esté dentro de un umbral \(\epsilon\), mientras se minimiza la complejidad del modelo.

**3.1. Función de Pérdida de SVR**

La función de pérdida en SVR es la función de pérdida \(\epsilon\)-insensible, que se define como:
$
L_\epsilon(y_i, f(x_i)) = \begin{cases} 
0 & \text{si } |y_i - f(x_i)| \leq \epsilon \\
|y_i - f(x_i)| - \epsilon & \text{si } |y_i - f(x_i)| > \epsilon 
\end{cases}
$
Donde:
- $y_i$ es el valor real.
- $f(x_i)$ es el valor predicho por el modelo.
- $\epsilon$ es un umbral que define el margen de error tolerable.

**3.2 Función de Costo en SVR**

La función de costo para SVR combina la función de pérdida y una penalización para la complejidad del modelo:
$
\text{Costo} = \frac{1}{2} \|w\|^2 + C \sum_{i=1}^n L_\epsilon(y_i, f(x_i))
$
Donde:
- $\frac{1}{2} \|w\|^2$ es el término de regularización que penaliza la complejidad del modelo.
- $C$ es un parámetro que controla el equilibrio entre la maximización del margen y la minimización de la función de pérdida.

**3.3. Penalización y Parámetro $C$**

- **Penalización de $w$:** La regularización $\frac{1}{2} \|w\|^2$ penaliza grandes valores de $w$, ayudando a evitar un modelo complejo que pueda sobreajustarse a los datos de entrenamiento.
- **Parámetro $C$:** Controla el trade-off entre el margen de separación y el error de ajuste. Un $C$ alto penaliza más los errores de predicción, mientras que un $C$ bajo favorece un margen más amplio pero con mayores errores.

**3.4. Variables de Holgura**

En el contexto de SVR, las variables de holgura $\xi_i$ y          $\xi_i^* $ se introducen para manejar los casos en que los datos no se ajustan perfectamente al margen $\epsilon$. Estas variables representan los errores de predicción que exceden el margen $\epsilon$ y están asociadas con las desviaciones del margen permitido.

**3.5. Núcleos en SVR**

Los núcleos permiten manejar relaciones no lineales en los datos. En SVR, se aplican funciones de núcleo para transformar el espacio de características:

- **Núcleo Lineal:**
  $
  K(x_i, x_j) = x_i^T x_j
  $
  Calcula el producto interno entre los vectores de características, y no transforma los datos.

- **Núcleo RBF (Radial Basis Function):**
  $
  K(x_i, x_j) = \exp(-\gamma \|x_i - x_j \|^2)
  $
  - **$\gamma$:** Controla la influencia del núcleo, afectando el ajuste del modelo a los datos. Un valor bajo de $\gamma$ lleva a un ajuste más generalizado, mientras que un valor alto lleva a un ajuste más específico.

**3.6. Hiperplano en SVR**

En el contexto de SVR, el concepto de hiperplano se generaliza en el espacio de características transformado. Aunque el hiperplano se utiliza comúnmente en SVM para clasificación, en SVR se utiliza para definir la función de regresión en el espacio de características:

- **Espacio Original:**
  La función de regresión que se ajusta a los datos tiene la forma:
  $
  f(x) = \langle w, x \rangle + b
  $
  Donde:
  - $\langle w, x \rangle$ es el producto interno entre el vector de características $x$ y el vector de pesos $w$.
  - $b$ es el sesgo.

- **Espacio Transformado (con Núcleo):**
  En el espacio transformado por la función de núcleo $K$, el objetivo es ajustar la función de regresión:
  $
  f(x) = \sum_{i=1}^n \alpha_i K(x_i, x) + b
  $
  Donde:
  - $\alpha_i$ son los coeficientes de soporte que se determinan durante el entrenamiento.
  - $K(x_i, x)$ es la función de núcleo que transforma los datos.
  - $b$ es el sesgo.

  Aquí, el "hiperplano" en el espacio transformado es una combinación de los núcleos y los coeficientes $\alpha_i$, y se ajusta para minimizar la función de pérdida $\epsilon$-insensible mientras se regula la complejidad del modelo mediante $\frac{1}{2} \|w\|^2$.

**3.7 Relación entre el Núcleo $K$ y la Función de Costo**

El núcleo $K$ se relaciona con la función de costo en el contexto de SVR al transformar el espacio de características y permitir que la regresión se ajuste a relaciones no lineales en los datos. Aquí está cómo se vinculan:

- **Transformación mediante el Núcleo $K$:** El núcleo $K$ transforma el espacio de características para manejar relaciones no lineales en los datos. La función de regresión en el espacio transformado se define mediante una combinación de núcleos:
  $
  f(x) = \sum_{i=1}^n \alpha_i K(x_i, x) + b
  $
  Donde:
  - $\alpha_i$ son los coeficientes de soporte que se determinan durante el entrenamiento.
  - $K(x_i, x)$ es la función de núcleo que transforma los datos.
  - $b$ es el sesgo.

- **Incorporación del Núcleo $K $ en la Función de Costo:** La función de costo no cambia explícitamente por el núcleo, pero el núcleo afecta cómo se ajusta el modelo. El término de regularización v   $\frac{1}{2} \|w\|^2$ se calcula en el espacio de características transformado por $K$. La función de pérdida $\epsilon$-insensible también se calcula en el espacio transformado. Por lo tanto:
  - **Término de Regularización:** En el espacio transformado, el término $\frac{1}{2} \|w\|^2$ penaliza la complejidad del modelo en el nuevo espacio de características. La regularización controla la magnitud de los coeficientes $\alpha_i$, que son ajustados para minimizar el costo total.
  - **Función de Pérdida:** La función de pérdida $\epsilon$-insensible se evalúa utilizando la función de núcleo para calcular la predicción $f(x_i)$ y comparar con el valor real $y_i$. El objetivo es minimizar los errores que superan el margen $\epsilon$, considerando las transformaciones realizadas por $K$.

In [20]:
svr_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', SVR())
])

svr_pipeline.fit(X_train, y_train)
y_pred_svr = svr_pipeline.predict(X_test)

In [21]:
print('Support Vector Regressor - Antes de la Optimización:')
print(f'MSE: {mean_squared_error(y_test, y_pred_svr)}')
print(f'R^2: {r2_score(y_test, y_pred_svr)}')

Support Vector Regressor - Antes de la Optimización:
MSE: 5.832145511472441
R^2: 0.7692735685053886


**Optimización del Support Vector Regressor**

In [22]:

svr_param_grid = {
    'regressor__C': [1, 10],
    'regressor__kernel': ['linear', 'rbf']
}

In [23]:
svr_grid_search = GridSearchCV(svr_pipeline, svr_param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)

In [24]:
svr_grid_search.fit(X_train, y_train)

In [25]:
best_svr_model = svr_grid_search.best_estimator_

In [26]:
y_pred_svr_opt = best_svr_model.predict(X_test)

In [27]:
print('Support Vector Regressor - Después de la Optimización:')
print(f'MSE: {mean_squared_error(y_test, y_pred_svr_opt)}')
print(f'R^2: {r2_score(y_test, y_pred_svr_opt)}')

Support Vector Regressor - Después de la Optimización:
MSE: 2.463459014205097
R^2: 0.9025427081058416


**4 Random Forest Regressor**

El Random Forest Regressor es un modelo de ensemble basado en la combinación de múltiples árboles de decisión para realizar predicciones de regresión. Utiliza la técnica de bagging para construir varios árboles de decisión en diferentes subconjuntos del conjunto de datos y luego promedia las predicciones de todos los árboles para obtener el resultado final.

**4.1. Componentes Matemáticos del Random Forest Regressor**

**4.1.1 Construcción del Árbol de Decisión**

Cada árbol de decisión en un Random Forest se construye mediante divisiones sucesivas de los datos en función de las características. La función objetivo es minimizar la función de pérdida en cada división. Para regresión, la función de pérdida comúnmente utilizada es el Error Cuadrático Medio (MSE):

$
\text{MSE} = \frac{1}{N} \sum_{i=1}^N (y_i - \hat{y}_i)^2
$

donde $y_i$ es el valor real, $\hat{y}_i $ es la predicción del modelo y $N$ es el número total de muestras.

**4.1.2 Creación del Bosque de Árboles**

Un Random Forest se construye combinando múltiples árboles de decisión. Cada árbol se ajusta a una muestra aleatoria del conjunto de datos y se considera una combinación de los resultados de todos los árboles. La predicción final del Random Forest es el promedio de las predicciones de todos los árboles individuales:

$
\hat{y}_{\text{RF}} = \frac{1}{M} \sum_{j=1}^M \hat{y}_{j}
$

donde $\hat{y}_{j} $es la predicción del $j$-ésimo árbol y
$M$ es el número total de árboles en el bosque.

**4.2. Parámetros del Random Forest Regressor**

**4.2.1. Número de Árboles (n_estimators)**

El número de árboles en el bosque afecta la varianza del modelo. A medida que se incrementa el número de árboles $n_{\text{estimators}}$, la varianza tiende a disminuir, lo que reduce el MSE, dado que los errores se promedian entre los árboles. Sin embargo, el sesgo cuadrático y la varianza de los errores $\sigma^2$ se mantienen constantes.

**4.2.2. Profundidad Máxima del Árbol (max_depth)**

La profundidad de los árboles afecta el sesgo y la varianza. Un árbol muy profundo puede modelar el ruido en los datos de entrenamiento, aumentando la varianza y el MSE. Para un árbol con profundidad máxima $d$, la complejidad del modelo puede ser medida como la cantidad de nodos $N$:

$
N \approx 2^d
$

A medida que $d$ aumenta, $N$ crece exponencialmente, lo que puede llevar a un sobreajuste y a un aumento en el MSE en datos no vistos.

**4.2.3. Número Mínimo de Muestras por Hoja (min_samples_leaf) y Número Mínimo de Muestras para Dividir un Nodo (min_samples_split)**

Estos parámetros limitan la profundidad y la estructura de los árboles. Un mayor número mínimo de muestras por hoja y para dividir un nodo reduce la complejidad del árbol y evita el sobreajuste, lo que puede disminuir el MSE. Matemáticamente, el número mínimo de muestras para dividir un nodo$s_{\text{split}}$ y el número mínimo de muestras por hoja $s_{\text{leaf}}$ limitan el número de divisiones y la profundidad del árbol:

$
\text{Profundidad del árbol} \leq \log_{2}\left(\frac{n}{s_{\text{split}}}\right)
$

donde $n$ es el número total de muestras.

**4.3. Número de Características a Considerar (max_features)**

El parámetro `max_features` controla el número de características consideradas para cada división. El número de características se denota como $k$, y afecta la varianza del modelo. 

Para cada nodo, se selecciona aleatoriamente un subconjunto de características:

$
\text{Número de características consideradas} = \sqrt{p}
$

donde $p$ es el número total de características. Aumentar el número de características consideradas puede reducir la varianza, pero también puede aumentar el sesgo.

### **4.4. Relación Matemática con el MSE**

El MSE se puede descomponer en tres componentes:

$
\text{MSE} = \text{Bias}^2 + \text{Varianza} + \sigma^2
$

Donde:
- $\text{Bias}^2$ es el sesgo cuadrático del modelo.
- $\text{Varianza}$ es la varianza de las predicciones del modelo.
- $\sigma^2$ es la varianza de los errores del modelo.

**4.4.1. Sesgo Cuadrático $\text{Bias}^2$**

El sesgo cuadrático mide cuánto se desvían las predicciones promedio del modelo respecto al valor real esperado:

$
\text{Bias}^2 = \left[\mathbb{E}[\hat{y}] - y\right]^2
$

donde $\mathbb{E}[\hat{y}]$  es la expectativa de las predicciones del modelo y $y$ es el valor real.

- **Número de Árboles (n_estimators):** Un aumento en
-  $n_{\text{estimators}}$ generalmente reduce el sesgo cuadrático ya que el promedio de más árboles proporciona una estimación más precisa.

- **Profundidad Máxima del Árbol (max_depth):** Profundidades mayores pueden aumentar el sesgo si el árbol se sobreajusta a los datos de entrenamiento, ya que el árbol puede aprender patrones específicos de entrenamiento que no generalizan bien.

**4.4.2. Varianza**

La varianza mide la variabilidad de las predicciones del modelo para diferentes subconjuntos de datos:

$
\text{Varianza} = \mathbb{E}\left[\left(\hat{y} - \mathbb{E}[\hat{y}]\right)^2\right]
$

- **Número de Árboles (n_estimators):** Aumentar
  $n_{\text{estimators}}$ reduce la varianza al promediar las predicciones de más árboles, lo que suaviza las fluctuaciones.

- **Profundidad Máxima del Árbol (max_depth):** Profundidades mayores tienden a aumentar la varianza porque los árboles muy profundos se ajustan demasiado a los datos de entrenamiento.

- **Número Mínimo de Muestras por Hoja (min_samples_leaf) y Número Mínimo de Muestras para Dividir un Nodo (min_samples_split):** Aumentar estos parámetros reduce la varianza al limitar la complejidad del árbol, evitando el sobreajuste.

- **Número de Características a Considerar (max_features):** Reducir el número de características consideradas en cada división puede reducir la varianza al evitar la dependencia excesiva en características específicas.

**4.4.3. Error Irreducible $\sigma^2 $**

Este término representa el ruido inherente en los datos y no se puede reducir mediante ajustes del modelo. Es independiente del modelo y representa la variabilidad en las predicciones que no se puede explicar por el modelo.

**4.5. Relación Matemática con el MSE**

La relación entre el sesgo, la varianza y el MSE se puede ilustrar con la descomposición del MSE:

$
\text{MSE} = \text{Bias}^2 + \text{Varianza} + \sigma^2
$

Ajustar los parámetros del Random Forest afecta estos componentes de la siguiente manera:

- **Número de Árboles (n_estimators):** Aumentar $n_{\text{estimators}}$ reduce la varianza y, por lo tanto, el MSE.

- **Profundidad Máxima del Árbol (max_depth):** Ajustar $d$ controla el sesgo y la varianza del árbol. Un aumento en $d$ puede reducir el sesgo pero aumentar la varianza.

- **Número Mínimo de Muestras por Hoja (min_samples_leaf) y Número Mínimo de Muestras para Dividir un Nodo (min_samples_split):** Ajustar estos parámetros ayuda a controlar la complejidad del árbol y, por lo tanto, la varianza.

- **Número de Características a Considerar (max_features):** Limitar el número de características reduce la varianza pero puede aumentar el sesgo.

**4.6. Cálculo de la Predicción del Modelo  $\hat{y}$**

En el Random Forest Regressor, la predicción del modelo $\hat{y}_{\text{RF}}$ se calcula como el promedio de las predicciones de todos los árboles individuales en el bosque:

$
\hat{y}_{\text{RF}} = \frac{1}{M} \sum_{j=1}^M \hat{y}_{j}
$

donde:
- $\hat{y}_{j}$ es la predicción del $j$-ésimo

In [28]:
rf_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', RandomForestRegressor())
])

rf_pipeline.fit(X_train, y_train)
y_pred_rf = rf_pipeline.predict(X_test)

In [29]:
print('Random Forest Regressor - Antes de la Optimización:')
print(f'MSE: {mean_squared_error(y_test, y_pred_rf)}')
print(f'R^2: {r2_score(y_test, y_pred_rf)}')

Random Forest Regressor - Antes de la Optimización:
MSE: 1.3647312632786877
R^2: 0.9460096505298052


**Optimización del Random Forest Regressor**

In [30]:
rf_param_grid = {
    'regressor__n_estimators': [100, 200],
    'regressor__max_depth': [10, 20]
}

In [31]:
rf_grid_search = GridSearchCV(rf_pipeline, rf_param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
rf_grid_search.fit(X_train, y_train)
best_rf_model = rf_grid_search.best_estimator_
y_pred_rf_opt = best_rf_model.predict(X_test)

In [32]:
print('Random Forest Regressor - Después de la Optimización:')
print(f'MSE: {mean_squared_error(y_test, y_pred_rf_opt)}')
print(f'R^2: {r2_score(y_test, y_pred_rf_opt)}')

Random Forest Regressor - Después de la Optimización:
MSE: 1.3145922756557382
R^2: 0.9479932069534643


**5 MLPRegressor**

El MLP Regressor es un tipo de red neuronal artificial que se utiliza para problemas de regresión. Está compuesto por múltiples capas de neuronas: una capa de entrada, una o más capas ocultas y una capa de salida. Cada capa está conectada a la siguiente mediante pesos, que se ajustan durante el entrenamiento para minimizar el error de predicción.

**5.1. Componentes Matemáticos del MLP Regressor**

**Estructura de la Red Neuronal**

El MLP Regressor se compone de:
- **Capa de Entrada:** Recibe los datos de entrada.
- **Capas Ocultas:** Realizan transformaciones no lineales a los datos.
- **Capa de Salida:** Produce la predicción final.

Cada neurona en una capa está conectada a todas las neuronas de la siguiente capa, y cada conexión tiene un peso asociado $w$. La salida de una neurona se calcula como:

$a_j = \sigma \left(\sum_{i} w_{ij} x_i + b_j \right)$

donde:
- $a_j$ es la activación de la neurona $j$,
- $x_i$ son las entradas a la neurona $j$,
- $w_{ij}$ es el peso de la conexión entre la neurona $i$ y la neurona $j$,
- $b_j$ es el sesgo de la neurona $j$,
- $\sigma$ es la función de activación (por ejemplo, ReLU, tanh).

La salida de la red se calcula como:

$
\hat{y} = \sum_{k} w_{k} a_k + b
$

donde:
- $\hat{y}$ es la predicción del modelo,
- $a_k$ son las activaciones de la capa de salida,
- $w_{k}$  son los pesos de la capa de salida,
- $b$ es el sesgo de la capa de salida.

**5.2. Función de Pérdida**

La función de pérdida que se minimiza durante el entrenamiento es el Error Cuadrático Medio (MSE):
$
\text{MSE} = \frac{1}{N} \sum_{i=1}^N (y_i - \hat{y}_i)^2
$

donde:
- $y_i$ es el valor real,
- $\hat{y}_i$ es la predicción del modelo,
- $N$ es el número total de muestras.

El objetivo del MLP Regressor es encontrar los pesos y sesgos que minimicen esta función de pérdida.

**5.3. Optimización del MLP Regressor**

**Algoritmo de Optimización**

El algoritmo de optimización utilizado para entrenar un MLP Regressor es típicamente el descenso de gradiente estocástico (SGD) u otros algoritmos de optimización avanzados como Adam o LBFGS.

Durante el entrenamiento, el descenso de gradiente actualiza los pesos $w$ y sesgos $b$ en la dirección opuesta al gradiente de la función de pérdida. La actualización del peso se realiza mediante:

$
w_{ij} \leftarrow w_{ij} - \eta \frac{\partial \text{MSE}}{\partial w_{ij}}
$

donde:
- $\eta$ es la tasa de aprendizaje,
- $\frac{\partial \text{MSE}}{\partial w_{ij}}$ es el gradiente de la función de pérdida respecto al peso $w_{ij}$.

**Funciones de Activación**

Las funciones de activación no lineales introducen no linealidades en el modelo. Algunas funciones de activación comunes son:

- **ReLU (Rectified Linear Unit):**

$
\sigma(x) = \max(0, x)
$

- **Tanh (Tangente Hiperbólica):**

$
\sigma(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}
$

- **Sigmoide:**

$
\sigma(x) = \frac{1}{1 + e^{-x}}
$

**5.4. Sesgo y Varianza en el MLP Regressor**

**Sesgo Cuadrático $\text{Bias}^2$**

El sesgo cuadrático mide cuánto se desvían las predicciones promedio del modelo respecto al valor real esperado:

$
\text{Bias}^2 = \left[\mathbb{E}[\hat{y}] - y\right]^2
$

- **Número de Neuronas en las Capas Ocultas:** Un número mayor de neuronas puede reducir el sesgo al permitir que el modelo capture más complejidades en los datos. Sin embargo, un modelo muy complejo puede sobreajustar y aumentar la varianza.

**Varianza**

La varianza mide la variabilidad de las predicciones del modelo para diferentes subconjuntos de datos:

$
\text{Varianza} = \mathbb{E}\left[\left(\hat{y} - \mathbb{E}[\hat{y}]\right)^2\right]
$

- **Número de Neuronas en las Capas Ocultas:** Aumentar el número de neuronas puede aumentar la varianza porque el modelo se vuelve más flexible y puede sobreajustar los datos de entrenamiento.

- **Número de Capas Ocultas:** Más capas pueden capturar más patrones complejos, pero también pueden aumentar la varianza.

**Error Irreducible $\sigma^2$**

El error irreducible es la variabilidad en los datos que no puede ser explicada por el modelo. Es independiente del modelo y representa el ruido en los datos.

**5.5 Cálculo de la Predicción del Modelo $\hat{y}$**

La predicción del modelo MLP Regressor se calcula como la salida de la red neuronal:

$
\hat{y} = \sum_{k} w_{k} a_k + b
$

donde:
- $a_k$ son las activaciones de la capa de salida,
- $w_{k}$ son los pesos de la capa de salida,
- $b$ es el sesgo de la capa de salida.

El valor final de $\hat{y}$ es el resultado de aplicar la función de activación de la capa de salida a la combinación ponderada de las activaciones de las neuronas.

In [34]:
# Pipeline para la Red Neuronal
mlp_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', MLPRegressor(max_iter=1000))
])

In [35]:
# Entrenamiento del modelo
mlp_pipeline.fit(X_train, y_train)
y_pred_mlp = mlp_pipeline.predict(X_test)

In [36]:
# Evaluación antes de la optimización
print('Red Neuronal - Antes de la Optimización:')
print(f'MSE: {mean_squared_error(y_test, y_pred_mlp)}')
print(f'R^2: {r2_score(y_test, y_pred_mlp)}')

Red Neuronal - Antes de la Optimización:
MSE: 1.1734423404788068
R^2: 0.9535772618754491


**Optimización del MLP Regressor**

In [37]:
mlp_param_grid = {
    'regressor__hidden_layer_sizes': [(50,), (100,), (50, 50)],
    'regressor__activation': ['tanh', 'relu'],
    'regressor__solver': ['adam', 'lbfgs']
}

In [38]:
mlp_grid_search = GridSearchCV(mlp_pipeline, mlp_param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)

In [39]:
mlp_grid_search.fit(X_train, y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("

In [40]:
best_mlp_model = mlp_grid_search.best_estimator_

In [41]:
y_pred_mlp_opt = best_mlp_model.predict(X_test)

In [42]:
# Evaluación después de la optimización
print('Red Neuronal - Después de la Optimización:')
print(f'MSE: {mean_squared_error(y_test, y_pred_mlp_opt)}')
print(f'R^2: {r2_score(y_test, y_pred_mlp_opt)}')

Red Neuronal - Después de la Optimización:
MSE: 0.9973268872948324
R^2: 0.9605445931884732


**Resumen de Resultados**

**1. Regresión Lineal**
- **Antes de la Optimización:** MSE: 1.2016, R²: 0.9525
- **Después de la Optimización:** No aplicable

**2. Gradient Boosting Regressor**
- **Antes de la Optimización:** MSE: 0.9831, R²: 0.9611
- **Después de la Optimización:** MSE: 0.9941, R²: 0.9607

**3. Support Vector Regressor**
- **Antes de la Optimización:** MSE: 5.8321, R²: 0.7693
- **Después de la Optimización:** MSE: 2.4635, R²: 0.9025

**4. Random Forest Regressor**
- **Antes de la Optimización:** MSE: 1.3647, R²: 0.9460
- **Después de la Optimización:** MSE: 1.3146, R²: 0.9480

**5. Red Neuronal (MLP Regressor)**
- **Antes de la Optimización:** MSE: 1.1734, R²: 0.9536
- **Después de la Optimización:** MSE: 0.9973, R²: 0.9605

**Conclusiones**

1. **Regresión Lineal**:
   - La Regresión Lineal presenta un desempeño muy bueno con un R² de 0.9525 antes de la optimización. No requiere optimización adicional en este contexto.

2. **Gradient Boosting Regressor**:
   - **Antes de la Optimización:** Buen desempeño con un MSE de 0.9831 y un R² de 0.9611.
   - **Después de la Optimización:** Ligeramente peor con un MSE de 0.9941 y un R² de 0.9607. La optimización no mejora el rendimiento.

3. **Support Vector Regressor (SVR)**:
   - **Antes de la Optimización:** MSE elevado (5.8321) y R² bajo (0.7693).
   - **Después de la Optimización:** Mejoras significativas con un MSE de 2.4635 y un R² de 0.9025.

4. **Random Forest Regressor**:
   - **Antes de la Optimización:** MSE de 1.3647 y R² de 0.9460.
   - **Después de la Optimización:** Mejora ligera con un MSE de 1.3146 y un R² de 0.9480.

5. **Red Neuronal (MLP Regressor)**:
   - **Antes de la Optimización:** MSE de 1.1734 y R² de 0.9536.
   - **Después de la Optimización:** Mejora a un MSE de 0.9973 y un R² de 0.9605.

**Resumen General**
- La **Regresión Lineal** y la **Red Neuronal** muestran un rendimiento sólido con altos valores de R² y bajos valores de MSE, incluso antes de la optimización.
- El **Gradient Boosting Regressor** y el **Random Forest Regressor** también muestran buenos resultados, con una ligera mejora o disminución después de la optimización.
- El **Support Vector Regressor** muestra la mayor mejora después de la optimización, lo que indica un impacto significativo de los ajustes de parámetros en su rendimiento.