# Modelización Supervisada

El objetivo es predecir la masa resultante de la colision entre dos electrones. Para darle una capa extra al proyecto, se prueban diferentes modelos de ML a los cuales se les aplican los metodos de optimizaciones GridSearchCV y RandomizedSearchCV de manera simultanea. Asi se pueden comparar los resultados, la cantidad de hiperparametros necesaria para generarlo y el tiempo que tomo el modelo bajo cada metodo. 

## 1. Importar paquetes

In [1]:
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
import time
import numpy as np
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from xgboost import XGBRFRegressor
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

## 2. Carga de datos

In [3]:
ruta = 'C:/Users/matia/OneDrive/Escritorio/Mass_Prediction'

### 2.1 Datos de entrenamiento

In [4]:
datos = 'trabajo.csv'
ruta_completa = ruta + '/02_Datos/03_Trabajo/' + datos
df_train = pd.read_csv(ruta_completa, index_col = 0, delimiter = ',')
df_train.head()

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,E2,px2,py2,pz2,pt2,eta2,phi2,Q2,M
0,147115,366639895,58.7141,-7.31132,10.531,-57.2974,12.8202,-2.20267,2.17766,1,11.2836,-1.03234,-1.88066,-11.0778,2.14537,-2.34403,-2.07281,-1,8.94841
1,147115,366704169,6.61188,-4.15213,-0.579855,-5.11278,4.19242,-1.02842,-3.00284,-1,17.1492,-11.7135,5.04474,11.4647,12.7536,0.808077,2.73492,1,15.893
5,147115,366663412,6.39616,-5.45672,-2.09068,-2.60078,5.84352,-0.431551,-2.77571,-1,21.3865,15.1698,-8.8703,-12.1893,17.5728,-0.64745,-0.52912,-1,18.4023
7,147115,367133576,77.0057,10.0029,9.17545,-75.8,13.5737,-2.42103,0.742282,1,9.11623,-1.72295,-1.48674,-8.82761,2.27574,-2.06494,-2.42965,1,11.2912
9,147115,367825395,27.8812,11.939,-18.3462,17.2696,21.8888,0.724032,-0.993887,1,12.9218,-5.0263,11.6026,2.66263,12.6445,0.20905,1.9796,-1,34.2685


### 2.2 Datos de validación

In [5]:
validacion = 'validacion.csv'
ruta_completa = ruta + '/02_Datos/02_Validacion/' + validacion
df_val = pd.read_csv(ruta_completa, index_col = 0, delimiter = ',')
df_val.head()

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,E2,px2,py2,pz2,pt2,eta2,phi2,Q2,M
42,147115,370572917,54.5006,-5.61591,17.7039,51.2382,18.5733,1.73925,1.87797,1,3.57962,0.487619,-3.54028,0.205706,3.57371,0.057529,-1.43392,-1,22.3592
57838,148031,32314239,25.3132,5.44066,23.8125,-6.64226,24.4262,-0.268687,1.34617,1,12.618,0.298286,-3.83894,12.0161,3.85051,1.85593,-1.49325,-1,31.2732
83060,147926,356834649,20.177,7.36378,-11.8032,-14.614,13.9119,-0.916611,-1.013,1,8.24643,-3.64818,-1.50907,-7.23997,3.94797,-1.36676,-2.74937,-1,11.8013
18806,149181,997167820,20.552,9.88102,2.62974,-17.8279,10.225,-1.3227,0.260111,1,6.6135,-1.33333,-0.609515,-6.44896,1.46604,-2.18718,-2.71282,-1,8.453
63365,147754,34538713,9.47001,-2.63765,-0.397099,9.08659,2.66738,1.93973,-2.99216,-1,69.2035,-5.71452,16.1117,67.0587,17.0951,2.07579,1.91164,1,8.64253


## 3. Preprocesamiento

### 3.1 Limpiar espacios variables

In [6]:
df_train.columns = df_train.columns.str.strip()
df_val.columns = df_val.columns.str.strip()

### 3.2 Selección de variables

In [7]:
cols = ['E1', 'E2', 'px1', 'py1', 'pz1', 'px2', 'py2', 'pz2', 
            'pt1', 'pt2', 'eta1', 'eta2', 'phi1', 'phi2', 'Q1', 'Q2', 'M']

### 3.3 Duplicados

In [8]:
df_train = df_train.drop_duplicates()
df_val = df_val.drop_duplicates()

### 3.4 Pipeline de preprocesamiento

In [9]:
preprocesamiento_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),  # Imputar nulos con la media
    ('scaler', StandardScaler())  # Normalizar los datos
])

Aplicación de la pipeline

In [10]:
df_train[cols] = preprocesamiento_pipeline.fit_transform(df_train[cols])
df_val[cols] = preprocesamiento_pipeline.transform(df_val[cols])

## 4. Separación de los set en entrenamiento y target

In [11]:
train_x = df_train.drop(columns = 'M')
train_y = df_train['M']
val_x = df_val.drop(columns = 'M')
val_y = df_val['M']

## 5. Metricas

Instanciar las metricas de forma previa, dado que se van a utilizar las mismas en todos los modelos.

In [12]:
metricas = {
    'MAE': mean_absolute_error,
    'MSE': mean_squared_error,
    'R2': r2_score
}

## 6. Modelización

### 5.1 Regresión lineal

Instanciando el modelo

In [11]:
model = LinearRegression()

Definición de los hiperparametros a probar

In [12]:
grid = {
    'fit_intercept': [True, False],
    'copy_X' : [True, False],
    'positive': [True, False]
}

Entrenamiento utilizando *GridSearch*

In [13]:
start_time = time.time()
grid_search = GridSearchCV(model, grid, cv = 5, scoring = 'r2', n_jobs = -1)
grid_search.fit(train_x, train_y)
grid_time = time.time() - start_time

Recuperar la mejor configuración

In [47]:
best_model_grid = grid_search.best_estimator_
best_model_grid

Entrenaminto utilizando *RandomizedSearch*

In [48]:
start_time = time.time()
random_search = RandomizedSearchCV(model, param_distributions = grid, n_iter = 2, cv = 5, scoring = 'r2', n_jobs = -1, random_state = 42)
random_search.fit(train_x, train_y)
random_time = time.time() -start_time

Recuperar la mejor configuración

In [49]:
best_model_random = random_search.best_estimator_
best_model_random

Utilizar las mejores configuración sobre los datos del set de validación

In [50]:
y_pred_grid = best_model_grid.predict(val_x)
y_pred_random = best_model_random.predict(val_x)

**Resultados de GridSearch**

In [52]:
print('\n Resultados Grid Search')
print(f'Tiempo de búsqueda: {grid_time: .2f} segundos')
for name, metrics in metricas.items():
    print(f'{name}: {metrics(val_y, y_pred_grid): .4f}')


 Resultados Grid Search
Tiempo de búsqueda:  3.62 segundos
MAE:  0.5632
MSE:  0.5954
R2:  0.4096


**Resultados de RandomizedSearch**

In [53]:
print('\n Resultados Random Search')
print(f'Tiempo de búsqueda: {random_time: .2f} segundos')
for name, metrics in metricas.items():
    print(f'{name}: {metrics(val_y, y_pred_random): .4f}')


 Resultados Random Search
Tiempo de búsqueda:  1.15 segundos
MAE:  0.5632
MSE:  0.5953
R2:  0.4097


**Conclusiones iniciales:** La diferencia significativa esta en el tiempo de computo, donde *RandomSearch* utilizo aproximadamente un tiempo menor que *GridSearch* y obtuvo el mismo rendimiento bajo las mismas metricas.

### 5.2 Ridge

Instanciar el modelo

In [21]:
model = Ridge()

Definir los hiperparametros a probar

In [24]:
grid = {
    'alpha': [0.1, 1, 10, 100, 1000],
    'fit_intercept': [True, False]
}

Entrenamiento utilizando *GridSearchCV*

In [37]:
start_time = time.time()
grid_search = GridSearchCV(model, grid, cv = 5, scoring = 'r2', n_jobs = -1)
grid_search.fit(train_x, train_y)
grid_time = time.time() - start_time

  return linalg.solve(A, Xy, assume_a="pos", overwrite_a=True).T


Recuperar la mejor configuración

In [38]:
best_model_grid = grid_search.best_estimator_
best_model_grid

Entrenar con *RandomizedSearchCV*

In [36]:
start_time = time.time()
random_search = RandomizedSearchCV(model, param_distributions = grid, n_iter = 5, cv = 5, scoring = 'r2', n_jobs = -1, random_state = 42)
random_search.fit(train_x, train_y)
random_time = time.time() - start_time

  return linalg.solve(A, Xy, assume_a="pos", overwrite_a=True).T


Recuperar la mejor configuración

In [39]:
best_model_random = random_search.best_estimator_
best_model_random

Utilizar las mejores configuraciones sobre los datos de validación

In [40]:
y_pred_grid = best_model_grid.predict(val_x)
y_pred_random = best_model_random.predict(val_x)

**Resultados de GridSearch**

In [42]:
print('\n Resultados Grid Search')
print(f'Tiempo de búsqueda: {grid_time: .2f} segundos')
for name, metrics in metricas.items():
    print(f'{name}: {metrics(val_y, y_pred_grid): .4f}')


 Resultados Grid Search
Tiempo de búsqueda:  3.18 segundos
MAE:  0.5634
MSE:  0.5953
R2:  0.4097


**Resultados de RandomizedSearch**

In [43]:
print('\n Resultados Grid Search')
print(f'Tiempo de búsqueda: {random_time: .2f} segundos')
for name, metrics in metricas.items():
    print(f'{name}: {metrics(val_y, y_pred_random): .4f}')


 Resultados Grid Search
Tiempo de búsqueda:  2.34 segundos
MAE:  0.5632
MSE:  0.5953
R2:  0.4097


**Conclusiones iniciales:** No hay mucha diferencia en el rendimiento de ambos resultados.

### 5.3 DecisionTreeRegressor

Instanciar el modelo

In [11]:
model = DecisionTreeRegressor(random_state = 42)

Definir los hiperparametros a probar

In [12]:
grid = {
    'max_depth': [3, 5, 10, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

Entrenar con *GridSearchCV*

In [14]:
start_time = time.time()
grid_search = GridSearchCV(model, grid, cv = 5, scoring = 'r2', n_jobs = -1)
grid_search.fit(train_x, train_y)
grid_time = time.time() - start_time

Recuperar la mejor configuración

In [16]:
best_model_grid = grid_search.best_estimator_
best_model_grid

Entrenar con *RandomizedSearchCV*

In [15]:
start_time = time.time()
random_search = RandomizedSearchCV(model, param_distributions = grid, n_iter = 5, cv = 5, scoring = 'r2', n_jobs = -1, random_state = 42)
random_search.fit(train_x, train_y)
random_time = time.time() - start_time

Recuperar la mejor configuración

In [17]:
best_model_random = random_search.best_estimator_
best_model_random

Utilizar las mejores configuraciones sobre los datos de validación

In [18]:
y_pred_grid = best_model_grid.predict(val_x)
y_pred_random = best_model_random.predict(val_x)

**Resultados de GridSearch**

In [21]:
print('\n Resultados del GridSearch')
print(f'Tiempo de búsqueda: {grid_time: .2f} segundos')
for name, metric in metricas.items():
    print(f'{name}: {metric(val_y, y_pred_grid): .4f}')


 Resultados del GridSearch
Tiempo de búsqueda:  77.08 segundos
MAE:  0.2465
MSE:  0.1894
R2:  0.8122


**Resultados de RandomizedSearch**

In [22]:
print('\n Resultados del Random Search')
print(f'Tiempo de búsqueda: {random_time: .2f} segundos')
for name, metric in metricas.items():
    print(f'{name}: {metric(val_y, y_pred_random): .4f}')


 Resultados del Random Search
Tiempo de búsqueda:  12.29 segundos
MAE:  0.2465
MSE:  0.1894
R2:  0.8122


**Conclusiones iniciales**: ambos metodos llegaron a la misma parametrización del modelo, en conjunto con los buenos resultados, lo que puede ser un indicador de que el modelo es efectivo para este problema. La diferenciaa destacar este en el tiempo que toma *RandomizedSearchCV* siendo más rapido para determinar la mejor configuración.

### 5.4 RandomForestRegressor

Instanciar el modelo

In [14]:
model = RandomForestRegressor(random_state = 42, n_jobs = -1)

Los parametros para el *GridSearch* se reducen a solo uno dado que:

- El algoritmo tomaba mucho tiempo en entrenar
- Al ver los resultados del *RandomizedSearch* el parametro *n_estimators* se presentaba como el más relavante

Tambien se redujo el valor de *cv* para mejorar el rendimiento del entrenamiento.

In [16]:
grid_search = {
    'n_estimators': [50, 100, 200]
}

Los hiperpametros a probar para *RandomizedSearchCV* son los siguientes

In [17]:
grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

Entrenar bajo *GridSearch*

In [18]:
start_time = time.time()
grid_search = GridSearchCV(model, grid_search, cv = 3, scoring = 'r2', n_jobs = -1)
grid_search.fit(train_x, train_y)
grid_time = time.time() - start_time

Recuperar la mejor configuración

In [20]:
best_model_grid = grid_search.best_estimator_
best_model_grid

Entrenar bajo *RandomizedSearch*

In [19]:
start_time = time.time()
random_search = RandomizedSearchCV(model, param_distributions = grid, n_iter = 5, cv = 5, scoring = 'r2', n_jobs = -1, random_state = 42)
random_search.fit(train_x, train_y)
random_time = time.time() - start_time

Recuperar la mejor configuración

In [21]:
best_model_random = random_search.best_estimator_
best_model_random

Utilizar las mejores configuraciones sobres los datos de validación

In [22]:
y_pred_grid = best_model_grid.predict(val_x)
y_pred_random = best_model_random.predict(val_x)

**Resultados de GridSearch**

In [23]:
print('\n Resultados del GridSearch')
print(f'Tiempo de búsqueda: {grid_time: .2f} segundos')
for name, metric in metricas.items():
    print(f'{name}: {metric(val_y, y_pred_grid): .4f}')


 Resultados del GridSearch
Tiempo de búsqueda:  578.09 segundos
MAE:  0.1679
MSE:  0.0612
R2:  0.9394


**Resultados de RandomizedSearch**

In [24]:
print('\n Resultados del Random Search')
print(f'Tiempo de búsqueda: {random_time: .2f} segundos')
for name, metric in metricas.items():
    print(f'{name}: {metric(val_y, y_pred_random): .4f}')


 Resultados del Random Search
Tiempo de búsqueda:  680.20 segundos
MAE:  0.1723
MSE:  0.0640
R2:  0.9365


**Conclusiones iniciales:** ambos metodos muestran buenos resultados de acuerdo con las metricas, además de optimizar el mismo hiperparametros. La diferencia de tiempo es significantiva considerando que *RandomizedSearchCV* le tomo 100 segundos más en obtener resultados.

### 5.5 GradientBoostingRegressor

Instanciar el modelo

In [13]:
model = GradientBoostingRegressor(random_state = 42)

Definir los hiperparametros a probar

In [14]:
grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 10],
    'subsample': [0.8, 1.0]
}

Entrenar bajo *GridSearchCV*

In [15]:
start_time = time.time()
grid_search = GridSearchCV(model, grid, cv= 3, scoring = 'r2', n_jobs = -1)
grid_search.fit(train_x, train_y)
grid_time = time.time() - start_time

Recuperar la mejor configuración

In [17]:
best_model_grid = grid_search.best_estimator_
best_model_grid

Entrenar bajo *RandomizedSearchCV*

In [16]:
start_time = time.time()
random_search = RandomizedSearchCV(model, param_distributions = grid, n_iter = 5, cv = 5, scoring = 'r2', n_jobs = -1, random_state = 42)
random_search.fit(train_x, train_y)
random_time = time.time() - start_time

Recuperar la mejor configuración

In [18]:
best_model_random = random_search.best_estimator_
best_model_random

Utilizar las mejores configuraciones sobre los datos de validación

In [19]:
y_pred_grid = best_model_grid.predict(val_x)
y_pred_random = best_model_random.predict(val_x)

**Resultados de GridSearch**

In [20]:
print('\n Resultados del GridSearch')
print(f'Tiempo de búsqueda: {grid_time: .2f} segundos')
for name, metric in metricas.items():
    print(f'{name}: {metric(val_y, y_pred_grid): .4f}')


 Resultados del GridSearch
Tiempo de búsqueda:  3935.96 segundos
MAE:  0.0989
MSE:  0.0203
R2:  0.9799


**Resultados de RandomSearch**

In [21]:
print('\n Resultados del Random Search')
print(f'Tiempo de búsqueda: {random_time: .2f} segundos')
for name, metric in metricas.items():
    print(f'{name}: {metric(val_y, y_pred_random): .4f}')


 Resultados del Random Search
Tiempo de búsqueda:  511.43 segundos
MAE:  0.1282
MSE:  0.0338
R2:  0.9665


### 5.6 XGBRegressor

Instaciar el modelo

In [28]:
model = XGBRFRegressor(objective = 'reg:squarederror', random_state= 42, n_jobs = -1)

Definir los hiperparametros a probar

In [30]:
grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 6, 10],
    'subsample': [0.8, 1.0],
    'colsample_bytree': [0.8, 1.0]
}

Entrenar bajo *GridSearchCV*

In [31]:
start_time = time.time()
grid_search = GridSearchCV(model, grid, cv = 3, scoring = 'r2', n_jobs = -1)
grid_search.fit(train_x, train_y)
grid_time = time.time() - start_time

Recuperar la mejor configuración

In [33]:
best_model_grid = grid_search.best_estimator_
best_model_grid

Entrenar bajo *RandomizedSearchCV*

In [32]:
start_time = time.time()
random_search = RandomizedSearchCV(model, param_distributions = grid, n_iter = 5, cv = 5, scoring = 'r2', n_jobs = -1, random_state = 42)
random_search.fit(train_x, train_y)
random_time = time.time() - start_time

Recuperar la mejor configuración

In [34]:
best_model_random = random_search.best_estimator_
best_model_random

Utilizar las mejores configuraciones sobres los datos de validación

In [35]:
y_pred_grid = best_model_grid.predict(val_x)
y_pred_random = best_model_random.predict(val_x)

**Resultados de GridSearch**

In [36]:
print('\n Resultados del GridSearch')
print(f'Tiempo de búsqueda: {grid_time: .2f} segundos')
for name, metric in metricas.items():
    print(f'{name}: {metric(val_y, y_pred_grid): .4f}')


 Resultados del GridSearch
Tiempo de búsqueda:  421.26 segundos
MAE:  0.6636
MSE:  0.7286
R2:  0.2775


**Resultados de RandomSearch**

In [37]:
print('\n Resultados del Random Search')
print(f'Tiempo de búsqueda: {random_time: .2f} segundos')
for name, metric in metricas.items():
    print(f'{name}: {metric(val_y, y_pred_random): .4f}')


 Resultados del Random Search
Tiempo de búsqueda:  20.36 segundos
MAE:  0.7415
MSE:  0.9085
R2:  0.0991


**Conclusiones iniciales:** El metodo de GridSearch se encuentra mejor posicionado, pese a tomar un tiempo mayor obtiene mejores resultados en general.

## 7. Conclusion

Agrupando los resultados de los modelos bajo el metodo de optimizacion *GridSearchCV* en la siguiente tabla

| Modelo | MSE | MAE | R2 | Time |
|-------|-----|-----|----|------|
|LinearRegression | 0.56 | 0.59 | 0.4 | 3.62 |
|Ridge | 0.56 | 0.59 | 0.4 | 3.18 |
|DecisionTreeRegressor | 0.24 | 0.18 | 0.81 | 77.08 |
|RandomForestRegressor | 0.16 | 0.06 | 0.93 | 578.09 |
|GradientBoostingRegressor | 0.09 | 0.02 | 0.97 | 3935.96 |
|XGBRegressor | 0.66 | 0.72 | 0.27 | 421.26 |

Se obtienen las conclusiones:

- GradientBoostingRegressor tiene el mejor desempeño en cuanto a resultados, aunque es el supera con creces los tiempos de computos de todos los ejercicios realizados.

- RandomForestRegressor toma el segundo lugar, teniendo solo una diferencia de 0.4 con el primer lugar. Pero compensando con un tiempo de computo bastante menor.

Si se toman todos los elementos en consideración, el modelo más adecuado seria RandomForestRegressor. Que cubre resultados optimos con eficiencia de tiempo, dado asi el mejor rendimiento bajo el metodo *GridSearchCV*.

La tabla con los resultados de *RandomizedSearchCV* se muestra a continuación

|Modelo | MSE | MAE | R2 | Time |
|-------|-----|-----|----|------|
|LinearRegression | 0.56 | 0.59 | 0.4 | 1.15 |
|Ridge | 0.56 | 0.59 | 0.4 | 2.34 |
|DecisionTreeRegressor | 0.24 | 0.18 | 0.81 | 12.29 |
|RandomForestRegressor | 0.17 | 0.06 | 0.93 | 680.20 |
|GradientBoostingRegressor | 0.12 | 0.02 | 0.96 | 511.43 |
|XGBRegressor | 0.74 | 0.90 | 0.09 | 20.36 |

Las concluciones que se obtienen son:

- En general, todos los modelos tienen tiempos de computos menores en relación al otro meotodo.

- GradientBoostingRegressor se posiciona como el mejor modelo en cuanto a resultados y rendimiento, en comparación al resto de modelo.

Como conclusion general, el modelo de GradientBoostingRegressor optimizado con *RandomizedSearchCV* es el que entrega el mejor rendimiento. Tiene una diferencia del 0.1 con la solución que obtiene el mejor resultado, pero su tiempo de computo es 7.69 veces menor que él. Por lo tanto es la solución más eficiente en terminos de resultados y tiempo.