In [None]:
# ==========================================================
# Maestría en Ciencia y Análisis de Datos
# Universidad Mayor de San Andrés
# ----------------------------------------------------------
#           Machine Learning y Deep Learning
# ----------------------------------------------------------
#        Rolando Gonzales Martinez, Agosto 2024
# ==========================================================
#   Estimación y comparación de múltiples modelos de 
#                 machine learning
# ==========================================================
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import ElasticNet, LinearRegression
from sklearn.linear_model import Ridge, Lasso, BayesianRidge
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
import matplotlib.pyplot as plt

In [None]:
# Cargar el conjunto de datos:
url = 'https://raw.githubusercontent.com/rogon666/UMSA/main/AIMLDL/Datos/salarios.csv'

# Cargar los datos en un DataFrame
datos = pd.read_csv(url)

# Mostrar las primeras filas del DataFrame
print(datos.head())

In [None]:
# Preparacion de datos
y = np.log(datos.iloc[:, 0])  # Primera columna como objetivo, aplicando logaritmo
X = datos.iloc[:, 1:]  # Resto de las columnas como características
# Preprocesamiento de datos: Estandarizacion:
preprocesador = Pipeline(steps=[
    ('escalador', StandardScaler())
])

In [None]:
# Dividir los datos en conjuntos de entrenamiento y prueba
proporcion_muestra_entrenamiento = # 30%
semilla = 
X_entrenamiento, X_prueba, y_entrenamiento, y_prueba = train_test_split(X, y, 
                                                                        test_size=proporcion_muestra_entrenamiento, 
                                                                        random_state=semilla)

In [None]:
# Modelos machine learning:
modelos = {
    'Regresión Lineal': Pipeline(steps=[('preprocesador', preprocesador),
                                        ('regresor', LinearRegression())]),
    'Bosque Aleatorio': Pipeline(steps=[('preprocesador', preprocesador),
                                        ('regresor', RandomForestRegressor())]),
    'Máquinas soporte vectorial': Pipeline(steps=[('preprocesador', preprocesador),
                           ('regresor', SVR())]),
    'Ridge': Pipeline(steps=[('preprocesador', preprocesador),
                             ('regresor', Ridge())]),
    'Lasso': Pipeline(steps=[('preprocesador', preprocesador),
                             ('regresor', Lasso())]),
    'Bayesian Ridge': Pipeline(steps=[('preprocesador', preprocesador),
                                      ('regresor', BayesianRidge())]),
    'Elastic Net': Pipeline(steps=[('preprocesador', preprocesador),
                                   ('regresor', ElasticNet())]),
    'XGBoost': Pipeline(steps=[('preprocesador', preprocesador),
                               ('regresor', XGBRegressor())])
}

# Entrenar y evaluar los modelos
resultados = {}
for nombre, modelo in modelos.items():
    modelo.fit(X_entrenamiento, y_entrenamiento)
    y_pred = modelo.predict(X_prueba)

    rmse = mean_squared_error(y_prueba, y_pred, squared=False)
    mae = mean_absolute_error(y_prueba, y_pred)
    r2 = r2_score(y_prueba, y_pred)

    resultados[nombre] = {'RMSE': rmse, 'MAE': mae, 'R^2': r2}

# Seleccionar el mejor modelo basado en RMSE
mejor_modelo_nombre = min(resultados, key=lambda k: resultados[k]['RMSE'])
mejor_modelo_rendimiento = resultados[mejor_modelo_nombre]

# Mostrar resultados
resultados_df = pd.DataFrame(resultados).T
print("Comparación de Modelos:\n", resultados_df)
#print("\nMejor Modelo:", mejor_modelo_nombre)
#print("Rendimiento:", mejor_modelo_rendimiento)

In [None]:
# Gráficos
plt.figure(figsize=(14, 8))

# RMSE
plt.subplot(1, 3, 1)
ax1 = resultados_df['RMSE'].plot(kind='barh', color='skyblue', edgecolor='black')
plt.title('Comparación de RMSE')
plt.xlabel('RMSE')
plt.ylabel('Modelos')
for i in ax1.containers:
    ax1.bar_label(i, label_type='edge', fmt='%.2f')

# MAE
plt.subplot(1, 3, 2)
ax2 = resultados_df['MAE'].plot(kind='barh', color='lightgreen', edgecolor='black')
plt.title('Comparación de MAE')
plt.xlabel('MAE')
plt.ylabel('Modelos')
for i in ax2.containers:
    ax2.bar_label(i, label_type='edge', fmt='%.2f')

# R^2
plt.subplot(1, 3, 3)
ax3 = resultados_df['R^2'].plot(kind='barh', color='salmon', edgecolor='black')
plt.title('Comparación de R^2')
plt.xlabel('R^2')
plt.ylabel('Modelos')
plt.xlim(0, 1)
for i in ax3.containers:
    ax3.bar_label(i, label_type='edge', fmt='%.2f')
plt.tight_layout()
plt.show()