# Carga de csv necesarios

In [1]:
import os
import pandas as pd

def cargar_csv(nombre_archivo):
    """
    Carga un archivo CSV desde la ruta 'Resultados/Archivos_csv/Datos' en un DataFrame de pandas.

    Parámetros
    ----------
    nombre_archivo : str
        Nombre del archivo CSV a cargar.

    Retorna
    -------
    pd.DataFrame
        DataFrame con los datos cargados del archivo CSV.
    """
    # Construir la ruta completa
    ruta_archivo = os.path.join("..","Resultados", "Archivos_csv", "Datos", nombre_archivo)
    
    # Leer el CSV
    df = pd.read_csv(ruta_archivo, encoding="utf-8")
    print(f"Archivo '{ruta_archivo}' cargado correctamente.")
    
    return df


In [2]:
df_parkinson = cargar_csv("Datos_Parkinson.csv")
df_contaminacion = cargar_csv("Datos_contaminación_aire.csv")  # Tasa de contaminación
df_calidad_agua = cargar_csv("Datos_muertes_agua.csv")
df_plomo = cargar_csv("Datos_exp_plomo.csv")  # Tasa de carga de enfermedad por exposición al plomo
df_pesticidas = cargar_csv("Datos_uso_pepticidas.csv")  # Uso de pesticidas en toneladas
df_precipitaciones = cargar_csv("Datos_precipitaciones.csv")  # Precipitaciones en mm

Archivo '..\Resultados\Archivos_csv\Datos\Datos_Parkinson.csv' cargado correctamente.
Archivo '..\Resultados\Archivos_csv\Datos\Datos_contaminación_aire.csv' cargado correctamente.
Archivo '..\Resultados\Archivos_csv\Datos\Datos_muertes_agua.csv' cargado correctamente.
Archivo '..\Resultados\Archivos_csv\Datos\Datos_exp_plomo.csv' cargado correctamente.
Archivo '..\Resultados\Archivos_csv\Datos\Datos_uso_pepticidas.csv' cargado correctamente.
Archivo '..\Resultados\Archivos_csv\Datos\Datos_precipitaciones.csv' cargado correctamente.


# Selección de Modelo GLM más apropiado

## Poisson

In [3]:
# Cargar datos
df = cargar_csv("Tabla_modelos.csv")

# Calcular la media y la varianza de la variable dependiente 'Parkinson'
media = df['Parkinson'].mean()
varianza = df['Parkinson'].var()

# Mostrar los resultados
print(f"Media de Parkinson: {media}")
print(f"Varianza de Parkinson: {varianza}")

Archivo 'Tabla_modelos.csv' cargado correctamente.
Media de Parkinson: 81.1569328286849
Varianza de Parkinson: 6353.157591496592


## Cuassi-poisson 

In [17]:
def entrenar_quasi_poisson(df,variables_independientes, variable_dependiente, test_size=0.2, scaler=False):
    import statsmodels.api as sm
    from patsy import dmatrices
    from sklearn.model_selection import train_test_split
    from sklearn.preprocessing import StandardScaler
    from sklearn.metrics import mean_squared_error, mean_absolute_error
    import numpy as np


    # Construir fórmula en función de variables
    transformaciones = {
        'Contaminacion_aire': ['Contaminacion_aire', 'I(Contaminacion_aire**2)'],
        'Muertes_agua': ['Muertes_agua', 'I(Muertes_agua**2)','I(Muertes_agua**3)'],
        'Exp_plomo': ['Exp_plomo', 'I(Exp_plomo**2)', 'I(Exp_plomo**3)'],
        'Pesticidas': ['Pesticidas','I(Pesticidas**2)', 'I(Pesticidas**3)'],
        'Precipitaciones': ['Precipitaciones','I(Precipitaciones**2)', 'I(Precipitaciones**3)'],
    }

    # Construir partes de fórmula
    partes_formula = []
    for var in variables_independientes:
        partes_formula.extend(transformaciones.get(var, [var]))

    formula = f"{variable_dependiente} ~ " + " + ".join(partes_formula)

    # Dividir en train/test
    df_train, df_test = train_test_split(df, test_size=test_size, random_state=42)

    # Crear matrices con patsy
    y_train, X_train = dmatrices(formula, data=df_train, return_type='dataframe')
    y_test, X_test = dmatrices(formula, data=df_test, return_type='dataframe')


    # Reset índices para alinear endog y exog
    y_train = y_train.reset_index(drop=True)
    X_train = X_train.reset_index(drop=True)
    y_test = y_test.reset_index(drop=True)
    X_test = X_test.reset_index(drop=True)

    if scaler:
        scaler_model = StandardScaler()
        intercept_train = X_train[['Intercept']]
        intercept_test = X_test[['Intercept']]

        X_train_scaled = scaler_model.fit_transform(X_train.drop(columns='Intercept'))
        X_test_scaled = scaler_model.transform(X_test.drop(columns='Intercept'))

        X_train = pd.concat([intercept_train,
                             pd.DataFrame(X_train_scaled, columns=X_train.columns.drop('Intercept'))], axis=1)
        X_test = pd.concat([intercept_test,
                            pd.DataFrame(X_test_scaled, columns=X_test.columns.drop('Intercept'))], axis=1)

    modelo = sm.GLM(y_train, X_train, family=sm.families.Poisson()).fit(cov_type='HC0')

    print(modelo.summary())

    y_pred = modelo.predict(X_test)

    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    mae = mean_absolute_error(y_test, y_pred)

    print(f"\nRMSE: {rmse:.4f}")
    print(f"MAE: {mae:.4f}")

    return modelo, rmse, mae




## Binomial negativo

In [19]:
def entrenar_binomial_negativo(df,variables_independientes, variable_dependiente,  test_size=0.2, scaler=False):
    import statsmodels.api as sm
    from patsy import dmatrices
    from sklearn.model_selection import train_test_split
    from sklearn.preprocessing import StandardScaler
    from sklearn.metrics import mean_squared_error, mean_absolute_error
    import numpy as np

    # Construir fórmula en función de variables
    transformaciones = {
        'Contaminacion_aire': ['Contaminacion_aire', 'I(Contaminacion_aire**2)'],
        'Muertes_agua': ['Muertes_agua', 'I(Muertes_agua**2)','I(Muertes_agua**3)'],
        'Exp_plomo': ['Exp_plomo', 'I(Exp_plomo**2)', 'I(Exp_plomo**3)'],
        'Pesticidas': ['Pesticidas','I(Pesticidas**2)', 'I(Pesticidas**3)'],
        'Precipitaciones': ['Precipitaciones','I(Precipitaciones**2)', 'I(Precipitaciones**3)'],
    }

    # Construir partes de fórmula
    partes_formula = []
    for var in variables_independientes:
        partes_formula.extend(transformaciones.get(var, [var]))

    formula = f"{variable_dependiente} ~ " + " + ".join(partes_formula)

    # Dividir en train/test
    df_train, df_test = train_test_split(df, test_size=test_size, random_state=42)

    # Crear matrices con patsy
    y_train, X_train = dmatrices(formula, data=df_train, return_type='dataframe')
    y_test, X_test = dmatrices(formula, data=df_test, return_type='dataframe')

    # Resetear índices para alinear correctamente
    y_train = y_train.reset_index(drop=True)
    X_train = X_train.reset_index(drop=True)
    y_test = y_test.reset_index(drop=True)
    X_test = X_test.reset_index(drop=True)

    if scaler:
        scaler_model = StandardScaler()
        intercept_train = X_train[['Intercept']]
        intercept_test = X_test[['Intercept']]

        X_train_scaled = scaler_model.fit_transform(X_train.drop(columns='Intercept'))
        X_test_scaled = scaler_model.transform(X_test.drop(columns='Intercept'))

        X_train = pd.concat([intercept_train,
                             pd.DataFrame(X_train_scaled, columns=X_train.columns.drop('Intercept'))], axis=1)
        X_test = pd.concat([intercept_test,
                            pd.DataFrame(X_test_scaled, columns=X_test.columns.drop('Intercept'))], axis=1)

    modelo = sm.GLM(y_train, X_train, family=sm.families.NegativeBinomial()).fit()

    print(modelo.summary())

    y_pred = modelo.predict(X_test)

    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    mae = mean_absolute_error(y_test, y_pred)

    print(f"\nRMSE: {rmse:.4f}")
    print(f"MAE: {mae:.4f}")

    return modelo, rmse, mae



## Cuassi-poisson vs Binomial Negativo

In [20]:
df = cargar_csv("Tabla_modelos.csv")
variables_independientes = ['Contaminacion_aire', 'Muertes_agua', 'Exp_plomo', 'Pesticidas','Precipitaciones']
variable_dependiente = 'Parkinson'

modelo_qp, rmse_qp, mae_qp = entrenar_quasi_poisson(df,variables_independientes, variable_dependiente, scaler=True)


df = cargar_csv("Tabla_modelos.csv")
modelo_nb, rmse_nb, mae_nb = entrenar_binomial_negativo(df,variables_independientes, variable_dependiente,  scaler=True)



Archivo 'Tabla_modelos.csv' cargado correctamente.
                 Generalized Linear Model Regression Results                  
Dep. Variable:              Parkinson   No. Observations:                 4331
Model:                            GLM   Df Residuals:                     4316
Model Family:                 Poisson   Df Model:                           14
Link Function:                    Log   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:                -48900.
Date:                Thu, 12 Jun 2025   Deviance:                       72561.
Time:                        11:31:06   Pearson chi2:                 8.19e+04
No. Iterations:                     6   Pseudo R-squ. (CS):              1.000
Covariance Type:                  HC0                                         
                                 coef    std err          z      P>|z|      [0.025      0.975]
----------------------------------------------------------------



## Random Forest Regressor

In [29]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import numpy as np
import pandas as pd  # Asegúrate de importar pandas

# Leer los datos
df = pd.read_csv("Tabla_modelos.csv")

# Suponiendo que tienes un DataFrame llamado df con las columnas y variables necesarias
X = df[['Contaminacion_aire', 'Muertes_agua','Exp_plomo','Pesticidas', 'Precipitaciones']]
y = df['Parkinson']

# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo Random Forest con hiperparámetros ajustados
rf_model = RandomForestRegressor(
    n_estimators=1000,        # Número de árboles
    max_depth=None,             # Profundidad máxima de los árboles
    min_samples_split=2,      # Mínimo de muestras para dividir un nodo
    min_samples_leaf=1,       # Mínimo de muestras en una hoja
    max_features=None,      # Usar la raíz cuadrada del número de características
    random_state=42           # Fijar la semilla para reproducibilidad
)

# Ajustar el modelo
rf_model.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred = rf_model.predict(X_test)

# Evaluar el modelo
mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

# Imprimir resultados
print(f"MAE: {mae}")
print(f"RMSE: {rmse}")
print(f"R²: {r2}")

# Obtener importancia de características
importancia_variables = rf_model.feature_importances_

# Crear un DataFrame con los nombres de las variables y su importancia
importancia_df = pd.DataFrame({
    'Variable': X.columns,
    'Importancia': importancia_variables
})

# Ordenar por importancia descendente
importancia_df = importancia_df.sort_values(by='Importancia', ascending=False)

# Mostrar la tabla de importancia
print("\nImportancia de las variables:")
print(importancia_df)

from sklearn.inspection import permutation_importance

# Ejecutar permutación
resultado = permutation_importance(rf_model, X_test, y_test, n_repeats=30, random_state=42)

# Mostrar resultados
importancia_perm = pd.DataFrame({
    'Variable': X.columns,
    'Importancia Media': resultado.importances_mean,
    'Desviación': resultado.importances_std
}).sort_values(by='Importancia Media', ascending=False)

print(importancia_perm)

MAE: 8.398972097919632
RMSE: 18.031570172558176
R²: 0.9500314014415512

Importancia de las variables:
             Variable  Importancia
2           Exp_plomo     0.586057
3          Pesticidas     0.140801
1        Muertes_agua     0.129567
4     Precipitaciones     0.099975
0  Contaminacion_aire     0.043599
             Variable  Importancia Media  Desviación
2           Exp_plomo           0.653344    0.024747
1        Muertes_agua           0.365144    0.016616
3          Pesticidas           0.328642    0.019597
4     Precipitaciones           0.219328    0.018890
0  Contaminacion_aire           0.063649    0.007532


In [27]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from scipy.stats import randint
import pandas as pd
import numpy as np


# Definir variables predictoras y objetivo
X = df[['Contaminacion_aire', 'Muertes_agua', 'Exp_plomo', 'Pesticidas', 'Precipitaciones']]
y = df['Parkinson']

# Dividir datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir el espacio de búsqueda de hiperparámetros
param_distributions = {
    'n_estimators': randint(100, 1000),
    'max_depth': [None, 10, 20, 30, 40, 50],
    'min_samples_split': randint(2, 11),
    'min_samples_leaf': randint(1, 5),
    'max_features': ['sqrt', 'log2', None]
}

# Configurar búsqueda aleatoria
random_search = RandomizedSearchCV(
    estimator=RandomForestRegressor(random_state=42),
    param_distributions=param_distributions,
    n_iter=50,  # número de combinaciones aleatorias
    cv=5,  # validación cruzada
    scoring='neg_mean_squared_error',  # también puedes usar 'r2'
    n_jobs=-1,  # usar todos los núcleos disponibles
    verbose=2,
    random_state=42
)

# Ejecutar búsqueda
random_search.fit(X_train, y_train)

# Mejor modelo encontrado
print("Mejores hiperparámetros encontrados:")
print(random_search.best_params_)

# Evaluar modelo con test
mejor_modelo = random_search.best_estimator_
y_pred = mejor_modelo.predict(X_test)

mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print(f"\nResultados con mejores hiperparámetros:")
print(f"MAE: {mae:.4f}")
print(f"RMSE: {rmse:.4f}")
print(f"R²: {r2:.4f}")

# Importancia de variables
importancia_df = pd.DataFrame({
    'Variable': X.columns,
    'Importancia': mejor_modelo.feature_importances_
}).sort_values(by='Importancia', ascending=False)

print("\nImportancia de las variables:")
print(importancia_df)


Fitting 5 folds for each of 50 candidates, totalling 250 fits
Mejores hiperparámetros encontrados:
{'max_depth': 50, 'max_features': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 484}

Resultados con mejores hiperparámetros:
MAE: 8.3972
RMSE: 17.9856
R²: 0.9503

Importancia de las variables:
             Variable  Importancia
2           Exp_plomo     0.585905
3          Pesticidas     0.140894
1        Muertes_agua     0.129022
4     Precipitaciones     0.100471
0  Contaminacion_aire     0.043708


## XGBoosting Regressor

In [28]:
from xgboost import XGBRegressor
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from scipy.stats import randint, uniform
import pandas as pd
import numpy as np

# Leer datos
df = pd.read_csv("Tabla_modelos.csv")
X = df[['Contaminacion_aire', 'Muertes_agua', 'Exp_plomo', 'Pesticidas', 'Precipitaciones']]
y = df['Parkinson']

# Dividir conjunto
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir espacio de búsqueda
param_distributions = {
    'n_estimators': randint(100, 1000),
    'max_depth': randint(3, 10),
    'learning_rate': uniform(0.01, 0.3),
    'subsample': uniform(0.5, 0.5),
    'colsample_bytree': uniform(0.5, 0.5),
    'gamma': uniform(0, 5),
    'reg_alpha': uniform(0, 1),
    'reg_lambda': uniform(0, 1)
}

# Configurar RandomizedSearchCV
xgb_random_search = RandomizedSearchCV(
    estimator=XGBRegressor(random_state=42, objective='reg:squarederror'),
    param_distributions=param_distributions,
    n_iter=50,
    cv=5,
    scoring='neg_mean_squared_error',
    n_jobs=-1,
    verbose=2,
    random_state=42
)

# Ejecutar búsqueda
xgb_random_search.fit(X_train, y_train)

# Mostrar los mejores hiperparámetros
print("Mejores hiperparámetros encontrados para XGBoost:")
print(xgb_random_search.best_params_)

# Evaluar el mejor modelo
mejor_xgb = xgb_random_search.best_estimator_
y_pred = mejor_xgb.predict(X_test)

mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print(f"\nResultados con mejores hiperparámetros (XGB):")
print(f"MAE: {mae:.4f}")
print(f"RMSE: {rmse:.4f}")
print(f"R²: {r2:.4f}")

# Importancia de variables
importancia_df = pd.DataFrame({
    'Variable': X.columns,
    'Importancia': mejor_xgb.feature_importances_
}).sort_values(by='Importancia', ascending=False)

print("\nImportancia de las variables (XGB):")
print(importancia_df)


Fitting 5 folds for each of 50 candidates, totalling 250 fits
Mejores hiperparámetros encontrados para XGBoost:
{'colsample_bytree': np.float64(0.9541329429833268), 'gamma': np.float64(1.197809453334862), 'learning_rate': np.float64(0.05346846162736693), 'max_depth': 6, 'n_estimators': 829, 'reg_alpha': np.float64(0.9856504541106007), 'reg_lambda': np.float64(0.2420552715115004), 'subsample': np.float64(0.8360677737029393)}

Resultados con mejores hiperparámetros (XGB):
MAE: 8.3559
RMSE: 14.9229
R²: 0.9658

Importancia de las variables (XGB):
             Variable  Importancia
2           Exp_plomo     0.563107
3          Pesticidas     0.148229
1        Muertes_agua     0.128437
4     Precipitaciones     0.113373
0  Contaminacion_aire     0.046854


## SVR Regressor

In [24]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVR
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error, mean_squared_error
import pandas as pd
import numpy as np

# Cargar datos
df = pd.read_csv("Tabla_modelos.csv")

# Variables originales
variables_independientes = ['Contaminacion_aire', 'Muertes_agua', 'Exp_plomo', 'Pesticidas', 'Precipitaciones']
X = df[variables_independientes]
y = df['Parkinson']

# División y escalado
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Modelo
svr = SVR()

# Rango más amplio de hiperparámetros
param_grid = {
    'C': [0.01, 0.1, 1, 10, 100, 1000],
    'epsilon': [0.001, 0.01, 0.05, 0.1, 0.5, 1],
    'kernel': ['linear', 'rbf'],
    'gamma': ['scale', 'auto', 0.001, 0.01, 0.1, 1, 10]
}

# Grid search
grid_search = GridSearchCV(estimator=svr, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search.fit(X_train_scaled, y_train)

# Evaluación
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test_scaled)
mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print("--- VARIABLES ORIGINALES + HIPERPARÁMETROS AMPLIOS ---")
print("Mejores hiperparámetros:", grid_search.best_params_)
print("MAE:", round(mae, 2))
print("RMSE:", round(rmse, 2))

--- VARIABLES ORIGINALES + HIPERPARÁMETROS AMPLIOS ---
Mejores hiperparámetros: {'C': 1000, 'epsilon': 1, 'gamma': 10, 'kernel': 'rbf'}
MAE: 13.47
RMSE: 24.37


## KNN Regressor

In [26]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error, mean_squared_error

# Cargar los datos
df = pd.read_csv("Tabla_modelos.csv")

# Definir las características (X) y la variable dependiente (y) con las variables originales
variables_independientes = ['Contaminacion_aire', 'Muertes_agua', 'Exp_plomo', 'Pesticidas', 'Precipitaciones']
X = df[variables_independientes]
y = df['Parkinson']

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Estandarizar las características (importante para modelos como KNN)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Crear el modelo KNN
knn_model = KNeighborsRegressor()

param_grid = {
    'n_neighbors': list(range(3, 51, 2)),  # Incrementar el número de vecinos hasta 50
    'weights': ['uniform', 'distance'],  # Eliminar 'kernel', solo 'uniform' o 'distance'
    'algorithm': ['auto', 'ball_tree', 'kd_tree', 'brute'],  # Mantener todos los algoritmos posibles
    'metric': ['minkowski', 'euclidean', 'manhattan', 'chebyshev']  # Eliminar 'cosine', dejar métricas válidas
}
# Configurar GridSearchCV para encontrar la mejor combinación de parámetros
grid_search = GridSearchCV(knn_model, param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)

# Ajustar el modelo con el conjunto de entrenamiento
grid_search.fit(X_train_scaled, y_train)

# Mostrar los mejores parámetros encontrados
print(f"Mejores parámetros encontrados: {grid_search.best_params_}")

# Predecir en el conjunto de prueba utilizando el mejor modelo encontrado
best_model = grid_search.best_estimator_
y_pred_knn = best_model.predict(X_test_scaled)

# Evaluar el modelo
mae_knn = mean_absolute_error(y_test, y_pred_knn)
rmse_knn = np.sqrt(mean_squared_error(y_test, y_pred_knn))

# Imprimir los resultados de evaluación
print(f"MAE KNN con variables originales: {mae_knn:.2f}")
print(f"RMSE KNN con variables originales: {rmse_knn:.2f}")



Mejores parámetros encontrados: {'algorithm': 'auto', 'metric': 'manhattan', 'n_neighbors': 5, 'weights': 'distance'}
MAE KNN con variables originales: 11.77
RMSE KNN con variables originales: 22.55


## MLP Regressor

In [30]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error

# Paso 1: Cargar los datos
df = pd.read_csv("Tabla_modelos.csv")

# Paso 2: Seleccionar las características (X) y la variable dependiente (y)
X = df[['Contaminacion_aire', 'Muertes_agua', 'Exp_plomo', 'Pesticidas', 'Precipitaciones']]
y = df['Parkinson']  # Variable a predecir

# Paso 3: Estandarizar las características (importante para redes neuronales)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Paso 4: Dividir los datos en entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Paso 5: Crear el modelo de regresión (MLPRegressor)
model = MLPRegressor(random_state=42)

# Paso 6: Definir el rango de parámetros a buscar
param_grid = {
    'hidden_layer_sizes': [(100,), (128, 64)],  # Opciones más reducidas
    'activation': ['relu'],  # Usar solo relu al principio
    'solver': ['adam'],  # Usar solo adam
    'max_iter': [500, 1000],  # Reducir el número de iteraciones
    'alpha': [0.0001, 0.001],  # Regularización más restringida
    'learning_rate': ['constant']  # Solo constante
}
# Paso 7: Configurar GridSearchCV para buscar los mejores parámetros
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)

# Paso 8: Entrenar el modelo con la búsqueda de parámetros
grid_search.fit(X_train, y_train)

# Paso 9: Mostrar los mejores parámetros encontrados
print(f"Mejores parámetros encontrados: {grid_search.best_params_}")

# Paso 10: Evaluar el modelo con los mejores parámetros encontrados
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)

# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)
print(f"Pérdida en el conjunto de prueba (MSE): {mse}")

# Paso 11: Hacer predicciones
print(f"Primeras 5 predicciones: {y_pred[:5]}")
print(f"Primeros 5 valores reales: {y_test[:5].values}")

Mejores parámetros encontrados: {'activation': 'relu', 'alpha': 0.001, 'hidden_layer_sizes': (128, 64), 'learning_rate': 'constant', 'max_iter': 1000, 'solver': 'adam'}
Pérdida en el conjunto de prueba (MSE): 1035.4964948694842
Primeras 5 predicciones: [ 22.08098554 150.27995381  32.18357354 280.17076001  90.77511977]
Primeros 5 valores reales: [ 25.442265 115.928024  18.397535 264.6368   134.62796 ]


### Ajuste manual apartir de los mejores hiperparámetros obtenidos

In [22]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error

# Paso 1: Cargar los datos
df = pd.read_csv("Tabla_modelos.csv")

# Definir las características (X) y la variable dependiente (y) con las variables originales
variables_independientes = ['Contaminacion_aire', 'Muertes_agua', 'Exp_plomo', 'Pesticidas', 'Precipitaciones']
X = df[variables_independientes]
y = df['Parkinson']



# Paso 3: Estandarizar las características (importante para redes neuronales)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Paso 4: Dividir los datos en entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Paso 5: Crear el modelo de regresión (MLPRegressor)
model = MLPRegressor(hidden_layer_sizes=(256, 128), activation='relu', max_iter=5000,alpha=0.01, random_state=42)

# Paso 6: Entrenar el modelo
model.fit(X_train, y_train)

# Paso 7: Evaluar el modelo
y_pred = model.predict(X_test)

# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)
print(f"Pérdida en el conjunto de prueba (MSE): {mse}")

# Paso 8: Hacer predicciones
print(f"Primeras 5 predicciones: {y_pred[:5]}")
print(f"Primeros 5 valores reales: {y_test[:5].values}")

Pérdida en el conjunto de prueba (MSE): 798.8951063623582
Primeras 5 predicciones: [ 28.20950673 145.4198799   17.01147226 266.07157469  88.42056943]
Primeros 5 valores reales: [ 25.442265 115.928024  18.397535 264.6368   134.62796 ]
