In [None]:
# Ejercicio 2: 
# • Diabetes dataset 
# • Randomsearch MLP 
# • Revisar resultados de la búsqueda

In [20]:
import numpy as np
from sklearn.datasets import load_diabetes
from sklearn.neural_network import MLPRegressor
from sklearn.model_selection import RandomizedSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from scipy.stats import uniform

In [3]:
X, y = load_diabetes(return_X_y=True)

In [22]:
estimator = Pipeline([
    ("std", StandardScaler()),
    ("mlp", MLPRegressor(max_iter=300))
])

search_space = {
    "mlp__hidden_layer_sizes": [[50, 20], [30, 30], [100, 50, 10]],
    "mlp__learning_rate_init": uniform(0, 2)
}

search = RandomizedSearchCV(estimator, search_space, n_iter=10)

search.fit(X, y)

In [23]:
search.cv_results_

{'mean_fit_time': array([0.10346103, 0.0474503 , 0.01634846, 0.01626005, 0.02313585,
        0.04880686, 0.03332968, 0.02802892, 0.13348918, 0.13738356]),
 'std_fit_time': array([0.09860336, 0.00882596, 0.00082367, 0.00065878, 0.00085205,
        0.05543704, 0.01981542, 0.00292646, 0.15274264, 0.06475477]),
 'mean_score_time': array([0.00105953, 0.00079894, 0.00039978, 0.00050101, 0.00143108,
        0.00040002, 0.00083899, 0.00058346, 0.0010076 , 0.00100718]),
 'std_score_time': array([9.66828936e-05, 3.99531324e-04, 4.89629049e-04, 6.34031698e-04,
        3.54192946e-04, 4.89920894e-04, 4.29650443e-04, 4.84414886e-04,
        1.08058076e-05, 8.91137082e-06]),
 'param_mlp__hidden_layer_sizes': masked_array(data=[list([30, 30]), list([100, 50, 10]), list([30, 30]),
                    list([30, 30]), list([50, 20]), list([50, 20]),
                    list([30, 30]), list([50, 20]), list([50, 20]),
                    list([50, 20])],
              mask=[False, False, False, False, Fal

In [None]:
# Lo mismo con test size

In [25]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

search.fit(X_train, y_train)

In [26]:
search.score(X_test, y_test)

0.2889219230028285

In [27]:
# lo mismo con un KNN

# Importar las librerías necesarias
from sklearn.datasets import load_diabetes
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import RandomizedSearchCV, train_test_split
from scipy.stats import randint

# Cargar el dataset de diabetes
X, y = load_diabetes(return_X_y=True)

# Crear el pipeline que incluye el escalado de características y el modelo KNN
estimator = Pipeline([
    ("std", StandardScaler()),
    ("knn", KNeighborsRegressor())
])

# Definir el espacio de búsqueda para los hiperparámetros del KNN
search_space = {
    "knn__n_neighbors": randint(1, 30), # Número de vecinos
    "knn__weights": ['uniform', 'distance'], # Ponderación de los vecinos
    "knn__p": [1, 2] # Parámetro de potencia para la métrica de Minkowski
}

# Configurar la búsqueda aleatoria
search = RandomizedSearchCV(estimator, search_space, n_iter=10, cv=5, random_state=42)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Realizar la búsqueda aleatoria
search.fit(X_train, y_train)

# Imprimir los mejores parámetros y el mejor score obtenido en la validación cruzada
print("Mejores parámetros: ", search.best_params_)
print("Mejor score (validación cruzada): ", search.best_score_)

# Evaluar el modelo en el conjunto de prueba
test_score = search.score(X_test, y_test)
print("Score en el conjunto de prueba: ", test_score)


Mejores parámetros:  {'knn__n_neighbors': 21, 'knn__p': 2, 'knn__weights': 'distance'}
Mejor score (validación cruzada):  0.40233085798170354
Score en el conjunto de prueba:  0.4330375913733606
