
# HIPERPAR√ÅMETROS (II)
## Aprendizaje Supervisado: Modelos, Hiperpar√°metros y Ajuste

Este notebook presenta una explicaci√≥n te√≥rica detallada de los modelos de aprendizaje supervisado m√°s comunes, junto con sus principales hiperpar√°metros y recomendaciones para su ajuste. Adem√°s, se incluyen ejemplos pr√°cticos en Python utilizando `GridSearchCV` y `RandomizedSearchCV`.


## 1. Modelos y Hiperpar√°metros

### üîπ Regresi√≥n Lineal / Log√≠stica

#### Hiperpar√°metros principales   
- `penalty`: tipo de regularizaci√≥n (l1, l2, elasticnet, none)
- `C`: inverso de la regularizaci√≥n. Cuanto m√°s peque√±o, m√°s regularizaci√≥n.
- `solver`: algoritmo de optimizaci√≥n. (Por defecto `lbfgs` para regresi√≥n log√≠stica y `saga` para regresi√≥n lineal)
- `max_iter`: iteraciones m√°ximas para convergencia.

#### Ajustes
- Usa `C ` para evitar sobreajuste (valores bajos de `C`) o bajoajuste (valores altos).
- Prueba diferentes `penalty` seg√∫n el tipo de sparsity deseado: `l1` para modelos m√°s simples, `l2` para estabilidad.
- Aumenta `max_iter` si el modelo no converge.   
---

### üîπ √Årboles de Decisi√≥n   

#### Hiperpar√°metros principales
- `max_depth`: profundidad m√°xima del √°rbol
- `min_samples_split`: m√≠nimo n√∫mero de muestras para dividir nodo
- `min_samples_leaf`: m√≠nimo n√∫mero de muestras en una hoja
- `max_features`: n¬∫ m√°ximo de caracter√≠sticas a considerar al dividir nodo
- `criterion`: funci√≥n de evaluaci√≥n de la calidad de la divisi√≥n (gini, entropy)

#### Ajustes
- Aumenta `max_depth` para permitir √°rboles m√°s profundos o limita para evitar sobreajuste.
- Prueba diferentes `min_samples_split` y `min_samples_leaf` seg√∫n el equilibrio entre complejidad y generalizaci√≥n. Aumenta `min_samples_split` para evitar sobreajuste y `min_samples_leaf` para evitar bajoajuste, de forma que `min_samples_split` sea mayor que `min_samples_leaf` y conseguir generalizaci√≥n mejorada.
- Aumenta `max_features` para permitir m√°s caracter√≠sticas en cada divisi√≥n.
- Usa `entropy` para √°rboles m√°s equilibrados. `gini` es m√°s r√°pido pero puede ser menos preciso y viene por defecto.
---

### üîπ Random Forest

#### Hiperpar√°metros principales
- `n_estimators`: n√∫mero de √°rboles
- `max_depth`, `min_samples_split`, `min_samples_leaf`
- `max_features`: n¬∫ m√°ximo de caracter√≠sticas a considerar al dividir nodo.
- `bootstrap`: si se usa bootstrap para entrenar los √°rboles (por defecto `True`). Este par√°metro es importante para evitar sobreajuste y lo que hace es que cada √°rbol se entrena con una muestra aleatoria de los datos.

#### Ajustes
- Aumenta `n_estimators` para mejorar la generalizaci√≥n.
- Aumenta `max_depth` para permitir √°rboles m√°s profundos o limita para evitar sobreajuste.
- Prueba diferentes `min_samples_split` y `min_samples_leaf` seg√∫n el equilibrio entre complejidad y generalizaci√≥n. Aumenta `min_samples_split` para evitar sobreajuste y `min_samples_leaf` para evitar bajoajuste, de forma que `min_samples_split` sea mayor que `min_samples_leaf` y conseguir generalizaci√≥n mejorada.
- Aumenta `max_features` para permitir m√°s caracter√≠sticas en cada divisi√≥n.
- Usa `entropy` para √°rboles m√°s equilibrados. `gini` es m√°s r√°pido pero puede ser menos preciso y viene por defecto.
---

### üîπ Gradient Boosting (XGBoost, LightGBM, etc.)   

#### Hiperpar√°metros principales
- `n_estimators`: n√∫mero de √°rboles que se van a entrenar.
- `learning_rate`: tasa de aprendizaje. A menor tasa de aprendizaje, mejor generalizaci√≥n.
- `max_depth`: profundidad m√°xima del √°rbol.
- `subsample`: proporci√≥n de muestras a considerar al dividir nodo.
- `colsample_bytree`: proporci√≥n de caracter√≠sticas a considerar al dividir nodo.
- `reg_alpha`, `reg_lambda`: par√°metros de regularizaci√≥n. `reg_alpha` es la regularizaci√≥n L1 y `reg_lambda` es la regularizaci√≥n L2.

#### Ajustes
- Disminuir `learning_rate` y aumentar `n_estimators` suele mejorar la generalizaci√≥n.
- Usar `subsample` y `colsample_bytree` < 1 para reducir sobreajuste.
- Ajustar `reg_alpha` y `reg_lambda` para evitar modelos demasiado complejos.
--- 

### üîπ k-Nearest Neighbors    

#### Hiperpar√°metros principales    
- `n_neighbors`: n√∫mero de vecinos m√°s cercanos para la predicci√≥n.
- `weights`: peso de los vecinos. Puede ser 'uniform' o 'distance'.
- `metric`: m√©trica de distancia. Puede ser 'euclidean', 'manhattan', 'minkowski', 'chebyshev', 'wminkowski', 'seuclidean', 'mahalanobis' o 'cosine'.

#### Ajustes
- Aumenta `n_neighbors` para mejorar la generalizaci√≥n, aunque puede aumentar el sesgo.
- Usa `weights` = 'distance' para dar m√°s peso a las muestras m√°s cercanas, lo que puede mejorar la generalizaci√≥n, sobretodo si el dataset es desequilibrado y tiene mucho ruido.
- Prueba diferentes m√©tricas seg√∫n el tipo de datos y el problema. Tambi√©n prueba diferentes m√©tricas si las variables son de diferente escala. Por defecto viene 'euclidean'.
---

### üîπ Support Vector Machines   

#### Hiperpar√°metros principales
- `C`: penalizaci√≥n de la regularizaci√≥n (errores de clasificaci√≥n). Cuanto m√°s peque√±o, m√°s regularizaci√≥n.
- `kernel`: kernel a usar. Puede ser 'linear', 'poly', 'rbf', 'sigmoid' o 'precomputed'.
- `gamma`: controla el alcance de la influencia de un ejemplo (s√≥lo para kernels no lineales).

#### Ajustes
- Aumenta `C` para un ajuste m√°s preciso, aunque puede aumentar el sesgo. Reducir `C` puede mejorar la generalizaci√≥n y reducir el sobreajuste.
- Usa kernel='linear' para alta dimensionalidad. Por defecto viene 'rbf', idoneo para problemas de baja dimensionalidad y relaciones no lineales.
- `gamma` bajo ‚Üí m√°s general, `gamma` alto ‚Üí riesgo de sobreajuste.
---

### üîπ Redes Neuronales (MLP)

#### Hiperpar√°metros principales    
- `hidden_layer_sizes`: n√∫mero de neuronas en cada capa oculta.
- `activation`: funci√≥n de activaci√≥n. Puede ser 'identity', 'logistic', 'tanh', 'relu'.
- `solver`: algoritmo de optimizaci√≥n. Puede ser 'lbfgs', 'sgd', 'adam'.
- `alpha`: regularizaci√≥n L2.
- `learning_rate`: tasa de aprendizaje.
- `max_iter`: iteraciones m√°ximas para convergencia. √âpocas.de entrenamiento.

#### Ajustes
- Usa pocas capas ocultas y pocas neuronas por capa para problemas de baja dimensionalidad, m√°s capas y m√°s neuronas para problemas de alta dimensionalidad.
- Aumenta `hidden_layer_sizes` para mejorar la generalizaci√≥n, aunque puede aumentar el sesgo.
- Usa `activation` = 'relu' para problemas de alta dimensionalidad. Por defecto viene 'relu', idoneo para problemas de baja dimensionalidad y relaciones no lineales.
- `alpha` bajo ‚Üí m√°s general, `alpha` alto ‚Üí riesgo de sobreajuste. Aumenta `alpha` para mejorar la generalizaci√≥n, aunque puede aumentar el sesgo.
- Usa validaci√≥n para ajustar `max_iter` y `learning_rate`.
---

## 2. M√©todos de Ajuste

- **Grid Search**: b√∫squeda exhaustiva y costosa computacionalmente.
- **Randomized Search**: b√∫squeda aleatoria. M√°s eficiente computacionalmente para muchas variables.
- **Optuna / Hyperopt**: optimizaci√≥n bayesiana. Selecci√≥n inteligente de hiperpar√°metros, calculando la pr√≥xima iteraci√≥n basada en la informaci√≥n de las anteriores.
- **Validaci√≥n cruzada**: para evitar sobreajuste y fundamental para evaluar el impacto real de los hiperpar√°metros. Para clasificaci√≥n se suele usar `StratifiedKFold`.

---

## 3. Ejemplo pr√°ctico

In [2]:

# Ejemplo pr√°ctico: Ajuste de hiperpar√°metros con GridSearchCV y RandomizedSearchCV

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.metrics import classification_report
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
import numpy as np

In [3]:
# Cargar datos
X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [4]:
# Lista de modelos y sus grids
models = {
    "LogisticRegression": (LogisticRegression(max_iter=1000), {
        'classifier__C': [0.01, 0.1, 1, 10], # Los valores que se ubicar√°n en el grid. Se seleccionan seg√∫n el conocimiento del problema y la experiencia previa.
        'classifier__penalty': ['l2'], # 'l1' no es compatible con 'lbfgs'
        'classifier__solver': ['lbfgs'] # 'liblinear' es compatible con 'l1' y 'l2', pero 'lbfgs' es m√°s eficiente para grandes conjuntos de datos
    }),
    "DecisionTree": (DecisionTreeClassifier(), {
        'classifier__max_depth': [3, 5, 10, None],
        'classifier__min_samples_split': [2, 5, 10] # N√∫mero m√≠nimo de muestras requeridas para dividir un nodo. Los valores indicados son comunes para evitar el sobreajuste.
    }),
    "RandomForest": (RandomForestClassifier(), {
        'classifier__n_estimators': [50, 100], # N√∫mero de √°rboles en el bosque. Valores comunes son 50, 100, 200.
        'classifier__max_depth': [None, 10, 20], # Profundidad m√°xima del √°rbol. Valores comunes son None (sin l√≠mite), 10, 20.
        'classifier__max_features': ['sqrt'] # N√∫mero de caracter√≠sticas a considerar al buscar la mejor divisi√≥n. 'sqrt' es una opci√≥n com√∫n.
    }),
    "GradientBoosting": (GradientBoostingClassifier(), {
        'classifier__n_estimators': [50, 100], # N√∫mero de etapas de refuerzo. Valores comunes son 50, 100.
        'classifier__learning_rate': [0.01, 0.1], # Tasa de aprendizaje. Valores comunes son 0.01, 0.1.
        'classifier__max_depth': [3, 5] # Profundidad m√°xima de los √°rboles individuales. Valores comunes son 3, 5.
    }),
    "KNN": (KNeighborsClassifier(), {
        'classifier__n_neighbors': [3, 5, 7], # N√∫mero de vecinos a considerar. Valores comunes son 3, 5, 7.
        'classifier__weights': ['uniform', 'distance'], # Estrategia de ponderaci√≥n. 'uniform' asigna el mismo peso a todos los vecinos, 'distance' pondera por la distancia.
        'classifier__metric': ['euclidean', 'manhattan'] # M√©trica de distancia. 'euclidean' y 'manhattan' son opciones comunes.
    }),
    "SVC": (SVC(), {
        'classifier__C': [0.1, 1, 10], # Par√°metro de regularizaci√≥n. Valores comunes son 0.1, 1, 10.
        'classifier__kernel': ['linear', 'rbf'], # Tipo de kernel. 'linear' y 'rbf' son opciones comunes.
        'classifier__gamma': ['scale', 'auto'] # Coeficiente del kernel. 'scale' y 'auto' son opciones comunes.
    }),
    "MLP": (MLPClassifier(max_iter=1000), {
        'classifier__hidden_layer_sizes': [(50,), (100,)], # Tama√±o de las capas ocultas. Valores comunes son (50,), (100,).
        'classifier__activation': ['relu', 'tanh'], # Funci√≥n de activaci√≥n. 'relu' y 'tanh' son opciones comunes.
        'classifier__alpha': [0.0001, 0.001], # Par√°metro de regularizaci√≥n. Valores comunes son 0.0001, 0.001.
        'classifier__learning_rate': ['constant', 'adaptive'] # Estrategia de tasa de aprendizaje. 'constant' y 'adaptive' son opciones comunes.
    })
}

A continuaci√≥n se pone en marcha el `GridSearchCV`. Se construye un `Pipeline` en el que se encadena la secuencia de pasos del **preprocesado** (escalado en nuestro caso *scaler*) y el **modelo**

In [5]:
from sklearn.compose import ColumnTransformer
# Aplicaci√≥n de GridSearchCV
for name, (model, params) in models.items():
    print(f"\nModelo: {name}")
    preprocess = ColumnTransformer(
        transformers=[
            ('scaler', StandardScaler(), slice(0, X.shape[1])) # Escalar todas las caracter√≠sticas
        ]
    )
    pipe = Pipeline([                   # Crear un pipeline que incluya el escalador y el modelo.
        ('prep', preprocess),
        ('classifier', model)
    ])
    grid = GridSearchCV(pipe, params, cv=3, scoring='accuracy', n_jobs=-1) # pipe es el pipeline que incluye el escalador y el modelo
    grid.fit(X_train, y_train)
    print("Mejores par√°metros (GridSearchCV):", grid.best_params_)
    print("Accuracy en test:", grid.score(X_test, y_test))


Modelo: LogisticRegression
Mejores par√°metros (GridSearchCV): {'classifier__C': 0.1, 'classifier__penalty': 'l2', 'classifier__solver': 'lbfgs'}
Accuracy en test: 0.9824561403508771

Modelo: DecisionTree
Mejores par√°metros (GridSearchCV): {'classifier__max_depth': None, 'classifier__min_samples_split': 5}
Accuracy en test: 0.9298245614035088

Modelo: RandomForest
Mejores par√°metros (GridSearchCV): {'classifier__max_depth': None, 'classifier__max_features': 'sqrt', 'classifier__n_estimators': 50}
Accuracy en test: 0.9649122807017544

Modelo: GradientBoosting
Mejores par√°metros (GridSearchCV): {'classifier__learning_rate': 0.1, 'classifier__max_depth': 3, 'classifier__n_estimators': 100}
Accuracy en test: 0.956140350877193

Modelo: KNN
Mejores par√°metros (GridSearchCV): {'classifier__metric': 'manhattan', 'classifier__n_neighbors': 3, 'classifier__weights': 'uniform'}
Accuracy en test: 0.9649122807017544

Modelo: SVC
Mejores par√°metros (GridSearchCV): {'classifier__C': 0.1, 'class

In [6]:
# Ejemplo con RandomizedSearchCV (s√≥lo uno para simplificar)
print("\nEjemplo con RandomizedSearchCV (RandomForest)")
from scipy.stats import randint
rf = RandomForestClassifier()
param_dist = {
    'classifier__n_estimators': randint(10, 200),
    'classifier__max_depth': [None, 10, 20, 30],
    'classifier__min_samples_split': randint(2, 11),
}
pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', rf)
])
random_search = RandomizedSearchCV(pipe, param_dist, n_iter=10, cv=3, scoring='accuracy', n_jobs=-1, random_state=42)
random_search.fit(X_train, y_train)
print("Mejores par√°metros (RandomizedSearchCV):", random_search.best_params_)
print("Accuracy en test:", random_search.score(X_test, y_test))


Ejemplo con RandomizedSearchCV (RandomForest)
Mejores par√°metros (RandomizedSearchCV): {'classifier__max_depth': 10, 'classifier__min_samples_split': 3, 'classifier__n_estimators': 197}
Accuracy en test: 0.9649122807017544
