# üìö 2.4 Machine Learning

>**Machine Learning (Aprendizaje Autom√°tico)** es una subdisciplina de la inteligencia artificial que permite a las computadoras aprender de forma autom√°tica a partir de datos, sin ser programadas expl√≠citamente para realizar una tarea espec√≠fica. En lugar de seguir instrucciones r√≠gidas, los algoritmos de machine learning identifican patrones, relaciones y estructuras en los datos mediante t√©cnicas estad√≠sticas y matem√°ticas, y utilizan ese conocimiento adquirido para hacer predicciones, clasificaciones o decisiones sobre nuevos datos. Este proceso implica un ciclo iterativo de entrenamiento, evaluaci√≥n y ajuste del modelo, con el objetivo de mejorar su rendimiento con la experiencia. El machine learning se aplica en una amplia gama de dominios ‚Äîdesde reconocimiento de voz y visi√≥n por computadora hasta recomendaciones personalizadas y diagn√≥stico m√©dico‚Äî y se divide en tres paradigmas principales: aprendizaje supervisado (con etiquetas), no supervisado (sin etiquetas) y por refuerzo (mediante recompensas y acciones). Su poder radica en su capacidad para generalizar a partir de ejemplos y adaptarse a entornos cambiantes, convirti√©ndolo en una herramienta fundamental en la era del big data y la automatizaci√≥n inteligente.

## Importar paquetes
Estamos en un nuevo notebook, entonces tenemos que volver a importar los paquetes que usaremos:

In [None]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split, GridSearchCV

# Pipeline
from sklearn.pipeline import Pipeline

# Modelos
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from sklearn.naive_bayes import GaussianNB, BernoulliNB

# M√©tricas de evaluaci√≥n
from sklearn.metrics import accuracy_score


# Para guardar el modelo
import pickle

## Carga de datos
En el notebook anterior guardamos nuestros datos procesados en el directorio `data/`. Carguemos estos datos a DataFrames.

In [2]:
df = pd.read_csv('./data/titanic_procesado.csv')

## Divisi√≥n de datos
Recordemos que estamos por implementar algoritmos de aprendizaje supervisado. Esto implica que necesitamos dividir nuestros datos en dos conjuntos: uno para entrenamiento y otro para pruebas. El conjunto de entrenamiento se utiliza para ajustar el modelo, mientras que el conjunto de pruebas se usa para evaluar su rendimiento y asegurarnos de que generaliza bien a datos no vistos. Esta divisi√≥n, conocida como divisi√≥n **entrenamiento-prueba**.

El conjunto de entrenamiento se usar√° en el proceso de entrenamiento para que nuestro modelo pueda ‚Äúaprenderse‚Äù las respuestas correctas a las predicciones que queremos realizar.

### `train_test_split`

Utilizaremos la funci√≥n `train_test_split` de Sckit Learn para realizar esta divisi√≥n.

Primero que nada, crearemos un DataFrame que contenga los datos sin la variable objetivo (target) Survived, y el otro contendr√° √∫nicamente esta variable objetivo Survived.

In [3]:
X = df.drop(['Survived'], axis=1)
y = df['Survived']
X.head()

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,1.0,1.0,0.433152,0.125,0.0,0.368146,1.0
1,0.0,0.0,0.579431,0.125,0.0,0.615097,0.0
2,1.0,0.0,0.462346,0.0,0.0,0.438286,1.0
3,0.0,0.0,0.563806,0.125,0.0,0.595112,1.0
4,1.0,1.0,0.563806,0.0,0.0,0.448347,1.0


Notamos que nuestra X ya no contiene Survived.

In [4]:
y.head()

0    0
1    1
2    1
3    1
4    0
Name: Survived, dtype: int64


---

Hagamos la divisi√≥n entrenamiento-prueba.

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
X_train = X_train.values  # Convertir a NumPy array
y_train = y_train.values  # Convertir a NumPy array
X_test = X_test.values    # Convertir a NumPy array
y_test = y_test.values    # Convertir a NumPy array

¬øPara qu√© sirven los par√°metros `test_size` y `random_state` en `train_test_split`?

**test_size = 0.2**
- **Prop√≥sito:** Define qu√© porcentaje de los datos se destinar√° al conjunto de **prueba (test)**
- **Valor 0.2:** Significa que el 20% de los datos ser√° para testing y el 80% restante para entrenamiento
- **Ejemplos de valores:**
  - `test_size = 0.2` ‚Üí 80% entrenamiento, 20% prueba
  - `test_size = 0.3` ‚Üí 70% entrenamiento, 30% prueba  
  - `test_size = 100` ‚Üí 100 registros para prueba (n√∫mero absoluto)

**random_state = 42**
- **Prop√≥sito:** Controla la **reproducibilidad** de la divisi√≥n aleatoria
- **Valor 42:** Es una "semilla" que asegura que la divisi√≥n sea siempre la misma
- **Importancia:** Sin este par√°metro, cada vez que ejecutes el c√≥digo obtendr√≠as una divisi√≥n diferente de los datos

**Ejemplo pr√°ctico:**
```python
# Sin random_state - resultados diferentes cada vez
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Con random_state - mismos resultados siempre
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```

**¬øPor qu√© es importante?**
- **test_size:** Asegura una evaluaci√≥n justa del modelo con datos no vistos
- **random_state:** Permite que tus experimentos sean reproducibles y comparables

>**Nota:** El n√∫mero 42 es solo una convenci√≥n popular (referencia a "Gu√≠a del Autoestopista Gal√°ctico"), puedes usar cualquier n√∫mero entero.

## Selecci√≥n de modelo
Como pudiste notar, importamos una gran cantidad de modelos de Scikit Learn:

```python
# Modelos
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from sklearn.naive_bayes import GaussianNB, BernoulliNB
```

√âsta es una de las grandes ventajas de implementar aprendizaje autom√°tico con herramientas modernas como Python y Scikit Learn. El c√≥digo que implementaremos nos permitir√° probr todos estos modelos. Eligiremos el mejor modelo no a partir de nuestra intuici√≥n, sino con base en las m√©tricas de precisi√≥n que resulte de cada uno en su fase de entrenamiento.

### GridSearch
Implementaremos una t√©cnica llamada GridSearch, la cual nos permite encontrar los mejores hiperpar√°metros para nuestro modelo de aprendizaje autom√°tico. GridSearch explora exhaustivamente un conjunto predefinido de valores para cada hiperpar√°metro, entrenando y evaluando el modelo con cada combinaci√≥n posible. Al final, selecciona la combinaci√≥n que proporciona el mejor rendimiento seg√∫n una m√©trica de evaluaci√≥n espec√≠fica, garantizando as√≠ que el modelo est√© optimizado para obtener los mejores resultados posibles.

El primer paso para implementar GridSearch es crear un diccionario que contenga todos los modelos que queremos probar y los hiperpar√°metros que queramos probar en cada uno de estos. 

```python
modelos = {
    'Logistic Regression': {
        'model': LogisticRegression(),
        'params': {
            'model__C': [0.1],
            'model__max_iter': [1000]
        }
    },
    'Support Vector Classifier': {
        'model': SVC(),
        'params': {
            'model__kernel': ['linear', 'poly', 'rbf', 'sigmoid'],
            'model__C': [0.1, 1, 10]
        }
    },
    'Decision Tree Classifier': {
        'model': DecisionTreeClassifier(),
        'params': {
            'model__splitter': ['best', 'random'],
            'model__max_depth': [None, 1, 2, 3, 4]
        }
    },
    'Random Forest Classifier': {
        'model': RandomForestClassifier(),
        'params': {
            'model__n_estimators': [10, 100],
            'model__max_depth': [None, 1, 2, 3, 4],
            'model__max_features': ['auto', 'sqrt', 'log2']
        }
    },
    'Gradient Boosting Classifier': {
        'model': GradientBoostingClassifier(),
        'params': {
            'model__n_estimators': [10, 100],
            'model__max_depth': [None, 1, 2, 3, 4]
        }
    },
    'AdaBoost Classifier': {
        'model': AdaBoostClassifier(),
        'params': {
            'model__n_estimators': [10, 100]
        }
    },
    'K-Nearest Neighbors Classifier': {
        'model': KNeighborsClassifier(),
        'params': {
            'model__n_neighbors': [3, 5, 7]
        }
    },
    'XGBoost Classifier': {
        'model': XGBClassifier(),
        'params': {
            'model__n_estimators': [10, 100],
            'model__max_depth': [None, 1, 2, 3]
        }
    },
    'LGBM Classifier': {
        'model': LGBMClassifier(),
        'params': {
            'model__n_estimators': [10, 100],
            'model__max_depth': [None, 1, 2, 3],
            'model__learning_rate': [0.1, 0.2, 0.3],
            'model__verbose': [-1]
        }
    },
    'GaussianNB': {
        'model': GaussianNB(),
        'params': {}
    },
    'Naive Bayes Classifier': {
        'model': BernoulliNB(),
        'params': {
            'model__alpha': [0.1, 1.0, 10.0]
        }
    }
}
```

> Realiza una r√°pida investigaci√≥n de algunos de estos modelos. Describe sus particularidades y los hiperpar√°metros que requiere cada uno de ellos.

## Entrenamiento
Ejecutemos el c√≥digo completo que realizar√° el ajuste de cada uno de los modelos. Ejec√∫talo en tu notebook, y posteriormente analizaremos l√≠nea por l√≠nea.

In [6]:
# Definir los modelos y sus respectivos hiperpar√°metros para GridSearch
modelos = {
    'Regresi√≥n Log√≠stica': {
        'modelo': LogisticRegression(),
        'parametros': {
            'C': [0.01, 0.1, 1, 10, 100],
            'penalty': ['l1', 'l2'],
            'solver': ['liblinear', 'saga'],
            'max_iter': [100, 500, 1000]
        }
    },
    'Clasificador de Vectores de Soporte': {
        'modelo': SVC(),
        'parametros': {
            'kernel': ['linear', 'poly', 'rbf', 'sigmoid'],
            'C': [0.1, 1, 10]
        }
    },
    'Clasificador de √Årbol de Decisi√≥n': {
        'modelo': DecisionTreeClassifier(),
        'parametros': {
            'splitter': ['best', 'random'],
            'max_depth': [None, 1, 2, 3, 4]
        }
    },
    'Clasificador de Bosques Aleatorios': {
        'modelo': RandomForestClassifier(),
        'parametros': {
            'n_estimators': [10, 100],
            'max_depth': [None, 1, 2, 3, 4],
            'max_features': ['sqrt', 'log2', None]
        }
    },
    'Clasificador de Gradient Boosting': {
        'modelo': GradientBoostingClassifier(),
        'parametros': {
            'n_estimators': [10, 100],
            'max_depth': [None, 1, 2, 3, 4]
        }
    },
    'Clasificador AdaBoost': {
        'modelo': AdaBoostClassifier(),
        'parametros': {
            'n_estimators': [10, 100]
        }
    },
    'Clasificador K-Nearest Neighbors': {
        'modelo': KNeighborsClassifier(),
        'parametros': {
            'n_neighbors': [3, 5, 7]
        }
    },
    'Clasificador XGBoost': {
        'modelo': XGBClassifier(),
        'parametros': {
            'n_estimators': [10, 100],
            'max_depth': [None, 1, 2, 3]
        }
    },
    'Clasificador LGBM': {
        'modelo': LGBMClassifier(),
        'parametros': {
            'n_estimators': [10, 100],
            'max_depth': [None, 1, 2, 3],
            'learning_rate': [0.1, 0.2, 0.3],
            'verbose': [-1]
        }
    },
    'GaussianNB': {
        'modelo': GaussianNB(),
        'parametros': {}
    },
    'Clasificador Naive Bayes': {
        'modelo': BernoulliNB(),
        'parametros': {
            'alpha': [0.1, 1.0, 10.0]
        }
    }
}

# Inicializar variables para almacenar los puntajes de los modelos y el mejor estimador
puntajes_modelos = []
mejor_precision = 0
mejor_estimador = None
mejor_modelo = None
estimadores = {}

# Iterar sobre cada modelo y sus hiperpar√°metros
for nombre, info_modelo in modelos.items():
    # Inicializar GridSearchCV con el modelo y los hiperpar√°metros
    grid_search = GridSearchCV(
        estimator=info_modelo['modelo'],
        param_grid=info_modelo['parametros'],
        cv=5,
        scoring='accuracy',
        verbose=0,
        n_jobs=-1,
    )

    # Ajustar GridSearchCV con los datos de entrenamiento
    grid_search.fit(X_train, y_train)
    
    # Hacer predicciones con el modelo ajustado
    y_pred = grid_search.predict(X_test)
    
    # Calcular la precisi√≥n de las predicciones
    precision = accuracy_score(y_test, y_pred)
    
    # Almacenar los resultados del modelo
    puntajes_modelos.append({
        'Modelo': nombre,
        'Precisi√≥n': precision
    })

    estimadores[nombre] = grid_search.best_estimator_
    
    # Actualizar el mejor modelo si la precisi√≥n actual es mayor que la mejor precisi√≥n encontrada
    if precision > mejor_precision:
        mejor_modelo = nombre
        mejor_precision = precision
        mejor_estimador = grid_search.best_estimator_

# Convertir los resultados a un DataFrame para una mejor visualizaci√≥n
metricas = pd.DataFrame(puntajes_modelos).sort_values('Precisi√≥n', ascending=False)

# Imprimir el rendimiento de los modelos de clasificaci√≥n
print("Rendimiento de los modelos de clasificaci√≥n")
print(metricas.round(2))

# Imprimir el mejor modelo y su precisi√≥n
print('---------------------------------------------------')
print("MEJOR MODELO DE CLASIFICACI√ìN")
print(f"Modelo: {mejor_modelo}")
print(f"Precisi√≥n: {mejor_precision:.2f}")

Rendimiento de los modelos de clasificaci√≥n
                                 Modelo  Precisi√≥n
4     Clasificador de Gradient Boosting       0.83
6      Clasificador K-Nearest Neighbors       0.83
7                  Clasificador XGBoost       0.82
8                     Clasificador LGBM       0.81
3    Clasificador de Bosques Aleatorios       0.80
1   Clasificador de Vectores de Soporte       0.80
2     Clasificador de √Årbol de Decisi√≥n       0.80
0                   Regresi√≥n Log√≠stica       0.79
5                 Clasificador AdaBoost       0.79
10             Clasificador Naive Bayes       0.79
9                            GaussianNB       0.76
---------------------------------------------------
MEJOR MODELO DE CLASIFICACI√ìN
Modelo: Clasificador de Gradient Boosting
Precisi√≥n: 0.83




> No te preocupes si ves algunos warnings en el output. Las advertencias no interfieren con el proceso de entrenamiento.

**Investiga qu√© representa la m√©trica de precisi√≥n.**
La **precisi√≥n** (en ingl√©s, *precision*) es una m√©trica de evaluaci√≥n utilizada en problemas de clasificaci√≥n que mide la proporci√≥n de predicciones positivas correctas entre todas las predicciones que el modelo ha etiquetado como positivas. En t√©rminos formales, se calcula como el cociente entre el n√∫mero de **verdaderos positivos (TP)** y la suma de verdaderos positivos m√°s **falsos positivos (FP)**:  
\[
\text{Precisi√≥n} = \frac{TP}{TP + FP}
\]  
Esta m√©trica responde a la pregunta: *"De todas las veces que el modelo dijo 's√≠' (positivo), ¬øcu√°ntas veces estaba realmente en lo correcto?"*. Es especialmente √∫til cuando el costo de un falso positivo es alto, como en sistemas de detecci√≥n de enfermedades o fraudes, donde no queremos alertar falsamente. A diferencia del accuracy (exactitud), la precisi√≥n ignora los verdaderos negativos, por lo que es m√°s sensible al desequilibrio de clases y al rendimiento en la clase positiva. Por ejemplo, si un modelo tiene una precisi√≥n de 0.83, significa que del 83% de las veces que predijo "positivo", fue correcto. 

---

Aunque no lo creas, aqu√≠ termina la fase de entrenamiento. Hemos ajustado 11 modelos diferentes, cada uno con diferentes hiperpar√°metros, y ahora podemos seleccionar aqu√©l que haya logrado obtener una mayor precisi√≥n.

Las √∫ltimas l√≠neas del c√≥digo anterior sirven precisamente para mostrarnos, en un formato muy amigable, el resultado de cada uno de los modelos. Podemos ver que el modelo que alcanz√≥ la precisi√≥n m√°s alta es el **Clasificador de Gradient Boosting**.

>Es posible que en tu computadora obtengas otro resultado, sin embargo, lo m√°s probable es que la precisi√≥n sea similar a 0.83.

**¬øy ahora qu√©?**

Ya que seleccionamos nuestro modelo, podemos comenzar a hacer inferencia. Antes de pasar a este punto, analicemos una por una las l√≠neas de c√≥digo de entrenamiento.

## Revisi√≥n de c√≥digo

Lo primero que tenemos es el diccionario de modelos. Cada elemento de este diccionario representa un modelo y los diferentes hiperpar√°metros que probaremos. 

Hemos repetido esta palabra varias veces, pero no nos hemos detenido a revisar qu√© es. 

Pregunta a la IA de tu preferencia:

Prompt üí°:
> Explica con detalle qu√© son los hiperpar√©metros en el contexto del aprendizaje autom√°tico.

>**Los hiperpar√°metros son como los settings ‚öôÔ∏è que podemos configurar al momento de entrenar un modelo.**

## Sin GridSearch
Para comprender la b√∫squeda en cuadr√≠cula (Grid Search) m√°s f√°cilmente, primero veamos c√≥mo se entrena un modelo individualmente. 

Entrenemos una regresi√≥n log√≠stica:
```python
# Esto ya lo tenemos importado. Lo ponemos nuevamente nada m√°s de referencia
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score


# Creamos el modelo de regresi√≥n log√≠stica
model = LogisticRegression()

# Entrenamos el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizamos predicciones con el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluamos el modelo usando precisi√≥n
accuracy = accuracy_score(y_test, y_pred)

print(f"Precisi√≥n del modelo: {accuracy:.2f}")
```
**Output**
```bash
Precisi√≥n del modelo: 0.80
```

**¬øY los hiperpar√°metros?** Si no especificamos hiperpar√°metros, se utilizar√°n los valores por defecto que define Scikit Learn para su modelo LogisticRegression

**¬øC√≥mo sabemos qu√© hiperpar√°metros podemos usar?**
Esto lo podemos consultar en la documentaci√≥n del modelo en cuesti√≥n. Googlea scikit learn logistic regression. El primer link (o uno de los primeros) que aparece nos lleva la documentaci√≥n oficial de la regresi√≥n log√≠stica de Scikit Learn: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

O bien, podemos preguntarle a GhatGPT o cualquier otra IA:

Prompt üí°:
> ¬øCu√°les son los hiperpar√°metros m√°s comunes que podemos utilizar en una regresi√≥n log√≠stica de Scikit Learn?

Respuesta ü§ñ:
> **C**: Controla la regularizaci√≥n del modelo. Un valor m√°s bajo implica una regularizaci√≥n m√°s fuerte (mayor penalizaci√≥n por pesos grandes), mientras que un valor m√°s alto implica una regularizaci√≥n m√°s d√©bil. Por defecto es 1.0.
>
> **penalty**: Especifica el tipo de penalizaci√≥n para la regularizaci√≥n. Los valores posibles son 'l1', 'l2', 'elasticnet', o None. 'l2' es el valor por defecto.
>
> **solver**: El algoritmo utilizado para optimizar la funci√≥n de coste. Los valores posibles incluyen 'newton-cg', 'lbfgs', 'liblinear', 'saga', y 'adam'. 'lbfgs' es el valor por defecto.
>
> **max_iter**: El n√∫mero m√°ximo de iteraciones para el algoritmo de optimizaci√≥n. El valor por defecto es 100.
>
> **class_weight**: Permite ajustar el peso de las clases en el entrenamiento. Puede ser None, 'balanced', o un diccionario con pesos espec√≠ficos. Por defecto es None.
>
> **multi_class**: Define el tipo de problema de clasificaci√≥n m√∫ltiple. Los valores posibles son 'ovr' (one-vs-rest) y 'multinomial'. 'ovr' es el valor por defecto.
>
> **fit_intercept**: Indica si se debe ajustar el intercepto. El valor por defecto es True.
>
> **warm_start**: Permite reutilizar la soluci√≥n de la llamada anterior para iniciar el siguiente ajuste. El valor por defecto es False.
>
> **tol**: El umbral de tolerancia para el criterio de convergencia. El valor por defecto es 1e-4

Entonces podemos implementar nuestra regresi√≥n log√≠stica especificando algunos hiperpar√°metros:
```python
model = LogisticRegression(
    C=0.5,                  # Valor de regularizaci√≥n
    penalty='l2',            # Tipo de penalizaci√≥n (l2 es la regularizaci√≥n Ridge)
    solver='lbfgs',         # Algoritmo de optimizaci√≥n
    max_iter=200,           # N√∫mero m√°ximo de iteraciones
    class_weight='balanced' # Ajustar pesos de las clases
)

# Entrenar el modelo
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar la precisi√≥n del modelo
accuracy = accuracy_score(y_test, y_pred)

print(f"Precisi√≥n del modelo: {accuracy:.2f}")
```
**Output:**
```bash
Precisi√≥n del modelo: 0.78
```
(Empeor√≥ üòÖüòÖüòÖ)

Cuando vemos la lista larga de hiperpar√°metros, y todos los posibles valores que podemos dar a cada uno de ellos, sin duda nos sentimos algo abrumados. Despu√©s de todo, ¬øc√≥mo vamos a aprendernos todas estas combinaciones?

> **¬°√âste es precisamente el problema que GridSearch busca resolver!**

En lugar de probar combinaciones de hiperpar√°metros uno por uno, implementamos un GridSearch que probar√° todas las diferentes combinaciones de hiperpar√°metros que espefiquemos.

Veamos nuevamente el objeto de regresi√≥n log√≠stica en el diccionario de modelos:
```python
'Regresi√≥n Log√≠stica': {
    'modelo': LogisticRegression(),
    'parametros': {
        'C': [0.1],
        'max_iter': [1000]
    }
},
```
Podemos ver que aqu√≠ no estamos probando diferentes valores de `C` o `max_iter`. Cambiemos esto:
```python
'Regresi√≥n Log√≠stica': {
    'modelo': LogisticRegression(),
    'parametros': {
        'C': [0.01, 0.1, 1, 10, 100],
        'penalty': ['l1', 'l2'],
        'solver': ['liblinear', 'saga'],
        'max_iter': [100, 500, 1000]
    }
}
```

Ahora al momento de ejecutar la b√∫squeda en cuadr√≠cula, probaremos muchas m√°s combinaciones de hiperpar√°metros para la regresi√≥n log√≠stica. Claro, esto implica que el proceso de entrenamiento tardar√° un poco m√°s. 

### Con GridSearch
Lo que hace GridSearch por detr√°s de las cortinas es construir un modelo por cada posible combinaci√≥n de hiperpar√°metros. Si creamos el objeto de la siguiente manera:
```python
'Regresi√≥n Log√≠stica': {
    'modelo': LogisticRegression(),
    'parametros': {
        'C': [0.01, 0.1, 1, 10, 100],
        'penalty': ['l1', 'l2'],
        'solver': ['liblinear', 'saga'],
        'max_iter': [100, 500, 1000]
    }
}
```
literalmente se construir√°n todos estos objetos:
```bash
LogisticRegression(C=0.01, penalty="l1", solver="liblinear", max_iter=100)
LogisticRegression(C=0.01, penalty="l1", solver="liblinear", max_iter=500)
LogisticRegression(C=0.01, penalty="l1", solver="liblinear", max_iter=1000)
LogisticRegression(C=0.01, penalty="l2", solver="liblinear", max_iter=100)
LogisticRegression(C=0.01, penalty="l2", solver="liblinear", max_iter=500)
LogisticRegression(C=0.01, penalty="l2", solver="liblinear", max_iter=1000)
LogisticRegression(C=0.01, penalty="l2", solver="saga", max_iter=100)
LogisticRegression(C=0.01, penalty="l2", solver="saga", max_iter=500)
LogisticRegression(C=0.01, penalty="l2", solver="saga", max_iter=1000)

LogisticRegression(C=0.1, penalty="l1", solver="liblinear", max_iter=100)
LogisticRegression(C=0.1, penalty="l1", solver="liblinear", max_iter=500)
LogisticRegression(C=0.1, penalty="l1", solver="liblinear", max_iter=1000)
LogisticRegression(C=0.1, penalty="l2", solver="liblinear", max_iter=100)
LogisticRegression(C=0.1, penalty="l2", solver="liblinear", max_iter=500)
LogisticRegression(C=0.1, penalty="l2", solver="liblinear", max_iter=1000)
LogisticRegression(C=0.1, penalty="l2", solver="saga", max_iter=100)
LogisticRegression(C=0.1, penalty="l2", solver="saga", max_iter=500)
LogisticRegression(C=0.1, penalty="l2", solver="saga", max_iter=1000)

LogisticRegression(C=1, penalty="l1", solver="liblinear", max_iter=100)
LogisticRegression(C=1, penalty="l1", solver="liblinear", max_iter=500)
LogisticRegression(C=1, penalty="l1", solver="liblinear", max_iter=1000)
LogisticRegression(C=1, penalty="l2", solver="liblinear", max_iter=100)
LogisticRegression(C=1, penalty="l2", solver="liblinear", max_iter=500)
LogisticRegression(C=1, penalty="l2", solver="liblinear", max_iter=1000)
LogisticRegression(C=1, penalty="l2", solver="saga", max_iter=100)
LogisticRegression(C=1, penalty="l2", solver="saga", max_iter=500)
LogisticRegression(C=1, penalty="l2", solver="saga", max_iter=1000)

LogisticRegression(C=10, penalty="l1", solver="liblinear", max_iter=100)
LogisticRegression(C=10, penalty="l1", solver="liblinear", max_iter=500)
LogisticRegression(C=10, penalty="l1", solver="liblinear", max_iter=1000)
LogisticRegression(C=10, penalty="l2", solver="liblinear", max_iter=100)
LogisticRegression(C=10, penalty="l2", solver="liblinear", max_iter=500)
LogisticRegression(C=10, penalty="l2", solver="liblinear", max_iter=1000)
LogisticRegression(C=10, penalty="l2", solver="saga", max_iter=100)
LogisticRegression(C=10, penalty="l2", solver="saga", max_iter=500)
LogisticRegression(C=10, penalty="l2", solver="saga", max_iter=1000)

LogisticRegression(C=100, penalty="l1", solver="liblinear", max_iter=100)
LogisticRegression(C=100, penalty="l1", solver="liblinear", max_iter=500)
LogisticRegression(C=100, penalty="l1", solver="liblinear", max_iter=1000)
LogisticRegression(C=100, penalty="l2", solver="liblinear", max_iter=100)
LogisticRegression(C=100, penalty="l2", solver="liblinear", max_iter=500)
LogisticRegression(C=100, penalty="l2", solver="liblinear", max_iter=1000)
LogisticRegression(C=100, penalty="l2", solver="saga", max_iter=100)
LogisticRegression(C=100, penalty="l2", solver="saga", max_iter=500)
LogisticRegression(C=100, penalty="l2", solver="saga", max_iter=1000)
```

---

Esto realmente representa la ventaja o el avance de machine learning. La regresi√≥n log√≠stica se empez√≥ a utilizar en el siglo pasado, por lo que no es una t√©cnica nueva.

Sin embargo, lo que s√≠ es nuevo (adem√°s del poder computacional que ahora tenemos disponible) es la capacidad de contar con herramientas avanzadas como las que estamos implementando. Estas herramientas nos permiten probar hip√≥tesis y experimentar con modelos de manera mucho m√°s r√°pida y eficiente.

### Variables auxiliares
Despu√©s de definir el diccionario de modelos e hiperpar√°metros, creamos unas variables auxiliares que nos servir√°n para mostrar f√°cilmente el mejor modelo que resulte de la b√∫squeda en cuadr√≠cula:
```python
# Inicializar variables para almacenar los puntajes de los modelos y el mejor estimador
puntajes_modelos = []
mejor_precision = 0
mejor_estimador = None
mejor_modelo = None
estimadores = {}
```

### Ajuste de modelos
El proceso de ajuste lo haremos por cada uno de los elementos de nuestro diccionario de modelos. 

Utilizaremos nada m√°s y nada menos que un ciclo `for`.
```python
# Iterar sobre cada modelo y sus hiperpar√°metros
for nombre, info_modelo in modelos.items():
```
Adentro de este ciclo `for` ajustaremos los modelos utilizando GridSearch
```python
grid_search = GridSearchCV(
    estimator=info_modelo['modelo'],
    param_grid=info_modelo['parametros'],
    cv=5,
    scoring='accuracy',
    verbose=0,
    n_jobs=-1,
)
```

>Los par√°metros **`cv`**, **`verbose`** y **`n_jobs`** son configuraciones comunes en herramientas de validaci√≥n y optimizaci√≥n de modelos en librer√≠as como scikit-learn: **`cv`** define el n√∫mero de particiones (folds) para la validaci√≥n cruzada, permitiendo evaluar la estabilidad y generalizaci√≥n del modelo; **`verbose`** controla el nivel de detalle de la informaci√≥n que se imprime durante la ejecuci√≥n (√∫til para monitorear el progreso, especialmente en procesos largos); y **`n_jobs`** especifica el n√∫mero de n√∫cleos de CPU a utilizar en paralelo para acelerar el c√≥mputo ‚Äî usar `-1` aprovecha todos los n√∫cleos disponibles. Juntos, estos par√°metros permiten equilibrar eficiencia, transparencia y rigor estad√≠stico en el entrenamiento y ajuste de modelos.

Una vez creado el objeto `grid_search`, procedemos a ajustar el modelo, y posteriormente haremos predicciones utilizando el conjunto `X_test`. Estos resultados los almacenaremos en la variable `y_pred`. 

Finalmente, para medir la presici√≥n del modelo que acabamos de ajustar, compararemos los valores de `y_pred` y `y_test` para ‚Äúver a cu√°ntos le atin√≥ el modelo‚Äù. 

Los resultados los iremos guardando en una lista llamada `puntajes_modelos`:
```python
# Ajustar GridSearchCV con los datos de entrenamiento
grid_search.fit(X_train, y_train)

# Hacer predicciones con el modelo ajustado
y_pred = grid_search.predict(X_test)

# Calcular la precisi√≥n de las predicciones
precision = accuracy_score(y_test, y_pred)

# Almacenar los resultados del modelo
puntajes_modelos.append({
    'Modelo': nombre,
    'Precisi√≥n': precision
})

estimadores[nombre] = grid_search.best_estimator_
```
El siguiente bloque lo usaremos para ir guardando el mejor modelo y mejor precisi√≥n. De esta forma, cuando termine todo el ciclo de entrenamiento, podremos mostrar los resultados f√°cilmente:
```python
# Actualizar el mejor modelo si la precisi√≥n actual es mayor que la mejor precisi√≥n encontrada
if precision > mejor_precision:
    mejor_modelo = nombre
    mejor_precision = precision
    mejor_estimador = grid_search.best_estimator_
```

**¬°Listo!**

Con esto termina el bloque de c√≥digo del `for`

Ahora escribiremos c√≥digo para mostrar los resultados:
```python
# Convertir los resultados a un DataFrame para una mejor visualizaci√≥n
metricas = pd.DataFrame(puntajes_modelos).sort_values('Precisi√≥n', ascending=False)

# Imprimir el rendimiento de los modelos de clasificaci√≥n
print("Rendimiento de los modelos de clasificaci√≥n")
print(metricas.round(2))

# Imprimir el mejor modelo y su precisi√≥n
print('---------------------------------------------------')
print("MEJOR MODELO DE CLASIFICACI√ìN")
print(f"Modelo: {mejor_modelo}")
print(f"Precisi√≥n: {mejor_precision:.2f}")
```
Esto nos mostrar√° el siguiente output:
```bash
> Rendimiento de los modelos de clasificaci√≥n
                                 Modelo  Precisi√≥n
4     Clasificador de Gradient Boosting       0.83
6      Clasificador K-Nearest Neighbors       0.83
7                  Clasificador XGBoost       0.82
5                 Clasificador AdaBoost       0.81
8                     Clasificador LGBM       0.81
1   Clasificador de Vectores de Soporte       0.80
2     Clasificador de √Årbol de Decisi√≥n       0.80
3    Clasificador de Bosques Aleatorios       0.80
0                   Regresi√≥n Log√≠stica       0.79
10             Clasificador Naive Bayes       0.79
9                            GaussianNB       0.76
---------------------------------------------------
MEJOR MODELO DE CLASIFICACI√ìN
Modelo: Clasificador de Gradient Boosting
Precisi√≥n: 0.83
```


> **¬øCu√°l es la diferencia entre las variables `mejor_estimador` y `mejor_modelo`?**
> La diferencia es:
>
> - **mejor_modelo**: Es una variable tipo string que guarda el **nombre** del modelo que obtuvo la mayor precisi√≥n (por ejemplo, `"Clasificador de Gradient Boosting"`).
>
> - **mejor_estimador**: Es el **objeto del modelo entrenado** (el mejor estimador ajustado por GridSearchCV), es decir, la instancia del modelo con los hiperpar√°metros √≥ptimos encontrados, lista para hacer predicciones.

### Inferencia
Terminamos nuestro proceso de entrenamiento. Lo que viene ahora es algo que llamamos ‚Äúinferencia‚Äù. Esto significa que podremos usar nuestro modelo entrenado para predecir datos nuevos que no haya visto el modelo todav√≠a. 

En el contexto de nuestro proyecto, podr√≠amos ya usar nuestro modelo para alimentarle nueva informaci√≥n de pasajeros y predecir si sobrevivi√≥ o no. 

En nuestro proceso de entrenamiento, guardamos el mejor estimador en la variable mejor_estimador`. Si vemos el contenido de esta variable en Jupyter, veremos algo as√≠:

```python
mejor_estimador
```

Para predecir nuevos valores, usaremos el m√©todo predict , mismo que recibe un numpy array como argumento, y √©ste debe ser de exactamente las mismas dimensiones que X_train y X_test.

Obtengamos los primeros datos de X_train y de y_train:
```python
X_train[0]
```
```bash
> array([0.        , 1.        , 0.6159084 , 0.        , 0.        ,
       0.55547282, 1.        ])
```
```python
y_train[0]
```
```bash
> np.int64(0) 
```
Ahora creemos un nuevo numpy array con los datos que vemos en `X_train[0]`
```python
nuevos_datos = np.array([0,1,0.6159084,0,0,0.55547282,1]).reshape(1,-1)
```
Y finalmente corramos predict
```python
mejor_estimador.predict(nuevos_datos)
```
```bash
> array([0])
```

> **Nuestro modelo predice que este pasajero no sobrevivi√≥.**

### Guardar el modelo
Este √∫ltimo paso es necesario para la siguiente lecci√≥n en la que pondremos nuestro modelo en producci√≥n. Usaremos un paquete de Python llamado Pickle, el cual nos permite serializar (guardar) objetos de Python en un archivo para luego poder cargarlos y utilizarlos en diferentes entornos, como una API o una aplicaci√≥n web.

Pickle es particularmente √∫til cuando queremos guardar modelos entrenados o cualquier otro objeto complejo de Python. Al guardar el pipeline con Pickle, nos aseguramos de que todas las transformaciones de datos y el modelo en s√≠ se conserven tal como fueron entrenados, permiti√©ndonos hacer predicciones consistentes con nuevos datos en producci√≥n sin necesidad de volver a aplicar las mismas transformaciones manualmente.

Si no has importado pickle, hazlo ahora
```python
import pickle
```
Finalmente, guarda el modelo:
```python
with open('modelo.pkl', 'wb') as archivo_estimador:
    pickle.dump(mejor_estimador, archivo_estimador)
```

In [8]:
#  DEFINICI√ìN DE MODELOS Y REJILLAS DE HYPER‚ÄëPAR√ÅMETROS
modelos = {
    # Regresi√≥n log√≠stica (solo como referencia)
    "Regresi√≥n Log√≠stica": {
        "modelo": LogisticRegression(max_iter=500, solver="lbfgs"),
        "parametros": {"C": [0.01, 0.1, 1, 10]},
    },
    # SVM
    "Clasificador SVM": {
        "modelo": SVC(),
        "parametros": {
            "C": [0.1, 1, 10],
            "kernel": ["linear", "rbf"],
            "gamma": ["scale", "auto"],
        },
    },
    # K‚ÄëNearest Neighbours
    "Clasificador K‚ÄëNearest Neighbours": {
        "modelo": KNeighborsClassifier(),
        "parametros": {"n_neighbors": [3, 5, 7, 9], "weights": ["uniform", "distance"]},
    },
    # √Årbol de decisi√≥n
    "Clasificador de √Årbol de Decisi√≥n": {
        "modelo": DecisionTreeClassifier(),
        "parametros": {
            "max_depth": [None, 5, 10, 20],
            "min_samples_split": [2, 5, 10],
        },
    },
    # Bosques aleatorios
    "Clasificador de Bosques Aleatorios": {
        "modelo": RandomForestClassifier(),
        "parametros": {
            "n_estimators": [100, 200],
            "max_depth": [None, 10, 20],
            "min_samples_split": [2, 5],
        },
    },
    # Gradient Boosting
    "Clasificador de Gradient Boosting": {
        "modelo": GradientBoostingClassifier(),
        "parametros": {
            "n_estimators": [100, 200],
            "learning_rate": [0.05, 0.1, 0.2],
            "max_depth": [3, 5],
        },
    },
    # AdaBoost
    "Clasificador AdaBoost": {
        "modelo": AdaBoostClassifier(),
        "parametros": {"n_estimators": [50, 100, 200], "learning_rate": [0.5, 1.0, 1.5]},
    },
    # LightGBM
    "Clasificador LGBM": {
        "modelo": LGBMClassifier(),
        "parametros": {
            "n_estimators": [100, 200],
            "learning_rate": [0.05, 0.1],
            "num_leaves": [31, 63],
        },
    },
    # XGBoost
    "Clasificador XGBoost": {
        "modelo": XGBClassifier(use_label_encoder=False, eval_metric="logloss"),
        "parametros": {
            "n_estimators": [100, 200],
            "learning_rate": [0.05, 0.1],
            "max_depth": [3, 5],
        },
    },
    # Na√Øve Bayes (Gaussian)
    "Clasificador Naive Bayes": {
        "modelo": GaussianNB(),
        "parametros": {},  # sin hiper‚Äëpar√°metros a buscar
    },
}

#  VARIABLES DE CONTROL
puntajes_modelos = []          # Lista con nombre y precisi√≥n de cada modelo
mejor_precision = -np.inf     # Mejor precisi√≥n encontrada hasta el momento
mejor_modelo = None           # Nombre del modelo con mejor precisi√≥n
mejor_estimador = None        # Instancia del mejor modelo (con mejores hp)

#  BUCLE DE ENTRENAMIENTO + GRID SEARCH
for nombre, info in modelos.items():
    # Configuramos GridSearchCV (si la rejilla est√° vac√≠a, simplemente usa el modelo tal cual)
    grid_search = GridSearchCV(
        estimator=info["modelo"],
        param_grid=info["parametros"],
        cv=5,
        scoring="accuracy",
        verbose=0,
        n_jobs=-1,
    )

    # Entrenamos
    grid_search.fit(X_train, y_train)

    # Predicci√≥n sobre el conjunto de prueba
    y_pred = grid_search.predict(X_test)

    # M√©trica de evaluaci√≥n
    precision = accuracy_score(y_test, y_pred)

    # Guardamos resultados
    puntajes_modelos.append({"Modelo": nombre, "Precisi√≥n": precision})

    # Actualizamos el mejor modelo si corresponde
    if precision > mejor_precision:
        mejor_precision = precision
        mejor_modelo = nombre
        mejor_estimador = grid_search.best_estimator_

#  RESUMEN DE RESULTADOS (opcional, pero √∫til)
metricas = pd.DataFrame(puntajes_modelos).sort_values(
    "Precisi√≥n", ascending=False
).reset_index(drop=True)

print("\n=== Rendimiento de los modelos ===")
print(metricas.round(4))

print("\n=== Mejor modelo encontrado ===")
print(f"Modelo: {mejor_modelo}")
print(f"Precisi√≥n: {mejor_precision:.4f}")

#  SERIALIZACI√ìN DEL MEJOR MODELO
ruta_guardado = "archivo_estimador.pkl"
with open(ruta_guardado, "wb") as f:
    pickle.dump(mejor_estimador, f)

print(f"\n‚úÖ Modelo guardado en: {ruta_guardado}")


=== Rendimiento de los modelos ===
                               Modelo  Precisi√≥n
0                   Clasificador LGBM     0.8492
1  Clasificador de Bosques Aleatorios     0.8380
2                Clasificador XGBoost     0.8156
3   Clasificador de Gradient Boosting     0.8045
4   Clasificador K‚ÄëNearest Neighbours     0.7989
5                    Clasificador SVM     0.7989
6               Clasificador AdaBoost     0.7989
7   Clasificador de √Årbol de Decisi√≥n     0.7989
8                 Regresi√≥n Log√≠stica     0.7933
9            Clasificador Naive Bayes     0.7598

=== Mejor modelo encontrado ===
Modelo: Clasificador LGBM
Precisi√≥n: 0.8492

‚úÖ Modelo guardado en: archivo_estimador.pkl


Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
