# MACHINE LEARNING

El Machine Learning (ML) es una rama de la inteligencia artificail que permite a los sistemas aprender autom√°ticamente a partir de los datos, sin ser expl√≠citamente programador para cada tarea. A diferencia de los m√©todos tradicionales, el ML se basa en extraer patrones y relaciones entre las variables de entrada (*features*) y las de salida (*target*), para luego <b>predecir, clasificar o estimar</b> nuevos valores.

Su objetivo principal es desarrollar modelos que sean capaces de <b>generalizar</b>, es decir, que funcionen bien no solo con los datos de entrenamiento, sino tambi√©n con datos nuevos y desconocidos.

#### <b>Tipos de aprendizaje en Machine Learning</b>

El Machine Learning se divide en tres grandes tipos de aprendizaje, en funci√≥n del tipo de datos disponibles y del objetivo del modelo:

1. <b>Aprendizaje supervisado

    * Se dispone de un conjunto de datos con etiquetas conocidas (target).

    * El modelo aprende a predecir una salida a partir de ejemplos ya etiquetados.

    * Ejemplos:

        * Regresi√≥n: predecir un valor continuo (precio, temperatura, beneficio).

        * Clasificaci√≥n: predecir una categor√≠a (fraude/no fraude, s√≠/no, tipo de cliente). </b>


2. Aprendizaje no supervisado

    * No existen etiquetas conocidas.

    * El modelo busca patrones ocultos o agrupaciones naturales en los datos.

    * Ejemplos:

        * Clustering: agrupar clientes por comportamiento (K-Means, DBSCAN).

        * Reducci√≥n de dimensionalidad: simplificar datos (PCA).

3. Aprendizaje por refuerzo

* Un agente aprende por recompensas o penalizaciones, tomando decisiones secuenciales.

* Menos usado en este m√≥dulo, m√°s presente en IA avanzada (rob√≥tica, juegos, control autom√°tico).

#### <b>Etapas generales del proceso de Machine Learning en modelos supervisados</b>

Todo proyecto de Machine Learning sigue un flujo com√∫n:

1. *Definici√≥n del problema* ‚Üí identificar si se trata de regresi√≥n, clasificaci√≥n o agrupamiento.
2. *An√°lisis exploratorio de datos (EDA)*‚Üí conocer las caracter√≠sticas de los datos.
3. *Preprocesamiento*‚Üí limpiar, transformar y preparar los datos para el modelo.
4. *Construcci√≥n y entrenamiento del modelo* ‚Üí aplicar algoritmos de ML a los datos.
5. *Evaluaci√≥n* ‚Üí medir el rendimiento con m√©tricas adecuadas.
6. *Optimizaci√≥n y mejora* ‚Üí ajustar hiperpar√°metros, aplicar regularizaci√≥n y validar el modelo.
7. *Implementaci√≥n y predicci√≥n final* ‚Üí utilizar el modelo con nuevos datos.

#### <b>Librer√≠as Necesarias</b>

Para la implementaci√≥n pr√°ctica de los modelos de Machine Learning, utilizamos principalmente librer√≠as de Python, cada una enfocada en una etapa espec√≠fica del flujo de trabajo

```python
# Manipulaci√≥n de datos
import pandas as pd
import numpy as np

# Visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Preprocesamiento y modelado
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder, OneHotEncoder
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, roc_auc_score, mean_squared_error, r2_score

# Modelos de Machine Learning
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor, GradientBoostingClassifier, GradientBoostingRegressor

# Control de warnings
import warnings
warnings.filterwarnings('ignore')
```

#### <b>Conceptos fundamentales </b>

Antes de empezar con la pr√°ctica, es importante tener claros algunos conceptos comunes en cualquier modelo de Machine Learning:

* Feature o variable independiente: cada columna del dataset que se utiliza como entrada.

* Target o variable dependiente: columna que queremos predecir.

* Entrenamiento: proceso por el cual el modelo aprende patrones de los datos.

* Validaci√≥n: fase para ajustar y comparar modelos sin usar los datos de prueba.

* Prueba (Test): evaluaci√≥n final con datos nunca vistos.

* Overfitting: cuando el modelo aprende demasiado los datos de entrenamiento y generaliza mal.

* Underfitting: cuando el modelo no es capaz de aprender lo suficiente (demasiado simple).


## 1. An√°lisis exploratorio de Datos (EDA)

El An√°lisis Exploratorio de Datos es la primera fase de cualquier proyecto de Machine Learning. Su prop√≥sito es comprender la estructura, distribuci√≥n y calidad de los datos, as√≠ como identificar patrones, errores o relaciones que guiar√°n las decisiones posteriores de preprocesamiento y modelado.

El EDA permite obtener una visi√≥n global del dataset y responder preguntas clabe:

* ¬øQu√© informaci√≥n contiene el dataset?
* ¬øQu√© tipo de variables existen (num√©ricas, categ√≥ricas, temporales)?
* ¬øExisten valores faltantes o duplicados?
* ¬øQu√© relaciones hay entre las variables?
* ¬øC√≥mo se distribuye la variable objetivo (target)?

Un EDA riguroso es esencial para evitar errores m√°s adelante, ya que la calidad del modelo nunca ser√° mejor que la calidad de los datos con los que se entrena.

### 1.1. Carga y visi√≥n general del dataset

<b>Objetivo:</b> Obtener una primera fotografia del dataset, su estructura general, tama√±o, tipos de variables y variable objetivo (target).

Esta etapa busca familiarizarnos con los datos antes de manipularlos. Es habitual realizar comprobaciones b√°sicas sobre:

* El n√∫mero observaciones y columnas
* El tipo de variables (num√©ricas, categ√≥ricas, temporales).
* La existencia o no de la variable objetivo (target).
* La coherencia general de los nombres de las variables.

```python
# Carga del dataset (ajustar ruta seg√∫n el entorno)
df = pd.read_csv("ruta/dataset.csv")

# Dimensiones del dataset: n√∫mero de filas y columnas
print("Dimensiones del dataset:", df.shape)

# Visualizaci√≥n de las primeras observaciones
df.head()
```

```python
# Informaci√≥n b√°sica del dataset
df.info()

# Identificaci√≥n de tipos de variables
df.dtypes.value_counts()
```

```python
# Identificaci√≥n del target y separaci√≥n de variables predictoras
target_col = "target"  # Sustituir por el nombre real del target
features = [col for col in df.columns if col != target_col]

# Clasificaci√≥n de variables por tipo
num_features = df.select_dtypes(include=["int64", "float64"]).columns.tolist()
cat_features = df.select_dtypes(include=["object", "category"]).columns.tolist()

print("N√∫mero de variables num√©ricas:", len(num_features))
print("N√∫mero de variables categ√≥ricas:", len(cat_features))
```

<b>Interpretaci√≥n:</b>

En este punto tenemos una visi√≥n global del dataset: C√∫antas variables lo componen, qu√© tipos de datos contiene y cu√°l es la variable objetivo.

Estos primeros pasos permiten detectar si el dataset est√° completo o requiere limpieza estructural antes de avanzar.

### 1.2. Estad√≠sticas descriptivas

<b>Objetivo:</b> Analizar el comportamiento individual de las variables, tanto num√©ricas como categ√≥ricas, para entender su rango, dispersi√≥n, asimetr√≠a y valores caracter√≠sticos.

Las variables num√©ricas permiten calcular medidas de tendencia central (media, mediana) y dispersi√≥n (desviaci√≥n est√°ndar, rango).

Las variables categ√≥ricas se analizan en funci√≥n de la frecuencia de aparici√≥n de sus categor√≠as.

Este an√°lisis proporciona una primera idea sobre:

* Posibles valores an√≥malos o fuera de rango.
* Distribuciones muy sesgadas o concentradas.
* Categor√≠as con escasa representaci√≥n (que podr√≠an reagruparse).

```python
# Estad√≠sticas descriptivas para variables num√©ricas
df[num_features].describe()

# Estad√≠sticas descriptivas para variables categ√≥ricas
df[cat_features].describe()

# Distribuci√≥n de frecuencias para variables categ√≥ricas
for col in cat_features:
    print(f"\nDistribuci√≥n de {col}:")
    print(df[col].value_counts(normalize=True).head())
```

<b> Interpretacin: </b>

* Variables num√©ricas con rangos muy amplios o desviaciones altas podr√≠an requerir escalado o normalizaci√≥n.
* Variables categ√≥ricas con muchas categor√≠as poco representadas podr√≠an reagruparse (fase de codificaci√≥n).
* Este an√°lisis tambi√©n ayuda a detectar posibles errores de codificaci√≥n, como valores ""? o "unkown".

### 1.3. Valores faltantes, duplicados y outliers

<b>Objetivo</b> Evaluar la calidad del dataset identificando valores faltantes, registros duplicados y valores atipicos (outliers).

* Valores faltantes (NaN): indican ausencia de informaci√≥n. Si su proporci√≥n es alta, pueden comprometer el entrenamiento.
* Duplicados: Filas repetidas que deben eliminarse para evitar sesgos.
* Outliers: observaciones extremas que pueden distorsionar el modelo si no se tratan adecuadamente.

En esta etapa √∫nicamente identificamos estos problemas, su tratamiento se definir√° m√°s adelante en el preprocesamiento o la regularizaci√≥n.

```python
# C√°lculo del porcentaje de valores faltantes por variable
missing_count = df.isnull().sum()
missing_pct = (missing_count / len(df)) * 100

missing_df = pd.DataFrame({
    "missing_count": missing_count,
    "missing_pct": missing_pct
}).sort_values("missing_pct", ascending=False)

print("Valores faltantes por variable:")
display(missing_df[missing_df["missing_count"] > 0])
```

```python
# Detecci√≥n de duplicados
num_duplicated = df.duplicated().sum()
print(f"N√∫mero de filas duplicadas: {num_duplicated}")
```

```python
# Detecci√≥n visual de outliers con boxplot
import matplotlib.pyplot as plt
import seaborn as sns

for col in num_features:
    plt.figure(figsize=(6, 3))
    sns.boxplot(x=df[col])
    plt.title(f"Distribuci√≥n y detecci√≥n visual de outliers en '{col}'}")
    plt.show()
```

```python
# Detecci√≥n num√©rica de outliers mediante rango intercuart√≠lico (IQR)
def iqr_outliers(series):
    Q1 = series.quantile(0.25)
    Q3 = series.quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    return ((series < lower) | (series > upper)).sum() # dara true en caso de que exista outlier o false en caso de que no

outliers_report = {col: iqr_outliers(df[col]) for col in num_features}
outliers_report
```
<b> Interpretaci√≥n: </b>
* Variables con m√°s del 30-40% de valores faltantes pueden descartarse o requerir imputaci√≥n avanzada.
* Los outliers pueden ser naturales (casos v√°lidos extremos) o errores; deben evaluarse con criterio de negocio.
 * La eliminaci√≥n de duplicados mejora la calidad del entrenamiento y evita sobreponderar ciertos registros.

### 1.4. Correlaciones y relaciones entre variables

<b>Objetivo</b>: Identificar relaciones entre las variables num√©ricas y detectar redundancias o asociaciones relevantes con el target.

El an√°lisis de correlaci√≥n permite:

* Detectar multicolinealidad, es decir, variables que aportan la misma informaci√≥n.
* Identificar variables con fuerte relaci√≥n con el target, que podr√≠an ser buenos predictores.
* Exportar posibles dependencias entre vairables.

```python
# Matriz de correlaci√≥n
corr_matrix = df[num_features].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap="coolwarm", center=0)
plt.title("Matriz de correlaci√≥n - Variables num√©ricas")
plt.show()
```

<b> Interpretaci√≥n:</b>

* Correlaciones muy altas (|œÅ| > 0.8) entre variables num√©ricas indican redundancia (multicolinealidad)
* En fases posteriores, una de ellas podr√° eliminarse (fase de selecci√≥n de variables).
* Correlaciones fuertes con el target orientan sobre qu√© variables son m√°s influyentes en la predicci√≥n.

### 1.5. An√°lisis del target

<b>Objetivo:</b> Analizar el comportamiento de la variable objetivo (target), ya que su naturaleza condiciona el tipo de modelo, las m√©tricas de evaluaci√≥n y la estrategia de entrenamiento.

* En problemas de clasificaci√≥n, interesa evaluar la proporciona de clases (balance o desbalance)
* En problemas de regresi√≥n, se estudio la distribuci√≥n, rango, media y presencia de valroes extremos

```python
# CLASIFICACI√ìN : distribuci√≥n de clases
print("Distribuci√≥n del target (clasificaci√≥n):")
print(df[target_col].value_counts(normalize=True) * 100)

df[target_col].value_counts().plot(kind="bar", color="lightblue", edgecolor="black")
plt.title("Distribuci√≥n del target")
plt.xlabel("Clase")
plt.ylabel("Frecuencia")
plt.show()
```

```python
# REGRESI√ìN: an√°lisis de distribuci√≥n
print("Estad√≠sticas del target (regresi√≥n):")
display(df[target_col].describe())

plt.hist(df[target_col], bins=30, color="skyblue", edgecolor="black")
plt.title("Distribuci√≥n del target")
plt.xlabel(target_col)
plt.ylabel("Frecuencia")
plt.show()
```

<b>Interpretaci√≥n:</b>

* Si existe desbalanceo, las m√©tricas tradicionales (`accuracy`) no ser√°n adecuadas, se deber√°n usar `recall`, `F1_score`, `Roc-AUC` y aplicar t√©cncias de balance en la fase 7.
* Si el target num√©rica presenta asimetria o valores extremos, se valorar√° aplicar transfomaciones (log, Yeo-johnson, Box-Cos) en la fase de regularizaci√≥n.

### 1.6. Conclusiones del EDA

El EDA finaliza con un resumen interpretativo que recoge los principales hallazgos y decisiones a tomar:

* Variables con valores faltantes significativos = Imputaci√≥n o eliminaci√≥n
* Variables con outliers relevantes = transformaciones o revisi√≥n
* Variables altamente correlacionadas = posible eliminaci√≥n en selecci√≥n de variables.
* Distribuci√≥n del target = revisi√≥n del balanceo o transformaciones.
* Variables con mayor poder predictivo = candidatas principales para el modelado

## 2. Preprocesamiento de los Datos

El preprocesamiento es la fase donde los datos se limpian, transforman y preparan para ser utilizados por los algoritmos de Machine Learning.

El objetivo es garantizar que los datos sean coherentes, num√©ricamente comparables y relevantes para el modelo.

Un buen preprocesamiento mejora la capacidad de generalizaci√≥n del modelo y evita errores derivados de datos mal estructurados.

### 2.1 Objetivo del preprocesamiento

El prop√≥sito de esta fase es:

* Corregir errores y valores faltantes.
* Estandarizar los tipos de variables
* Codificar adecuadamente las variables categ√≥ricas.
* Detectar y controlar outliers
* Preparar el dataset para su posterior divisi√≥n en entrenamiento y prueba.

Durante esta estapa no se modifica la estructura del problema (no se crean nuevas variables no se transforman las existentes de forma compleja); esas tareas se reservan para la fase de Regularizaci√≥n.

### 2.2. Tratamiento de valores faltantes (valores num√©ricos)

Los valores nulos o faltantes (NaN) son uno de los problemas m√°s comunes en datasets reales. Pueden deberse a errores de registro, datos perdidos o informaci√≥n no aplicable.

<b> Estrategias comunas: </b>
* Eliminaci√≥n de filas o columnas: solo si el porcentaje de nulos es muy alto (>40%) y no afectan a la representatividad.
* Imputaci√≥n: reemplazar los valoress faltantes por una medida representativa.
  * Media o mediana (variables num√©ricas).
  * Moda o categor√≠a "Desconocido" (varaibles categ√≥ricas).

```python
# Porcentaje de valores faltantes por variable
missing_pct = (df.isnull().sum() / len(df)) * 100
missing_pct[missing_pct > 0].sort_values(ascending=False)
```

```python
# Imputaci√≥n de valores num√©ricos con la mediana
for col in num_features:
    df[col].fillna(df[col].median(), inplace=True)

# Imputaci√≥n de valores num√©ricos con la media
for col in num_features:
    df[col].fillna(df[col].mean(), inplace=True)

# Imputaci√≥n de variables categ√≥ricas con la moda
for col in cat_features:
    df[col].fillna(df[col].mode()[0], inplace=True)
```

<b>Interpretaci√≥n </b>
Las imputaciones mantienen la coherencia estad√≠stica del dataset sin eliminar informaci√≥n √∫til. En fases m√°s vanzadas se podr√° consdierar imputaci√≥n mediante modelos si el patr√≥n de nulos es complejo.

### 2.3. Detecci√≥n y tratamiento de outliers. </b> (valores num√©ricos)

Los outliers son valores que se alejan significativamente del resto de observaciones. Pueden representar errores de medici√≥n o casos v√°lidos extremos.

El tratamiento de outliers depende del contexto y del impacto que tengan en el modelo.

* Si son errores = eliminar o reemplazar
* Si son valores por extremos = consdierar transformaciones logar√≠tmicas o estandarizaci√≥nn robusta.

```python
# Revisi√≥n visual con boxplots
import matplotlib.pyplot as plt
import seaborn as sns

for col in num_features:
    plt.figure(figsize=(5, 3))
    sns.boxplot(x=df[col], color="lightblue")
    plt.title(f"Distribuci√≥n y outliers en {col}")
    plt.show()
```

```python
# Detecci√≥n de outliers mediante el metodo IQR
for col in num_features:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    has_outliers = ((df[col] < lower) | (df[col] > upper)).any()
    if has_outliers:
        outlier_columns.append(col)

print("Columnas con outliers:", outlier_columns)
```

<b>Interpretaci√≥n:</b>

La eliminaci√≥n de outliers se aplica con precauci√≥n, ya que puede reducir la representatividad. En la fase de Regularizaci√≥n se aplicar√°n transformaciones m√°s robustas (Yeo-Johnson, Box-Cos,etx.) ara controlar su efecto sin perder informaci√≥n.

### 2.4. Tratamiento de variables categ√≥ricas.

Las variables categ√≥ricas representan informaci√≥n no num√©rica, por lo que deben codificarse numericamente antes del modelado.

Dependiendo del tipo de variable y el modelo que se emplee, se utilizan diferentes estrategias de codificaci√≥n.

A continuaci√≥n, se detallan las 6 t√©cncias principales:


#### <b> M√©todo 1: Label Encoding (codificaci√≥n ordinal simple). </b>

Convierte categor√≠as en valores num√©ricos entre (0,1,2...). Es √∫til cuando las categor√≠as tienen un orden l√≥gico (por ejemplo, bajo < medio < alto).
No es recomendable en variables nominales, ya que introduce una relaci√≥n artificial entre categor√≠as.

```python
from sklearn.preprocessing import LabelEncoder

def label_encoder(df, columna):
    encoder = LabelEncoder()
    df[columna] = encoder.fit_transform(df[columna])
    return df

```
* Ventajas: Simple y eficiente
* Desventajas: puede onducir relaciones num√©ricas inexsistentes


#### <b> M√©todo 2: One-Hot Encoding (codificaci√≥n ordinal simple). </b>

Crea una nueva columna por cada categor√≠as y asigna valores binarios (0 o 1),
Es el m√©todo m√°s utilziado cuando las categorias no tienen un orden jer√°rquico.

```python
from sklearn.preprocessing import OneHotEncoder

def one_hot_encoding(df, columna):
    encoder = OneHotEncoder(drop="first", sparse_output=False)
    encoded = encoder.fit_transform(df[[columna]])

    encoded_df = pd.DataFrame(
        encoded,
        columns=encoder.get_feature_names_out([columna]),
        index=df.index
    )

    df_encoded = pd.concat([df.drop(columns=[columna]), encoded_df], axis=1)
    
    return df_encoded
```

* Ventajas: evita introducir jerarqu√≠oas artificiales.
* Desventajas: puede aumentar mucho la dimensionalidad si hay muchas categor√≠as.


#### <b> M√©todo 3: Ordinal Encoding manual (codificaci√≥n ordinal simple). </b>

Se usa cuando las categor√≠as tienen un orden natural definido por el conocimiento del negocio (por ejemplo, educaci√≥n o nivel de riesgo),

Se asignan valores manualmente a cada nivel

```python
# Ejemplo: niveles de educaci√≥n
education_map = {
    "primary": 1,
    "secondary": 2,
    "tertiary": 3
}
df["education_encoded"] = df["education"].map(education_map)
```

* Ventajas: respeta el orden l√≥gico.
* Desventajas: requiere conocimiento experto para definir los rangos.


#### <b> M√©todo 4: Binary Encoding (codificaci√≥n ordinal simple). </b>

Convierte las categor√≠as en n√∫meros binarios y descompone esos n√∫meros en columnas individuales.

Es √∫til cuando hay muchas cateogr√≠as (alta cardinalidad).


```python
!pip install category_encoders
import category_encoders as ce
import pandas as pd

def binary_encode_col(df, columna):
    encoder = ce.BinaryEncoder(cols=[columna])
    df_encoded = encoder.fit_transform(df)

    return df_encoded
```

* Ventajas: Redcue la dimensionalidad comparado con One-Hot.
* Desventajas: menos interpretable.


#### <b> M√©todo 5: Target(mean) Encoding (codificaci√≥n ordinal simple). </b>

Reemplaza cada categor√≠a por la media del valor del target para esa categor√≠a.
Se usa en variables categ√≥ricas con relaci√≥n estad√≠stica fuerte con la variable objetivo.
Requiere cuidado para evitar data leakege (debe aplicarse dentro de validaci√≥n cruzada.

```python
def target_encode_col(df, columna, target_col):
    # Calcula el promedio del target por categor√≠a
    target_mean = df.groupby(columna)[target_col].mean()
    
    # Mapea los valores de la columna al promedio correspondiente
    df_encoded = df.copy()
    df_encoded[columna + "_encoded"] = df_encoded[columna].map(target_mean)
    
    return df_encoded
```
* Ventajas: Captura relaciones predictivas directas.
* Desventajas: puede provocar sobreajuste si no se regula correctamente.

#### <b> M√©todo 6: Rare Label Encoding (codificaci√≥n ordinal simple). </b>

Agrupa las categor√≠as poco frecuentes dentro de una misma categor√≠a "Otros".
Se aplica antes de codificar, para evitar columnas irrelevantes o con muy poca representaci√≥n.

```python
def rare_encoding(df, columna, threshold=0.05, rare_label='Rare'):
   # Calculamos la frecuencia relativa de cada categor√≠a
    freq = df[columna].value_counts(normalize=True)

    # Seleccionamos las categor√≠as frecuentes (las que superan el umbral)
    categorias_frecuentes = list(freq[freq > threshold].index)

    # Agrupamos las categor√≠as poco frecuentes bajo la etiqueta 'Rare'
    df[columna] = np.where(df[columna].isin(categorias_frecuentes), df[columna], rare_label)

    return df
```

* Ventajas: Simplifica el modelo y reduce ruido
* Desventajas: se pierde algo de granularidad, aunque suele mejorar la estabilidad.

#### <b> M√©todo 7: Frequency Encoding (Codificaci√≥n por frecuencia o frecuencia relativa) </b>

Convierte cada categor√≠a en un valor num√©rico que representa su frecuencia (o proporci√≥n dentro de la columna.

En lugar de crear nuevas columnas (como el One-Hot Encoding), este m√©todo asinga un valor num√©rico por categor√≠a,

```python
def frequency_encoding(df, columna):
  # Creamos una nueva columna llamda categoria y _ecnoded, donde mapeamos los valores con la frecuencia usando value_counts()
  df[columna + '_encoded'] = df[columna].map(df[columna].value_counts())
  return df
```

* Ventajas: Reduce dimensionalidad, refleja la importancia relativa de cada categor√≠a, eficiente en tiempo y memoria, y compativle con modelos de √°rbol.
* Desventajas: Menor interpretabilidad, posibles p√©rdidas en categor√≠as raras, y riesgo de data leakeged si se calcula con datos de test.


### 2.5 Limpieza y homogeneizaci√≥n final

Una vez completadas las imputaciones y codificaciones, se reaza una revisi√≥n final para garantizar la coherencia del dataset antes del modelado.

Pasos:

1. Comprobar que no queden nulos ni duplicados.
2. Verificar que todas las columnas sean num√©ricas.
3. Homogeneizar nombres de variables (min√∫sculas, sin espacios)
4. Separar las matrices `X`(features) y `y`(target).

```python
# Comprobaci√≥n final de nulos
df.isnull().sum().sum()

# Comprobaci√≥n de duplicados
df.duplicated().sum()

# Homogeneizaci√≥n de nombres de columnas
df.columns = df.columns.str.lower().str.replace(" ", "_")

# Separaci√≥n de X (features) e y (target)
X = df.drop(columns=[target_col])
y = df[target_col]
```

<b>Interpretaci√≥n:</b>

Este pasi garantiza que el dataset est√© limpio, coherente y listo para ser dividido en conjunto de entrenamiento y prueba, que ser√° el siguiete paso del flujo de trabajo.

## 3. Muestreo y Divisi√≥n del Dataset

La fase de muestreo y divisi√≥n del dataset tiene como objetivo evaluar el rendimiento real del modelo, garantizando que aprenda correctamente son sobreajuste a los datos de entrenamiento.

Dividir los datos de manera adecuada permite:

* Evaluar la capacidad de generalziaci√≥n.
* Evitar el *data leakage* (fugas de informaci√≥n).
* Asegurar una representaci√≥n equilibrada del target.

Esta fase es fundamental antes de entrenar cualquier modelo.

### 3.1. Objetivo

En todo proyecto de Machine Learning, los datos se dividen en al menos dos subconjuntos principales:

* Train (entrenamiento): utilizado para ajustar los par√°metros del modelo.
* Test(prueba): utilizado exclusivamente para evalaur el rendimiento final con datos nunca vistos.

En algunos casos se a√±ade un tercer subconjunto:
* Validation (validaci√≥n): utilizado para seleccionar hiperpar√°metros o comparar modelos, sin tocar el conjunto de prueba.

El principio fundamental es no utilizar los datos de test en ninguna etapa de entrenamiento o selecci√≥n de variables, para evitar sobreajuste.

### 3.2. Divisi√≥n b√°sica: Train/Test Split

El m√©todo m√°s habitual para dividir los datos es `train_test_split` de `scikit-learn`.
Por defecto, se separa el 70-80% de los datos para entrenamiento y el 20-30% para prueba.

Es recomendable establecer un `random_state` fijo para asegurar reproducibilidad entre ejecuciones.

```python
from sklearn.model_selection import train_test_split

# Divisi√≥n en train y test (ejemplo 80/20)
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,           # 20% de los datos para test
    random_state=42,         # semilla para reproducibilidad
)
```

```python
# Comprobaci√≥n de las dimensiones resultantes
print("Tama√±o del conjunto de entrenamiento:", X_train.shape)
print("Tama√±o del conjunto de prueba:", X_test.shape)
```

<b> Interpretaci√≥n:</b>

Esta divisi√≥n garantiza que el modelo se entrene con una muestra representativa de los datos y que se eval√∫e posteriormente con observaciones que no ha visto durante el aprendizaje.

### 3.3. Muestreo estratificado

En problemas de <b>clasificaci√≥n</b>, especialemnte cuando el target est√° desbalanceado, es importante mantener las proporciones de clases tanto en el entrenamiento como en el test.

Para ello se utiliza el muestreo estratificado, que preserva la distribuci√≥n del target en ambos conjuntos.

```python
# Divisi√≥n estratificada para mantener las proporciones del target
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    stratify=y,             # mantiene proporci√≥n de clases
    random_state=42         # Garantiza reproducibildiad de los datos
)

# Verificaci√≥n de la proporci√≥n de clases
print("Distribuci√≥n de clases en TRAIN:")
print(y_train.value_counts(normalize=True))

print("\nDistribuci√≥n de clases en TEST:")
print(y_test.value_counts(normalize=True))
```

<b> Interpretaci√≥n:</b>

El muestreo estratificado evita que el modelo aprenda con una distribuci√≥n distinta a la real.

Esto es especialemnte importante cuando una clase minoritaria (por ejemplo, "fraude" o "abandono de cliente") representa un porcentaje peque√±o del total.

### 3.4. Validaci√≥n cruzada (Cross-Validation)

La validaci√≥n cruzada permite evaluar la estabilidad y generalziaci√≥n del modelo.

En lugar de depender de una √∫nica divisi√≥n train/test, el dataset se divide en K subconjuntos (folds), y el modelo se entrena y eval√∫a K veces, alternando los subconjuntos de valdiaci√≥n.

El rendimiento final se obtiene como la media de las m√©tricas obtendias en cada iteraci√≥n.

<b>Tipos de validaci√≥n cruzada:</b>
* K-fold: divide los datos en K particiones del mismo tama√±o.
* StratifiedKFold: igual que K-Fold, pero manteniendo la proporci√≥n de clases.
* Leave-One-Out (LOO): usa un √∫nico registro como test en cada iteraci√≥n (√∫til con datasets peque√±os)

```python
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.ensemble import RandomForestClassifier

# Ejemplo de validaci√≥n cruzada con modelo de clasificaci√≥n
model = RandomForestClassifier(random_state=42)

cv = StratifiedKFold(n_splits=5, # n√∫mero de particiones
                    shuffle=True, # Indica que se deben mezclar las muestras
                    random_state=42) # Garantiza reproducibildiad de los datos

scores = cross_val_score(model, X, y, cv=cv, scoring="accuracy")

print("Resultados de validaci√≥n cruzada:", scores)
print("Media de accuracy:", scores.mean())
print("Desviaci√≥n est√°ndar:", scores.std())
```

<b> Interpretaci√≥n:</b>

La validaci√≥n cruzada es una herramienta poderosa para comparar modelos y detectar sobreajuste:
si el rendimiento var√≠a mucho entre folds, el modelo podr√≠a estar aprendiendo patrones espurios o depender demasiado de una parte del dataset.

### 3.5. Consideraciones adicionales

* <b> Divisi√≥n temporal (Times Series Split) </b>

En problemas con datos temporales, como series de tiempo o hist√≥ricos de clientes, no se debe usar muestreo aleatorio.
Se utiliza un Time Series Split, que respeta el orden cronol√≥gico de los datos para evitar fugas de informaci√≥n (data leakage temporal).

```python
from sklearn.model_selection import TimeSeriesSplit

tscv = TimeSeriesSplit(n_splits=5)
for train_index, test_index in tscv.split(X):
    print("Train:", train_index, "Test:", test_index)
```

* <b> Balanceo de conjuntos </b>

Antes de entrenar, conviene comprobar que tanto `X_train`como `X_test` mantienen las proporciones y representatividad del dataset completo.
Esto garantiza que la evaluaci√≥n del modelo sea justa.

## 4. Modelado

La fase de modelado consiste en seleccionar, entrenar y evaluar los algoritmos de Machine Learning que mejor se adapten al problema planteado.

Su objetivo es construir un modelo capaz de aprender patrones en los datos de entrenamiento y generalizar correctamente a nuevos datos.

Cada modelo tiene sus particularidades, ventajas y limitaciones. La elecci√≥n depende de:

* El tipo de problema (clasificaci√≥n, regresi√≥n, agrupamiento (*NO SUPERVISADOS*).
* La cantidad y calidad de los datos.
* La interpretabilidad que se requiera.
* La complejidad de las relaciones entre variables.

### 4.1. Flujo de trabajo general de modelado.

Independientemente del algoritmo, el proceso es siempre el mismo:

1. Definir el modelo (elegir el algoritmo y los par√°metros iniciales).
2. Entrenar el modelo con `X_train`, `y_train`.
3. Predecir sobre `X_test`
4. Evaluar con m√©tricas apropiadas (*se detallan en la Fase 5*).

Ese flujo lo vamos a repetir para cada modelo.

### 4.2. Modelos Lineales

Los modelos lineales son los m√°s sencillos y explicativos.

Buscan encontrar una relaci√≥n lineal entre las variables predictoras (features) y la variable objetivo (target). Son √∫tiles como modelo base para establecer una referencia inicial.

#### 4.2.1. Regresi√≥n Lineal (problemas de regresi√≥n)

La Regresi√≥n Lineal predice un valor continuo (como precio, ingresos, duraci√≥n) ajustando una l√≠nea o hiperplano que minimiza el error cuadr√°tico medio (MSE).

$$
\hat{y} = \beta_0 + \beta_1x_1 + \beta_2x_2 + \dots + \beta_nx_n
$$

<b>Ventajas:</b>
* R√°pida, interpretable y f√°cil de implementar.
* Base para otros modelos como Ridge y Lasso.

<b>Limitaciones:</b>
* No capta relaciones no lineals.
* Sensible a outliers y multicolinealidad.

<b>Ejemplo de uso:</b>
* Predecir el precio de una vivienda seg√∫n sus caracter√≠sticas.
* Estimar las ventas mensuales en funci√≥n del gasto publicitario.

```python
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# 1. Definir modelo
lin_reg = LinearRegression()

# 2. Entrenar
lin_reg.fit(X_train, y_train)

# 3. Predecir
y_pred_lin = lin_reg.predict(X_test)

# 4. Evaluar
print("MSE (Linear Regression):", mean_squared_error(y_test, y_pred_lin))
print("R2 (Linear Regression):", r2_score(y_test, y_pred_lin))
```

<b>Interpretaci√≥n</b>

Si el R2 es cercano a 1, el modelo explica bien la variabilidad del target.
Valores bajos o errores grandes indican relaciones no lineales o presencia de ruido.

#### 4.2.2. Regresi√≥n log√≠stica (problemas de clasificaci√≥n)

La Regresi√≥n Log√≠stica estima la probabilidad de pertenencia a una clase (0 o 1) mediante una funci√≥n sigmoide.

$$
P(y=1 \mid x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1x_1 + \beta_2x_2 + \dots + \beta_nx_n)}}
$$

<b> Ventajas: </b>
* Muy interpretable (coeficientes = influencia de cada variable)
* √ötil para obtener probabilidades.
* Ideal como modelo base en clasificaci√≥n

<b>Limitaciones:</b>
* Solo modela relaciones lineales
* Requiere variables num√©ricas y escaladas

<b> Ejemplo de uso:</b>
* Banca: predecir si un cliente incumplir√° un cr√©dito.
* Marketing: Estimar si un cliente reponder√° a una campa√±a

```python
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score, classification_report

# 1. Definir el modelo
log_clf = LogisticRegression(max_iter=1000, # numero maximo de iteraciones
                            random_state=42) # Reproducibilidad de la aleatoriedad

# 2. Entrenar el modelo
log_clf.fit(X_train, y_train)

# 3. Predecir
y_pred_log = log_clf.predict(X_test) # Resutlado predicho 0 o 1
y_proba_log = log_clf.predict_proba(X_test)[:, 1] # probabilidades de clasificaci√≥n de 0 y 1

# 4. Evaluar
print("Accuracy:", accuracy_score(y_test, y_pred_log))
print("ROC-AUC:", roc_auc_score(y_test, y_proba_log))
print(classification_report(y_test, y_pred_log))
```

<b>Interpretaci√≥n:</b>

La regresi√≥n log√≠stica ofrece un equilibrio entre rendimiento e interpretabildiad, ideal como punto de partida para proyectos de clasificaci√≥n.

### 4.3. √Årboles deDecisi√≥n

Los √Årboles de Decisi√≥n dividen el espacio de los datos en regiones homog√©neas mediante reglas *if-else*. Cada nodo representa una decisi√≥n basada en una variable, y cada hoja una predicci√≥n final.

Son modelos no lineales que pueden manejar tanto variables num√©ricas como categ√≥ricas.

#### 4.3.1 √Årbol de Clasificaci√≥n

Los √°rboles de clasificaci√≥n son modelos que apreden una serie de reglas de decisi√≥n a partir de los datos, organizados en una estructura jer√°rquica.

En cada nodo se realiza una pregunta sobre una caracater√≠stica y se divide el conunto de datos seg√∫n la respuesta.

El objetivo es particionar el espacio de caracter√≠sticas en regiones homog√©neas respecto a la variable objetivo, de forma que en cada hoja haya observaciones predominantemente de una misma clase.

<b>Ventajas:</b>
* F√°cil de interpretar y visualizar
* Capta relaciones no lineales.
* No necesita escalado

<b>Limitaciones:</b>
* Propenso al overfitting
* Sensible a peque√±as variaciones en los datos.

<b>Ejemplo de uso:</b>
* Educaci√≥n: predecir si un alumno aprobar√° o no.
* Salud: Clasificar tipo de tratamiento seg√∫n s√≠ntomas

```python
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 1. Definici√≥n del modelo
tree_clf = DecisionTreeClassifier(
    criterion="gini", #  Indica la m√©trica de impureza que el √°rbol usa para decidir las divisiones en los nodos
    max_depth=5, # Cu√°ntas veces se puede dividir el √°rbol para crear ramas, Cuanto mayor sea, m√°s complejas ser√°n las reglas y mayor riesgo de sobreajuste
    min_samples_split=10, # Define el n√∫mero m√≠nimo de muestras necesarias, Aumentar este valor reduce el sobreajuste
    random_state=42
)

# 2. Entrenamiento
tree_clf.fit(X_train, y_train)

# 3. Predicci√≥n
y_pred_tree = tree_clf.predict(X_test)

# 4. Evaluaci√≥n
print("Accuracy (Decision Tree):", accuracy_score(y_test, y_pred_tree))
```

<b>Interpretaci√≥n:</b>

Un accuracy alto indica que el √°rbol clasifica correctamente la mayor√≠a de los casos del conjunto de test. Sin embargo, si el rendimiento en entrenamiento es mucho mayor que en test, el √°rbol puede estar sobreajustando.

Se recomienda analizar la importancia de las variables (`tree_clf.feature_importances_`) para identificar los atributos m√°s relevantes y visualizar el √°rbol con `plot_tree()` para interpretar las reglas aprendidas.

#### 4.3.2. √Årbol de Regresi√≥n

Un √Årbol de Regresi√≥n es un modelo que divide el espacio de las variables predictoras en regiones m√°s homog√©neas en cuanto al valor de la variable objetivo (continua).

En cada nodo, el algoritmo selecciona la variable y el punto de corte que mejor minimiza la variabilidad del valor objetivo dentro de los grupos resultantes.

A diferencia de un √°rbol de clasificaci√≥n, que predice una etiqueta discreta, un √°rbol de regresi√≥n predice un valor num√©rico, normalmente el promedio de las observaciones que caen en cada hoja.

<b>Ventajas:</b>
* Capta relaciones no lineales y efectos de interacci√≥n entre variables.
* F√°cil de interpretar y visualizar mediante reglas de decisi√≥n.
* No requiere escalado de caracter√≠sticas ni supuestos estad√≠sticos sobre la distribuci√≥n de los datos.

<b>Limitaciones:</b>
* Tiende al sobreajuste (overfitting) si no se limita la profunidad o tama√±o m√≠nimo de los nodos.
* Puede presentar alta varianza: peque√±as variaciones en los datos generan √°rboles distintos.
* No produce predicciones continuas suaves (las predicciones por hoja son constantes).

<b>Ejemplo de uso:</b>
* Finanzas: predecir la rentabilidad esperada de una inversi√≥n.
* industria: estimar consumo energ√©tico seg√∫n condiciones operativas,

```python
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score

# 1. Definici√≥n del modelo
tree_reg = DecisionTreeRegressor(
    max_depth=5, # Cu√°ntas veces se puede dividir el √°rbol para crear ramas, Cuanto mayor sea, m√°s complejas ser√°n las reglas y mayor riesgo de sobreajuste
    min_samples_split=10, # Define el n√∫mero m√≠nimo de muestras necesarias, Aumentar este valor reduce el sobreajuste
    random_state=42 # Semilla aleatoria reproducible
)

# 2. Entrenamiento
tree_reg.fit(X_train, y_train)

# 3. Predicci√≥n
y_pred_tree_reg = tree_reg.predict(X_test)

# 4. Evalauci√≥n
print("MSE (Decision Tree Regressor):", mean_squared_error(y_test, y_pred_tree_reg))
print("R2 (Decision Tree Regressor):", r2_score(y_test, y_pred_tree_reg))
```

<b>Interptaci√≥n:</b>

Un R¬≤ alto indica que el √°rbol explica bien la variabilidad del objetivo y un MSE bajo que los errores de predicci√≥n son peque√±os. Si el rendimiento en entrenamiento es mucho mejor que en test, el √°rbol puede estar sobreajustando.

Revisa la importancia de las variables (`tree_reg.feature_importances_`) para identificar los predictores m√°s influyentes y, si lo necesitas, visualiza el √°rbol con `plot_tree()` para comprender las reglas aprendidas. Para reducir el sobreajuste, limita la complejidad con `max_depth`, `min_samples_split` o `min_samples_leaf`.

### 4.4. Random Forest

El Random Forest es un ensemble de √°rboles de decisi√≥n.

Cada √°rbol se entrena con una muestra aleatoria (botsrap) del dataset y un subconjunto de variables.

La predicci√≥n final se obtiene por votaci√≥n (clasificaci√≥n) o promedio (regresi√≥n).

#### 4.4.1. Random Forest de Clasificaci√≥n

El Random Forest es un agoritmo de ensemble que combina muchos √°rboles de decisi√≥n para mejorar la precisi√≥n y reducir el sobreajuste de un solo √°rbol.

Durante el entrenamiento, construye m√∫ltiples √°rboles sobre subconjuntos aleatorios de los datos y de las variables.

Cada √°rbol produce una predicci√≥n, y el modelo final vota por la clase m√°s frecuente entre todos los √°rboles.

Esta combinaci√≥n de m√∫ltiples modelos independientes permite obtener predicciones m√°s estbles, precisas y robustas al ruido.

<b>Ventajas:</b>
* Reduce el sobreajuste de un s√≥lo √°rbol.
* Alta precisi√≥n y robustez
* Proporcion importancia de variables

<b>Limitaciones:</b>
* Menor interpretabilidad
* Puede ser mas lento en entrenamiento y predicci√≥n si se usan muchos √°rboles.
* Tiende a favorecer variables con m√°s categor√≠as (en datos categ√≥ricos).

<b>Ejemplo de uso:</b>
* Banca: detecci√≥n de fraude.
* Seguros: predicci√≥n de reclamaciones fraudulentas.

```python
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, roc_auc_score

# 1. Definci√≥n del modelo
rf_clf = RandomForestClassifier(
    n_estimators=200, # N√∫mero de √°rboles, cuantos m√°s √°rboles, m√°s estable y precisa ser√° la predicci√≥n
    max_depth=5, # profundiad m√°xima del √°rbol
    random_state=42, # Semilla aleatoria reproducible
    n_jobs=-1, # n√∫mero de n√∫cleos del procesador que se usar√°n, n_jobs=-1 significa que se utilizar√°n todos los n√∫cleos disponibles
    min_samples_leaf = 5 # N√∫mero m√≠nimo de muestras requeridas en cada hoja: valores mayores suavizan el modelo y reducen el sobreajuste
)

# 2. Entrenamiento
rf_clf.fit(X_train, y_train)

# 3. Predicci√≥n
y_pred_rf = rf_clf.predict(X_test)
y_proba_rf = rf_clf.predict_proba(X_test)[:, 1]

# 4. Evaluaci√≥n
print("Accuracy (Random Forest):", accuracy_score(y_test, y_pred_rf))
print("ROC-AUC (Random Forest):", roc_auc_score(y_test, y_proba_rf))
```

<b>Intepretaci√≥n:</b>

Un accuracy alto y un ROC-AUC cercano a 1 indican que el modelo clasifica correctamente y separa bien las clases.
Si el rendimiento en entrenamiento es mucho mayor que en test, podr√≠a haber ligero sobreajuste, aunque en general el Random Forest lo reduce bastante.
Se recomienda analizar la importancia de las variables (`rf_clf.feature_importances_`) para identificar los factores m√°s influyentes en la clasificaci√≥n.
Tambi√©n puede ajustarse el n√∫mero de √°rboles (`n_estimators`) o la profundidad m√°xima (`max_depth`) para equilibrar rendimiento y coste computacional.

####4.4.2. Random Forest de Regresi√≥n

El Random Forest de Regresi√≥n combina m√∫ltiples √°rboles de decisi√≥n entrenados sobre subconjuntos aleatorios de datos y caracter√≠sticas.
En lugar de votar por una clase, el modelo promedia las predicciones de los distintos √°rboles, reduciendo la varianza y mejorando la capacidad de generalizaci√≥n.

<b>Ventajas:</b>
* Reduce el sobreajuste de un s√≥lo √°rbol.
* Alta precisi√≥n y robustez
* Proporcion importancia de variables

<b>Limitaciones:</b>
* Menor interpretabilidad
* Puede ser mas lento en entrenamiento y predicci√≥n si se usan muchos √°rboles.
* Tiende a favorecer variables con m√°s categor√≠as (en datos categ√≥ricos).

<b>Ejemplo de uso:</b>
* Inmobiliario: predecir precios de vivienda.
* Industria: estimar la vida √∫til de un componente.

```python
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# 1. Definici√≥ del modelo
rf_reg = RandomForestRegressor(
    n_estimators=200,
    max_depth=5,
    random_state=42,
    n_jobs=-1,
    min_samples_leaf = 5
)

# 2. Entrenamiento
rf_reg.fit(X_train, y_train)

# 3. Predicci√≥n
y_pred_rf_reg = rf_reg.predict(X_test)

# 4. Evaluaci√≥n
print("MSE (Random Forest Regressor):", mean_squared_error(y_test, y_pred_rf_reg))
print("R2 (Random Forest Regressor):", r2_score(y_test, y_pred_rf_reg))
```

<b>Interpretaci√≥n:</b>

Un R¬≤ alto indica que el modelo explica bien la variabilidad del objetivo, mientras que un MSE bajo refleja que los errores de predicci√≥n son peque√±os.
Si el rendimiento en entrenamiento es muy superior al de test, podr√≠a existir ligero sobreajuste, aunque este modelo lo mitiga bastante.

Es recomendable revisar la importancia de las variables (`rf_reg.feature_importances_`) para identificar cu√°les influyen m√°s en la predicci√≥n y obtener informaci√≥n √∫til sobre los factores determinantes.
Adem√°s, se pueden ajustar par√°metros como `n_estimators`, `max_depth` o `min_samples_leaf` para equilibrar el rendimiento y la complejidad del modelo.

### 4.5. Gradient Boosting

El Gradient Boosting entrena √°rboles d√©biles de forma secuencial, donde cada nuevo √°rbol se ajusta a los errores (residuales) del modelo acumulado hasta el momento. En vez de promediar √°rboles independientes (como en bagging), los suma uno tras otro para corregir gradualmente las predicciones.

En cada iteraci√≥n se minimiza una funci√≥n de p√©rdida (log-loss, MSE, etc.) siguiendo la direcci√≥n del gradiente, y se controla el paso con un learning rate (shrinkage). Opcionalmente, se usan subsample de filas y/o columnas para a√±adir aleatoriedad y reducir sobreajuste. El resultado es un modelo que capta relaciones no lineales e interacciones con gran capacidad predictiva, a costa de requerir m√°s cuidado en el ajuste de hiperpar√°metros y un entrenamiento secuencial m√°s lento.

#### 4.5.1 XGBoost de Clasificaci√≥n (Gradient Boosting optimizado)

XGBoost (Extreme Gradient Boosting) es una implementaci√≥n optimizada de Gradient Boosting con mejoras en eficiencia, regularizaci√≥n y manejo de valores faltantes. Construye √°rboles secuencialmente, donde cada √°rbol corrige los errores del anterior, pero a√±ade regularizaci√≥n L1/L2 y trucos de ingenier√≠a (paralelizaci√≥n, manejo interno de NaNs, shrinkage) que suelen traducirse en mejor rendimiento y menor sobreajuste.

<b>Ventajas</b>

* Excelente rendimiento predictivo y robustez frente a ruido.

* Control fino del sobreajuste: `learning_rate` (eta), `max_depth`, `subsample`, `colsample_bytree`, L1/L2 (`reg_alpha`, `reg_lambda`) y early stopping.
* Maneja valores faltantes de forma nativa (aprende la direcci√≥n √≥ptima del split).

<b>Limitaciones:</b>
* M√°s sensible a ruido y mal ajuste de hiperpar√°metros.
* Entrenamiento m√°s lento (secuencial).

<b>Ejemplo de uso:</b>
* Marketing: predicci√≥n de abandono (churn).
* Banca: clasificaci√≥n de clientes por riesgo crediticio.

```python
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, roc_auc_score

# 1. Definici√≥n del modelo
xgb_clf = XGBClassifier(
    n_estimators=300,       # n¬∫ de √°rboles (rondas de boosting)
    learning_rate=0.05,    # tasa de aprendizaje (shrinkage)
    max_depth=4,           # profundidad m√°xima de cada √°rbol
    subsample=0.8,         # fracci√≥n de filas por √°rbol (bagging)
    colsample_bytree=0.8,  # fracci√≥n de columnas por √°rbol (feature bagging)
    reg_lambda=1.0,        # regularizaci√≥n L2
    reg_alpha=0.0,         # regularizaci√≥n L1
    random_state=42,
    n_jobs=-1
)

# 2. Entrenamiento (con early stopping opcional)
xgb_clf.fit(
    X_train, y_train,
    eval_set=[(X_valid, y_valid)],   # si no tienes valid, usa una partici√≥n de train
    eval_metric="auc",
    early_stopping_rounds=50,        # detiene si no mejora el AUC en 50 rondas
    verbose=False
)

# 3. Predicci√≥n
y_pred_xgb = xgb_clf.predict(X_test)
y_proba_xgb = xgb_clf.predict_proba(X_test)[:, 1]

# 4. Evaluaci√≥n
print("Accuracy (XGBoost):", accuracy_score(y_test, y_pred_xgb))
print("ROC-AUC (XGBoost):", roc_auc_score(y_test, y_proba_xgb))
```

<b>Interpretaci√≥n:</b>

Un accuracy alto y un ROC-AUC cercano a 1 indican buena separaci√≥n de clases.
Si el rendimiento en *train* supera mucho al de test, ajusta la regularizaci√≥n (`reg_alpha`, `reg_lambda`), reduce `max_depth` o `learning_rate`, y usa early stopping.
Para interpretar, revisa la importancia de variables (`xgb_clf.feature_importances_`) o emplea SHAP para explicaciones m√°s finas a nivel de instancia.

####4.5.2. XGBoost de Regresi√≥n (Gradient Boosting optimizado)

El XGBoost Regressor (Extreme Gradient Boosting) es una versi√≥n optimizada del algoritmo de Gradient Boosting orientada a problemas de regresi√≥n.
Funciona construyendo √°rboles de decisi√≥n de forma secuencial, donde cada nuevo √°rbol intenta corregir los errores residuales del modelo previo.
A diferencia del Gradient Boosting tradicional, XGBoost incorpora regularizaci√≥n L1 y L2, manejo autom√°tico de valores faltantes, y un entrenamiento altamente eficiente y paralelo, lo que mejora la velocidad, la estabilidad y la capacidad de generalizaci√≥n del modelo.

<b>Ventajas:</b>
* Excelente precisi√≥n predictiva y robustez frente a ruido y outliers.
* Control detallado del sobreajuste mediante `learning_rate`, `max_depth`, `subsample`, `colsample_bytree` y par√°metros de regularizaci√≥n (`reg_alpha`, `reg_lambda`).
* Maneja autom√°ticamente valores faltantes sin imputaci√≥n previa.

<b>Limitaciones:</b>
* Requiere ajuste fino de hiperpar√°metros para alcanzar su m√°ximo rendimiento.
* Entrenamiento secuencial (no totalmente paralelo entre √°rboles).
* Menor interpretabilidad que un √°rbol individual o modelos lineales.

<b>Ejemplo de uso:</b>
* Econom√≠a: estimar beneficios de una empresa
* Energ√≠a: predecir consumo el√©ctrico futuro.

```python
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error, r2_score

# 1. Definici√≥n del modelo
xgb_reg = XGBRegressor(
    n_estimators=300,       # n√∫mero de √°rboles (rondas de boosting)
    learning_rate=0.05,     # tasa de aprendizaje (shrinkage)
    max_depth=4,            # profundidad m√°xima de cada √°rbol
    subsample=0.8,          # fracci√≥n de filas por √°rbol
    colsample_bytree=0.8,   # fracci√≥n de columnas por √°rbol
    reg_lambda=1.0,         # regularizaci√≥n L2
    reg_alpha=0.0,          # regularizaci√≥n L1
    random_state=42,
    n_jobs=-1
)

# 2. Entrenamiento (opcionalmente con early stopping)
xgb_reg.fit(
    X_train, y_train,
    eval_set=[(X_valid, y_valid)],
    eval_metric="rmse",
    early_stopping_rounds=50,
    verbose=False
)

# 3. Predicci√≥n
y_pred_xgb_reg = xgb_reg.predict(X_test)

# 4. Evaluaci√≥n
print("MSE (XGBoost Regressor):", mean_squared_error(y_test, y_pred_xgb_reg))
print("R2 (XGBoost Regressor):", r2_score(y_test, y_pred_xgb_reg))
```

<b>Intrepretaci√≥n:</b>

El XGBoost de Regresi√≥n ofrece una combinaci√≥n √≥ptima de precisi√≥n y generalizaci√≥n.
Un R¬≤ alto indica que el modelo explica correctamente la variabilidad del objetivo, mientras que un MSE bajo refleja errores de predicci√≥n reducidos.
Si el modelo rinde mucho mejor en entrenamiento que en test, puede existir sobreajuste, que se corrige ajustando la profundidad (`max_depth`), el `learning rate` o aplicando m√°s regularizaci√≥n (`reg_alpha`, `reg_lambda`).
Adem√°s, la importancia de las variables (`xgb_reg.feature_importances_`) o los valores SHAP permiten interpretar qu√© factores influyen m√°s en las predicciones.

### 4.6. Guardado del modelo con pickle

Una vez elegido el mejor modelo, puede guardarse para su posterior uso sin necesidad de reentrenar haciendo uso de la libreria pickle.

```python
import pickle

# Guardar modelo entrenado
with open("modelo_final.pkl", "wb") as file:
    pickle.dump(modelo, file)

# Cargar modelo posteriormente
with open("modelo_final.pkl", "rb") as file:
    modelo_cargado = pickle.load(file)

# Verificar
y_pred_cargado = modelo_cargado.predict(X_test)
print("Predicciones tras cargar:", y_pred_cargado[:5])
```

## 5. Evaluaci√≥n del Modelo

Una vez entrenado el modelo, es fundamental evaluar su rendimiento para medir su capacidad de generalizaci√≥n y determinar si cumple los objetivos del proyecto,

El prop√≥sito de esta fase es cuantificar la calidad de las predicciones mediante m√©tricas espec√≠ficas, seg√∫n el tipo de problema.

* Clasificaci√≥n: cuando el objetivo es predecir categor√≠as.
* Regresi√≥n: cuando el objetivo es predecir valores continuos.

La elecci√≥n de las m√©tricas adecuadas es clave, ya que diferentes m√©tricas pueden dar percepciones distintas sobre el mismo modelo.

### 5.1. Evaluaci√≥n en Clasificaci√≥n

En problemas de clasificaci√≥n, el modelo predice la clase (por ejemplo, "s√≠"/ "no") o la probabilidad de pertenecer a una clase.

Para evaluar su rendimiento, se comparan las predicciones con los valores reales del conjunto de prueba (`y_test`).

#### 5.1.1. Matriz de confusi√≥n

La matriz de confusi√≥n muestra c√≥mo se distribuyen los predicciones entre las clases reales.

|                | **Predicci√≥n positiva** | **Predicci√≥n negativa** |
|----------------|------------------------:|------------------------:|
| **Real positiva** | ‚úÖ VP (Verdadero Positivo) | ‚ùå FN (Falso Negativo) |
| **Real negativa** | ‚ö†Ô∏è FP (Falso Positivo)     | ‚úÖ VN (Verdadero Negativo) |

<b>Interpretaci√≥n:</b>

* VP: el modelo acierta cuando dice ‚Äús√≠‚Äù.
* VN: el modelo acierta cuando dice ‚Äúno‚Äù.
* FP: el modelo se equivoca prediciendo ‚Äús√≠‚Äù cuando era ‚Äúno‚Äù (error tipo I).
* FN: el modelo se equivoca prediciendo ‚Äúno‚Äù cuando era ‚Äús√≠‚Äù (error tipo II).

```python
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

# Matriz de confusi√≥n
cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot(cmap="Blues")
```

<b>Uso pr√°ctico:</b>
La matriz permite ver qu√© tipo de error es m√°s frecuente (por ejemplo, falsos positivos en detecci√≥n de fraude).

#### 5.1.2. M√©tricas principales

A partir de la matriz de confusi√≥n se derivan las sigueintes m√©tricas:

1. <b>Accuracy:</b> Proporciona total de aciertos. Adecuada solo si las clases est√°n equilibradas.
2. <b>Precision:</b> De todos los casos que el modelo predijo como positivos, cu√°ntos lo eran realmente. *Importante cuando el coste de un falso postivio es alto*.
3. <b>Recall:</b> De todos los positivos reales, cu√°ntos detect√≥ correctamente el modelo. Importante cuando los falsos negativos son cr√≠ticos (ej. diagn√≥stico m√©dico).
4. <b>F1-Score:</b> Media arm√≥nica entre precisi√≥n y recall. √ötil cuando las clases est√°n desbalanceadas.
5. <b>Curva ROC y AUC</b>
* ROC (Receiver Operating Characteristic): mide la capacidad del modelo para distinguir entre clases a diferentes umbrales.

* AUC (Area Under the Curve): √°rea bajo la curva ROC; cuanto m√°s cercana a 1, mejor discriminaci√≥n.

```python
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    roc_curve,
    roc_auc_score,
    classification_report
)
import matplotlib.pyplot as plt

# C√°lculo de m√©tricas
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Precision:", precision_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))
print("F1 Score:", f1_score(y_test, y_pred))
print("ROC-AUC:", roc_auc_score(y_test, y_proba))

# Curva ROC
fpr, tpr, thresholds = roc_curve(y_test, y_proba)
plt.figure(figsize=(6, 5))
plt.plot(fpr, tpr, label=f"ROC curve (AUC = {roc_auc_score(y_test, y_proba_rf):.2f})")
plt.plot([0, 1], [0, 1], linestyle="--", color="gray")
plt.xlabel("Tasa de falsos positivos (FPR)")
plt.ylabel("Tasa de verdaderos positivos (TPR)")
plt.title("Curva ROC")
plt.legend()
plt.show()
```

<b>Interpretaci√≥n:</b>
* Un AUC cercano a 1.0 indica un modelo excelente.
* Si est√° cerca de 0.5, el modelo no discrimina mejor que el azar.

#### 5.1.3. Informe de clasificaci√≥n

El m√©todo `classification_report` resume todas las m√©tricas anteriores para cada clase.

```python
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))
```

<b>Interpretaci√≥n:</b>

Permite comparar el rendimiento por clase, especialmente √∫til en datasets desbalanceados (por ejemplo, fraude vs no fraude).

### 5.2. Evaluaci√≥n en Regresi√≥n

En los problemas de regresi√≥n, el modelo predice un valor continuo. Las m√©tricas miden cu√°n cerca est√°n las predicciones de los valores reales.

#### 5.2.1. Error Absoluto medio (MAE)

El MAE (Mean Absolute Error) mide el error promedio absoluto entre las predicciones y los valores reales.
Indica cu√°nto se desv√≠a, en promedio, la predicci√≥n del valor verdadero.


$$
MAE = \frac{1}{n} \sum_{i=1}^{n} \left| y_i - \hat{y}_i \right|
$$

```python
from sklearn.metrics import mean_absolute_error

mae = mean_absolute_error(y_test, y_pred)
print(f"MAE: {mae:.3f}")
```

<b>Interpretaci√≥n: </b>

Cuanto menor sea el MAE, m√°s precisas son las predicciones del modelo.
El MAE tiene las mismas unidades que la variable objetivo (por ejemplo, euros, grados, etc.).

#### 5.2.2. Error Cuadr√°tico Medio (MSE)

El MSE (Mean Squared Error) eleva al cuadrado las diferencias entre valores reales y predichos, penalizando m√°s los errores grandes.(RMSE)

$$
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$

```python
from sklearn.metrics import mean_squared_error

mse = mean_squared_error(y_test, y_pred)
print(f"MSE: {mse:.3f}")
```

<b>Interpretaci√≥n:</b>

El MSE da m√°s peso a los errores grandes, por lo que es √∫til cuando se desea castigar m√°s las desviaciones extremas.

#### 5.2.3. Ra√≠z del Error Cuadr√°tico medio (RMSE)

El RMSE (Root Mean Squared Error) es la ra√≠z cuadrada del MSE, y representa el error promedio en las mismas unidades que la variable objetivo.

$$
RMSE = \sqrt{MSE}
$$

```python
import numpy as np

rmse = np.sqrt(mse)
print(f"RMSE: {rmse:.3f}")
```

<b>Interpretaci√≥n:</b>

Cuanto m√°s bajo el RMSE, m√°s cerca est√°n las predicciones de los valores reales.
Suele ser m√°s interpretable que el MSE, ya que usa las mismas unidades del target.

#### 5.2.4. Coeficiente de Determinaci√≥n (R2)

El R¬≤ (R-squared) mide la proporci√≥n de la variabilidad de la variable dependiente que el modelo es capaz de explicar.

$$
R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}
$$

```python
from sklearn.metrics import r2_score

r2 = r2_score(y_test, y_pred)
print(f"R¬≤: {r2:.3f}")
```
<b>Interpretaci√≥n:</b>

* R2=1: ajuste perfecto (todas las predicciones coinciden con los valores reales).
* R2=0: el modelo no explica nada de la variabildad.
* Valores negativos indican que el modelo rinde peor que una predicci√≥n promedio.


## 6. Regularizaci√≥n y T√©cnicas de Mejora

Una vez que los modelos base han sido entrenados y evaluados, el siguiente paso es mejorar su rendimiento y generalizaci√≥n.

Esto implica aplicar t√©cnicas para:
* Evitar el sobreajsute (overfitting)
* Incrementar la capacidad predictivia.
* Mejorar la representaci√≥n de las variables.

Esta t√©ncicas se pueden agrupar en tres grandes bloques:

| Bloque              | Objetivo principal                         | T√©cnicas                                      |
|---------------------|--------------------------------------------|-----------------------------------------------|
| üß© Regularizaci√≥n   | Controlar la complejidad del modelo        | Ridge, Lasso, ElasticNet                      |
| üß† Feature Engineering | Mejorar la informaci√≥n de entrada      | Creaci√≥n de variables, transformaci√≥n de variables |
| üìä Re-muestreo      | Corregir desbalanceos o mejorar representatividad | Over-sampling, Under-sampling, muestreo estratificado |





### 6.1. Regularizaci√≥n

La regularizaci√≥n a√±ade una penalizaci√≥n al error del modelo para evitar que los coeficientes crezcan demasiado y el modelo se sobreajuste.

En modelos lineales, la regularizaci√≥n controla la complejidad limitando los pesos.

#### 6.1.1. Ridge (L2)

Penaliza la suma de los cuadrados de los coeficientes.

$$
\text{Error} = \text{MSE} + \lambda \sum_{i=1}^{n} \beta_i^2
$$

<b>Efecto: </b> fuerza a algunos coeficientes a ser exactamente 0 ‚Üí √∫til para selecci√≥n autom√°tica de variables.

```python
from sklearn.linear_model import Lasso

lasso = Lasso(alpha=0.01)
lasso.fit(X_train, y_train)
y_pred_lasso = lasso.predict(X_test)

print("MSE (Lasso):", mean_squared_error(y_test, y_pred_lasso))
print("R¬≤ (Lasso):", r2_score(y_test, y_pred_lasso))
```

#### 6.1.2. Lasso (L1)

Penaliza la suma absoluta de los coeficientes.

$$
\text{Error} = \text{MSE} + \lambda \sum_{i=1}^{n} |\beta_i|
$$

<b>Efecto:</b> fuerza a algunos coeficientes a ser exactamente 0 ‚Üí √∫til para selecci√≥n autom√°tica de variables.

```python
from sklearn.linear_model import Lasso

lasso = Lasso(alpha=0.01)
lasso.fit(X_train, y_train)
y_pred_lasso = lasso.predict(X_test)

print("MSE (Lasso):", mean_squared_error(y_test, y_pred_lasso))
print("R¬≤ (Lasso):", r2_score(y_test, y_pred_lasso))
```

#### 6.1.3. ElasticNet (L1 + L2)

Combina ambas penalizaciones (L1 + L2).

$$
\text{Error} = \text{MSE} + \lambda_1 \sum_{i=1}^{n} |\beta_i| + \lambda_2 \sum_{i=1}^{n} \beta_i^2
$$

<b>Ventaja:</b> equilibrio entre regularizaci√≥n y selecci√≥n de variables.

```python
from sklearn.linear_model import ElasticNet

elastic = ElasticNet(alpha=0.01, l1_ratio=0.5)
elastic.fit(X_train, y_train)
y_pred_elastic = elastic.predict(X_test)

print("MSE (ElasticNet):", mean_squared_error(y_test, y_pred_elastic))
print("R¬≤ (ElasticNet):", r2_score(y_test, y_pred_elastic))
```

<b>Interpretaci√≥n general:</b>
* Si hay colinealidad, usa Ridge.
* Si hay muchas variables irrelevantes, usa Lasso.
* Si necesitas un balance, usa ElasticNet.

### 6.2. Feature Engineering

El feature engineering consiste en crear, transformar o seleccionar variables para mejorar la capacidad predictiva del modelo.

Una buena ingenier√≠a de caracter√≠sticas puede mejorar el rendimiento tanto como cambiar de modelo.

#### 6.2.1 Creaci√≥n de variables (Num√©ricas)

Crear nuevas variables a partir de reglas, interacciones o combinaciones matem√°ticas.

<b>M√©todo 1: Binning Encoding (Creaci√≥n mediante reglas y variables binarias) </b>

```python
# Ejemplo: crear variable binaria seg√∫n condici√≥n
df["es_joven"] = np.where(df["edad"] < 30, 1, 0)
df["es_mayor"] = np.where(df["edad"] > 60, 1, 0)
````

<b> M√©todo 2: Agrupaciones matem√°ticas o ratios </b>

```python
# Crear ratios e interacciones
df["ingresos_por_edad"] = df["ingresos"] / df["edad"]
df["gasto_total"] = df["gasto_alimentos"] + df["gasto_vivienda"] + df["gasto_ocio"]
````

<b>Ejemplo de uso:</b>
* Finanzas: crear variables de ratio deuda/ingresos.
* Marketing: gasto medio por cliente.√ß
* Sanidad: √≠ndice de masa corporal (IMC = peso / altura¬≤).

#### 6.2.2 Transformaciones de variables (Categ√≥ricas)

Se aplican para mejorar la distribuci√≥n de los datos (reducir asimetr√≠a o normalizar).

<b> M√©todo 1: Yeo-Johnson</b>

Transformaci√≥n aplicable a variables positivas y negativas.

```python
from sklearn.preprocessing import PowerTransformer

pt = PowerTransformer(method='yeo-johnson')
X_train_trans = pt.fit_transform(X_train)
```

<b> M√©todo 2: Box-Cox (solo variables positivas)</b>

```python
pt_boxcox = PowerTransformer(method='box-cox')
X_train_boxcox = pt_boxcox.fit_transform(X_train)
```

<b> M√©todo 3: Estandarizaci√≥n (Z-score) </b>

```python
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

<b> M√©todo 4: Normalizaci√≥n (Min-Max Scaling) </b>

```python
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_train_norm = scaler.fit_transform(X_train)
```

<b> M√©todo 5: Discretizaci√≥n (KBinsDiscretizer)</b>

```python
from sklearn.preprocessing import KBinsDiscretizer

kbd = KBinsDiscretizer(n_bins=5, encode='ordinal', strategy='quantile')
X_binned = kbd.fit_transform(X_train)
```

<b>Interpretaci√≥n:</b>

Estas transformaciones pueden ayudar a que los modelos lineales y basados en distancias (como KNN o SVM) funcionen mejor al homogenizar escalas o distribuciones.



### 6.3. Control de Mutlicolinealidad

La multicolineadliad aparece cuando varias variables num√©ricas est√°n correlacionadas entre s√≠. Esto implica modelos lineales y puede inflar coeficientes.

Pasos t√≠picos:

1. Revisar la matriz de correlaci√≥n.
2. Eliminar una de las variable sen pares con |œÅ| muy alto (> 0.8 / 0.9).

```python
corr = X.corr().abs()
upper = corr.where(np.triu(np.ones(corr.shape), k=1).astype(bool))
to_drop = [col for col in upper.columns if any(upper[col] > 0.9)]

print("Variables a eliminar por alta correlaci√≥n:", to_drop)
X_reduced = X.drop(columns=to_drop)
```

<b>Efecto:</b> modelo m√°s estable, menos redundante.

## 7. Optimizaci√≥n del Modelo y Selecci√≥n de Variables

Una vez que el modelo base ha sido entrenado y evaluado, la siguiente fase consiste en optimizar su rendimiento, reducir su complejidad innecesarua y maximizar su capacidad de generalizaci√≥n.

### 7.1. Feature Selection (Selecci√≥n de Variables)

El objetivo de la selecci√≥n de variables es reducir la dimensionalidad del conjunto de datos sin perder informaci√≥n √∫til.

Esto mejora la interpretabilidad, reduce el riesgo de sobreajuste y acelera el enrenamiento.

#### <b> M√©todo 1: Importancia de variables (Feature Importances)  </b>

Los *modelos basados en √°rboles* (Decisi√≥n Tree, Random Forest, Gradient Boosting) calculan autom√°ticamente la importancia de cada variable durante el entrenamiento.

```python
import pandas as pd
import matplotlib.pyplot as plt

importances = pd.Series(modelo.feature_importances_, index=X.columns)
importances.sort_values(ascending=True).plot(kind='barh', figsize=(8,6), color='teal')
plt.title('Importancia de las variables - Random Forest')
plt.show()
```
<b>Interpretaci√≥n:</b>

Las variables con mayor peso son las que m√°s influyen en la predicci√≥n.
Podemos eliminar las que tienen una importancia cercana a 0, ya que no aportan informaci√≥n √∫til.

#### <b> M√©todo 2: SelectKBest  </b>

Selecciona autm√°ticamente las K variables m√°s relevantes seg√∫n una prubea estad√≠stica (ANOVA F, Chi^2, etc.)

Muy √∫til para *modelos lineales o log√≠stico*.

```python
from sklearn.feature_selection import SelectKBest, f_classif

selector = SelectKBest(score_func=f_classif, k=10)
X_new = selector.fit_transform(X, y)

selected_features = X.columns[selector.get_support()]
print("Variables seleccionadas:", list(selected_features))
```
<b>Interpretaci√≥n:</b>

Este m√©todo selecciona las variables con mayor capacidad de discriminaci√≥n seg√∫n la ,√©trica estad√≠stica elegida.

#### <b> M√©todo 3: Variance Threshold  </b>

Elimina variables con varianza casi nula (constantes o casi constantes), ya que no aportan informaci√≥n al modeo.

```python
from sklearn.feature_selection import VarianceThreshold

vt = VarianceThreshold(threshold=0.01)
X_reduced = vt.fit_transform(X)
print("N√∫mero de variables retenidas:", X_reduced.shape[1])
```

<b>Interpretaci√≥n:</b>

Variables con muy poca variabildiad no ayudan a separar clases ni a explicar el target, por lo que se eliminan para simlificar el modelo.

### 7.2. Ajuste de Hiperpar√°metros (Hyperparameter Tuning)

Los hiperpar√°metros son configuraciones externas del modelo (como la profunidad de los √°rboles o el n√∫mero de estimadores) que afectan su capacidad de aprendizaje.

El objetivo es encontrar la combinaci√≥n √≥ptima que maximice el rendimiento del modelo sin sobreajustar.

#### <b> M√©todo 1: GridSearchCV </b>

 Busca de manera exhaustiva entre todas las combinaciones posibles de hiperpar√°metros definidos.

```python
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier # Como ejemplo de codigo

param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [3, 5, 10, None],
    'min_samples_split': [2, 5, 10]
}

grid_search = GridSearchCV(
    estimator=RandomForestClassifier(random_state=42),
    param_grid=param_grid,
    cv=5,
    scoring='roc_auc',
    n_jobs=-1
)

grid_search.fit(X_train, y_train)
print("Mejores par√°metros:", grid_search.best_params_)
print("Mejor ROC-AUC:", grid_search.best_score_)
```

<b>Interpretaci√≥n:</b>
* cv=5 aplica validaci√≥n cruzada (divide el train en 5 partes).
* scoring='roc_auc' usa la m√©trica AUC para optimizar el rendimiento.
* El modelo con la mejor combinaci√≥n se puede guardar como modelo final.

#### <b> M√©todo 2: RandomizedSearchCV </b>

En lugar de probar todas las combinaciones, prueba un n√∫mero limitado de configuraciones aleatorias, reduciendo el tiempo de c√≥mputo.

```python
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

param_dist = {
    'n_estimators': randint(100, 500),
    'max_depth': [3, 5, 10, None],
    'min_samples_split': randint(2, 10)
}

random_search = RandomizedSearchCV(
    estimator=GradientBoostingClassifier(random_state=42),
    param_distributions=param_dist,
    n_iter=20,
    cv=5,
    scoring='roc_auc',
    n_jobs=-1
)

random_search.fit(X_train, y_train)
print("Mejores par√°metros:", random_search.best_params_)
print("Mejor ROC-AUC:", random_search.best_score_)
```

<b>Interpretaci√≥n:</b>
* M√°s r√°pido que GridSearchCV.
* √ötil cuando el espacio de par√°metros es grande.


### 7.3. Balanceo de Datos

En muchos problemas de clasificaci√≥n, el target puede estar desbalanceado, es decir, que una de las clases tenga muchas m√°s observaciones que la otra (por ejemplo, ‚Äúno contrata producto‚Äù ‚â´ ‚Äús√≠ contrata producto‚Äù).
Este desbalance puede provocar que el modelo aprenda a favorecer la clase mayoritaria, reduciendo su capacidad para detectar correctamente los casos minoritarios.

El objetivo del balanceo es garantizar que el modelo aprenda de ambas clases de forma equilibrada, manteniendo la representatividad del fen√≥meno real.

#### <b> M√©todo 1: Under-sampling </b>

Selecciona aleatoriamente una muestra de la clase mayoritaria.

```python
from imblearn.under_sampling import RandomUnderSampler

rus = RandomUnderSampler(random_state=42)
X_res, y_res = rus.fit_resample(X, y)

print("Distribuci√≥n tras Under-sampling:")
print(y_res.value_counts(normalize=True))
```

<b>Ventajas:</b> Simple y r√°pido

<b>Desventajas:</b> Puede eiminar informaci√≥n √∫til de la clase mayoritaria.

#### <b> M√©todo 2: Over-sampling </b>

Duplica o sintetiza observaciones de la clase minoritaria (solo si el desbalance es severo).

```python
from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=42)
X_res, y_res = smote.fit_resample(X, y)

print("Distribuci√≥n tras Over-sampling:")
print(y_res.value_counts(normalize=True))
```

<b>Ventajas:</b> mantiene toda la infromaci√≥n original.

<b>Desventajas:</b> puede intrducir ruido si se abusa.
