# Proyecto 2 laboratorio de aprendizaje estadístico

- Dayanni Godoy Rosales
- Mateo Tavares Trueba
- Jesús Cortes Flores

## Objetivos del Proyecto 

### Objetivo General

Construir y evaluar modelos de **Clasificación Binaria** (Regresión Logística, SVM, y Redes Neuronales) utilizando datos del censo (Adult Dataset) para **predecir si el ingreso anual de un individuo es superior a $\$$50,000** ($\mathbf{>50K}$).

---

### Objetivos Específicos

1.  **Preparación de Datos:** Realizar la limpieza, el preprocesamiento y la transformación de las variables categóricas (mediante *One-Hot Encoding*) y el escalado de las variables continuas para adecuarlas a los modelos de clasificación.

2.  **Establecimiento de *Baseline*:** Implementar el modelo de **Regresión Logística** como línea base y registrar sus métricas de rendimiento (Accuracy, Precision, Recall, F1-Score) utilizando el umbral de clasificación por defecto (0.5).

3.  **Modelado Avanzado:** Implementar y entrenar los modelos de **Máquinas de Vectores de Soporte (SVM)**, explorando el uso de diferentes **Kernels**, y el modelo de **Red Neuronal (MLP)**.

4.  **Optimización de Hiperparámetros:** Utilizar la técnica de **Optimización Bayesiana** para sintonizar los hiperparámetros clave de los modelos (especialmente SVM y MLP) con el fin de mejorar su rendimiento y robustez generalizada.

5.  **Análisis y Conclusiones:** Comparar el rendimiento de todos los modelos (Baseline, SVM, MLP) antes y después de la optimización del umbral, y documentar la relación entre el *Recall* obtenido y el *Costo* en la **Precisión** del modelo.

## Marco Teórico 

---

### Regresión Logística

La **Regresión Logística** es un método estadístico fundamental utilizado para la **clasificación binaria** (aunque puede extenderse a multiclase). A pesar de su nombre, no predice un valor continuo, sino la **probabilidad** de que una instancia pertenezca a una clase en particular. Utiliza la **función sigmoide** (o función logística) para transformar la salida lineal de las características de entrada en una probabilidad que siempre estará acotada entre 0 y 1. El objetivo del modelo es encontrar los coeficientes óptimos que maximicen la verosimilitud (o minimicen la pérdida logarítmica) de estas probabilidades.

---

### Máquinas de Vectores de Soporte (Support Vector Machines - SVM)

Las **Máquinas de Vectores de Soporte (SVM)** son un clasificador discriminativo que busca encontrar el **hiperplano** óptimo que separa las clases en un espacio de características. Lo que hace que el SVM sea potente es que se enfoca en maximizar el **margen** de separación, es decir, la distancia entre el hiperplano y las instancias de datos más cercanas de cada clase, conocidas como **vectores de soporte**.  Esta maximización del margen tiende a mejorar la capacidad de generalización del modelo.

---

### Redes Neuronales (Multi-layer Perceptron - MLP)

Una **Red Neuronal Artificial (RNA)**, como el **Perceptrón Multicapa (MLP)**, es un modelo que simula la estructura del cerebro. Se compone de nodos (neuronas) organizados en capas: una **capa de entrada**, una o más **capas ocultas** y una **capa de salida**. El MLP es capaz de aprender relaciones no lineales complejas gracias a las **funciones de activación** aplicadas en cada neurona. El proceso de entrenamiento clave es la **retropropagación (*backpropagation*)**, que ajusta los pesos de la red minimizando la función de pérdida a través del descenso de gradiente.

---

### Kernels (Funciones Kernel)

Los **Kernels** son funciones matemáticas utilizadas principalmente en los SVM para manejar problemas de clasificación **no linealmente separables**. El **Truco del Kernel (*Kernel Trick*)** permite que el algoritmo trabaje en un espacio de características de mayor dimensión (donde los datos son linealmente separables) sin tener que calcular explícitamente la transformación de las coordenadas. Esto reduce drásticamente el costo computacional. Ejemplos comunes incluyen el kernel Lineal, Polinomial y la Función de Base Radial (RBF).

---

### Métricas para Clasificación

Para evaluar el rendimiento de un modelo de clasificación, no basta con una sola medida. Se utilizan **métricas** que cuantifican diferentes aspectos de su desempeño:
* **Precisión (*Accuracy*):** El porcentaje de predicciones correctas totales. Es útil, pero engañoso en casos de clases desbalanceadas.
* **Matriz de Confusión:** Tabla que desglosa los resultados en Verdaderos Positivos (VP), Falsos Positivos (FP), Verdaderos Negativos (VN) y Falsos Negativos (FN).
* **Precision y Recall:**
    * **Precision:** De todos los positivos predichos, cuántos fueron correctos ($\frac{VP}{VP+FP}$).
    * **Recall:** De todos los positivos reales, cuántos fueron detectados correctamente ($\frac{VP}{VP+FN}$).
* **F1-Score:** Media armónica de Precision y Recall, útil para buscar un equilibrio.

---

### Hiperparámetros

Los **Hiperparámetros** son variables de configuración externas que se establecen **antes** de comenzar el entrenamiento de un modelo (a diferencia de los parámetros, que son aprendidos, como los pesos). Su correcta elección es vital, ya que controlan el proceso de aprendizaje del modelo y tienen un impacto directo en su rendimiento y en evitar el sobreajuste (*overfitting*). Ejemplos incluyen el coeficiente de regularización $C$ en SVM, la tasa de aprendizaje en Redes Neuronales.

---

### Optimización Bayesiana

La **Optimización Bayesiana** es una técnica de optimización secuencial y global que se utiliza para encontrar el conjunto óptimo de **hiperparámetros** de un modelo de forma más eficiente que las búsquedas ingenuas (como *Grid Search* o *Random Search*). Este método construye un **modelo probabilístico** (generalmente un Proceso Gaussiano) del rendimiento de la función objetivo (la métrica de evaluación), utilizando esta información para seleccionar de manera inteligente el próximo conjunto de hiperparámetros a probar, minimizando así las evaluaciones costosas del modelo completo.

---

### Tema Elegido para Proyecto

**Census Income**

En este proyecto, la aplicación de estos modelos de clasificación se centrará en **predecir si el ingreso anual de un individuo supera los 50,000**. Específicamente, se busca construir un modelo que prediga si el **ingreso anual de un individuo supera los $\$$50,000** ($\mathbf{>50K}$), utilizando datos demográficos y laborales provenientes del censo de 1994 (Dataset "Adult").

## Análisis del Dataset

### 1. ¿De dónde viene?
**Fuente Original:** Base de datos de la Oficina del Censo de Estados Unidos (1994).
* **Link:** https://archive.ics.uci.edu/dataset/20/census+income

---

### 2. ¿Qué contiene?
* El dataset contiene aproximadamente **48,842 instancias** (registros), divididas en un conjunto de entrenamiento (`adult.data`, 32,561) y un conjunto de prueba (`adult.test`, 16,281).
* Se compone de **14 características predictoras** y **1 variable objetivo** (ingreso).

---

### 3. ¿Qué información dan las muestras?
Cada muestra (fila) representa a un individuo y proporciona características demográficas y laborales.
* **Variables Continuas:** `age`, `fnlwgt` (Final Weight), `education-num` (Nivel educativo numérico), `capital-gain`, `capital-loss`, `hours-per-week`.
* **Variables Categóricas:** `workclass`, `education`, `marital-status`, `occupation`, `relationship`, `race`, `sex`, `native-country`.
* **Variable Objetivo:** `income` ($>50K$ o $\leq50K$).
#### A. Descripción de Variables

| Variable | Tipo | Significado | Ejemplos de Categorías (si aplica) |
| :--- | :--- | :--- | :--- |
| **age** | Continua | Edad del individuo. | N/A |
| **workclass** | Categórica | Tipo de empleador o sector de trabajo. | Private, Self-emp-not-inc, Federal-gov, Local-gov, State-gov, Without-pay. |
| **fnlwgt** | Continua | Peso de la muestra (Final Weight). Indica cuántas personas representa la muestra en el censo. (A menudo se omite en el modelado predictivo). | N/A |
| **education** | Categórica | Nivel educativo formal alcanzado. | Bachelors, HS-grad, Some-college, Masters, Doctorate. |
| **education-num** | Continua | Valor numérico que corresponde al nivel de `education`. (P. ej., Masters=14, Bachelors=13). | N/A |
| **marital-status** | Categórica | Estado civil. | Married-civ-spouse, Divorced, Never-married, Widowed. |
| **occupation** | Categórica | Ocupación laboral del individuo. | Exec-managerial, Prof-specialty, Sales, Craft-repair, Adm-clerical. |
| **relationship** | Categórica | Relación con el cabeza de familia. | Husband, Wife, Own-child, Not-in-family, Other-relative. |
| **race** | Categórica | Raza del individuo. | White, Black, Asian-Pac-Islander, Amer-Indian-Eskimo. |
| **sex** | Categórica | Género. | Female, Male. |
| **capital-gain** | Continua | Ganancias de capital reportadas (ingresos por inversiones, distintos del salario). | N/A |
| **capital-loss** | Continua | Pérdidas de capital reportadas. | N/A |
| **hours-per-week** | Continua | Horas trabajadas por semana. | N/A |
| **native-country** | Categórica | País de origen o nacimiento. | United-States, Mexico, Philippines, Germany (con muchos valores únicos). |
| **income (Target)** | Binaria | **Variable Objetivo:** Ingreso anual. | **>50K** (Clase Positiva) o **<=50K** (Clase Negativa). |

---

### 4. ¿Qué se quiere analizar?
* El objetivo principal es construir un **modelo predictivo** que pueda determinar, basándose en los atributos demográficos y laborales de un individuo, si su ingreso anual es superior a $50,000.

---

### 5. ¿Qué variables se tienen que transformar para usarse en regresión?
Para usar la mayoría de los modelos de clasificación (Regresión Logística, MLP, SVM) que trabajan con datos numéricos, todas las **variables categóricas** deben ser transformadas:
* `workclass`
* `education`
* `marital-status`
* `occupation`
* `relationship`
* `race`
* `sex`
* `native-country`
* La variable objetivo `income`.

---

### 6. ¿Qué transformaciones se van a usar?

#### A. Codificación de Variables Categóricas (Características)
* **One-Hot Encoding (OHE) :** Se usará para variables nominales (p. ej., `workclass`,`education`, `marital-status`, `occupation`, `relationship`, `race`, `sex` y `native-country`). Convierte una columna categórica con $k$ categorías únicas en $k$ nuevas columnas binarias (0 o 1). 


#### B. Transformación de Variables Continuas
* **Estandarización/Normalización:** Las variables continuas (`age`,`education-num`, `capital-gain`, `capital-loss`, `hours-per-week`, ) deben ser **escaladas** (Estandarización o Normalización) para evitar que las variables con mayor rango dominen el cálculo de distancias o la optimización.

---

### 7. ¿Qué resultado se podría encontrar al realizar una clasificación?
Al construir el modelo, se espera encontrar:
* **Modelo Predictivo:** Un modelo capaz de predecir la probabilidad de que un individuo gane más de $50,000.


In [14]:
pip install ucimlrepo

Note: you may need to restart the kernel to use updated packages.


In [52]:
pip install torch

Collecting torch
  Downloading torch-2.9.0-cp312-cp312-win_amd64.whl.metadata (30 kB)
Collecting sympy>=1.13.3 (from torch)
  Downloading sympy-1.14.0-py3-none-any.whl.metadata (12 kB)
Downloading torch-2.9.0-cp312-cp312-win_amd64.whl (109.3 MB)
   ---------------------------------------- 0.0/109.3 MB ? eta -:--:--
    --------------------------------------- 1.8/109.3 MB 14.3 MB/s eta 0:00:08
   - -------------------------------------- 3.1/109.3 MB 10.8 MB/s eta 0:00:10
   -- ------------------------------------- 5.5/109.3 MB 10.8 MB/s eta 0:00:10
   -- ------------------------------------- 8.1/109.3 MB 11.2 MB/s eta 0:00:10
   --- ------------------------------------ 10.0/109.3 MB 10.9 MB/s eta 0:00:10
   ---- ----------------------------------- 11.8/109.3 MB 10.3 MB/s eta 0:00:10
   ---- ----------------------------------- 13.4/109.3 MB 9.8 MB/s eta 0:00:10
   ----- ---------------------------------- 14.7/109.3 MB 9.4 MB/s eta 0:00:11
   ----- ---------------------------------- 16.3/

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC 

from sklearn.model_selection import KFold, cross_val_score
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, roc_auc_score

import warnings
warnings.filterwarnings('ignore')

import optuna

from optuna.samplers import GPSampler 
from sklearn.model_selection import train_test_split

from sklearn.neural_network import MLPClassifier

In [None]:

column_names = [
    'age', 'workclass', 'fnlwgt', 'education', 'education-num',
    'marital-status', 'occupation', 'relationship', 'race', 'sex',
    'capital-gain', 'capital-loss', 'hours-per-week', 'native-country',
    'income'  
]

# 1. Cargamos solo train porque son demasiados datos
df_completo = pd.read_csv(
    'adult.data',        
    header=None,        
    names=column_names,
    na_values=" ?"
)
df_completo = df_completo.dropna(subset=['income'])
print("Dataset 'adult.data' cargado en df_completo.")

def clean_income(value):
    if '<=50K' in value: return 0
    elif '>50K' in value: return 1
    return np.nan

df_completo['income'] = df_completo['income'].apply(clean_income)
df_completo = df_completo.dropna(subset=['income'])

X_completo = df_completo.drop('income', axis=1)
X_completo = df_completo.drop('fnlwgt', axis=1)
y_completo = df_completo['income'].astype(int)

# Dividimos el dataset
X_train, X_test, y_train, y_test = train_test_split(
    X_completo, 
    y_completo, 
    test_size=0.20,
    random_state=42,
    stratify=y_completo 
)
print("\nDivisión completada:")
print("Forma de X_train (para K-Fold y Optuna): " + str(X_train.shape))
print("Forma de y_train (para K-Fold y Optuna): " + str(y_train.shape))
print("Forma de X_test (para el reporte final): " + str(X_test.shape))
print("Forma de y_test (para el reporte final): " + str(y_test.shape))

Dataset 'adult.data' cargado en df_completo.

División completada:
Forma de X_train (para K-Fold y Optuna): (26048, 14)
Forma de y_train (para K-Fold y Optuna): (26048,)
Forma de X_test (para el reporte final): (6513, 14)
Forma de y_test (para el reporte final): (6513,)


In [55]:
print("--- Iniciando EDA ---")

df_completo.head()

df_completo.info()

df_completo.describe()

--- Iniciando EDA ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       30725 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education       32561 non-null  object
 4   education-num   32561 non-null  int64 
 5   marital-status  32561 non-null  object
 6   occupation      30718 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   sex             32561 non-null  object
 10  capital-gain    32561 non-null  int64 
 11  capital-loss    32561 non-null  int64 
 12  hours-per-week  32561 non-null  int64 
 13  native-country  31978 non-null  object
 14  income          32561 non-null  int64 
dtypes: int64(7), object(8)
memory usage: 3.7+ MB


Unnamed: 0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week,income
count,32561.0,32561.0,32561.0,32561.0,32561.0,32561.0,32561.0
mean,38.581647,189778.4,10.080679,1077.648844,87.30383,40.437456,0.24081
std,13.640433,105550.0,2.57272,7385.292085,402.960219,12.347429,0.427581
min,17.0,12285.0,1.0,0.0,0.0,1.0,0.0
25%,28.0,117827.0,9.0,0.0,0.0,40.0,0.0
50%,37.0,178356.0,10.0,0.0,0.0,40.0,0.0
75%,48.0,237051.0,12.0,0.0,0.0,45.0,0.0
max,90.0,1484705.0,16.0,99999.0,4356.0,99.0,1.0


## Ingeniería de Características (Feature Engineering)
Aquí preparamos los datos para el modelo. Debemos:

Convertir la y (income) a 0 y 1.

Manejar los valores nulos (Imputar).

Convertir categóricas a números (One-Hot Encoding).

Escalar las numéricas (Standard Scaler).

Usaremos un Pipeline y ColumnTransformer para hacerlo de forma limpia.

In [None]:

num_features = ['age', 'education-num', 'capital-gain', 'capital-loss', 'hours-per-week']
cat_features = ['workclass', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country']

numerical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, num_features),
        ('cat', categorical_transformer, cat_features)
    ],
    remainder='drop'
)

kfold = KFold(n_splits=5, shuffle=True, random_state=42)

print("\nPreprocesador y K-Fold (k=5) listos.")
print("--- Configuración Común Lista ---")


Preprocesador y K-Fold (k=5) listos.
--- Configuración Común Lista ---


## Regresión Logística usando optimización bayesiana (Optuna)

In [58]:
print("\nIniciando Optimización: Regresión Logística ")

def objective_logreg(trial):
    C = trial.suggest_float('C', 1e-4, 1e2, log=True)
    l1_ratio = trial.suggest_float('l1_ratio', 0.0, 1.0)
    
    model = LogisticRegression(
        penalty='elasticnet',
        solver='saga',
        C=C,
        l1_ratio=l1_ratio,
        max_iter=1000,
        random_state=42
    )
    
    pipeline = Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('model', model)
    ])
    
    scores = cross_val_score(pipeline, X_train, y_train, cv=kfold, scoring='roc_auc')
    
    auc_promedio = scores.mean()
    return auc_promedio

# Iniciar el estudio de Optuna 
n_trials_logreg = 20
print("Iniciando estudio (n_trials=" + str(n_trials_logreg) + ") sobre " + str(X_train.shape[0]) + " filas.")

sampler = GPSampler()
study_logreg = optuna.create_study(direction='maximize', sampler=sampler)
study_logreg.optimize(objective_logreg, n_trials=n_trials_logreg)
# Resultados 
print("\nOptimización de Regresión Logística Completada")
print("Mejor score (AUC promedio): " + str(study_logreg.best_value))
print("Mejores Hiperparámetros: " + str(study_logreg.best_params))

[I 2025-11-02 13:53:22,071] A new study created in memory with name: no-name-a35e1e54-16f4-4168-aefb-ebed40faffce



Iniciando Optimización: Regresión Logística 
Iniciando estudio (n_trials=20) sobre 26048 filas.


[I 2025-11-02 13:54:12,385] Trial 0 finished with value: 0.9045913452631156 and parameters: {'C': 0.1057017827442291, 'l1_ratio': 0.10355993126725827}. Best is trial 0 with value: 0.9045913452631156.
[I 2025-11-02 13:55:12,915] Trial 1 finished with value: 0.9008187559149899 and parameters: {'C': 0.00955477145252365, 'l1_ratio': 0.14686031127964838}. Best is trial 0 with value: 0.9045913452631156.
[I 2025-11-02 13:55:13,500] Trial 2 finished with value: 0.5 and parameters: {'C': 0.00022598242981845454, 'l1_ratio': 0.8149561298096853}. Best is trial 0 with value: 0.9045913452631156.
[I 2025-11-02 13:56:02,790] Trial 3 finished with value: 0.9033341220445493 and parameters: {'C': 0.04026927740202841, 'l1_ratio': 0.7494544125199921}. Best is trial 0 with value: 0.9045913452631156.
[I 2025-11-02 13:57:36,372] Trial 4 finished with value: 0.9044348596700784 and parameters: {'C': 69.06063660507722, 'l1_ratio': 0.25540904962263067}. Best is trial 0 with value: 0.9045913452631156.
[I 2025-11-0


Optimización de Regresión Logística Completada
Mejor score (AUC promedio): 0.9048039583282808
Mejores Hiperparámetros: {'C': 0.4291554160942694, 'l1_ratio': 0.03775165405789094}


### Mejor regresión logística según la optimización realizada

In [None]:
best_params = study_logreg.best_params

# Modelo optimizado final de Regresión Logística
final_logreg_model = LogisticRegression(
    penalty='elasticnet',
    solver='saga',
    C=best_params['C'], 
    l1_ratio=best_params['l1_ratio'], 
    max_iter=1000,
    random_state=42
)

# Pipeline final
final_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', final_logreg_model)
])

# Modelo final con todos los datos de X_train
final_pipeline.fit(X_train, y_train)

# Predecir en X_test
y_pred = final_pipeline.predict(X_test)

### **Obtener y_pred y y_prob**

**y_pred** = final_pipeline.predict(X_test)

**Qué es:** Las decisiones finales 0 o 1 (basadas en un umbral de 0.5).

**Para qué sirve:** Para calcular la Matriz de Confusión y, a partir de ella, la Precisión, el Recall y el Accuracy.

- Si le das los datos de un nuevo cliente, y_pred te dirá la decisión: "0" (predecimos que gana <=50K) o "1" (predecimos que gana >50K).


**y_prob** = final_pipeline.predict_proba(X_test)[:, 1]

**Qué es:** Las probabilidades (ej. 0.15, 0.78, 0.55).

Para qué sirve: Para calcular el AUC (que evalúa todas las probabilidades sin un umbral fijo).

In [None]:
print("Obteniendo y_pred (Predicciones de Clase 0 o 1)")
y_pred = final_pipeline.predict(X_test)

print("Primeras 10 predicciones (y_pred):")
print(str(y_pred[:10]))


print("\n--- 2. Obteniendo y_prob (Predicciones de Probabilidad) ---")
y_prob = final_pipeline.predict_proba(X_test)[:, 1]

print("Primeras 10 probabilidades (y_prob) para la clase 1:")
print(str(np.round(y_prob[:10], 3)))

print("\nUsando y_pred y y_prob para Evaluación")

# Probabilidades: ROC AUC: evalúa qué tan bien discrimina el modelo en los umbrales
auc = roc_auc_score(y_test, y_prob)
print("\nEvaluación con 'y_prob':")
print("AUC (Area Under Curve): " + str(auc))


# Clases 0/1: Accuracy, Precision, Recall: Evalúan el rendimiento con el umbral de 0.5
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print("\nEvaluación con 'y_pred' (umbral 0.5):")
print("Accuracy (Exactitud): " + str(accuracy))
print("\nReporte de Clasificación (Precisión, Recall, etc.):")
print(str(report))

--- 1. Obteniendo y_pred (Predicciones de Clase 0 o 1) ---
Primeras 10 predicciones (y_pred):
[0 0 1 0 0 0 0 1 0 0]

--- 2. Obteniendo y_prob (Predicciones de Probabilidad) ---
Primeras 10 probabilidades (y_prob) para la clase 1:
[0.118 0.013 0.992 0.5   0.123 0.01  0.022 0.529 0.341 0.091]

--- 3. Usando y_pred y y_prob para Evaluación ---

Evaluación con 'y_prob':
AUC (Area Under Curve): 0.9078124677575783

Evaluación con 'y_pred' (umbral 0.5):
Accuracy (Exactitud): 0.8545984953170582

Reporte de Clasificación (Precisión, Recall, etc.):
              precision    recall  f1-score   support

           0       0.88      0.93      0.91      4945
           1       0.74      0.61      0.67      1568

    accuracy                           0.85      6513
   macro avg       0.81      0.77      0.79      6513
weighted avg       0.85      0.85      0.85      6513



### **Interpretación:** 
El modelo es muy bueno para discriminar entre las dos clases. Si tomamos a una persona al azar que gana >50K (clase 1) y otra que gana <=50K (clase 0), hay un 90.3% de probabilidad de que el modelo le asigne una probabilidad más alta a la persona correcta.

- **Accuracy: 0.850** El 85% de tus predicciones totales en el set de prueba fueron correctas.

- **Clase 0 (<=50K, la mayoría):**
EL modelo es excelente prediciendo a la gente que gana poco. Los encuentra (recall) y acierta cuando lo dice (precision).
- **Clase 1 (>50K, la minoría):** 
Cuando el modelo dice "1" (>50K), acierta el 73% de las veces. El modelo solo logra encontrar al 59% de todas las personas que realmente ganan >50K. El otro 41% los clasifica mal como "0" (son Falsos Negativos).

**Conclusión:**  Si el objetivo del modelo fuera encontrar todos los posibles clientes de bajos ingresos, funciona perfectamente, Recall de 93%.

Si fuera lo contrario, habría que bajar el umbral ya que el dataset es desbalanceado (hay muchas más personas "0" que "1", 12435 vs 3846). El modelo aprende que "decir 0" es una apuesta segura para subir el Accuracy general. 

La mayoría de los problemas del mundo real (detección de fraude, diagnósticos médicos, etc.) son desbalanceados.


## SVM con kernel RBF con optimización de hiperparámetros Optuna 

In [47]:
# Definición de la Función Objetivo 
print("\nIniciando Optimización: SVC Kernel RBF con GP")

def objective_svc_rbf(trial):
    # 'C' (regularización) en escala logarítmica
    C = trial.suggest_float('C', 1e-2, 1e2, log=True)
    
    # 'gamma' (coeficiente del kernel) en escala logarítmica
    gamma = trial.suggest_float('gamma', 1e-4, 1e-1, log=True)
    
    # Creamos el modelo
    model = SVC(
        kernel='rbf',
        C=C,
        gamma=gamma,
        probability=True, 
        random_state=42
    )
    
    # Pipeline completo 
    pipeline = Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('model', model)
    ])
    
    # Validamos con K-Fold y calculamos el AUC 
    scores = cross_val_score(pipeline, X_train, y_train, cv=kfold, scoring='roc_auc')
    
    # Devolvemos el AUC promedio 
    auc_promedio = scores.mean()
    return auc_promedio

# Iniciar el estudio de Optuna con GPSampler
n_trials_svc = 5
print("Iniciando estudio (n_trials=" + str(n_trials_svc) + ") usando un sampler GP...")

sampler = GPSampler() 
study_svc = optuna.create_study(direction='maximize', sampler=sampler)
# Ejecutamos la optimización
study_svc.optimize(objective_svc_rbf, n_trials=n_trials_svc)

# Resultados
print("\n¡Optimización de SVC (RBF) con GP Completada!")
print("Mejor score (AUC promedio): " + str(study_svc.best_value))
print("Mejores Hiperparámetros: " + str(study_svc.best_params))

[I 2025-11-02 11:45:51,098] A new study created in memory with name: no-name-62ba4f4f-22a7-41df-85e7-5f622ab5cb8e



Iniciando Optimización: SVC Kernel RBF con GP
Iniciando estudio (n_trials=5) usando un sampler GP...


[I 2025-11-02 11:50:12,680] Trial 0 finished with value: 0.9052615536516129 and parameters: {'C': 34.18647366422358, 'gamma': 0.000918039711950677}. Best is trial 0 with value: 0.9052615536516129.
[I 2025-11-02 11:54:15,532] Trial 1 finished with value: 0.8999329831704556 and parameters: {'C': 13.01580550549988, 'gamma': 0.031232973387632697}. Best is trial 0 with value: 0.9052615536516129.
[I 2025-11-02 11:59:54,214] Trial 2 finished with value: 0.8884702103578643 and parameters: {'C': 34.61959428738803, 'gamma': 0.06414011710202464}. Best is trial 0 with value: 0.9052615536516129.
[I 2025-11-02 12:03:41,841] Trial 3 finished with value: 0.9068831401620987 and parameters: {'C': 0.4279788460140292, 'gamma': 0.03206585557249091}. Best is trial 3 with value: 0.9068831401620987.
[I 2025-11-02 12:07:31,183] Trial 4 finished with value: 0.906527577132002 and parameters: {'C': 0.3746278086948534, 'gamma': 0.043478116530024986}. Best is trial 3 with value: 0.9068831401620987.



¡Optimización de SVC (RBF) con GP Completada!
Mejor score (AUC promedio): 0.9068831401620987
Mejores Hiperparámetros: {'C': 0.4279788460140292, 'gamma': 0.03206585557249091}


### Mejor SVM con kernel RBF

In [48]:
best_params_svc = study_svc.best_params
print("Mejores hiperparámetros encontrados: " + str(best_params_svc))

final_svc_model = SVC(
    kernel='rbf',
    C=best_params_svc['C'],         
    gamma=best_params_svc['gamma'], 
    probability=True,                
    random_state=42
)

# Pipeline final
final_pipeline_svc = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', final_svc_model)
])

# modelo final con todos los datos de X_train
print("Entrenando el modelo SVC final en TODOS los datos de X_train...")
final_pipeline_svc.fit(X_train, y_train)
print("Entrenamiento final completado.")

print("\nEvaluación Final del Modelo SVC en X_test")

# Obteniendo y_pred (Predicciones de Clase 0 o 1)
y_pred_svc = final_pipeline_svc.predict(X_test)
print("Primeras 10 predicciones (y_pred):")
print(str(y_pred_svc[:10]))

# Obteniendo y_prob (Predicciones de Probabilidad) 
y_prob_svc = final_pipeline_svc.predict_proba(X_test)[:, 1]
print("\nPrimeras 10 probabilidades (y_prob) para la clase 1:")
print(str(np.round(y_prob_svc[:10], 3)))

# Usando y_pred y y_prob para Evaluación 
auc_svc = roc_auc_score(y_test, y_prob_svc)
print("\nEvaluación con 'y_prob':")
print("AUC (Area Under Curve): " + str(auc_svc))

accuracy_svc = accuracy_score(y_test, y_pred_svc)
report_svc = classification_report(y_test, y_pred_svc)

print("\nEvaluación con 'y_pred' (umbral 0.5):")
print("Accuracy (Exactitud): " + str(accuracy_svc))
print("\nReporte de Clasificación (Precisión, Recall, etc.):")
print(str(report_svc))

Mejores hiperparámetros encontrados: {'C': 0.4279788460140292, 'gamma': 0.03206585557249091}
Entrenando el modelo SVC final en TODOS los datos de X_train...
Entrenamiento final completado.

Evaluación Final del Modelo SVC en X_test
Primeras 10 predicciones (y_pred):
[0 0 1 0 0 0 0 0 0 0]

Primeras 10 probabilidades (y_prob) para la clase 1:
[0.274 0.03  0.978 0.448 0.041 0.054 0.092 0.442 0.247 0.111]

Evaluación con 'y_prob':
AUC (Area Under Curve): 0.9130387063824519

Evaluación con 'y_pred' (umbral 0.5):
Accuracy (Exactitud): 0.8608935974205435

Reporte de Clasificación (Precisión, Recall, etc.):
              precision    recall  f1-score   support

           0       0.88      0.95      0.91      4945
           1       0.78      0.59      0.67      1568

    accuracy                           0.86      6513
   macro avg       0.83      0.77      0.79      6513
weighted avg       0.86      0.86      0.85      6513



## Interpretación
El modelo es excelente para discriminar entre las dos clases. Si tomamos a una persona al azar que gana >50K (clase 1) y otra que gana <=50K (clase 0), hay un 91.3% de probabilidad de que el modelo le asigne una probabilidad más alta a la persona correcta.

**Accuracy:** 0.860 El 86% de tus predicciones totales en el set de prueba fueron correctas.

**Clase 0 (<=50K, la mayoría):** El modelo es excepcional prediciendo a la gente que gana poco. Los encuentra (recall del 95%) y acierta cuando lo dice (precision del 88%).

**Clase 1 (>50K, la minoría):** Cuando el modelo dice "1" (>50K), acierta el 78% de las veces (precision). El modelo solo logra encontrar al 59% de todas las personas que realmente ganan >50K (recall). El otro 41% los clasifica mal como "0" (son Falsos Negativos).

**Conclusión:** Igual que en el anterior, si el objetivo del modelo fuera encontrar todos los posibles clientes de bajos ingresos (Clase 0), funciona perfectamente, ya que tiene un Recall del 95%.

## Perceptrón Multicapas


In [63]:

print("\n--- 3. Iniciando Optimización: Multi-layer Perceptron (MLP) ---")

def objective_mlp(trial):
    # 1. Probará con 1 o 2 capas ocultas
    n_layers = trial.suggest_int('n_layers', 1, 2)
    
    # 2. Definir neuronas por capa
    hidden_layers = []
    for i in range(n_layers):
        # Sugerir un número de neuronas 
        n_units = trial.suggest_int('n_units_l' + str(i+1), 16, 128)
        hidden_layers.append(n_units)
    
    # Convertir a tupla 
    hidden_layers_tuple = tuple(hidden_layers)
    
    # 3. Sugerir 'alpha' (regularización L2) en escala logarítmica
    alpha = trial.suggest_float('alpha', 1e-5, 1e-1, log=True)
    
    
    # Creamos el modelo 
    model = MLPClassifier(
        hidden_layer_sizes=hidden_layers_tuple,
        alpha=alpha,
        max_iter=1000,
        learning_rate_init=0.001,
        random_state=42
    )
    
    # Pipeline completo 
    pipeline = Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('model', model)
    ])
    
    # Validamos con K-Fold y calculamos el AUC 
    scores = cross_val_score(pipeline, X_train, y_train, cv=kfold, scoring='roc_auc')
    
    # Devolvemos el AUC promedio 
    auc_promedio = scores.mean()
    return auc_promedio

# Iniciar el estudio de Optuna con GPSampler 
n_trials_mlp = 15
print("Iniciando estudio (n_trials=" + str(n_trials_mlp) + ") usando un sampler GP...")

sampler = GPSampler() 
study_mlp = optuna.create_study(direction='maximize', sampler=sampler)

# Ejecutamos la optimización
study_mlp.optimize(objective_mlp, n_trials=n_trials_mlp)

# Resultados 
print("\nOptimización de MLP con GP Completada")
print("Mejor score (AUC promedio): " + str(study_mlp.best_value))
print("Mejores Hiperparámetros: " + str(study_mlp.best_params))

[I 2025-11-02 14:46:54,547] A new study created in memory with name: no-name-48775b59-d64b-4b3b-90bb-1bb59e3f874e



--- 3. Iniciando Optimización: Multi-layer Perceptron (MLP) ---
Iniciando estudio (n_trials=15) usando un sampler GP...
ADVERTENCIA: MLP es lento de entrenar, esto puede tardar.


[I 2025-11-02 14:48:19,117] Trial 0 finished with value: 0.9090776841686783 and parameters: {'n_layers': 1, 'n_units_l1': 112, 'alpha': 0.042908046131693675}. Best is trial 0 with value: 0.9090776841686783.
[I 2025-11-02 14:50:54,665] Trial 1 finished with value: 0.90065495323465 and parameters: {'n_layers': 1, 'n_units_l1': 71, 'alpha': 0.007889941443174295}. Best is trial 0 with value: 0.9090776841686783.
[I 2025-11-02 14:54:36,207] Trial 2 finished with value: 0.9016248764060606 and parameters: {'n_layers': 1, 'n_units_l1': 80, 'alpha': 0.011589586267693797}. Best is trial 0 with value: 0.9090776841686783.
[I 2025-11-02 15:00:29,674] Trial 3 finished with value: 0.8869519104705509 and parameters: {'n_layers': 2, 'n_units_l1': 29, 'n_units_l2': 76, 'alpha': 0.0006490191209409074}. Best is trial 0 with value: 0.9090776841686783.
[I 2025-11-02 15:03:49,605] Trial 4 finished with value: 0.8940975515602352 and parameters: {'n_layers': 2, 'n_units_l1': 27, 'n_units_l2': 84, 'alpha': 0.008


Optimización de MLP con GP Completada
Mejor score (AUC promedio): 0.9130929482471574
Mejores Hiperparámetros: {'n_layers': 1, 'n_units_l1': 128, 'alpha': 0.09927146014931387}


In [64]:
best_params_mlp = study_mlp.best_params
print("Mejores hiperparámetros encontrados: " + str(best_params_mlp))

# 2. Re-construir la tupla de capas ocultas
best_layers = []
for i in range(best_params_mlp['n_layers']):
    best_layers.append(best_params_mlp['n_units_l' + str(i+1)])
best_layers_tuple = tuple(best_layers)
print("Arquitectura de red final: " + str(best_layers_tuple))

# 3. Crear el modelo MLP final con esa receta
final_mlp_model = MLPClassifier(
    hidden_layer_sizes=best_layers_tuple, 
    alpha=best_params_mlp['alpha'],      
    max_iter=1000,
    random_state=42
)

# 4. Crear el pipeline final
final_pipeline_mlp = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', final_mlp_model)
])

# 5. Entrenar el modelo final con los datos de X_train
print("Entrenando el modelo MLP final en TODOS los datos de X_train...")
final_pipeline_mlp.fit(X_train, y_train)
print("Entrenamiento final completado.")

# 1. Obteniendo y_pred (Predicciones de Clase 0 o 1) 
y_pred_mlp = final_pipeline_mlp.predict(X_test)
print("Primeras 10 predicciones (y_pred):")
print(str(y_pred_mlp[:10]))

# 2. Obteniendo y_prob (Predicciones de Probabilidad)
y_prob_mlp = final_pipeline_mlp.predict_proba(X_test)[:, 1]
print("\nPrimeras 10 probabilidades (y_prob) para la clase 1:")
print(str(np.round(y_prob_mlp[:10], 3)))

# 3. Usando y_pred y y_prob para Evaluación ---
auc_mlp = roc_auc_score(y_test, y_prob_mlp)
print("\nEvaluación con 'y_prob':")
print("AUC (Area Under Curve): " + str(auc_mlp))

accuracy_mlp = accuracy_score(y_test, y_pred_mlp)
report_mlp = classification_report(y_test, y_pred_mlp)

print("\nEvaluación con 'y_pred' (umbral 0.5):")
print("Accuracy (Exactitud): " + str(accuracy_mlp))
print("\nReporte de Clasificación (Precisión, Recall, etc.):")
print(str(report_mlp))

Mejores hiperparámetros encontrados: {'n_layers': 1, 'n_units_l1': 128, 'alpha': 0.09927146014931387}
Arquitectura de red final: (128,)
Entrenando el modelo MLP final en TODOS los datos de X_train...
Entrenamiento final completado.
Primeras 10 predicciones (y_pred):
[0 0 1 0 0 0 0 1 0 0]

Primeras 10 probabilidades (y_prob) para la clase 1:
[0.172 0.002 0.95  0.468 0.079 0.015 0.024 0.687 0.318 0.071]

Evaluación con 'y_prob':
AUC (Area Under Curve): 0.9188055859350819

Evaluación con 'y_pred' (umbral 0.5):
Accuracy (Exactitud): 0.8622754491017964

Reporte de Clasificación (Precisión, Recall, etc.):
              precision    recall  f1-score   support

           0       0.89      0.93      0.91      4945
           1       0.75      0.64      0.69      1568

    accuracy                           0.86      6513
   macro avg       0.82      0.79      0.80      6513
weighted avg       0.86      0.86      0.86      6513



### **Interpretación:**

El modelo es muy bueno para discriminar entre las dos clases y es el mejor modelo de los tres que has probado. Si tomamos a una persona al azar que gana >50K (clase 1) y otra que gana <=50K (clase 0), hay un 91.9% de probabilidad de que el modelo le asigne una probabilidad más alta a la persona correcta.

**AUC (Area Under Curve):** 0.9188 Este es el mejor AUC (superando al 0.913 del SVC y al 0.903 de la Regresión Logística). La optimización bayesiana encontró una arquitectura de red (una capa oculta con 128 neuronas) que es muy poderosa para este problema.

**Accuracy:** 0.862 El 86.2% de tus predicciones totales en el set de prueba fueron correctas. Este es también tu mejor Accuracy general.

**Clase 0 (<=50K, la mayoría):** El modelo es excelente prediciendo a la gente que gana poco. Los encuentra (recall del 93%) y acierta cuando lo dice (precision del 89%).

**Clase 1 (>50K, la minoría):** Cuando el modelo dice "1" (>50K), acierta el 75% de las veces (precision). El modelo logra encontrar al 64% de todas las personas que realmente ganan >50K (recall). El otro 36% los clasifica mal como "0" (son Falsos Negativos). Este recall es una leve mejora sobre el 59% del SVC.

**Conclusión:** Este MLP es el modelo campeón. Si el objetivo del modelo fuera encontrar todos los posibles clientes de bajos ingresos (Clase 0), funciona perfectamente, con un Recall del 93%.

Si fuera lo contrario (encontrar a los de Clase 1), su recall del 64% es mejor, pero aún habría que bajar el umbral para encontrar a más. Esto se debe a que el dataset es desbalanceado (hay muchas más personas "0" que "1", 4945 vs 1568). El modelo aprende que "decir 0" es una apuesta segura para subir el Accuracy general. La mayoría de los problemas del mundo real (detección de fraude, diagnósticos médicos, etc.) son desbalanceados.

**Prueba bajando el umbral para que identifique mejor a la clase 1**

In [65]:
print("Ajustando el Umbral de Decisión del MLP ---")

nuevo_umbral = 0.35
print("Umbral por defecto: 0.5")
print("Nuevo umbral elegido: " + str(nuevo_umbral))

# Aplicamos el nuevo umbral a las probabilidades ---
# (y_prob_mlp > nuevo_umbral) crea un array de True/False
# .astype(int) convierte True->1 y False->0
y_pred_nuevo = (y_prob_mlp > nuevo_umbral).astype(int)

print("\nPrimeras 10 probabilidades (y_prob):")
print(str(np.round(y_prob_mlp[:10], 3)))
print("Primeras 10 predicciones (y_pred) con umbral 0.5:")
print(str(y_pred_mlp[:10])) 
print("Primeras 10 predicciones (y_pred) con umbral " + str(nuevo_umbral) + ":")
print(str(y_pred_nuevo[:10]))

# Evaluamos el rendimiento CON EL NUEVO UMBRAL
print("\n--- Evaluación con NUEVO Umbral (" + str(nuevo_umbral) + ") ---")

accuracy_nuevo = accuracy_score(y_test, y_pred_nuevo)
report_nuevo = classification_report(y_test, y_pred_nuevo)

print("Accuracy (Exactitud) con nuevo umbral: " + str(accuracy_nuevo))
print("\nReporte de Clasificación (Precisión, Recall, etc.) con nuevo umbral:")
print(str(report_nuevo))

Ajustando el Umbral de Decisión del MLP ---
Umbral por defecto: 0.5
Nuevo umbral elegido: 0.35

Primeras 10 probabilidades (y_prob):
[0.172 0.002 0.95  0.468 0.079 0.015 0.024 0.687 0.318 0.071]
Primeras 10 predicciones (y_pred) con umbral 0.5:
[0 0 1 0 0 0 0 1 0 0]
Primeras 10 predicciones (y_pred) con umbral 0.35:
[0 0 1 1 0 0 0 1 0 0]

--- Evaluación con NUEVO Umbral (0.35) ---
Accuracy (Exactitud) con nuevo umbral: 0.8466144633809305

Reporte de Clasificación (Precisión, Recall, etc.) con nuevo umbral:
              precision    recall  f1-score   support

           0       0.93      0.87      0.90      4945
           1       0.65      0.79      0.71      1568

    accuracy                           0.85      6513
   macro avg       0.79      0.83      0.80      6513
weighted avg       0.86      0.85      0.85      6513




### Conclusiones

**Antes (Umbral 0.5):** Recall Clase 1 = 0.64 

**Ahora (Umbral 0.35):** Recall Clase 1 = 0.79 

Bajar el umbral hizo que el modelo lograra identificar a un 15% más del grupo de altos ingresos que antes estaba omitiendo.

¿Cuál fue el "costo" de este cambio?

**Precisión Clase 1:** Bajó de 0.75 a 0.65.

Para poder encontrar a más personas (subir el Recall), el modelo ahora comete más Falsos Positivos. Antes, el 75% de sus predicciones "1" eran correctas; ahora, solo el 65% lo son.

**Accuracy Total:** Bajó ligeramente de 0.862 a 0.847.

El Accuracy general bajó un poco porque el modelo ahora se equivoca más con la Clase 0 (que es la mayoría) para poder acertar más con la Clase 1 (la minoría).