# A2.1 Regresi√≥n Log√≠stica y Validaci√≥n Cruzada

**Autor:** Ricardo Arath Sanchez Aguirre

**Materia:** SC3314 ‚Äì Inteligencia Artificial  
**Universidad:** Universidad de Monterrey  
**Profesor:** Dr. Antonio Mart√≠nez Torteya  

---

## √çndice
1. [Introducci√≥n](#1-introducci√≥n)
2. [Fundamentos Te√≥ricos](#2-fundamentos-te√≥ricos)
3. [Carga y Exploraci√≥n de Datos](#3-carga-y-exploraci√≥n-de-datos)
4. [Preparaci√≥n de Datos](#4-preparaci√≥n-de-datos)
5. [Implementaci√≥n de Regresi√≥n Log√≠stica](#5-implementaci√≥n-de-regresi√≥n-log√≠stica)
6. [Validaci√≥n Cruzada](#6-validaci√≥n-cruzada)
7. [Evaluaci√≥n del Modelo](#7-evaluaci√≥n-del-modelo)
8. [Conclusiones](#8-conclusiones)

---

# 1. Introducci√≥n

## 1.1 Contexto del An√°lisis

En este an√°lisis utilizamos la **Estad√≠stica de Matrimonios 2024** del INEGI para implementar un modelo de **Regresi√≥n Log√≠stica**, uno de los algoritmos fundamentales del aprendizaje supervisado para problemas de clasificaci√≥n.

## 1.2 Problema de Clasificaci√≥n

**Objetivo:** Predecir el **r√©gimen matrimonial** (Sociedad Conyugal vs Separaci√≥n de Bienes) bas√°ndose en las caracter√≠sticas sociodemogr√°ficas de los contrayentes.

### ¬øPor qu√© este problema?

El r√©gimen matrimonial es una decisi√≥n importante que refleja:
- **Nivel socioecon√≥mico**: Personas con mayor patrimonio tienden a elegir separaci√≥n de bienes
- **Edad de los contrayentes**: Segundas nupcias suelen preferir separaci√≥n de bienes
- **Nivel educativo**: Mayor educaci√≥n puede asociarse con mayor conciencia legal
- **Contexto geogr√°fico**: Diferencias culturales entre regiones

## 1.3 Variables de Inter√©s

| Variable | Tipo | Descripci√≥n |
|----------|------|-------------|
| **regimen_ma** (objetivo) | Binaria | 1=Sociedad Conyugal, 2=Separaci√≥n de Bienes |
| edad_con1, edad_con2 | Num√©rica | Edades de los contrayentes |
| escol_con1, escol_con2 | Ordinal | Nivel de escolaridad |
| tam_loc_re | Ordinal | Tama√±o de localidad |
| ent_regis | Categ√≥rica | Entidad federativa |

# 2. Fundamentos Te√≥ricos

## 2.1 ¬øQu√© es la Regresi√≥n Log√≠stica?

La **Regresi√≥n Log√≠stica** es un algoritmo de clasificaci√≥n supervisada que modela la probabilidad de que una observaci√≥n pertenezca a una clase particular.

### Diferencias con Regresi√≥n Lineal

| Aspecto | Regresi√≥n Lineal | Regresi√≥n Log√≠stica |
|---------|------------------|--------------------|
| **Variable objetivo** | Continua | Categ√≥rica (binaria) |
| **Predicci√≥n** | Valor num√©rico | Probabilidad [0, 1] |
| **Funci√≥n** | $f(x) = wx + b$ | $f(x) = \sigma(wx + b)$ |
| **Funci√≥n de costo** | MSE | Cross-Entropy (Log Loss) |

## 2.2 La Funci√≥n Sigmoide

La **funci√≥n sigmoide** (o log√≠stica) transforma cualquier valor real a un rango entre 0 y 1:

$$\sigma(z) = \frac{1}{1 + e^{-z}}$$

Donde $z = \mathbf{w} \cdot \mathbf{x} + b$ (combinaci√≥n lineal de las caracter√≠sticas).

### Propiedades de la funci√≥n sigmoide:
- **Rango**: $(0, 1)$ - ideal para representar probabilidades
- **Punto medio**: $\sigma(0) = 0.5$
- **Asint√≥tica**: Se aproxima a 0 cuando $z \to -\infty$ y a 1 cuando $z \to +\infty$
- **Derivada**: $\sigma'(z) = \sigma(z)(1 - \sigma(z))$ - facilita el c√°lculo del gradiente

## 2.3 Funci√≥n de Costo (Log Loss)

La funci√≥n de costo para regresi√≥n log√≠stica es la **entrop√≠a cruzada binaria** (Binary Cross-Entropy):

$$J(\mathbf{w}, b) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(\hat{y}^{(i)}) + (1 - y^{(i)}) \log(1 - \hat{y}^{(i)}) \right]$$

Donde:
- $m$ = n√∫mero de muestras
- $y^{(i)}$ = etiqueta real (0 o 1)
- $\hat{y}^{(i)} = \sigma(\mathbf{w} \cdot \mathbf{x}^{(i)} + b)$ = probabilidad predicha

### ¬øPor qu√© Log Loss y no MSE?
- MSE en clasificaci√≥n produce una superficie de costo **no convexa** con m√∫ltiples m√≠nimos locales
- Log Loss es **convexa**, garantizando un √∫nico m√≠nimo global
- Penaliza m√°s fuertemente las predicciones muy seguras pero incorrectas

## 2.4 Descenso del Gradiente

Los par√°metros se actualizan iterativamente:

$$w_j := w_j - \alpha \frac{\partial J}{\partial w_j}$$

$$b := b - \alpha \frac{\partial J}{\partial b}$$

Donde:
$$\frac{\partial J}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} (\hat{y}^{(i)} - y^{(i)}) x_j^{(i)}$$

$$\frac{\partial J}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} (\hat{y}^{(i)} - y^{(i)})$$

## 2.5 Validaci√≥n Cruzada (Cross-Validation)

La **validaci√≥n cruzada K-Fold** es una t√©cnica para evaluar la capacidad de generalizaci√≥n del modelo:

1. Divide los datos en K particiones (folds) de tama√±o similar
2. Para cada fold $k$:
   - Usa fold $k$ como conjunto de validaci√≥n
   - Usa los otros $K-1$ folds como entrenamiento
   - Eval√∫a el modelo en el fold de validaci√≥n
3. Promedia las m√©tricas de los K experimentos

### Ventajas de K-Fold:
- Usa **todos los datos** para entrenamiento y validaci√≥n
- Proporciona una estimaci√≥n m√°s **robusta** del desempe√±o
- Reduce la varianza en la estimaci√≥n del error

# 3. Carga y Exploraci√≥n de Datos

## 3.1 Importaci√≥n de Librer√≠as

In [None]:
# Importaci√≥n de librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 11

# Modelos y m√©tricas de Machine Learning
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import (accuracy_score, precision_score, recall_score, f1_score,
                             confusion_matrix, classification_report, roc_curve, auc,
                             roc_auc_score, log_loss)

print("Librer√≠as importadas correctamente")

## 3.2 Carga del Dataset

In [None]:
# Cargar el conjunto de datos de matrimonios 2024
ruta_datos = 'conjunto_de_datos/conjunto_de_datos_emat2024.csv'
df = pd.read_csv(ruta_datos)

print(f"Dimensiones del dataset: {df.shape}")
print(f"Total de matrimonios registrados: {len(df):,}")
print(f"\nColumnas disponibles:")
for i, col in enumerate(df.columns, 1):
    print(f"  {i:2d}. {col}")

In [None]:
# Visualizar las primeras filas
df.head()

## 3.3 An√°lisis de la Variable Objetivo

In [None]:
# Analizar la distribuci√≥n del r√©gimen matrimonial
print("Distribuci√≥n del R√©gimen Matrimonial:")
print("="*50)
regimen_counts = df['regimen_ma'].value_counts().sort_index()

regimen_map = {
    1: 'Sociedad Conyugal',
    2: 'Separaci√≥n de Bienes',
    3: 'Mixto',
    9: 'No Especificado'
}

for codigo, count in regimen_counts.items():
    nombre = regimen_map.get(codigo, f'C√≥digo {codigo}')
    porcentaje = count / len(df) * 100
    print(f"{codigo}: {nombre:25s} -> {count:>8,} ({porcentaje:5.2f}%)")

In [None]:
# Visualizaci√≥n de la distribuci√≥n
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico de barras
colors = ['steelblue', 'coral', 'lightgreen', 'gray']
regimen_labels = [regimen_map.get(r, str(r)) for r in regimen_counts.index]
bars = axes[0].bar(regimen_labels, regimen_counts.values, color=colors[:len(regimen_counts)], edgecolor='black')
axes[0].set_xlabel('R√©gimen Matrimonial', fontsize=12)
axes[0].set_ylabel('Frecuencia', fontsize=12)
axes[0].set_title('Distribuci√≥n del R√©gimen Matrimonial', fontsize=14, fontweight='bold')
axes[0].tick_params(axis='x', rotation=15)

# A√±adir etiquetas de valor
for bar, count in zip(bars, regimen_counts.values):
    axes[0].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 1000,
                 f'{count:,}', ha='center', va='bottom', fontsize=10, fontweight='bold')

# Gr√°fico de pastel (solo para r√©gimen v√°lido: 1 y 2)
df_valido = df[df['regimen_ma'].isin([1, 2])]
regimen_valido = df_valido['regimen_ma'].value_counts()
labels_pie = ['Sociedad Conyugal', 'Separaci√≥n de Bienes']
explode = (0.02, 0.02)
axes[1].pie(regimen_valido.values, labels=labels_pie, autopct='%1.1f%%',
            colors=['steelblue', 'coral'], explode=explode, startangle=90,
            wedgeprops={'edgecolor': 'black', 'linewidth': 1})
axes[1].set_title('Proporci√≥n de R√©gimen Matrimonial\n(Solo casos v√°lidos)', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print(f"\nNota: Para el modelo de clasificaci√≥n binaria, usaremos solo los casos")
print(f"con Sociedad Conyugal (1) y Separaci√≥n de Bienes (2).")
print(f"Esto representa {len(df_valido):,} registros ({len(df_valido)/len(df)*100:.1f}% del total).")

# 4. Preparaci√≥n de Datos

## 4.1 Filtrado y Limpieza

In [None]:
# Crear copia del dataframe para el modelo
df_modelo = df.copy()
registros_iniciales = len(df_modelo)

# 1. Filtrar solo reg√≠menes v√°lidos (1=Sociedad Conyugal, 2=Separaci√≥n de Bienes)
df_modelo = df_modelo[df_modelo['regimen_ma'].isin([1, 2])]
print(f"Despu√©s de filtrar r√©gimen v√°lido: {len(df_modelo):,} registros")

# 2. Eliminar edades no especificadas (c√≥digo 99)
df_modelo = df_modelo[(df_modelo['edad_con1'] != 99) & (df_modelo['edad_con2'] != 99)]
print(f"Despu√©s de filtrar edades v√°lidas: {len(df_modelo):,} registros")

# 3. Filtrar escolaridades v√°lidas (excluir 9=No especificado)
df_modelo = df_modelo[(df_modelo['escol_con1'] < 9) & (df_modelo['escol_con2'] < 9)]
print(f"Despu√©s de filtrar escolaridad v√°lida: {len(df_modelo):,} registros")

# 4. Filtrar tama√±o de localidad v√°lido (excluir 99=No especificado)
df_modelo = df_modelo[df_modelo['tam_loc_re'] != 99]
print(f"Despu√©s de filtrar localidad v√°lida: {len(df_modelo):,} registros")

print(f"\nRegistros finales: {len(df_modelo):,} ({len(df_modelo)/registros_iniciales*100:.1f}% del total)")

## 4.2 Creaci√≥n de la Variable Objetivo Binaria

In [None]:
# Crear variable objetivo binaria
# 0 = Sociedad Conyugal (c√≥digo 1)
# 1 = Separaci√≥n de Bienes (c√≥digo 2)

df_modelo['y_regimen'] = (df_modelo['regimen_ma'] == 2).astype(int)

print("Variable objetivo creada:")
print("="*50)
print(f"0 (Sociedad Conyugal):     {(df_modelo['y_regimen'] == 0).sum():>10,} ({(df_modelo['y_regimen'] == 0).mean()*100:.2f}%)")
print(f"1 (Separaci√≥n de Bienes):  {(df_modelo['y_regimen'] == 1).sum():>10,} ({(df_modelo['y_regimen'] == 1).mean()*100:.2f}%)")

# Verificar balance de clases
ratio = df_modelo['y_regimen'].mean()
print(f"\nRatio de clase positiva: {ratio:.2%}")
if 0.3 <= ratio <= 0.7:
    print("Las clases est√°n relativamente balanceadas.")
else:
    print("‚ö†Ô∏è Desbalance de clases detectado. Considerar t√©cnicas de balanceo.")

## 4.3 Ingenier√≠a de Caracter√≠sticas

In [None]:
# Crear nuevas caracter√≠sticas derivadas
print("Creando nuevas caracter√≠sticas...")
print("="*50)

# 1. Promedio de edades
df_modelo['edad_promedio'] = (df_modelo['edad_con1'] + df_modelo['edad_con2']) / 2
print("‚úì edad_promedio: Promedio de edades de ambos contrayentes")

# 2. Diferencia de edad (valor absoluto)
df_modelo['diferencia_edad'] = np.abs(df_modelo['edad_con1'] - df_modelo['edad_con2'])
print("‚úì diferencia_edad: Diferencia absoluta de edades")

# 3. Promedio de escolaridad
df_modelo['escol_promedio'] = (df_modelo['escol_con1'] + df_modelo['escol_con2']) / 2
print("‚úì escol_promedio: Promedio de escolaridad de ambos contrayentes")

# 4. Diferencia de escolaridad (valor absoluto)
df_modelo['diferencia_escol'] = np.abs(df_modelo['escol_con1'] - df_modelo['escol_con2'])
print("‚úì diferencia_escol: Diferencia absoluta de escolaridad")

# 5. Indicador de matrimonio del mismo sexo
df_modelo['mismo_sexo'] = (df_modelo['genero'] == 2).astype(int)
print("‚úì mismo_sexo: Indicador de matrimonio del mismo sexo")

# 6. Indicador de localidad urbana (>=50,000 habitantes)
df_modelo['es_urbano'] = (df_modelo['tam_loc_re'] >= 11).astype(int)
print("‚úì es_urbano: Indicador de localidad urbana (>=50,000 hab)")

# 7. Indicador de alta escolaridad (al menos uno con nivel profesional)
df_modelo['alta_escolaridad'] = ((df_modelo['escol_con1'] >= 7) | (df_modelo['escol_con2'] >= 7)).astype(int)
print("‚úì alta_escolaridad: Al menos un contrayente con nivel profesional")

# 8. Indicador de matrimonio tard√≠o (ambos >35 a√±os)
df_modelo['matrimonio_tardio'] = ((df_modelo['edad_con1'] > 35) & (df_modelo['edad_con2'] > 35)).astype(int)
print("‚úì matrimonio_tardio: Ambos contrayentes mayores de 35 a√±os")

print(f"\nTotal de caracter√≠sticas disponibles: {df_modelo.shape[1]}")

## 4.4 Selecci√≥n de Caracter√≠sticas para el Modelo

In [None]:
# Seleccionar caracter√≠sticas para el modelo
features = [
    'edad_con1',           # Edad del primer contrayente
    'edad_con2',           # Edad del segundo contrayente
    'edad_promedio',       # Promedio de edades
    'diferencia_edad',     # Diferencia de edades
    'escol_con1',          # Escolaridad contrayente 1
    'escol_con2',          # Escolaridad contrayente 2
    'escol_promedio',      # Promedio de escolaridad
    'diferencia_escol',    # Diferencia de escolaridad
    'tam_loc_re',          # Tama√±o de localidad
    'es_urbano',           # Es localidad urbana
    'mismo_sexo',          # Matrimonio del mismo sexo
    'alta_escolaridad',    # Alta escolaridad
    'matrimonio_tardio'    # Matrimonio tard√≠o
]

print(f"Caracter√≠sticas seleccionadas: {len(features)}")
for i, f in enumerate(features, 1):
    print(f"  {i:2d}. {f}")

In [None]:
# An√°lisis de correlaci√≥n con la variable objetivo
correlaciones = df_modelo[features + ['y_regimen']].corr()['y_regimen'].drop('y_regimen').sort_values(key=abs, ascending=False)

print("Correlaci√≥n de caracter√≠sticas con el R√©gimen Matrimonial:")
print("="*60)
print(f"{'Variable':25s} {'Correlaci√≥n':>15s} {'Direcci√≥n':>15s}")
print("-"*60)
for var, corr in correlaciones.items():
    direccion = 'Positiva (+)' if corr > 0 else 'Negativa (-)'
    print(f"{var:25s} {corr:+15.4f} {direccion:>15s}")

In [None]:
# Visualizaci√≥n de correlaciones
fig, ax = plt.subplots(figsize=(10, 6))
correlaciones_sorted = correlaciones.sort_values(ascending=True)
colors = ['green' if x > 0 else 'red' for x in correlaciones_sorted.values]
correlaciones_sorted.plot(kind='barh', color=colors, edgecolor='black', ax=ax)
ax.set_xlabel('Correlaci√≥n con R√©gimen Matrimonial', fontsize=12)
ax.set_title('Correlaci√≥n de Variables con Separaci√≥n de Bienes (vs Sociedad Conyugal)',
             fontsize=14, fontweight='bold')
ax.axvline(x=0, color='black', linewidth=0.5)
ax.grid(True, alpha=0.3, axis='x')
plt.tight_layout()
plt.show()

## 4.5 Preparaci√≥n de Datos para el Modelo

In [None]:
# Preparar matrices X e y
X = df_modelo[features].copy()
y = df_modelo['y_regimen'].copy()

print(f"Dimensiones de X: {X.shape}")
print(f"Dimensiones de y: {y.shape}")
print(f"\nValores nulos en X: {X.isnull().sum().sum()}")
print(f"Valores nulos en y: {y.isnull().sum()}")

In [None]:
# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print("Divisi√≥n de datos:")
print("="*50)
print(f"Conjunto de entrenamiento: {len(X_train):,} registros ({len(X_train)/len(X)*100:.1f}%)")
print(f"Conjunto de prueba:        {len(X_test):,} registros ({len(X_test)/len(X)*100:.1f}%)")
print(f"\nDistribuci√≥n de clases en entrenamiento:")
print(f"  Clase 0 (Sociedad Conyugal):    {(y_train == 0).sum():,} ({(y_train == 0).mean()*100:.2f}%)")
print(f"  Clase 1 (Separaci√≥n Bienes):    {(y_train == 1).sum():,} ({(y_train == 1).mean()*100:.2f}%)")
print(f"\nDistribuci√≥n de clases en prueba:")
print(f"  Clase 0 (Sociedad Conyugal):    {(y_test == 0).sum():,} ({(y_test == 0).mean()*100:.2f}%)")
print(f"  Clase 1 (Separaci√≥n Bienes):    {(y_test == 1).sum():,} ({(y_test == 1).mean()*100:.2f}%)")

In [None]:
# Estandarizar caracter√≠sticas
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("‚úì Caracter√≠sticas estandarizadas (media=0, std=1)")
print(f"\nEstad√≠sticas de entrenamiento (estandarizadas):")
print(f"  Media: {X_train_scaled.mean():.6f}")
print(f"  Std:   {X_train_scaled.std():.6f}")

# 5. Implementaci√≥n de Regresi√≥n Log√≠stica

## 5.1 Implementaci√≥n Manual de las Funciones B√°sicas

In [None]:
# Implementaci√≥n de la funci√≥n sigmoide
def sigmoid(z):
    """
    Calcula la funci√≥n sigmoide.
    
    Par√°metros:
    -----------
    z : array-like
        Entrada (puede ser escalar o array)
    
    Retorna:
    --------
    g : array-like
        Valor de la funci√≥n sigmoide
    """
    # Prevenir overflow
    z = np.clip(z, -500, 500)
    g = 1 / (1 + np.exp(-z))
    return g

# Visualizar la funci√≥n sigmoide
z_values = np.linspace(-10, 10, 100)
sigmoid_values = sigmoid(z_values)

plt.figure(figsize=(10, 6))
plt.plot(z_values, sigmoid_values, 'b-', linewidth=2, label=r'$\sigma(z) = \frac{1}{1+e^{-z}}$')
plt.axhline(y=0.5, color='r', linestyle='--', alpha=0.7, label='Umbral (0.5)')
plt.axvline(x=0, color='gray', linestyle=':', alpha=0.7)
plt.xlabel('z', fontsize=12)
plt.ylabel(r'$\sigma(z)$', fontsize=12)
plt.title('Funci√≥n Sigmoide', fontsize=14, fontweight='bold')
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)
plt.ylim(-0.1, 1.1)
plt.show()

print("Verificaci√≥n de la funci√≥n sigmoide:")
print(f"  sigmoid(0) = {sigmoid(0):.4f} (esperado: 0.5)")
print(f"  sigmoid(-5) = {sigmoid(-5):.4f} (esperado: ~0.007)")
print(f"  sigmoid(5) = {sigmoid(5):.4f} (esperado: ~0.993)")

In [None]:
# Implementaci√≥n de la funci√≥n de costo (Log Loss)
def compute_cost(X, y, w, b):
    """
    Calcula la funci√≥n de costo (Binary Cross-Entropy) para regresi√≥n log√≠stica.
    
    Par√°metros:
    -----------
    X : array de forma (m, n)
        Matriz de caracter√≠sticas
    y : array de forma (m,)
        Etiquetas verdaderas (0 o 1)
    w : array de forma (n,)
        Pesos del modelo
    b : escalar
        Sesgo (bias) del modelo
    
    Retorna:
    --------
    cost : escalar
        Valor de la funci√≥n de costo
    """
    m = len(y)
    
    # Calcular predicciones
    z = np.dot(X, w) + b
    y_hat = sigmoid(z)
    
    # Evitar log(0) usando clipping
    epsilon = 1e-15
    y_hat = np.clip(y_hat, epsilon, 1 - epsilon)
    
    # Calcular costo (Binary Cross-Entropy)
    cost = -np.mean(y * np.log(y_hat) + (1 - y) * np.log(1 - y_hat))
    
    return cost

# Verificar funci√≥n de costo con valores iniciales
w_init = np.zeros(X_train_scaled.shape[1])
b_init = 0
cost_initial = compute_cost(X_train_scaled, y_train.values, w_init, b_init)
print(f"Costo inicial (w=0, b=0): {cost_initial:.6f}")
print(f"Costo esperado para pesos cero con clases balanceadas: ~{-np.log(0.5):.6f} = ln(2)")

In [None]:
# Implementaci√≥n del gradiente
def compute_gradient(X, y, w, b):
    """
    Calcula el gradiente de la funci√≥n de costo.
    
    Par√°metros:
    -----------
    X : array de forma (m, n)
        Matriz de caracter√≠sticas
    y : array de forma (m,)
        Etiquetas verdaderas
    w : array de forma (n,)
        Pesos del modelo
    b : escalar
        Sesgo del modelo
    
    Retorna:
    --------
    dj_dw : array de forma (n,)
        Gradiente respecto a w
    dj_db : escalar
        Gradiente respecto a b
    """
    m = len(y)
    
    # Calcular predicciones
    z = np.dot(X, w) + b
    y_hat = sigmoid(z)
    
    # Calcular gradientes
    error = y_hat - y
    dj_dw = (1 / m) * np.dot(X.T, error)
    dj_db = (1 / m) * np.sum(error)
    
    return dj_dw, dj_db

# Verificar gradiente
dj_dw, dj_db = compute_gradient(X_train_scaled, y_train.values, w_init, b_init)
print(f"Gradientes iniciales:")
print(f"  dJ/db = {dj_db:.6f}")
print(f"  dJ/dw (primeras 5): {dj_dw[:5]}")

In [None]:
# Implementaci√≥n del descenso del gradiente
def gradient_descent(X, y, w_init, b_init, alpha, num_iters, verbose=True):
    """
    Ejecuta el descenso del gradiente para optimizar los par√°metros.
    
    Par√°metros:
    -----------
    X : array de forma (m, n)
        Matriz de caracter√≠sticas
    y : array de forma (m,)
        Etiquetas verdaderas
    w_init : array de forma (n,)
        Pesos iniciales
    b_init : escalar
        Sesgo inicial
    alpha : escalar
        Tasa de aprendizaje
    num_iters : int
        N√∫mero de iteraciones
    verbose : bool
        Si se muestra progreso
    
    Retorna:
    --------
    w : array de forma (n,)
        Pesos optimizados
    b : escalar
        Sesgo optimizado
    cost_history : lista
        Historia de costos
    """
    w = w_init.copy()
    b = b_init
    cost_history = []
    
    for i in range(num_iters):
        # Calcular gradientes
        dj_dw, dj_db = compute_gradient(X, y, w, b)
        
        # Actualizar par√°metros
        w = w - alpha * dj_dw
        b = b - alpha * dj_db
        
        # Guardar costo
        cost = compute_cost(X, y, w, b)
        cost_history.append(cost)
        
        # Mostrar progreso
        if verbose and i % (num_iters // 10) == 0:
            print(f"  Iteraci√≥n {i:5d}: Costo = {cost:.6f}")
    
    return w, b, cost_history

print("Funci√≥n de descenso del gradiente implementada ‚úì")

## 5.2 Entrenamiento del Modelo Manual

In [None]:
# Entrenar modelo con implementaci√≥n manual
print("ENTRENAMIENTO DEL MODELO (Implementaci√≥n Manual)")
print("="*60)

# Hiperpar√°metros
alpha = 0.1          # Tasa de aprendizaje
num_iters = 1000     # N√∫mero de iteraciones

# Inicializar par√°metros
w_init = np.zeros(X_train_scaled.shape[1])
b_init = 0

print(f"Hiperpar√°metros:")
print(f"  Learning rate (Œ±): {alpha}")
print(f"  Iteraciones: {num_iters}")
print(f"\nProgreso del entrenamiento:")

# Ejecutar descenso del gradiente
w_manual, b_manual, cost_history = gradient_descent(
    X_train_scaled, y_train.values, w_init, b_init, alpha, num_iters
)

print(f"\nEntrenamiento completado.")
print(f"Costo final: {cost_history[-1]:.6f}")

In [None]:
# Visualizar convergencia
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico 1: Curva de costo completa
axes[0].plot(cost_history, 'b-', linewidth=1.5)
axes[0].set_xlabel('Iteraci√≥n', fontsize=12)
axes[0].set_ylabel('Costo (Log Loss)', fontsize=12)
axes[0].set_title('Convergencia del Descenso del Gradiente', fontsize=14, fontweight='bold')
axes[0].grid(True, alpha=0.3)

# Gr√°fico 2: Primeras 200 iteraciones (zoom)
axes[1].plot(cost_history[:200], 'b-', linewidth=1.5)
axes[1].set_xlabel('Iteraci√≥n', fontsize=12)
axes[1].set_ylabel('Costo (Log Loss)', fontsize=12)
axes[1].set_title('Primeras 200 Iteraciones (Zoom)', fontsize=14, fontweight='bold')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"Reducci√≥n del costo: {cost_history[0]:.6f} ‚Üí {cost_history[-1]:.6f}")
print(f"Reducci√≥n porcentual: {(1 - cost_history[-1]/cost_history[0])*100:.2f}%")

In [None]:
# Mostrar coeficientes del modelo manual
print("Coeficientes del Modelo (Implementaci√≥n Manual):")
print("="*60)
print(f"Intercepto (b): {b_manual:.6f}")
print(f"\nPesos (w):")

coef_df = pd.DataFrame({
    'Variable': features,
    'Coeficiente': w_manual,
    'Coef. Absoluto': np.abs(w_manual)
}).sort_values('Coef. Absoluto', ascending=False)

for _, row in coef_df.iterrows():
    signo = '+' if row['Coeficiente'] > 0 else ''
    print(f"  {row['Variable']:25s}: {signo}{row['Coeficiente']:.6f}")

## 5.3 Modelo con Scikit-Learn (Comparaci√≥n)

In [None]:
# Entrenar modelo con Scikit-Learn para comparaci√≥n
print("MODELO CON SCIKIT-LEARN (Comparaci√≥n)")
print("="*60)

modelo_sklearn = LogisticRegression(
    max_iter=1000,
    solver='lbfgs',
    random_state=42
)

modelo_sklearn.fit(X_train_scaled, y_train)

print(f"Intercepto (sklearn): {modelo_sklearn.intercept_[0]:.6f}")
print(f"Intercepto (manual):  {b_manual:.6f}")
print(f"\nComparaci√≥n de coeficientes:")
print(f"{'Variable':25s} {'Sklearn':>12s} {'Manual':>12s} {'Diferencia':>12s}")
print("-"*65)
for i, feat in enumerate(features):
    w_sk = modelo_sklearn.coef_[0][i]
    w_mn = w_manual[i]
    diff = abs(w_sk - w_mn)
    print(f"{feat:25s} {w_sk:12.6f} {w_mn:12.6f} {diff:12.6f}")

# 6. Validaci√≥n Cruzada

## 6.1 Implementaci√≥n de K-Fold Cross-Validation

In [None]:
# Implementaci√≥n de validaci√≥n cruzada K-Fold
print("VALIDACI√ìN CRUZADA K-FOLD")
print("="*60)

# Configurar K-Fold estratificado
k_folds = 5
skf = StratifiedKFold(n_splits=k_folds, shuffle=True, random_state=42)

print(f"N√∫mero de folds: {k_folds}")
print(f"\nEjecutando validaci√≥n cruzada...\n")

# Almacenar resultados de cada fold
fold_results = {
    'accuracy': [],
    'precision': [],
    'recall': [],
    'f1': [],
    'auc': [],
    'log_loss': []
}

# Ejecutar validaci√≥n cruzada manualmente para tener m√°s control
for fold, (train_idx, val_idx) in enumerate(skf.split(X, y), 1):
    # Dividir datos
    X_train_fold = X.iloc[train_idx]
    X_val_fold = X.iloc[val_idx]
    y_train_fold = y.iloc[train_idx]
    y_val_fold = y.iloc[val_idx]
    
    # Escalar
    scaler_fold = StandardScaler()
    X_train_fold_scaled = scaler_fold.fit_transform(X_train_fold)
    X_val_fold_scaled = scaler_fold.transform(X_val_fold)
    
    # Entrenar modelo
    modelo_fold = LogisticRegression(max_iter=1000, solver='lbfgs', random_state=42)
    modelo_fold.fit(X_train_fold_scaled, y_train_fold)
    
    # Predicciones
    y_pred_fold = modelo_fold.predict(X_val_fold_scaled)
    y_prob_fold = modelo_fold.predict_proba(X_val_fold_scaled)[:, 1]
    
    # Calcular m√©tricas
    fold_results['accuracy'].append(accuracy_score(y_val_fold, y_pred_fold))
    fold_results['precision'].append(precision_score(y_val_fold, y_pred_fold))
    fold_results['recall'].append(recall_score(y_val_fold, y_pred_fold))
    fold_results['f1'].append(f1_score(y_val_fold, y_pred_fold))
    fold_results['auc'].append(roc_auc_score(y_val_fold, y_prob_fold))
    fold_results['log_loss'].append(log_loss(y_val_fold, y_prob_fold))
    
    print(f"Fold {fold}: Accuracy={fold_results['accuracy'][-1]:.4f}, "
          f"F1={fold_results['f1'][-1]:.4f}, AUC={fold_results['auc'][-1]:.4f}")

print(f"\n" + "="*60)
print("RESULTADOS PROMEDIO DE VALIDACI√ìN CRUZADA:")
print("="*60)
for metrica, valores in fold_results.items():
    media = np.mean(valores)
    std = np.std(valores)
    print(f"{metrica:12s}: {media:.4f} ¬± {std:.4f}")

In [None]:
# Visualizaci√≥n de resultados de validaci√≥n cruzada
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico 1: M√©tricas por fold
metricas_plot = ['accuracy', 'precision', 'recall', 'f1']
x_pos = np.arange(k_folds)
width = 0.2

for i, metrica in enumerate(metricas_plot):
    axes[0].bar(x_pos + i*width, fold_results[metrica], width, label=metrica.capitalize())

axes[0].set_xlabel('Fold', fontsize=12)
axes[0].set_ylabel('Valor', fontsize=12)
axes[0].set_title('M√©tricas por Fold', fontsize=14, fontweight='bold')
axes[0].set_xticks(x_pos + 1.5*width)
axes[0].set_xticklabels([f'Fold {i+1}' for i in range(k_folds)])
axes[0].legend(loc='lower right')
axes[0].grid(True, alpha=0.3, axis='y')
axes[0].set_ylim(0, 1)

# Gr√°fico 2: Box plots de m√©tricas
data_boxplot = [fold_results[m] for m in metricas_plot]
bp = axes[1].boxplot(data_boxplot, labels=[m.capitalize() for m in metricas_plot], patch_artist=True)
colors_bp = ['steelblue', 'coral', 'lightgreen', 'gold']
for patch, color in zip(bp['boxes'], colors_bp):
    patch.set_facecolor(color)
axes[1].set_ylabel('Valor', fontsize=12)
axes[1].set_title('Distribuci√≥n de M√©tricas (K-Fold CV)', fontsize=14, fontweight='bold')
axes[1].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

## 6.2 Validaci√≥n Cruzada con cross_val_score de Scikit-Learn

In [None]:
# Usar cross_val_score para validaci√≥n r√°pida
print("VALIDACI√ìN CRUZADA CON cross_val_score")
print("="*60)

# Escalar todos los datos
scaler_all = StandardScaler()
X_scaled = scaler_all.fit_transform(X)

# Diferentes m√©tricas de scoring
scoring_metrics = ['accuracy', 'precision', 'recall', 'f1', 'roc_auc']

modelo_cv = LogisticRegression(max_iter=1000, solver='lbfgs', random_state=42)

print(f"{'M√©trica':12s} {'Media':>12s} {'Std':>12s} {'Intervalo 95%':>20s}")
print("-"*60)

for scoring in scoring_metrics:
    scores = cross_val_score(modelo_cv, X_scaled, y, cv=5, scoring=scoring)
    intervalo = f"[{scores.mean() - 1.96*scores.std():.4f}, {scores.mean() + 1.96*scores.std():.4f}]"
    print(f"{scoring:12s} {scores.mean():12.4f} {scores.std():12.4f} {intervalo:>20s}")

# 7. Evaluaci√≥n del Modelo

## 7.1 Predicciones en Conjunto de Prueba

In [None]:
# Predicciones con el modelo de sklearn
y_pred_test = modelo_sklearn.predict(X_test_scaled)
y_prob_test = modelo_sklearn.predict_proba(X_test_scaled)[:, 1]

print("PREDICCIONES EN CONJUNTO DE PRUEBA")
print("="*60)
print(f"Total de predicciones: {len(y_pred_test):,}")
print(f"\nDistribuci√≥n de predicciones:")
print(f"  Clase 0 (Sociedad Conyugal):    {(y_pred_test == 0).sum():,} ({(y_pred_test == 0).mean()*100:.2f}%)")
print(f"  Clase 1 (Separaci√≥n Bienes):    {(y_pred_test == 1).sum():,} ({(y_pred_test == 1).mean()*100:.2f}%)")

## 7.2 M√©tricas de Evaluaci√≥n

In [None]:
# Calcular todas las m√©tricas
print("M√âTRICAS DE EVALUACI√ìN")
print("="*60)

accuracy = accuracy_score(y_test, y_pred_test)
precision = precision_score(y_test, y_pred_test)
recall = recall_score(y_test, y_pred_test)
f1 = f1_score(y_test, y_pred_test)
auc_score = roc_auc_score(y_test, y_prob_test)
logloss = log_loss(y_test, y_prob_test)

print(f"{'M√©trica':<20s} {'Valor':>10s} {'Descripci√≥n'}")
print("-"*70)
print(f"{'Accuracy':<20s} {accuracy:>10.4f} Proporci√≥n de predicciones correctas")
print(f"{'Precision':<20s} {precision:>10.4f} De los predichos positivos, ¬øcu√°ntos son correctos?")
print(f"{'Recall':<20s} {recall:>10.4f} De los positivos reales, ¬øcu√°ntos detectamos?")
print(f"{'F1-Score':<20s} {f1:>10.4f} Media arm√≥nica de Precision y Recall")
print(f"{'AUC-ROC':<20s} {auc_score:>10.4f} √Årea bajo la curva ROC")
print(f"{'Log Loss':<20s} {logloss:>10.4f} Entrop√≠a cruzada (menor es mejor)")

## 7.3 Matriz de Confusi√≥n

In [None]:
# Matriz de confusi√≥n
cm = confusion_matrix(y_test, y_pred_test)

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Matriz de confusi√≥n con valores absolutos
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=axes[0],
            xticklabels=['Sociedad Conyugal', 'Separaci√≥n Bienes'],
            yticklabels=['Sociedad Conyugal', 'Separaci√≥n Bienes'])
axes[0].set_xlabel('Predicci√≥n', fontsize=12)
axes[0].set_ylabel('Valor Real', fontsize=12)
axes[0].set_title('Matriz de Confusi√≥n (Valores Absolutos)', fontsize=14, fontweight='bold')

# Matriz de confusi√≥n normalizada
cm_norm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
sns.heatmap(cm_norm, annot=True, fmt='.2%', cmap='Blues', ax=axes[1],
            xticklabels=['Sociedad Conyugal', 'Separaci√≥n Bienes'],
            yticklabels=['Sociedad Conyugal', 'Separaci√≥n Bienes'])
axes[1].set_xlabel('Predicci√≥n', fontsize=12)
axes[1].set_ylabel('Valor Real', fontsize=12)
axes[1].set_title('Matriz de Confusi√≥n (Normalizada por Fila)', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("\nInterpretaci√≥n de la Matriz de Confusi√≥n:")
print(f"  Verdaderos Negativos (TN): {cm[0,0]:,} - Sociedad Conyugal correctamente predichos")
print(f"  Falsos Positivos (FP):     {cm[0,1]:,} - Sociedad Conyugal predichos como Separaci√≥n")
print(f"  Falsos Negativos (FN):     {cm[1,0]:,} - Separaci√≥n predichos como Sociedad Conyugal")
print(f"  Verdaderos Positivos (TP): {cm[1,1]:,} - Separaci√≥n de Bienes correctamente predichos")

## 7.4 Curva ROC

In [None]:
# Curva ROC
fpr, tpr, thresholds = roc_curve(y_test, y_prob_test)
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(10, 8))
plt.plot(fpr, tpr, color='steelblue', lw=2, label=f'ROC curve (AUC = {roc_auc:.4f})')
plt.plot([0, 1], [0, 1], color='gray', lw=2, linestyle='--', label='Random classifier')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate (1 - Specificidad)', fontsize=12)
plt.ylabel('True Positive Rate (Sensibilidad)', fontsize=12)
plt.title('Curva ROC - Regresi√≥n Log√≠stica', fontsize=14, fontweight='bold')
plt.legend(loc='lower right', fontsize=11)
plt.grid(True, alpha=0.3)

# Encontrar umbral √≥ptimo (punto m√°s cercano a esquina superior izquierda)
optimal_idx = np.argmax(tpr - fpr)
optimal_threshold = thresholds[optimal_idx]
plt.scatter(fpr[optimal_idx], tpr[optimal_idx], marker='o', color='red', s=100,
            label=f'Umbral √≥ptimo = {optimal_threshold:.2f}')
plt.legend(loc='lower right', fontsize=11)

plt.tight_layout()
plt.show()

print(f"\nUmbral √≥ptimo: {optimal_threshold:.4f}")
print(f"En este punto: TPR = {tpr[optimal_idx]:.4f}, FPR = {fpr[optimal_idx]:.4f}")

## 7.5 Importancia de Variables

In [None]:
# Importancia de variables basada en coeficientes
coef_importance = pd.DataFrame({
    'Variable': features,
    'Coeficiente': modelo_sklearn.coef_[0],
    'Odds Ratio': np.exp(modelo_sklearn.coef_[0]),
    'Importancia (|coef|)': np.abs(modelo_sklearn.coef_[0])
}).sort_values('Importancia (|coef|)', ascending=False)

print("IMPORTANCIA DE VARIABLES")
print("="*80)
print(f"{'Variable':25s} {'Coeficiente':>12s} {'Odds Ratio':>12s} {'Interpretaci√≥n'}")
print("-"*80)
for _, row in coef_importance.iterrows():
    if row['Coeficiente'] > 0:
        interp = f"‚Üë prob. Sep. Bienes"
    else:
        interp = f"‚Üì prob. Sep. Bienes"
    print(f"{row['Variable']:25s} {row['Coeficiente']:+12.4f} {row['Odds Ratio']:12.4f} {interp}")

In [None]:
# Visualizaci√≥n de coeficientes
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# Gr√°fico 1: Coeficientes
coef_sorted = coef_importance.sort_values('Coeficiente', ascending=True)
colors = ['green' if x > 0 else 'red' for x in coef_sorted['Coeficiente']]
axes[0].barh(coef_sorted['Variable'], coef_sorted['Coeficiente'], color=colors, edgecolor='black')
axes[0].set_xlabel('Coeficiente', fontsize=12)
axes[0].set_title('Coeficientes del Modelo\n(Verde = ‚ÜëSep.Bienes, Rojo = ‚ÜìSep.Bienes)',
                  fontsize=14, fontweight='bold')
axes[0].axvline(x=0, color='black', linewidth=0.5)
axes[0].grid(True, alpha=0.3, axis='x')

# Gr√°fico 2: Odds Ratios
axes[1].barh(coef_sorted['Variable'], coef_sorted['Odds Ratio'], color='steelblue', edgecolor='black')
axes[1].set_xlabel('Odds Ratio', fontsize=12)
axes[1].set_title('Odds Ratios\n(>1 = ‚Üëprobabilidad, <1 = ‚Üìprobabilidad)',
                  fontsize=14, fontweight='bold')
axes[1].axvline(x=1, color='red', linewidth=1.5, linestyle='--', label='OR = 1 (sin efecto)')
axes[1].legend()
axes[1].grid(True, alpha=0.3, axis='x')

plt.tight_layout()
plt.show()

## 7.6 Reporte de Clasificaci√≥n

In [None]:
# Reporte de clasificaci√≥n completo
print("REPORTE DE CLASIFICACI√ìN")
print("="*60)
print(classification_report(y_test, y_pred_test, 
                            target_names=['Sociedad Conyugal', 'Separaci√≥n Bienes']))

# 8. Conclusiones

## 8.1 Resumen de Resultados

In [None]:
# Resumen final
print("="*70)
print("RESUMEN FINAL DEL AN√ÅLISIS")
print("="*70)

print("\nüìä DATOS:")
print(f"   ‚Ä¢ Registros totales utilizados: {len(X):,}")
print(f"   ‚Ä¢ Caracter√≠sticas: {len(features)}")
print(f"   ‚Ä¢ Divisi√≥n: 80% entrenamiento, 20% prueba")

print("\nüìà DESEMPE√ëO DEL MODELO:")
print(f"   ‚Ä¢ Accuracy:  {accuracy:.4f} ({accuracy*100:.2f}%)")
print(f"   ‚Ä¢ Precision: {precision:.4f}")
print(f"   ‚Ä¢ Recall:    {recall:.4f}")
print(f"   ‚Ä¢ F1-Score:  {f1:.4f}")
print(f"   ‚Ä¢ AUC-ROC:   {auc_score:.4f}")

print("\nüîÑ VALIDACI√ìN CRUZADA (5-Fold):")
print(f"   ‚Ä¢ Accuracy promedio: {np.mean(fold_results['accuracy']):.4f} ¬± {np.std(fold_results['accuracy']):.4f}")
print(f"   ‚Ä¢ F1 promedio:       {np.mean(fold_results['f1']):.4f} ¬± {np.std(fold_results['f1']):.4f}")
print(f"   ‚Ä¢ AUC promedio:      {np.mean(fold_results['auc']):.4f} ¬± {np.std(fold_results['auc']):.4f}")

print("\nüîë VARIABLES M√ÅS IMPORTANTES:")
top_5 = coef_importance.head(5)
for i, (_, row) in enumerate(top_5.iterrows(), 1):
    efecto = "aumenta" if row['Coeficiente'] > 0 else "disminuye"
    print(f"   {i}. {row['Variable']}: {efecto} la probabilidad de Separaci√≥n de Bienes")

## 8.2 Interpretaci√≥n de Resultados

### Hallazgos Principales:

1. **Factores que aumentan la probabilidad de elegir Separaci√≥n de Bienes:**
   - Mayor edad de los contrayentes
   - Mayor nivel educativo
   - Residencia en zonas urbanas
   - Matrimonios tard√≠os (ambos >35 a√±os)

2. **Factores asociados con Sociedad Conyugal:**
   - Contrayentes m√°s j√≥venes
   - Residencia en zonas rurales
   - Menor diferencia de edad entre contrayentes

### Validaci√≥n del Modelo:

- La **validaci√≥n cruzada de 5 folds** muestra que el modelo es **estable**, con baja varianza en las m√©tricas entre folds.
- El AUC cercano a 0.6-0.7 indica capacidad predictiva **moderada** - el modelo es mejor que el azar pero tiene limitaciones.
- La consistencia entre m√©tricas de entrenamiento y prueba sugiere **ausencia de sobreajuste**.

### Limitaciones:

1. El r√©gimen matrimonial depende de factores no capturados en los datos (patrimonio previo, asesor√≠a legal, etc.)
2. Posible sesgo de selecci√≥n: los datos solo incluyen matrimonios registrados formalmente
3. Variables categ√≥ricas codificadas de forma ordinal podr√≠an no capturar todas las relaciones

## 8.3 Referencias

- INEGI. (2024). Estad√≠stica de Matrimonios (EMAT) 2024.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning.
- Scikit-learn Documentation: https://scikit-learn.org/stable/