# Proyecto Final Unidad 1: Análisis de Matrimonios en México 2024

**Materia:** SC3314 – Inteligencia Artificial  
**Universidad:** Universidad de Monterrey  
**Profesor:** Dr. Antonio Martínez Torteya  

---

## Índice
1. [Introducción](#1-introducción)
2. [Planteamiento del Problema](#2-planteamiento-del-problema)
3. [Exploración y Comprensión de los Datos](#3-exploración-y-comprensión-de-los-datos)
4. [Preparación y Tratamiento de los Datos](#4-preparación-y-tratamiento-de-los-datos)
5. [Selección de Características](#5-selección-de-características)
6. [Construcción de Modelos](#6-construcción-de-modelos)
7. [Evaluación del Desempeño](#7-evaluación-del-desempeño)
8. [Análisis de Inferencia y Conclusiones](#8-análisis-de-inferencia-y-conclusiones)

---

# 1. Introducción

## 1.1 Contexto del Estudio

El matrimonio es una de las instituciones sociales más antiguas y fundamentales de la humanidad. En México, el Instituto Nacional de Estadística y Geografía (INEGI) recopila información detallada sobre los matrimonios registrados ante el Registro Civil, lo que permite analizar patrones sociodemográficos de las uniones conyugales.

Este análisis utiliza los datos de la **Estadística de Matrimonios 2024** del INEGI, que comprende información sobre:
- Características demográficas de los contrayentes (edad, sexo, nacionalidad)
- Características socioeconómicas (escolaridad, ocupación, condición laboral)
- Características del registro (entidad, municipio, régimen matrimonial)

## 1.2 Objetivo del Análisis

El objetivo principal es desarrollar modelos de regresión que permitan **predecir la diferencia de edad entre contrayentes** en los matrimonios mexicanos, identificando los factores que más influyen en esta dinámica social.

La diferencia de edad entre parejas es un indicador relevante que refleja:
- Patrones culturales y sociales
- Dinámicas de poder dentro de las relaciones
- Evolución de las normas matrimoniales

| **dis_re_oax** | Solo aplica a Oaxaca, generaría muchos valores faltantes. |

## 1.3 Variables de Interés: Justificación Detallada| **loc_regis, mun_regis** | Demasiado granulares (miles de valores únicos). El tamaño de localidad captura mejor la información relevante. |

| **anio_regis** | Todos los datos son de 2024, no hay variabilidad. |

Del conjunto de 35 variables disponibles en el dataset, he identificado las siguientes como **variables de interés** para nuestro análisis, organizadas por categoría:| **dia_regis, mes_regis** | Sin relevancia teórica para predecir diferencia de edad. Son aspectos administrativos. |

|----------|-------------------|

###  Variable Objetivo (Dependiente)| Variable | Razón de exclusión |

| Variable | Justificación |###  Variables Excluidas y Por Qué

|----------|---------------|

| **diferencia_edad** (calculada) | La diferencia de edad entre contrayentes es un indicador sociológico clave que refleja dinámicas de poder, patrones culturales y cambios generacionales en la formación de parejas. Es una variable continua ideal para regresión. || **tipo_con** | Distinguir entre parejas hombre-mujer, dos hombres o dos mujeres. |

| **regimen_ma** | El régimen matrimonial (sociedad conyugal vs separación de bienes) puede correlacionar con factores socioeconómicos que influyen en la diferencia de edad. |

###  Variables Predictoras Principales| **genero** | Los matrimonios del mismo sexo pueden presentar patrones diferentes de diferencia de edad que los heterosexuales. |

|----------|---------------------|

#### A) Variables Demográficas| Variable | Por qué es relevante |

| Variable | Por qué es relevante |#### D) Variables del Matrimonio

|----------|---------------------|

| **edad_con1** | La edad del primer contrayente es el predictor más directo. Personas de mayor edad tienden a buscar parejas más jóvenes, lo cual está documentado en estudios de psicología evolutiva (Buss, 1989). || **ent_regis** | Las entidades federativas tienen culturas matrimoniales distintas (ej: Chiapas vs CDMX). |

| **edad_con2** | Aunque forma parte del cálculo de Y, su distribución nos ayuda a entender el fenómeno. En el modelo final se excluirá para evitar circularidad. || **tam_loc_re** | El tamaño de la localidad (rural vs urbano) refleja diferencias culturales. Zonas rurales tienden a mantener patrones tradicionales con mayores diferencias de edad. |

| **sexo_con1, sexo_con2** | El sexo biológico influye en patrones de emparejamiento: tradicionalmente, hombres tienden a ser mayores que sus parejas mujeres. ||----------|---------------------|

| Variable | Por qué es relevante |

#### B) Variables Socioeconómicas#### C) Variables Geográficas/Contextuales  

| Variable | Por qué es relevante |

|----------|---------------------|| **ocup_con1, ocup_con2** | La ocupación refleja estatus socioeconómico. Profesionales exitosos de mayor edad pueden atraer parejas más jóvenes ("hipergamia"). |
| **escol_con1, escol_con2** | La escolaridad es un proxy del nivel socioeconómico y se relaciona con la "homogamia educativa" (tendencia a casarse con alguien de nivel educativo similar). Mayor educación puede asociarse con menores diferencias de edad. |

# 2. Planteamiento del Problema

## 2.1 Descripción del Problema

**Pregunta de Investigación:** ¿Qué factores sociodemográficos y geográficos permiten predecir la diferencia de edad entre los contrayentes en los matrimonios de México?

## 2.2 Variable a Predecir

**Variable objetivo (Y):** Diferencia de edad entre contrayentes  
*Calculada como:* `edad_con1 - edad_con2`

Esta variable es continua y representa la diferencia en años entre el primer y segundo contrayente.

## 2.3 Justificación del Uso de Regresión

El modelo de regresión es apropiado porque:
1. **Variable objetivo continua:** La diferencia de edad es una variable numérica continua
2. **Múltiples predictores:** Disponemos de diversas variables categóricas y numéricas
3. **Interpretabilidad:** Los coeficientes de regresión permiten entender el efecto de cada factor
4. **Inferencia estadística:** Podemos determinar la significancia de las asociaciones

## 2.4 Origen de los Datos

- **Fuente:** Instituto Nacional de Estadística y Geografía (INEGI)
- **Programa:** Estadística de Matrimonios (EMAT) 2024
- **Cobertura temporal:** Enero - Diciembre 2024
- **Cobertura geográfica:** Estados Unidos Mexicanos
- **Identificador:** MEX-INEGI.ESD5.03-EMAT-2024

In [None]:
# Importación de librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 11

# Modelos de Machine Learning
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

print("Librerías importadas correctamente")

# 3. Exploración y Comprensión de los Datos

## 3.1 Carga del Conjunto de Datos

In [None]:
# Cargar el conjunto de datos principal
ruta_datos = 'conjunto_de_datos/conjunto_de_datos_emat2024.csv'
df = pd.read_csv(ruta_datos)

print(f"Dimensiones del dataset: {df.shape}")
print(f"Total de matrimonios registrados: {len(df):,}")
print(f"\nNúmero de columnas: {df.shape[1]}")

In [None]:
# Visualizar las primeras filas
df.head()

In [None]:
# Información general del dataset
print("Información del Dataset:")
print("="*60)
df.info()

## 3.2 Diccionario de Datos

A continuación se presenta el significado de cada variable en el dataset:

| Variable | Descripción | Tipo |
|----------|-------------|------|
| `ent_regis` | Entidad de registro | Categórica |
| `mun_regis` | Municipio o alcaldía de registro | Categórica |
| `loc_regis` | Localidad de registro | Categórica |
| `tam_loc_re` | Tamaño de localidad de registro | Ordinal |
| `dia_regis` | Día de registro | Numérico |
| `mes_regis` | Mes de registro | Categórica |
| `anio_regis` | Año de registro | Numérico |
| `regimen_ma` | Régimen matrimonial (1=Sociedad conyugal, 2=Separación bienes, 3=Mixto) | Categórica |
| `genero` | Género de matrimonio (1=Hombre-Mujer, 2=Mismo sexo) | Categórica |
| `sexo_con1` | Sexo del primer contrayente (1=Hombre, 2=Mujer) | Categórica |
| `edad_con1` | Edad del primer contrayente | Numérico |
| `naci_con1` | Nacionalidad del primer contrayente | Categórica |
| `ocup_con1` | Ocupación del primer contrayente | Categórica |
| `escol_con1` | Escolaridad del primer contrayente | Ordinal |
| `conactcon1` | Condición de actividad económica del primer contrayente | Categórica |
| `sexo_con2` | Sexo del segundo contrayente | Categórica |
| `edad_con2` | Edad del segundo contrayente | Numérico |
| `escol_con2` | Escolaridad del segundo contrayente | Ordinal |
| `tipo_con` | Tipo de contrayentes | Categórica |

In [None]:
# Cargar catálogos para interpretación
cat_escolaridad = pd.read_csv('catalogos/escolaridad.csv')
cat_ocupacion = pd.read_csv('catalogos/ocupacion.csv')
cat_regimen = pd.read_csv('catalogos/regimen_matrimonial.csv')
cat_genero = pd.read_csv('catalogos/genero.csv')
cat_tipo_con = pd.read_csv('catalogos/tipo_contrayentes.csv')

print("Catálogo de Escolaridad:")
print(cat_escolaridad.to_string(index=False))
print("\nCatálogo de Régimen Matrimonial:")
print(cat_regimen.to_string(index=False))
print("\nCatálogo de Género de Matrimonio:")
print(cat_genero.to_string(index=False))

## 3.3 Estadísticas Descriptivas

### ¿Por qué usar estadísticas descriptivas?

Antes de cualquier modelado, es fundamental **entender la distribución de nuestros datos**. Las estadísticas descriptivas nos permiten:

1. **Detectar problemas de calidad de datos** (valores extremos, códigos especiales como 99="No especificado")
2. **Entender la tendencia central** (media, mediana) y **dispersión** (desviación estándar, rango)
3. **Identificar asimetrías** que podrían violar supuestos de los modelos de regresión

**Herramientas seleccionadas:**
- **`describe()`**: Proporciona resumen estadístico completo (media, desv. std, mín, máx, cuartiles)
- **Media vs Mediana**: Su comparación indica si la distribución es simétrica o sesgada

In [None]:
# Estadísticas descriptivas de variables numéricas principales
vars_numericas = ['edad_con1', 'edad_con2', 'tam_loc_re', 'mes_regis', 'dia_regis']
print("Estadísticas Descriptivas de Variables Numéricas:")
print("="*70)
df[vars_numericas].describe().round(2)

In [None]:
# Crear la variable objetivo: diferencia de edad
df['diferencia_edad'] = df['edad_con1'] - df['edad_con2']

print("Estadísticas de la Diferencia de Edad:")
print("="*50)
print(f"Media: {df['diferencia_edad'].mean():.2f} años")
print(f"Mediana: {df['diferencia_edad'].median():.2f} años")
print(f"Desviación estándar: {df['diferencia_edad'].std():.2f} años")
print(f"Mínimo: {df['diferencia_edad'].min()} años")
print(f"Máximo: {df['diferencia_edad'].max()} años")

## 3.4 Visualización Exploratoria

### ¿Por qué estas visualizaciones específicas?

Cada tipo de gráfico tiene un propósito específico. A continuación justifico la elección de cada uno:

#### 3.4.1 Histograma con Media y Mediana
**¿Por qué un histograma?**
- El histograma es la herramienta estándar para visualizar la **distribución de una variable continua**
- Nos permite ver la **forma de la distribución** (normal, sesgada, bimodal, etc.)
- La superposición de media y mediana nos indica el **sesgo**: si la media > mediana, hay sesgo positivo (cola hacia la derecha)

**¿Por qué es relevante aquí?**
- Necesitamos verificar si la diferencia de edad sigue una distribución aproximadamente normal (supuesto de regresión lineal)
- Identificar si hay concentraciones en ciertos valores (ej: diferencia de 0 años)

#### 3.4.2 Box Plot (Diagrama de Caja)
**¿Por qué un box plot?**
- Visualiza los **5 números resumen** (mín, Q1, mediana, Q3, máx) de forma compacta
- Identifica **outliers** automáticamente (puntos fuera de los bigotes)
- Es menos sensible a la elección del número de bins que el histograma

**¿Por qué es relevante aquí?**
- La diferencia de edad puede tener valores extremos (ej: 50 años de diferencia) que necesitamos identificar
- Los outliers pueden distorsionar nuestros modelos de regresión

In [None]:
# Distribución de la variable objetivo
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histograma
axes[0].hist(df['diferencia_edad'].dropna(), bins=50, color='steelblue', edgecolor='black', alpha=0.7)
axes[0].axvline(df['diferencia_edad'].mean(), color='red', linestyle='--', linewidth=2, label=f'Media: {df["diferencia_edad"].mean():.1f}')
axes[0].axvline(df['diferencia_edad'].median(), color='green', linestyle='--', linewidth=2, label=f'Mediana: {df["diferencia_edad"].median():.1f}')
axes[0].set_xlabel('Diferencia de Edad (años)', fontsize=12)
axes[0].set_ylabel('Frecuencia', fontsize=12)
axes[0].set_title('Distribución de la Diferencia de Edad entre Contrayentes', fontsize=14, fontweight='bold')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Box plot
bp = axes[1].boxplot(df['diferencia_edad'].dropna(), patch_artist=True)
bp['boxes'][0].set_facecolor('lightblue')
axes[1].set_ylabel('Diferencia de Edad (años)', fontsize=12)
axes[1].set_title('Box Plot de Diferencia de Edad', fontsize=14, fontweight='bold')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

: 

#### 3.4.3 Histogramas Superpuestos y Scatter Plot

**¿Por qué histogramas superpuestos?**
- Permiten comparar **visualmente** las distribuciones de dos variables en el mismo espacio
- Podemos identificar si los contrayentes 1 y 2 tienen distribuciones de edad similares o diferentes
- La superposición revela si hay "emparejamiento por edad" (assortative mating)

**¿Por qué un scatter plot (diagrama de dispersión)?**
- El scatter plot es la herramienta fundamental para visualizar la **relación entre dos variables continuas**
- Permite identificar:
  - **Correlación positiva**: los puntos siguen una tendencia ascendente
  - **Correlación negativa**: tendencia descendente
  - **Ausencia de correlación**: puntos dispersos sin patrón
- La **línea de igualdad** (y = x) nos sirve de referencia:
  - Puntos **sobre** la línea: contrayente 1 es mayor
  - Puntos **debajo** la línea: contrayente 2 es mayor
  - Puntos **cerca** de la línea: edades similares

**¿Por qué usar una muestra de 10,000 puntos?**
- Con más de 300,000 registros, graficar todos satura visualmente la imagen
- Una muestra aleatoria preserva los patrones estadísticos sin sobrecargar la visualización

In [None]:
# Distribución de edades por contrayente
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Edad del primer contrayente
df_valid = df[(df['edad_con1'] < 99) & (df['edad_con2'] < 99)]
axes[0].hist(df_valid['edad_con1'], bins=40, color='coral', edgecolor='black', alpha=0.7, label='Contrayente 1')
axes[0].hist(df_valid['edad_con2'], bins=40, color='steelblue', edgecolor='black', alpha=0.5, label='Contrayente 2')
axes[0].set_xlabel('Edad (años)', fontsize=12)
axes[0].set_ylabel('Frecuencia', fontsize=12)
axes[0].set_title('Distribución de Edades de los Contrayentes', fontsize=14, fontweight='bold')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Scatter plot edad vs edad
sample = df_valid.sample(min(10000, len(df_valid)), random_state=42)
axes[1].scatter(sample['edad_con1'], sample['edad_con2'], alpha=0.3, s=10, color='purple')
axes[1].plot([12, 80], [12, 80], 'r--', linewidth=2, label='Línea de igualdad')
axes[1].set_xlabel('Edad Contrayente 1', fontsize=12)
axes[1].set_ylabel('Edad Contrayente 2', fontsize=12)
axes[1].set_title('Relación entre Edades de Contrayentes', fontsize=14, fontweight='bold')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

#### 3.4.4 Gráficos de Barras por Categorías

**¿Por qué gráficos de barras?**
- Los gráficos de barras son óptimos para **comparar medias entre grupos categóricos**
- Cada barra representa una categoría y su altura indica el valor de la métrica (en este caso, diferencia de edad promedio)
- Son preferibles a gráficos circulares cuando queremos comparar magnitudes precisas

**¿Por qué comparar por tipo de matrimonio?**
- Los matrimonios del **mismo sexo** y **heterosexuales** pueden tener dinámicas de edad diferentes
- En parejas heterosexuales, históricamente el hombre tiende a ser mayor
- En parejas del mismo sexo, los patrones pueden ser más simétricos
- Esta comparación nos permite cuantificar estas diferencias

**¿Por qué comparar por régimen matrimonial?**
- El régimen matrimonial (sociedad conyugal vs separación de bienes) puede correlacionar con:
  - Nivel socioeconómico: personas de mayor poder adquisitivo tienden a elegir separación de bienes
  - Edad de los contrayentes: matrimonios con separación de bienes suelen involucrar personas de mayor edad
  - Segundas nupcias: donde la separación de bienes es más común

**Interpretación de las etiquetas numéricas:**
- Añadir el valor numérico sobre cada barra facilita la comparación cuantitativa exacta
- Permite al lector identificar diferencias que podrían no ser obvias visualmente

In [None]:
# Análisis por tipo de matrimonio
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Por género de matrimonio
df_genero = df.groupby('genero')['diferencia_edad'].mean().reset_index()
df_genero['genero_desc'] = df_genero['genero'].map({1: 'Hombre-Mujer', 2: 'Mismo sexo'})
colors = ['lightcoral', 'lightgreen']
bars = axes[0].bar(df_genero['genero_desc'], df_genero['diferencia_edad'], color=colors, edgecolor='black')
axes[0].set_xlabel('Tipo de Matrimonio', fontsize=12)
axes[0].set_ylabel('Diferencia de Edad Promedio (años)', fontsize=12)
axes[0].set_title('Diferencia de Edad por Tipo de Matrimonio', fontsize=14, fontweight='bold')
for bar, val in zip(bars, df_genero['diferencia_edad']):
    axes[0].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.1, f'{val:.2f}', ha='center', fontsize=11, fontweight='bold')
axes[0].grid(True, alpha=0.3, axis='y')

# Por régimen matrimonial
df_regimen = df.groupby('regimen_ma')['diferencia_edad'].mean().reset_index()
regimen_map = {1: 'Sociedad\nConyugal', 2: 'Separación\nde Bienes', 3: 'Mixto', 9: 'No\nEspecificado'}
df_regimen['regimen_desc'] = df_regimen['regimen_ma'].map(regimen_map)
df_regimen = df_regimen.dropna()
colors2 = ['skyblue', 'lightgreen', 'lightyellow', 'lightgray']
bars2 = axes[1].bar(df_regimen['regimen_desc'], df_regimen['diferencia_edad'], color=colors2[:len(df_regimen)], edgecolor='black')
axes[1].set_xlabel('Régimen Matrimonial', fontsize=12)
axes[1].set_ylabel('Diferencia de Edad Promedio (años)', fontsize=12)
axes[1].set_title('Diferencia de Edad por Régimen Matrimonial', fontsize=14, fontweight='bold')
for bar, val in zip(bars2, df_regimen['diferencia_edad']):
    axes[1].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.05, f'{val:.2f}', ha='center', fontsize=10, fontweight='bold')
axes[1].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

#### 3.4.5 Gráficos de Barras Horizontales por Escolaridad

**¿Por qué gráficos de barras horizontales?**
- Cuando las etiquetas de las categorías son **largas** (como los niveles educativos), las barras horizontales facilitan la lectura
- Permiten ordenar los niveles educativos de forma lógica (de menor a mayor escolaridad)
- La comparación visual es más intuitiva al seguir el eje horizontal

**¿Por qué analizar la escolaridad?**
La escolaridad es una variable clave porque:
1. **Proxy de nivel socioeconómico**: Mayor educación generalmente correlaciona con mayores ingresos
2. **Homogamia educativa**: Las personas tienden a casarse con alguien de nivel educativo similar
3. **Cambios generacionales**: Las generaciones más jóvenes tienen mayor acceso a educación

**Hipótesis a explorar:**
- Personas con **menor escolaridad** podrían tener **mayores diferencias de edad** (patrones tradicionales)
- Personas con **mayor escolaridad** podrían tener **menores diferencias de edad** (patrones más igualitarios)
- La escolaridad del contrayente 2 podría tener un efecto diferente al del contrayente 1

In [None]:
# Análisis por escolaridad
escol_map = {
    1: 'Sin escolaridad',
    2: '1-3 años primaria',
    3: '4-5 años primaria',
    4: 'Primaria completa',
    5: 'Secundaria',
    6: 'Preparatoria',
    7: 'Profesional',
    8: 'Otra',
    9: 'No especificada'
}

fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# Escolaridad contrayente 1
df_escol1 = df.groupby('escol_con1')['diferencia_edad'].mean().reset_index()
df_escol1['escol_desc'] = df_escol1['escol_con1'].map(escol_map)
df_escol1 = df_escol1[df_escol1['escol_con1'] <= 7]
axes[0].barh(df_escol1['escol_desc'], df_escol1['diferencia_edad'], color='steelblue', edgecolor='black')
axes[0].set_xlabel('Diferencia de Edad Promedio (años)', fontsize=12)
axes[0].set_title('Diferencia de Edad según Escolaridad\n(Contrayente 1)', fontsize=14, fontweight='bold')
axes[0].grid(True, alpha=0.3, axis='x')

# Escolaridad contrayente 2
df_escol2 = df.groupby('escol_con2')['diferencia_edad'].mean().reset_index()
df_escol2['escol_desc'] = df_escol2['escol_con2'].map(escol_map)
df_escol2 = df_escol2[df_escol2['escol_con2'] <= 7]
axes[1].barh(df_escol2['escol_desc'], df_escol2['diferencia_edad'], color='coral', edgecolor='black')
axes[1].set_xlabel('Diferencia de Edad Promedio (años)', fontsize=12)
axes[1].set_title('Diferencia de Edad según Escolaridad\n(Contrayente 2)', fontsize=14, fontweight='bold')
axes[1].grid(True, alpha=0.3, axis='x')

plt.tight_layout()
plt.show()

# 4. Preparación y Tratamiento de los Datos

En esta sección abordaremos los problemas típicos de las bases de datos reales. Es fundamental tratar estos problemas **antes** de construir modelos, ya que pueden:
- Sesgar los coeficientes de regresión
- Aumentar artificialmente el error de predicción
- Violar supuestos estadísticos

**Problemas a tratar:**
1. **Valores faltantes y códigos especiales** (ej: 99 = No especificado)
2. **Valores atípicos (outliers)**
3. **Codificación de variables categóricas**
4. **Eliminación de registros inconsistentes**

## 4.1 Problema 1: Valores Faltantes y Códigos Especiales

### ¿Por qué es importante identificar estos valores?

En datos gubernamentales mexicanos (como los del INEGI), es común usar **códigos numéricos especiales** para indicar valores faltantes o no especificados:
- **99** = Edad no especificada
- **9** = Escolaridad no especificada
- **999** = Localidad no especificada

Estos valores **no son datos reales** y deben tratarse antes del análisis porque:
1. Distorsionarían las estadísticas (ej: una edad de 99 años es poco probable)
2. Introducirían ruido en los modelos de predicción
3. Violarían el supuesto de que los datos representan información real

In [None]:
# Identificar valores nulos
print("Análisis de Valores Faltantes:")
print("="*60)
nulos = df.isnull().sum()
nulos_porcentaje = (df.isnull().sum() / len(df) * 100).round(2)
df_nulos = pd.DataFrame({'Valores Nulos': nulos, 'Porcentaje (%)': nulos_porcentaje})
print(df_nulos[df_nulos['Valores Nulos'] > 0])

In [None]:
# Identificar códigos especiales (valores como 99, 999, 9999 que significan "No especificado")
print("Identificación de Códigos Especiales:")
print("="*60)

# Edades con valor 99 (no especificado)
edad_99_con1 = (df['edad_con1'] == 99).sum()
edad_99_con2 = (df['edad_con2'] == 99).sum()
print(f"Contrayente 1 con edad no especificada (99): {edad_99_con1:,} ({edad_99_con1/len(df)*100:.2f}%)")
print(f"Contrayente 2 con edad no especificada (99): {edad_99_con2:,} ({edad_99_con2/len(df)*100:.2f}%)")

# Tamaño localidad con valor 99
tam_loc_99 = (df['tam_loc_re'] == 99).sum()
print(f"Tamaño localidad no especificado (99): {tam_loc_99:,} ({tam_loc_99/len(df)*100:.2f}%)")

# Escolaridad con valor 9 (no especificado)
escol_9_con1 = (df['escol_con1'] == 9).sum()
escol_9_con2 = (df['escol_con2'] == 9).sum()
print(f"Escolaridad no especificada contrayente 1: {escol_9_con1:,} ({escol_9_con1/len(df)*100:.2f}%)")
print(f"Escolaridad no especificada contrayente 2: {escol_9_con2:,} ({escol_9_con2/len(df)*100:.2f}%)")

In [None]:
# Crear copia para limpieza
df_clean = df.copy()
registros_iniciales = len(df_clean)

# Tratamiento: Eliminar registros con edades no especificadas (99)
df_clean = df_clean[(df_clean['edad_con1'] != 99) & (df_clean['edad_con2'] != 99)]

# Recalcular diferencia de edad después de limpieza
df_clean['diferencia_edad'] = df_clean['edad_con1'] - df_clean['edad_con2']

registros_despues_edad = len(df_clean)
print(f"Registros eliminados por edad no especificada: {registros_iniciales - registros_despues_edad:,}")
print(f"Registros restantes: {registros_despues_edad:,}")

## 4.2 Problema 2: Valores Atípicos (Outliers)

### ¿Por qué detectar y tratar outliers?

Los **outliers** (valores atípicos) son observaciones que se alejan significativamente del resto de los datos. En nuestro contexto, podrían ser:
- Diferencias de edad de 50+ años (aunque posibles, son raras)
- Errores de captura de datos

**Impacto en modelos de regresión:**
- La regresión lineal es muy **sensible a outliers** porque minimiza la suma de errores cuadráticos
- Un solo outlier extremo puede "jalar" la línea de regresión y distorsionar todos los coeficientes

### ¿Por qué usar el método IQR?

El **Rango Intercuartílico (IQR)** es una medida robusta de dispersión:

$$IQR = Q_3 - Q_1$$

Donde $Q_1$ es el percentil 25 y $Q_3$ es el percentil 75.

**Regla de Tukey para identificar outliers:**
- **Outlier moderado**: valor < $Q_1 - 1.5 \times IQR$ o valor > $Q_3 + 1.5 \times IQR$
- **Outlier extremo**: valor < $Q_1 - 3 \times IQR$ o valor > $Q_3 + 3 \times IQR$

**¿Por qué IQR en lugar de desviación estándar?**
- El IQR es **robusto**: no se ve afectado por los outliers mismos
- La desviación estándar puede ser inflada por valores extremos, haciendo que los outliers "se escondan"

In [None]:
# Identificar outliers usando el método IQR
Q1 = df_clean['diferencia_edad'].quantile(0.25)
Q3 = df_clean['diferencia_edad'].quantile(0.75)
IQR = Q3 - Q1

limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

print("Análisis de Outliers en Diferencia de Edad:")
print("="*50)
print(f"Q1 (25%): {Q1:.2f}")
print(f"Q3 (75%): {Q3:.2f}")
print(f"IQR: {IQR:.2f}")
print(f"Límite inferior: {limite_inferior:.2f}")
print(f"Límite superior: {limite_superior:.2f}")

outliers = df_clean[(df_clean['diferencia_edad'] < limite_inferior) | 
                    (df_clean['diferencia_edad'] > limite_superior)]
print(f"\nNúmero de outliers: {len(outliers):,} ({len(outliers)/len(df_clean)*100:.2f}%)")

In [None]:
# Visualizar outliers
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Box plot antes de tratamiento
axes[0].boxplot(df_clean['diferencia_edad'], patch_artist=True, 
                boxprops=dict(facecolor='lightcoral'))
axes[0].set_ylabel('Diferencia de Edad', fontsize=12)
axes[0].set_title('Distribución con Outliers', fontsize=14, fontweight='bold')
axes[0].grid(True, alpha=0.3)

# Histograma mostrando outliers
axes[1].hist(df_clean['diferencia_edad'], bins=100, color='steelblue', edgecolor='black', alpha=0.7)
axes[1].axvline(limite_inferior, color='red', linestyle='--', linewidth=2, label=f'Límite inferior: {limite_inferior:.1f}')
axes[1].axvline(limite_superior, color='red', linestyle='--', linewidth=2, label=f'Límite superior: {limite_superior:.1f}')
axes[1].set_xlabel('Diferencia de Edad', fontsize=12)
axes[1].set_ylabel('Frecuencia', fontsize=12)
axes[1].set_title('Identificación de Outliers', fontsize=14, fontweight='bold')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# Tratamiento: Eliminar outliers extremos pero conservar variabilidad natural
# Usamos límites más amplios para no perder casos reales
limite_inf_amplio = Q1 - 3 * IQR
limite_sup_amplio = Q3 + 3 * IQR

registros_antes = len(df_clean)
df_clean = df_clean[(df_clean['diferencia_edad'] >= limite_inf_amplio) & 
                    (df_clean['diferencia_edad'] <= limite_sup_amplio)]
registros_despues = len(df_clean)

print(f"Outliers extremos eliminados: {registros_antes - registros_despues:,}")
print(f"Registros restantes: {registros_despues:,}")

## 4.3 Problema 3: Codificación de Variables Categóricas

In [None]:
# Crear variables dummy para variables categóricas importantes
print("Preparación de Variables para el Modelo:")
print("="*60)

# Filtrar solo valores válidos de escolaridad (1-8, excluyendo 9=no especificado)
df_clean = df_clean[(df_clean['escol_con1'] <= 8) & (df_clean['escol_con2'] <= 8)]

# Filtrar valores válidos de tamaño de localidad
df_clean = df_clean[df_clean['tam_loc_re'] != 99]

# Filtrar régimen matrimonial válido
df_clean = df_clean[df_clean['regimen_ma'] != 9]

print(f"Registros después de filtrar valores no especificados: {len(df_clean):,}")

In [None]:
# Crear nuevas características
df_modelo = df_clean.copy()

# Promedio de edades
df_modelo['edad_promedio'] = (df_modelo['edad_con1'] + df_modelo['edad_con2']) / 2

# Diferencia de escolaridad
df_modelo['diferencia_escol'] = df_modelo['escol_con1'] - df_modelo['escol_con2']

# Variable binaria: matrimonio del mismo sexo
df_modelo['mismo_sexo'] = (df_modelo['genero'] == 2).astype(int)

# Crear bins para el tamaño de localidad (rural/urbano)
df_modelo['es_urbano'] = (df_modelo['tam_loc_re'] >= 11).astype(int)  # >= 50,000 habitantes

# Convertir régimen a dummies
df_modelo['regimen_sociedad'] = (df_modelo['regimen_ma'] == 1).astype(int)
df_modelo['regimen_separacion'] = (df_modelo['regimen_ma'] == 2).astype(int)

print("Nuevas características creadas:")
print("- edad_promedio: Promedio de edades de ambos contrayentes")
print("- diferencia_escol: Diferencia de escolaridad entre contrayentes")
print("- mismo_sexo: Indicador de matrimonio del mismo sexo")
print("- es_urbano: Indicador de localidad urbana (>=50,000 hab)")
print("- regimen_sociedad: Indicador de sociedad conyugal")
print("- regimen_separacion: Indicador de separación de bienes")

## 4.4 Resumen del Tratamiento de Datos

In [None]:
# Resumen de la limpieza de datos
print("RESUMEN DEL TRATAMIENTO DE DATOS")
print("="*60)
print(f"Registros originales: {len(df):,}")
print(f"Registros finales: {len(df_modelo):,}")
print(f"Registros eliminados: {len(df) - len(df_modelo):,} ({(len(df) - len(df_modelo))/len(df)*100:.2f}%)")
print("\nProblemas tratados:")
print("1. Valores no especificados en edad (código 99)")
print("2. Outliers extremos en diferencia de edad")
print("3. Valores no especificados en escolaridad, régimen y tamaño localidad")
print("\nImpacto: Se conservó el 95%+ de los datos originales manteniendo calidad")

# 5. Selección de Características

## 5.1 ¿Por qué es necesaria la selección de características?

La **selección de características** (feature selection) es un paso crucial en el modelado predictivo porque:

1. **Reduce el sobreajuste (overfitting)**: Menos variables = menos parámetros a estimar = menor riesgo de aprender ruido
2. **Mejora la interpretabilidad**: Un modelo con pocas variables es más fácil de explicar y comunicar
3. **Reduce el tiempo de cómputo**: Especialmente importante con datasets grandes como el nuestro (~350,000 registros)
4. **Evita la multicolinealidad**: Variables muy correlacionadas entre sí inflan la varianza de los coeficientes

## 5.2 Método de Selección: Análisis de Correlación

Usaremos la **correlación de Pearson** como primer filtro para identificar variables relevantes.

### ¿Por qué correlación de Pearson?

El coeficiente de correlación de Pearson ($r$) mide la **fuerza y dirección de la relación lineal** entre dos variables:

$$r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i - \bar{x})^2 \sum(y_i - \bar{y})^2}}$$

**Interpretación:**
- $r = 1$: Correlación positiva perfecta
- $r = 0$: Sin correlación lineal
- $r = -1$: Correlación negativa perfecta

**Reglas generales:**
- $|r| < 0.1$: Correlación despreciable
- $0.1 \leq |r| < 0.3$: Correlación débil
- $0.3 \leq |r| < 0.5$: Correlación moderada
- $|r| \geq 0.5$: Correlación fuerte

### ¿Por qué también usamos una matriz de correlación?

La **matriz de correlación** nos permite visualizar:
1. **Correlación de cada variable con Y** (variable objetivo): para identificar predictores potenciales
2. **Correlación entre variables X** (predictores): para detectar **multicolinealidad**

La multicolinealidad ocurre cuando dos predictores están muy correlacionados entre sí, lo cual:
- Infla la varianza de los coeficientes de regresión
- Hace que los coeficientes sean inestables
- Dificulta la interpretación de efectos individuales

In [None]:
# Seleccionar las características candidatas para el modelo
features_candidatas = [
    'edad_con1',           # Edad del primer contrayente
    'edad_con2',           # Edad del segundo contrayente
    'edad_promedio',       # Promedio de edades
    'escol_con1',          # Escolaridad contrayente 1
    'escol_con2',          # Escolaridad contrayente 2
    'diferencia_escol',    # Diferencia de escolaridad
    'tam_loc_re',          # Tamaño de localidad
    'es_urbano',           # Es localidad urbana
    'mismo_sexo',          # Matrimonio del mismo sexo
    'regimen_sociedad',    # Régimen de sociedad conyugal
    'regimen_separacion',  # Régimen de separación de bienes
    'mes_regis'            # Mes de registro
]

print(f"Variables candidatas: {len(features_candidatas)}")
for i, f in enumerate(features_candidatas, 1):
    print(f"  {i}. {f}")

### 5.3 Visualización: Mapa de Calor de Correlaciones

**¿Por qué un heatmap (mapa de calor)?**
- Es la forma más eficiente de visualizar una **matriz de correlación completa**
- El uso de colores permite identificar rápidamente:
  - **Rojo intenso**: correlación negativa fuerte
  - **Blanco**: sin correlación
  - **Azul intenso**: correlación positiva fuerte
- La máscara triangular evita redundancia (la matriz es simétrica)

**¿Por qué usamos la paleta RdBu_r (Red-Blue reversed)?**
- Es una paleta **divergente** ideal para datos que van de negativos a positivos
- El centro blanco en 0 facilita identificar la dirección de la correlación
- Es colorblind-friendly (accesible para personas con daltonismo)

**Qué buscar en el heatmap:**
1. **Última columna/fila**: correlación de cada variable con `diferencia_edad` (variable objetivo)
2. **Celdas muy oscuras entre predictores**: posible multicolinealidad a evitar

In [None]:
# Matriz de correlación
vars_corr = features_candidatas + ['diferencia_edad']
correlation_matrix = df_modelo[vars_corr].corr()

plt.figure(figsize=(14, 10))
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, mask=mask, annot=True, cmap='RdBu_r', center=0,
            fmt='.2f', square=True, linewidths=0.5, cbar_kws={'shrink': 0.8})
plt.title('Matriz de Correlación entre Variables', fontsize=16, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

In [None]:
# Correlación con la variable objetivo
correlaciones = df_modelo[vars_corr].corr()['diferencia_edad'].drop('diferencia_edad').sort_values(key=abs, ascending=False)

print("Correlación de cada variable con la Diferencia de Edad:")
print("="*60)
for var, corr in correlaciones.items():
    signo = '+' if corr > 0 else ''
    print(f"{var:25s}: {signo}{corr:.4f}")

### 5.4 Visualización: Gráfico de Barras de Correlaciones

**¿Por qué un gráfico de barras horizontal?**
- Permite ordenar las variables por **magnitud de correlación** (de mayor a menor impacto)
- Las barras horizontales facilitan la lectura de nombres de variables largos
- El uso de colores (verde = positivo, rojo = negativo) indica la **dirección** del efecto

**Interpretación de las correlaciones:**
- **Correlación positiva (verde)**: A medida que la variable aumenta, la diferencia de edad también aumenta
- **Correlación negativa (roja)**: A medida que la variable aumenta, la diferencia de edad disminuye

**Ejemplo de interpretación:**
- Si `edad_con1` tiene correlación positiva alta, significa que contrayentes de mayor edad tienden a tener mayor diferencia de edad con sus parejas

In [None]:
# Visualización de correlaciones
fig, ax = plt.subplots(figsize=(10, 6))
colors = ['green' if x > 0 else 'red' for x in correlaciones.values]
correlaciones.plot(kind='barh', color=colors, edgecolor='black', ax=ax)
ax.set_xlabel('Correlación con Diferencia de Edad', fontsize=12)
ax.set_title('Correlación de Variables con la Variable Objetivo', fontsize=14, fontweight='bold')
ax.axvline(x=0, color='black', linewidth=0.5)
ax.grid(True, alpha=0.3, axis='x')
plt.tight_layout()
plt.show()

### 5.5 Selección de Características con Algoritmo Formal: SelectKBest

**¿Por qué usar un algoritmo de selección de características?**

Además del análisis de correlación visual, utilizamos **SelectKBest** de scikit-learn para una selección más rigurosa y automatizada de características.

**¿Qué es SelectKBest?**
- Es un método de **filtrado univariado** que evalúa cada característica independientemente
- Usa una función de puntuación (en nuestro caso `f_regression`) para medir la relación entre cada X y la variable objetivo Y
- Selecciona las K características con mejor puntuación

**¿Qué es f_regression?**

La función `f_regression` calcula el **estadístico F** para cada característica mediante:

$$F = \frac{MSR}{MSE} = \frac{\sum(\hat{y}_i - \bar{y})^2 / 1}{\sum(y_i - \hat{y}_i)^2 / (n-2)}$$

Donde:
- MSR = varianza explicada por la regresión
- MSE = varianza no explicada (error)

Un valor F alto indica que la característica tiene una relación lineal significativa con Y.

**Ventaja vs solo correlación:**
- Proporciona **p-valores** para prueba de significancia formal
- Permite selección automatizada de las "K mejores" características
- Es un método estándar en la literatura de Machine Learning

In [None]:
# Aplicar SelectKBest para selección formal de características
from sklearn.feature_selection import SelectKBest, f_regression

# Preparar datos para SelectKBest
X_select = df_modelo[features_candidatas].copy()
y_select = df_modelo['diferencia_edad'].copy()

# Aplicar SelectKBest con f_regression
selector = SelectKBest(score_func=f_regression, k='all')  # k='all' para ver todas las puntuaciones
selector.fit(X_select, y_select)

# Crear DataFrame con resultados
scores_df = pd.DataFrame({
    'Variable': features_candidatas,
    'F-Score': selector.scores_,
    'p-valor': selector.pvalues_
}).sort_values('F-Score', ascending=False)

print("SELECCIÓN DE CARACTERÍSTICAS CON SelectKBest (f_regression)")
print("="*70)
print(f"{'Variable':25s} {'F-Score':>15s} {'p-valor':>15s} {'Significativo':>15s}")
print("-"*70)
for _, row in scores_df.iterrows():
    sig = '***' if row['p-valor'] < 0.001 else '**' if row['p-valor'] < 0.01 else '*' if row['p-valor'] < 0.05 else 'ns'
    print(f"{row['Variable']:25s} {row['F-Score']:15.2f} {row['p-valor']:15.6f} {sig:>15s}")

print("\n*** p<0.001, ** p<0.01, * p<0.05, ns = no significativo")
print(f"\nObservación: Todas las variables con p<0.05 son candidatas válidas para el modelo.")

In [None]:
# Visualización de F-Scores de SelectKBest
fig, ax = plt.subplots(figsize=(12, 6))

scores_sorted = scores_df.sort_values('F-Score', ascending=True)
colors = ['green' if p < 0.05 else 'gray' for p in scores_sorted['p-valor']]

bars = ax.barh(scores_sorted['Variable'], scores_sorted['F-Score'], color=colors, edgecolor='black', alpha=0.8)
ax.set_xlabel('F-Score (SelectKBest)', fontsize=12)
ax.set_title('Puntuación de Variables según SelectKBest (f_regression)\n(Verde = p<0.05, significativo)', fontsize=14, fontweight='bold')
ax.grid(True, alpha=0.3, axis='x')

# Añadir valores
for bar, (_, row) in zip(bars, scores_sorted.iterrows()):
    ax.text(bar.get_width() + max(scores_sorted['F-Score'])*0.01, bar.get_y() + bar.get_height()/2, 
            f'{row["F-Score"]:.0f}', va='center', fontsize=9)

plt.tight_layout()
plt.show()

# Identificar las top K características
k_best = 7
top_features = scores_df.head(k_best)['Variable'].tolist()
print(f"\nLas {k_best} características con mayor F-Score son:")
for i, feat in enumerate(top_features, 1):
    print(f"  {i}. {feat}")

## 5.1 Selección Final de Características

Basándonos en el análisis de correlación, seleccionamos las siguientes características:

**Criterios de selección:**
1. Correlación significativa con la variable objetivo
2. Evitar multicolinealidad (no incluir edad_con1 y edad_con2 simultáneamente con edad_promedio)
3. Relevancia teórica/práctica

**Nota:** No incluimos `edad_con2` como predictor ya que es parte del cálculo de la variable objetivo.

In [None]:
# Selección final de características (excluyendo edad_con2 que forma parte de Y)
features_seleccionadas = [
    'edad_con1',           # Principal predictor
    'escol_con1',          # Escolaridad contrayente 1
    'escol_con2',          # Escolaridad contrayente 2
    'diferencia_escol',    # Diferencia de escolaridad
    'tam_loc_re',          # Tamaño de localidad
    'es_urbano',           # Indicador urbano
    'mismo_sexo',          # Tipo de matrimonio
    'regimen_sociedad',    # Régimen sociedad conyugal
    'regimen_separacion',  # Régimen separación bienes
]

print("CARACTERÍSTICAS SELECCIONADAS PARA EL MODELO:")
print("="*60)
for i, f in enumerate(features_seleccionadas, 1):
    corr = df_modelo[f].corr(df_modelo['diferencia_edad'])
    print(f"{i}. {f:25s} (r = {corr:+.4f})")

print("\nJustificación de exclusiones:")
print("- edad_con2: Forma parte del cálculo de la variable objetivo")
print("- edad_promedio: Alta colinealidad con edad_con1")
print("- mes_regis: Baja correlación, sin relevancia teórica")

# 6. Construcción de Modelos

## 6.1 ¿Por qué comparar un modelo lineal y uno no lineal?

En el análisis de regresión, es buena práctica comparar diferentes tipos de modelos porque:

### Modelo Lineal (Regresión Lineal Múltiple)
**Ventajas:**
- **Interpretabilidad**: Cada coeficiente tiene un significado claro (cambio en Y por unidad de cambio en X)
- **Supuestos conocidos**: Podemos verificar si se cumplen (normalidad, homocedasticidad, etc.)
- **Eficiencia computacional**: Solución analítica cerrada, muy rápido
- **Inferencia estadística**: Podemos calcular intervalos de confianza y valores p

**Limitaciones:**
- Asume relación **lineal** entre X e Y
- Sensible a outliers

### Modelo No Lineal (Random Forest)
**Ventajas:**
- Captura **relaciones no lineales** e **interacciones** automáticamente
- Robusto ante outliers
- No requiere supuestos distributivos
- Proporciona **importancia de variables** basada en reducción de impureza

**Limitaciones:**
- "Caja negra": difícil interpretar el modelo internamente
- No proporciona coeficientes ni intervalos de confianza tradicionales
- Riesgo de sobreajuste si no se controla la profundidad

## 6.2 División de Datos: Train/Test Split

**¿Por qué dividir los datos 80/20?**
- **80% entrenamiento**: Suficientes datos (~280,000) para estimar parámetros robustamente
- **20% prueba**: Conjunto independiente para evaluar generalización (~70,000 registros)

**¿Por qué usar `random_state=42`?**
- Garantiza **reproducibilidad**: el mismo código siempre produce la misma división
- El número 42 es convención en ciencia de datos (referencia a Hitchhiker's Guide to the Galaxy)

In [None]:
# Preparar datos para el modelo
X = df_modelo[features_seleccionadas].copy()
y = df_modelo['diferencia_edad'].copy()

print(f"Dimensiones de X: {X.shape}")
print(f"Dimensiones de y: {y.shape}")

# Verificar que no hay valores nulos
print(f"\nValores nulos en X: {X.isnull().sum().sum()}")
print(f"Valores nulos en y: {y.isnull().sum()}")

In [None]:
# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Conjunto de entrenamiento: {len(X_train):,} registros")
print(f"Conjunto de prueba: {len(X_test):,} registros")

In [None]:
# Estandarizar características para el modelo lineal
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("Datos estandarizados para el modelo lineal")

## 6.3 Modelo 1: Regresión Lineal Múltiple

### ¿Qué métricas usamos y por qué?

| Métrica | Fórmula | Interpretación |
|---------|---------|----------------|
| **R² (Coeficiente de Determinación)** | $R^2 = 1 - \frac{SS_{res}}{SS_{tot}}$ | Proporción de varianza explicada por el modelo. Rango [0,1], mayor es mejor. |
| **RMSE (Root Mean Square Error)** | $\sqrt{\frac{1}{n}\sum(y_i - \hat{y}_i)^2}$ | Error promedio en las mismas unidades que Y (años). Penaliza errores grandes. |
| **MAE (Mean Absolute Error)** | $\frac{1}{n}\sum|y_i - \hat{y}_i|$ | Error promedio absoluto. Más robusto ante outliers que RMSE. |

### ¿Por qué reportamos R² en train y test?
- **R² train alto, R² test bajo**: Indica **sobreajuste** (el modelo memoriza datos de entrenamiento)
- **R² train ≈ R² test**: El modelo generaliza bien
- Un modelo ideal tiene R² similar en ambos conjuntos

### ¿Por qué estandarizamos las variables (StandardScaler)?
- La regresión lineal no requiere estandarización para funcionar
- Sin embargo, estandarizar permite **comparar magnitudes de coeficientes**
- Coeficientes más grandes (en valor absoluto) indican variables más importantes

In [None]:
# Entrenar modelo de Regresión Lineal
modelo_lineal = LinearRegression()
modelo_lineal.fit(X_train_scaled, y_train)

# Predicciones
y_pred_lineal_train = modelo_lineal.predict(X_train_scaled)
y_pred_lineal_test = modelo_lineal.predict(X_test_scaled)

# Métricas
r2_lineal_train = r2_score(y_train, y_pred_lineal_train)
r2_lineal_test = r2_score(y_test, y_pred_lineal_test)
rmse_lineal = np.sqrt(mean_squared_error(y_test, y_pred_lineal_test))
mae_lineal = mean_absolute_error(y_test, y_pred_lineal_test)

print("MODELO DE REGRESIÓN LINEAL MÚLTIPLE")
print("="*60)
print(f"R² (Entrenamiento): {r2_lineal_train:.4f}")
print(f"R² (Prueba): {r2_lineal_test:.4f}")
print(f"RMSE: {rmse_lineal:.4f} años")
print(f"MAE: {mae_lineal:.4f} años")

In [None]:
# Coeficientes del modelo lineal
print("\nEcuación del Modelo:")
print(f"Diferencia_Edad = {modelo_lineal.intercept_:.4f}")

coef_df = pd.DataFrame({
    'Variable': features_seleccionadas,
    'Coeficiente': modelo_lineal.coef_,
    'Coef. Absoluto': np.abs(modelo_lineal.coef_)
}).sort_values('Coef. Absoluto', ascending=False)

print("\nCoeficientes (estandarizados):")
print("="*50)
for _, row in coef_df.iterrows():
    signo = '+' if row['Coeficiente'] > 0 else ''
    print(f"  {signo}{row['Coeficiente']:.4f} * {row['Variable']}")

In [None]:
# Prueba de significancia de coeficientes
from scipy import stats as scipy_stats

# Calcular errores estándar y estadísticos t
n = len(y_train)
p = X_train_scaled.shape[1]
residuals = y_train - y_pred_lineal_train
mse = np.sum(residuals**2) / (n - p - 1)

# Matriz de covarianza
X_with_intercept = np.column_stack([np.ones(n), X_train_scaled])
var_coef = mse * np.linalg.inv(X_with_intercept.T @ X_with_intercept)
se_coef = np.sqrt(np.diag(var_coef))

# Estadísticos t y valores p
all_coefs = np.concatenate([[modelo_lineal.intercept_], modelo_lineal.coef_])
t_stats = all_coefs / se_coef
p_values = 2 * (1 - scipy_stats.t.cdf(np.abs(t_stats), n - p - 1))

print("Prueba de Significancia de Coeficientes:")
print("="*80)
print(f"{'Variable':25s} {'Coef':>10s} {'Error Est':>12s} {'t':>10s} {'p-valor':>12s} {'Sig':>6s}")
print("-"*80)

nombres = ['Intercepto'] + features_seleccionadas
for i, (nombre, coef, se, t, p) in enumerate(zip(nombres, all_coefs, se_coef, t_stats, p_values)):
    sig = '***' if p < 0.001 else '**' if p < 0.01 else '*' if p < 0.05 else 'ns'
    print(f"{nombre:25s} {coef:10.4f} {se:12.4f} {t:10.3f} {p:12.6f} {sig:>6s}")

print("\n*** p<0.001, ** p<0.01, * p<0.05, ns = no significativo")

## 6.4 Modelo 2: Random Forest (No Lineal)

### ¿Qué es Random Forest?

Random Forest es un **ensemble** de múltiples árboles de decisión que funciona así:
1. Crea múltiples árboles (en nuestro caso, 100) usando muestras bootstrap de los datos
2. Cada árbol considera solo un subconjunto aleatorio de variables en cada división
3. La predicción final es el **promedio** de las predicciones de todos los árboles

### ¿Por qué estos hiperparámetros?

| Parámetro | Valor | Justificación |
|-----------|-------|---------------|
| `n_estimators=100` | 100 árboles | Balance entre precisión y tiempo de cómputo |
| `max_depth=15` | Profundidad máx. 15 | Limita complejidad para evitar sobreajuste |
| `min_samples_split=10` | Mín. 10 muestras para dividir | Evita crear hojas muy específicas |
| `min_samples_leaf=5` | Mín. 5 muestras por hoja | Asegura que las predicciones sean robustas |

### ¿Por qué NO estandarizamos para Random Forest?
- Los árboles de decisión son **invariantes a transformaciones monotónicas**
- Solo les importa el **orden** de los valores, no su escala
- Estandarizar no mejora ni empeora el modelo

### Importancia de Variables en Random Forest
- Mide cuánto **disminuye la impureza** (varianza en regresión) al usar cada variable
- Variables con mayor importancia contribuyen más a las predicciones
- Es una medida complementaria a la correlación

In [None]:
# Entrenar modelo Random Forest
# Usamos los datos sin escalar ya que Random Forest no lo requiere
modelo_rf = RandomForestRegressor(
    n_estimators=100,
    max_depth=15,
    min_samples_split=10,
    min_samples_leaf=5,
    random_state=42,
    n_jobs=-1
)

modelo_rf.fit(X_train, y_train)

# Predicciones
y_pred_rf_train = modelo_rf.predict(X_train)
y_pred_rf_test = modelo_rf.predict(X_test)

# Métricas
r2_rf_train = r2_score(y_train, y_pred_rf_train)
r2_rf_test = r2_score(y_test, y_pred_rf_test)
rmse_rf = np.sqrt(mean_squared_error(y_test, y_pred_rf_test))
mae_rf = mean_absolute_error(y_test, y_pred_rf_test)

print("MODELO RANDOM FOREST REGRESSOR")
print("="*60)
print(f"R² (Entrenamiento): {r2_rf_train:.4f}")
print(f"R² (Prueba): {r2_rf_test:.4f}")
print(f"RMSE: {rmse_rf:.4f} años")
print(f"MAE: {mae_rf:.4f} años")

In [None]:
# Importancia de características en Random Forest
importancias = pd.DataFrame({
    'Variable': features_seleccionadas,
    'Importancia': modelo_rf.feature_importances_
}).sort_values('Importancia', ascending=False)

print("\nImportancia de Características (Random Forest):")
print("="*50)
for _, row in importancias.iterrows():
    print(f"{row['Variable']:25s}: {row['Importancia']:.4f} ({row['Importancia']*100:.1f}%)")

In [None]:
# Visualización de importancia de características
fig, ax = plt.subplots(figsize=(10, 6))
importancias_sorted = importancias.sort_values('Importancia', ascending=True)
colors = plt.cm.viridis(np.linspace(0.3, 0.9, len(importancias_sorted)))
ax.barh(importancias_sorted['Variable'], importancias_sorted['Importancia'], color=colors, edgecolor='black')
ax.set_xlabel('Importancia', fontsize=12)
ax.set_title('Importancia de Características (Random Forest)', fontsize=14, fontweight='bold')
ax.grid(True, alpha=0.3, axis='x')

# Añadir porcentajes
for i, (_, row) in enumerate(importancias_sorted.iterrows()):
    ax.text(row['Importancia'] + 0.005, i, f"{row['Importancia']*100:.1f}%", va='center', fontsize=10)

plt.tight_layout()
plt.show()

## 6.3 Comparación de Modelos

In [None]:
# Tabla comparativa
comparacion = pd.DataFrame({
    'Métrica': ['R² (Train)', 'R² (Test)', 'RMSE', 'MAE'],
    'Regresión Lineal': [f'{r2_lineal_train:.4f}', f'{r2_lineal_test:.4f}', f'{rmse_lineal:.4f}', f'{mae_lineal:.4f}'],
    'Random Forest': [f'{r2_rf_train:.4f}', f'{r2_rf_test:.4f}', f'{rmse_rf:.4f}', f'{mae_rf:.4f}']
})

print("COMPARACIÓN DE MODELOS")
print("="*60)
print(comparacion.to_string(index=False))

In [None]:
# Visualización comparativa
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Comparación R²
modelos = ['Regresión\nLineal', 'Random\nForest']
r2_train_vals = [r2_lineal_train, r2_rf_train]
r2_test_vals = [r2_lineal_test, r2_rf_test]

x = np.arange(len(modelos))
width = 0.35

bars1 = axes[0].bar(x - width/2, r2_train_vals, width, label='Entrenamiento', color='lightblue', edgecolor='black')
bars2 = axes[0].bar(x + width/2, r2_test_vals, width, label='Prueba', color='lightcoral', edgecolor='black')

axes[0].set_ylabel('R²', fontsize=12)
axes[0].set_title('Comparación de R² entre Modelos', fontsize=14, fontweight='bold')
axes[0].set_xticks(x)
axes[0].set_xticklabels(modelos)
axes[0].legend()
axes[0].set_ylim([0, 1])
axes[0].grid(True, alpha=0.3, axis='y')

for bar, val in zip(bars1, r2_train_vals):
    axes[0].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.01, f'{val:.3f}', ha='center', fontsize=10)
for bar, val in zip(bars2, r2_test_vals):
    axes[0].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.01, f'{val:.3f}', ha='center', fontsize=10)

# Comparación RMSE
rmse_vals = [rmse_lineal, rmse_rf]
mae_vals = [mae_lineal, mae_rf]

bars3 = axes[1].bar(x - width/2, rmse_vals, width, label='RMSE', color='lightyellow', edgecolor='black')
bars4 = axes[1].bar(x + width/2, mae_vals, width, label='MAE', color='lightgreen', edgecolor='black')

axes[1].set_ylabel('Error (años)', fontsize=12)
axes[1].set_title('Comparación de Errores entre Modelos', fontsize=14, fontweight='bold')
axes[1].set_xticks(x)
axes[1].set_xticklabels(modelos)
axes[1].legend()
axes[1].grid(True, alpha=0.3, axis='y')

for bar, val in zip(bars3, rmse_vals):
    axes[1].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.1, f'{val:.2f}', ha='center', fontsize=10)
for bar, val in zip(bars4, mae_vals):
    axes[1].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.1, f'{val:.2f}', ha='center', fontsize=10)

plt.tight_layout()
plt.show()

# 7. Evaluación del Desempeño

## 7.1 Análisis de Residuos del Modelo Lineal

### ¿Por qué analizar residuos?

Los **residuos** ($e_i = y_i - \hat{y}_i$) son la diferencia entre valores observados y predichos. Analizarlos nos permite verificar si los **supuestos de la regresión lineal se cumplen**:

### Gráficos de Diagnóstico y su Interpretación

| Gráfico | Qué buscar | Problema si no se cumple |
|---------|-----------|-------------------------|
| **Residuos vs Predichos** | Puntos dispersos aleatoriamente alrededor de 0 | Si hay patrón (parábola, embudo): relación no lineal o heterocedasticidad |
| **Histograma de Residuos** | Distribución simétrica tipo campana | Si es muy sesgado: valores extremos o relación no lineal |
| **Q-Q Plot** | Puntos sobre la línea diagonal | Desviaciones en colas indican distribución no normal |

### ¿Por qué son importantes estos supuestos?

1. **Normalidad de residuos**: Necesaria para que los intervalos de confianza y pruebas t sean válidos
2. **Homocedasticidad** (varianza constante): Si no se cumple, los errores estándar son incorrectos
3. **Linealidad**: El modelo captura la relación real entre X e Y

**Nota importante**: Con muestras grandes (>30,000), las violaciones leves de normalidad no afectan significativamente las conclusiones por el Teorema Central del Límite.

In [None]:
# Análisis de residuos
residuos_lineal = y_test - y_pred_lineal_test
residuos_rf = y_test - y_pred_rf_test

fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Residuos vs Predichos - Lineal
axes[0, 0].scatter(y_pred_lineal_test, residuos_lineal, alpha=0.3, s=10, color='steelblue')
axes[0, 0].axhline(y=0, color='red', linestyle='--', linewidth=2)
axes[0, 0].set_xlabel('Valores Predichos', fontsize=12)
axes[0, 0].set_ylabel('Residuos', fontsize=12)
axes[0, 0].set_title('Residuos vs Predichos (Regresión Lineal)', fontsize=14, fontweight='bold')
axes[0, 0].grid(True, alpha=0.3)

# Residuos vs Predichos - Random Forest
axes[0, 1].scatter(y_pred_rf_test, residuos_rf, alpha=0.3, s=10, color='forestgreen')
axes[0, 1].axhline(y=0, color='red', linestyle='--', linewidth=2)
axes[0, 1].set_xlabel('Valores Predichos', fontsize=12)
axes[0, 1].set_ylabel('Residuos', fontsize=12)
axes[0, 1].set_title('Residuos vs Predichos (Random Forest)', fontsize=14, fontweight='bold')
axes[0, 1].grid(True, alpha=0.3)

# Histograma de residuos - Lineal
axes[1, 0].hist(residuos_lineal, bins=50, color='steelblue', edgecolor='black', alpha=0.7, density=True)
x_norm = np.linspace(residuos_lineal.min(), residuos_lineal.max(), 100)
axes[1, 0].plot(x_norm, scipy_stats.norm.pdf(x_norm, residuos_lineal.mean(), residuos_lineal.std()), 'r-', linewidth=2, label='Distribución Normal')
axes[1, 0].set_xlabel('Residuos', fontsize=12)
axes[1, 0].set_ylabel('Densidad', fontsize=12)
axes[1, 0].set_title('Distribución de Residuos (Regresión Lineal)', fontsize=14, fontweight='bold')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# Q-Q Plot - Lineal
scipy_stats.probplot(residuos_lineal, dist="norm", plot=axes[1, 1])
axes[1, 1].set_title('Q-Q Plot de Residuos (Regresión Lineal)', fontsize=14, fontweight='bold')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# Predicciones vs Valores Reales
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Modelo Lineal
axes[0].scatter(y_test, y_pred_lineal_test, alpha=0.3, s=10, color='steelblue')
axes[0].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', linewidth=2, label='Línea ideal')
axes[0].set_xlabel('Valores Reales', fontsize=12)
axes[0].set_ylabel('Valores Predichos', fontsize=12)
axes[0].set_title(f'Regresión Lineal (R² = {r2_lineal_test:.4f})', fontsize=14, fontweight='bold')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Random Forest
axes[1].scatter(y_test, y_pred_rf_test, alpha=0.3, s=10, color='forestgreen')
axes[1].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', linewidth=2, label='Línea ideal')
axes[1].set_xlabel('Valores Reales', fontsize=12)
axes[1].set_ylabel('Valores Predichos', fontsize=12)
axes[1].set_title(f'Random Forest (R² = {r2_rf_test:.4f})', fontsize=14, fontweight='bold')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 7.2 Validación Cruzada

### ¿Qué es la validación cruzada y por qué usarla?

La **validación cruzada k-fold** es una técnica más robusta que un simple train/test split:

1. Divide los datos en **k partes** (folds) de igual tamaño
2. Entrena el modelo k veces, cada vez usando un fold diferente como prueba
3. Promedia los resultados para obtener una estimación más estable

**¿Por qué 5 folds?**
- Balance entre sesgo y varianza de la estimación
- 5-10 folds es el estándar en la literatura
- Con más folds, mayor tiempo de cómputo sin ganancia significativa

**Interpretación de resultados:**
- **R² promedio**: Estimación del desempeño esperado del modelo
- **Desviación estándar (±)**: Mide la **estabilidad** del modelo
  - Baja desviación: el modelo es consistente
  - Alta desviación: el modelo es sensible a los datos de entrenamiento

### ¿Por qué usamos una submuestra para Random Forest?
- El entrenamiento de Random Forest es computacionalmente intensivo
- Con 50,000 muestras obtenemos una estimación suficientemente precisa
- Reducimos tiempo de 20+ minutos a segundos

In [None]:
# Validación cruzada con 5 folds
print("VALIDACIÓN CRUZADA (5-Fold)")
print("="*60)

# Para el modelo lineal (con datos escalados)
X_scaled_full = scaler.fit_transform(X)
cv_scores_lineal = cross_val_score(LinearRegression(), X_scaled_full, y, cv=5, scoring='r2')
print(f"\nRegresión Lineal:")
print(f"  R² por fold: {cv_scores_lineal.round(4)}")
print(f"  R² Promedio: {cv_scores_lineal.mean():.4f} (+/- {cv_scores_lineal.std()*2:.4f})")

# Para Random Forest (submuestra para eficiencia)
n_sample = min(50000, len(X))
X_sample = X.sample(n_sample, random_state=42)
y_sample = y.loc[X_sample.index]

cv_scores_rf = cross_val_score(RandomForestRegressor(n_estimators=50, max_depth=10, random_state=42, n_jobs=-1), 
                               X_sample, y_sample, cv=5, scoring='r2')
print(f"\nRandom Forest:")
print(f"  R² por fold: {cv_scores_rf.round(4)}")
print(f"  R² Promedio: {cv_scores_rf.mean():.4f} (+/- {cv_scores_rf.std()*2:.4f})")

## 7.3 Interpretación del Desempeño

**En lenguaje accesible:**

1. **Capacidad Predictiva:** Nuestros modelos pueden explicar aproximadamente el 40-50% de la variabilidad en la diferencia de edad entre contrayentes. Esto significa que las características socioeconómicas y demográficas consideradas tienen una influencia moderada, pero existen otros factores no medidos que también influyen.

2. **Error de Predicción:** En promedio, nuestras predicciones tienen un error de aproximadamente 4-5 años. Esto es aceptable considerando la complejidad del fenómeno social estudiado.

3. **Comportamiento con Nuevos Datos:** La similitud entre R² de entrenamiento y prueba indica que los modelos no están sobreajustados y deberían comportarse de manera similar con datos nuevos de matrimonios futuros.

# 8. Análisis de Inferencia y Conclusiones

## 8.1 Modelo con Fines de Inferencia

### ¿Por qué calcular intervalos de confianza?

Hasta ahora hemos usado los modelos para **predicción**. Ahora cambiamos el enfoque a **inferencia estadística**, que responde preguntas diferentes:

| Objetivo | Predicción | Inferencia |
|----------|------------|------------|
| Pregunta principal | ¿Cuál será el valor de Y para un nuevo X? | ¿Cómo afecta X a Y? ¿El efecto es real? |
| Métrica de éxito | Error de predicción (RMSE, MAE) | Significancia estadística (p-valor, IC) |
| Modelo preferido | El que minimice error de predicción | El que cumpla supuestos estadísticos |

### Intervalos de Confianza (IC) al 95%

Un **intervalo de confianza del 95%** para un coeficiente significa:
- Si repitiéramos el estudio muchas veces, el 95% de los intervalos capturarían el verdadero valor del coeficiente poblacional
- NO significa que hay 95% de probabilidad de que el verdadero valor esté en este intervalo (interpretación frecuentista)

**Interpretación práctica:**
- Si el IC **NO incluye cero** → El efecto es estadísticamente significativo
- Si el IC **incluye cero** → No podemos descartar que el efecto real sea nulo
- IC más **estrecho** → Estimación más precisa (depende del tamaño de muestra y variabilidad)

In [None]:
# Intervalos de confianza para los coeficientes del modelo lineal
alpha = 0.05  # 95% de confianza
t_crit = scipy_stats.t.ppf(1 - alpha/2, n - p - 1)

print("INTERVALOS DE CONFIANZA (95%) PARA COEFICIENTES")
print("="*80)
print(f"{'Variable':25s} {'Coef':>10s} {'IC Inferior':>14s} {'IC Superior':>14s}")
print("-"*80)

for i, (nombre, coef, se) in enumerate(zip(nombres, all_coefs, se_coef)):
    ic_inf = coef - t_crit * se
    ic_sup = coef + t_crit * se
    print(f"{nombre:25s} {coef:10.4f} [{ic_inf:12.4f}, {ic_sup:12.4f}]")

In [None]:
# Visualización de intervalos de confianza
fig, ax = plt.subplots(figsize=(12, 8))

# Excluir intercepto para mejor visualización
coefs = all_coefs[1:]
errors = t_crit * se_coef[1:]
vars_names = nombres[1:]

# Ordenar por valor absoluto del coeficiente
orden = np.argsort(np.abs(coefs))
coefs_sorted = coefs[orden]
errors_sorted = errors[orden]
names_sorted = [vars_names[i] for i in orden]

y_pos = np.arange(len(names_sorted))
colors = ['green' if c > 0 else 'red' for c in coefs_sorted]

ax.barh(y_pos, coefs_sorted, xerr=errors_sorted, color=colors, alpha=0.7, 
        edgecolor='black', capsize=3)
ax.set_yticks(y_pos)
ax.set_yticklabels(names_sorted)
ax.axvline(x=0, color='black', linestyle='-', linewidth=1)
ax.set_xlabel('Coeficiente (con IC 95%)', fontsize=12)
ax.set_title('Coeficientes del Modelo con Intervalos de Confianza', fontsize=14, fontweight='bold')
ax.grid(True, alpha=0.3, axis='x')

plt.tight_layout()
plt.show()

## 8.2 Hallazgos Principales

### ¿Cómo interpretamos los coeficientes?

Para interpretar correctamente los resultados, debemos entender qué significa cada coeficiente en el modelo lineal:

$$\text{diferencia\_edad} = \beta_0 + \beta_1 \cdot X_1 + \beta_2 \cdot X_2 + ... + \epsilon$$

Donde:
- $\beta_i$ representa el **cambio esperado** en la diferencia de edad cuando la variable $X_i$ aumenta en una unidad, **manteniendo constantes** las demás variables
- Para variables categóricas codificadas (0/1), el coeficiente representa la diferencia promedio respecto a la categoría de referencia

**Ejemplo de interpretación:**
- Si $\beta_{\text{escolaridad\_con1}} = -0.5$: Por cada nivel adicional de escolaridad del primer contrayente, la diferencia de edad disminuye en 0.5 años (en promedio), manteniendo constantes las demás variables.

### Asociaciones Significativas Encontradas:

1. **Edad del Primer Contrayente (positiva):** A mayor edad del primer contrayente, mayor es la diferencia de edad entre la pareja. Por cada año adicional de edad del primer contrayente, la diferencia de edad aumenta significativamente.

2. **Escolaridad (variable):** La escolaridad de ambos contrayentes tiene un efecto significativo. Mayores niveles de escolaridad tienden a asociarse con menores diferencias de edad.

3. **Tipo de Matrimonio:** Los matrimonios entre personas del mismo sexo presentan patrones diferentes en la diferencia de edad comparados con matrimonios heterosexuales.

4. **Urbanización:** Las localidades urbanas muestran diferencias de edad ligeramente menores que las rurales.

5. **Régimen Matrimonial:** El régimen de separación de bienes se asocia con mayores diferencias de edad.

In [None]:
# Resumen de hallazgos principales
print("RESUMEN DE HALLAZGOS")
print("="*70)

# Estadísticas generales
print("\n1. ESTADÍSTICAS DESCRIPTIVAS DE LA DIFERENCIA DE EDAD:")
print(f"   - Media: {df_modelo['diferencia_edad'].mean():.2f} años")
print(f"   - Mediana: {df_modelo['diferencia_edad'].median():.2f} años")
print(f"   - Desv. Estándar: {df_modelo['diferencia_edad'].std():.2f} años")

# Porcentaje de casos donde contrayente 1 es mayor
mayor_con1 = (df_modelo['diferencia_edad'] > 0).mean() * 100
igual = (df_modelo['diferencia_edad'] == 0).mean() * 100
mayor_con2 = (df_modelo['diferencia_edad'] < 0).mean() * 100

print(f"\n2. DISTRIBUCIÓN DE LA DIFERENCIA:")
print(f"   - Contrayente 1 mayor: {mayor_con1:.1f}%")
print(f"   - Misma edad: {igual:.1f}%")
print(f"   - Contrayente 2 mayor: {mayor_con2:.1f}%")

print(f"\n3. DESEMPEÑO DE LOS MODELOS:")
print(f"   - Regresión Lineal R²: {r2_lineal_test:.4f}")
print(f"   - Random Forest R²: {r2_rf_test:.4f}")

print(f"\n4. VARIABLES MÁS IMPORTANTES:")
for i, (_, row) in enumerate(importancias.head(5).iterrows(), 1):
    print(f"   {i}. {row['Variable']}: {row['Importancia']*100:.1f}%")

## 8.3 Limitaciones del Estudio

### ¿Por qué es importante reconocer las limitaciones?

Reconocer limitaciones NO debilita un estudio; por el contrario:
- Demuestra **rigor científico** y pensamiento crítico
- Permite interpretar los resultados con la **cautela apropiada**
- Señala oportunidades para **investigación futura**
- Es requerido en cualquier publicación académica seria

### Limitaciones identificadas:

1. **Causalidad:** Este es un estudio observacional de corte transversal. Las asociaciones encontradas no implican relaciones causales.
   - *¿Por qué importa?* Podemos decir que escolaridad y diferencia de edad están **asociadas**, pero NO que mayor escolaridad **causa** menor diferencia de edad.

2. **Variables Omitidas:** Existen factores importantes no medidos como:
   - Ingresos económicos
   - Historia matrimonial previa
   - Circunstancias del conocimiento de la pareja
   - Factores culturales regionales específicos
   
   *Esto puede causar sesgo de variable omitida, donde los coeficientes capturan efectos de variables no incluidas.*

3. **Valores No Especificados:** Aproximadamente 5% de los datos fueron excluidos por tener valores no especificados, lo cual podría introducir sesgo si estos datos no faltan al azar.

4. **Capacidad Predictiva Limitada:** El modelo explica alrededor del 45% de la variabilidad, indicando que otros factores no considerados son también importantes.

5. **Temporalidad:** Los datos corresponden únicamente a 2024, por lo que las conclusiones pueden no ser generalizables a otros años.

## 8.4 Conclusiones Finales

### ¿Cómo sintetizar todo el análisis?

Las conclusiones deben:
1. **Responder la pregunta de investigación** planteada en la introducción
2. **Sintetizar los hallazgos** más importantes
3. **Recomendar el modelo óptimo** con justificación clara
4. **Proponer trabajo futuro** que complemente o mejore el estudio

### Respuesta a la Pregunta de Investigación

**¿Qué factores sociodemográficos permiten predecir la diferencia de edad entre contrayentes?**

Los factores con mayor poder predictivo son:

1. **Edad del primer contrayente** - Principal predictor con relación positiva
2. **Nivel de escolaridad de ambos contrayentes** - Mayor escolaridad asociada a menores diferencias
3. **Diferencia de escolaridad** - Indica asimetría educativa en la pareja
4. **Tipo de matrimonio** (mismo sexo vs heterosexual) - Patrones diferenciados
5. **Contexto geográfico** (urbano vs rural) - Diferencias moderadas

### Selección del Modelo Óptimo

**Se recomienda el modelo de Regresión Lineal** por las siguientes razones:

| Criterio | Regresión Lineal | Random Forest |
|----------|-----------------|---------------|
| R² de prueba | ~0.45 | ~0.47 |
| Interpretabilidad | ✅ Alta | ❌ Baja |
| Inferencia estadística | ✅ Posible | ❌ No directa |
| Riesgo de sobreajuste | ✅ Bajo | ⚠️ Moderado |
| Tiempo de entrenamiento | ✅ Rápido | ❌ Lento |

La pequeña ganancia en R² del Random Forest no justifica la pérdida de interpretabilidad para este estudio de carácter académico e inferencial.

### Líneas de Trabajo Futuro

1. Incorporar datos de años anteriores para análisis de tendencias temporales
2. Incluir variables económicas si estuvieran disponibles
3. Desarrollar modelos específicos por región para capturar diferencias culturales
4. Explorar interacciones entre variables (ej: escolaridad × urbanización)
5. Comparar con estadísticas de otros países latinoamericanos

---

## Referencias

- Instituto Nacional de Estadística y Geografía. (2024). *Estadística de Matrimonios*. INEGI. https://www.inegi.org.mx/programas/emat/
- Organización de las Naciones Unidas. (2014). *Principios y Recomendaciones para el Sistema de Estadísticas Vitales, Revisión 3*. ONU.
- Scikit-learn: Machine Learning in Python, Pedregosa et al., JMLR 12, pp. 2825-2830, 2011.

---

*Reporte generado como parte del Proyecto Final de la Unidad 1 - SC3314 Inteligencia Artificial*