In [None]:
# Resumen final del an√°lisis
cat("=== RESUMEN FINAL DEL AN√ÅLISIS TWEEDIE ===\n")
cat("==========================================\n")

cat("üìä DATOS:\n")
cat("   - Observaciones analizadas:", nrow(datos_modelo), "\n")
cat("   - Variable respuesta: SumaDePagos (transformada a y_tweedie)\n")
cat("   - Variables predictoras disponibles:", length(vars_predictoras), "\n")

cat("\nüîß PROCESAMIENTO:\n")
cat("   - Variables categ√≥ricas tratadas con as.character() y relevel()\n")
cat("   - Variables num√©ricas winzorizadas (P1-P99)\n")
cat("   - Ceros reemplazados por valor:", valor_remplazo, "\n")

cat("\nüìà MODELO SELECCIONADO:\n")
cat("   - Familia: Tweedie con par√°metro p =", p_optimo, "\n")
cat("   - Variables en modelo final:", length(variables_incluidas), "\n")
if(length(variables_incluidas) > 0) {
  cat("   - Variables incluidas:", paste(variables_incluidas, collapse = ", "), "\n")
}
cat("   - AIC final:", round(AIC(modelo_final), 2), "\n")
cat("   - Pseudo R¬≤ (McFadden):", round(pseudo_r2, 4), "\n")
cat("   - Convergencia:", if(modelo_final$converged) "‚úÖ S√≠" else "‚ùå No", "\n")

cat("\nüéØ DIAGN√ìSTICO (ENVELOPE):\n")
cat("   - Residuos analizados:", n_residuos, "\n")
cat("   - Puntos fuera del envelope:", puntos_fuera, "(", round(prop_fuera * 100, 1), "%)\n")
cat("   - Calidad del ajuste:", 
    if(prop_fuera <= 0.05) "‚úÖ Excelente" 
    else if(prop_fuera <= 0.10) "‚úÖ Bueno" 
    else if(prop_fuera <= 0.15) "‚ö†Ô∏è Moderado" 
    else "‚ùå Problem√°tico", "\n")

cat("\nüí° INTERPRETACI√ìN ACTUARIAL:\n")
if(p_optimo < 1.4) {
  cat("   - Comportamiento Poisson-like: muchos ceros (no siniestros)\n")
  cat("   - Apropiado para modelar frecuencia de siniestros\n")
} else if(p_optimo > 1.6) {
  cat("   - Comportamiento Gamma-like: pocos ceros, alta variabilidad\n")
  cat("   - Apropiado para modelar severidad de siniestros\n")
} else {
  cat("   - Balance Poisson-Gamma: t√≠pico para modelos de siniestralidad\n")
  cat("   - Modelo apropiado para pricing de seguros\n")
}

cat("\n‚úÖ AN√ÅLISIS COMPLETADO EXITOSAMENTE ‚úÖ\n")

In [None]:
# Visualizaci√≥n del Envelope Plot
envelope_plot <- ggplot(df_envelope) +
  # Banda del envelope
  geom_ribbon(aes(x = teoricos, ymin = lower, ymax = upper), 
              fill = "lightblue", alpha = 0.6) +
  # Puntos observados
  geom_point(aes(x = teoricos, y = observados), 
             size = 1.5, alpha = 0.7, color = "darkblue") +
  # L√≠nea de referencia (y = x)
  geom_abline(intercept = 0, slope = 1, color = "red", linewidth = 1, linetype = "dashed") +
  # Etiquetas y tema
  labs(
    title = "Envelope Plot - Diagn√≥stico del Modelo Tweedie",
    subtitle = paste0("Par√°metro p = ", p_optimo, " | ", 
                     puntos_fuera, " puntos fuera del envelope (",
                     round(prop_fuera * 100, 1), "%)"),
    x = "Cuantiles Te√≥ricos (Normal Est√°ndar)",
    y = if(usar_quantile) "Residuos Cuant√≠licos" else "Residuos de Pearson",
    caption = paste0("Bandas de confianza al 95% basadas en ", n_simulaciones, " simulaciones")
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    plot.subtitle = element_text(hjust = 0.5, size = 12),
    plot.caption = element_text(hjust = 0.5, size = 10, color = "gray50")
  )

# Mostrar el plot
print(envelope_plot)

# Interpretaci√≥n estad√≠stica
cat("\n=== INTERPRETACI√ìN DEL ENVELOPE PLOT ===\n")

if(prop_fuera <= 0.05) {
  cat("‚úÖ EXCELENTE AJUSTE: ‚â§ 5% de puntos fuera del envelope\n")
  cat("   El modelo se ajusta muy bien a los datos\n")
} else if(prop_fuera <= 0.10) {
  cat("‚úÖ BUEN AJUSTE: ‚â§ 10% de puntos fuera del envelope\n")
  cat("   El modelo se ajusta adecuadamente a los datos\n")
} else if(prop_fuera <= 0.15) {
  cat("‚ö†Ô∏è  AJUSTE MODERADO: 10-15% de puntos fuera del envelope\n")
  cat("   El modelo tiene algunas deficiencias menores\n")
} else {
  cat("‚ùå AJUSTE PROBLEM√ÅTICO: > 15% de puntos fuera del envelope\n")
  cat("   El modelo no se ajusta bien a los datos\n")
}

cat("\nInterpretaci√≥n adicional:\n")
cat("- Puntos por encima del envelope: posibles outliers o varianza subestimada\n")
cat("- Puntos por debajo del envelope: posible sobre-dispersi√≥n no modelada\n")
cat("- Patrones sistem√°ticos: violaciones de supuestos del modelo\n")

In [None]:
# Construcci√≥n del Envelope Plot
cat("=== CONSTRUCCI√ìN DEL ENVELOPE PLOT ===\n")

if(n_residuos < 20) {
  cat("ADVERTENCIA: Muy pocos residuos v√°lidos para un envelope confiable\n")
}

# Ordenar residuos
residuos_ordenados <- sort(residuos_limpios)

# Cuantiles te√≥ricos de una distribuci√≥n normal est√°ndar
cuantiles_teoricos <- qnorm(ppoints(n_residuos))

cat("Construyendo envelope mediante simulaci√≥n...\n")

# Par√°metros para la simulaci√≥n del envelope
n_simulaciones <- 99  # N√∫mero de simulaciones para construir envelope
alpha <- 0.05         # Nivel de significancia (bandas al 95%)

# Generar simulaciones para el envelope
set.seed(123)  # Para reproducibilidad
simulaciones <- matrix(NA, nrow = n_simulaciones, ncol = n_residuos)

for(i in 1:n_simulaciones) {
  # Simular residuos normales y ordenarlos
  sim_residuos <- rnorm(n_residuos)
  simulaciones[i, ] <- sort(sim_residuos)
}

# Calcular bandas del envelope
envelope_lower <- apply(simulaciones, 2, quantile, alpha/2)
envelope_upper <- apply(simulaciones, 2, quantile, 1 - alpha/2)

cat("Envelope construido con", n_simulaciones, "simulaciones\n")
cat("Bandas de confianza al", (1-alpha)*100, "%\n")

# Crear data frame para el gr√°fico
df_envelope <- data.frame(
  teoricos = cuantiles_teoricos,
  observados = residuos_ordenados,
  lower = envelope_lower,
  upper = envelope_upper
)

# Contar puntos fuera del envelope
puntos_fuera <- sum(df_envelope$observados < df_envelope$lower | 
                   df_envelope$observados > df_envelope$upper)
prop_fuera <- puntos_fuera / n_residuos

cat("Puntos fuera del envelope:", puntos_fuera, "de", n_residuos, 
    "(", round(prop_fuera * 100, 2), "%)\n")

In [None]:
residuos_pearson <- residuals(modelo_final, type = "pearson")
residuos_deviance <- residuals(modelo_final, type = "deviance")

summary(residuos_pearson)
residuos_limpios <- residuos_pearson[is.finite(residuos_pearson) & !is.na(residuos_pearson)]
n_residuos <- length(residuos_limpios)

## Diagn√≥stico del Modelo

In [None]:
# Modelo final seleccionado
cat("=== MODELO FINAL SELECCIONADO ===\n")

modelo_final <- modelo_actual
cat("F√≥rmula final:", deparse(formula(modelo_final)), "\n")
cat("Par√°metro p usado:", p_optimo, "\n")
cat("Convergi√≥:", modelo_final$converged, "\n")
cat("AIC final:", round(AIC(modelo_final), 2), "\n")
cat("Deviance:", round(deviance(modelo_final), 2), "\n")
cat("N√∫mero de par√°metros:", length(coef(modelo_final)), "\n")
cat("Observaciones:", nobs(modelo_final), "\n")

# Pseudo R¬≤ (McFadden)
pseudo_r2 <- 1 - (deviance(modelo_final) / deviance(modelo_nulo))
cat("Pseudo R¬≤ (McFadden):", round(pseudo_r2, 4), "\n")

cat("\n=== RESUMEN DEL MODELO ===\n")
summary(modelo_final)

In [None]:
# Selecci√≥n de modelo mediante AIC Forward
cat("\n=== SELECCI√ìN DE MODELO AIC FORWARD ===\n")

# Definir familia Tweedie con p √≥ptimo
familia_tweedie <- tweedie(var.power = p_optimo, link.power = 0)

# Modelo nulo (solo intercepto)
modelo_nulo <- glm(y_tweedie ~ 1, 
                  data = datos_modelo, 
                  family = familia_tweedie)

cat("Modelo inicial (solo intercepto):\n")
cat("AIC inicial:", round(AIC(modelo_nulo), 2), "\n")
cat("Deviance inicial:", round(deviance(modelo_nulo), 2), "\n\n")

# Algoritmo Forward Selection manual
modelo_actual <- modelo_nulo
aic_actual <- AIC(modelo_actual)
variables_incluidas <- character(0)
variables_disponibles <- vars_predictoras

# Resultado del proceso forward
historial_forward <- data.frame(
  Paso = integer(0),
  Variable_Agregada = character(0),
  AIC = numeric(0),
  Delta_AIC = numeric(0),
  stringsAsFactors = FALSE
)

paso <- 0

cat("=== PROCESO FORWARD STEP-BY-STEP ===\n")

while(length(variables_disponibles) > 0) {
  paso <- paso + 1
  
  cat("\n--- PASO", paso, "---\n")
  cat("Variables disponibles:", paste(variables_disponibles, collapse = ", "), "\n")
  
  mejor_aic <- Inf
  mejor_variable <- NULL
  
  # Probar agregar cada variable disponible
  for(var in variables_disponibles) {
    
    # Crear f√≥rmula con variables actuales + nueva variable
    if(length(variables_incluidas) == 0) {
      formula_test <- as.formula(paste("y_tweedie ~", var))
    } else {
      formula_test <- as.formula(paste("y_tweedie ~", 
                                      paste(variables_incluidas, collapse = " + "), 
                                      "+", var))
    }
    
    tryCatch({
      modelo_test <- glm(formula_test, 
                        data = datos_modelo, 
                        family = familia_tweedie)
      
      if(modelo_test$converged) {
        aic_test <- AIC(modelo_test)
        cat("  ", var, "-> AIC =", round(aic_test, 2), "\n")
        
        if(aic_test < mejor_aic) {
          mejor_aic <- aic_test
          mejor_variable <- var
        }
      } else {
        cat("  ", var, "-> No convergi√≥\n")
      }
      
    }, error = function(e) {
      cat("  ", var, "-> Error:", e$message, "\n")
    })
  }
  
  # Verificar si hay mejora
  if(!is.null(mejor_variable) && mejor_aic < aic_actual) {
    
    # Actualizar modelo
    variables_incluidas <- c(variables_incluidas, mejor_variable)
    variables_disponibles <- variables_disponibles[variables_disponibles != mejor_variable]
    
    # Ajustar modelo actualizado
    if(length(variables_incluidas) == 1) {
      formula_nueva <- as.formula(paste("y_tweedie ~", variables_incluidas[1]))
    } else {
      formula_nueva <- as.formula(paste("y_tweedie ~", paste(variables_incluidas, collapse = " + ")))
    }
    
    modelo_actual <- glm(formula_nueva, data = datos_modelo, family = familia_tweedie)
    delta_aic <- mejor_aic - aic_actual
    aic_actual <- mejor_aic
    
    # Registrar en historial
    historial_forward <- rbind(historial_forward, 
                              data.frame(Paso = paso,
                                        Variable_Agregada = mejor_variable,
                                        AIC = mejor_aic,
                                        Delta_AIC = delta_aic,
                                        stringsAsFactors = FALSE))
    
    cat("\n‚úì AGREGADA:", mejor_variable, "\n")
    cat("  Nuevo AIC:", round(mejor_aic, 2), "\n")
    cat("  Mejora AIC:", round(delta_aic, 2), "\n")
    cat("  Variables en modelo:", paste(variables_incluidas, collapse = ", "), "\n")
    
  } else {
    cat("\n‚úó No hay mejora significativa. Deteniendo forward selection.\n")
    break
  }
}

cat("\n=== RESULTADO FINAL FORWARD SELECTION ===\n")
cat("Variables seleccionadas:", paste(variables_incluidas, collapse = ", "), "\n")
cat("AIC final:", round(aic_actual, 2), "\n")
cat("Mejora total AIC:", round(AIC(modelo_nulo) - aic_actual, 2), "\n")

print(historial_forward)

In [None]:
p_candidatos <- seq(1.1, 1.9, by = 0.1)
aic_resultados <- numeric(length(p_candidatos))

vars_predictoras <- c("Color", "Carroceria", "CLASE_FASECOLDA", 
                     "TIPO_VEHICULO", "SERVICIO", "Sexo_Aseg", 
                     "Edad", "Vr_Comercial", "Accidentado")

for(i in seq_along(p_candidatos)) {
  p_test <- p_candidatos[i]
  
  tryCatch({
    modelo_test <- glm(y_tweedie ~ 1, 
                      data = datos_modelo,
                      family = tweedie(var.power = p_test, link.power = 0))
    
    if(modelo_test$converged) {
      aic_resultados[i] <- AIC(modelo_test)
    } else {
      aic_resultados[i] <- Inf
    }
    
  }, error = function(e) {
    aic_resultados[i] <- Inf
  })
}

p_optimo <- p_candidatos[which.min(aic_resultados)]
cat("Par√°metro p √≥ptimo:", p_optimo, "\n")

## Selecci√≥n de Modelo

In [None]:
# Tratamiento de variables num√©ricas
cat("\n=== TRATAMIENTO DE VARIABLES NUM√âRICAS ===\n")

vars_numericas <- c("Edad", "Vr_Comercial")

for(var in vars_numericas) {
  if(var %in% names(datos_modelo)) {
    cat("\n--- Procesando variable num√©rica:", var, "---\n")
    
    x <- datos_modelo[[var]]
    
    # Tratar valores faltantes con la mediana
    n_na <- sum(is.na(x))
    if(n_na > 0) {
      mediana <- median(x, na.rm = TRUE)
      x[is.na(x)] <- mediana
      cat("Reemplazados", n_na, "valores faltantes con mediana =", mediana, "\n")
    }
    
    # Winsorizaci√≥n de outliers extremos (P1 y P99)
    p01 <- quantile(x, 0.01, na.rm = TRUE)
    p99 <- quantile(x, 0.99, na.rm = TRUE)
    
    outliers_inf <- sum(x < p01)
    outliers_sup <- sum(x > p99)
    
    if(outliers_inf > 0) {
      x[x < p01] <- p01
      cat("Winsorized", outliers_inf, "outliers inferiores al P1 =", p01, "\n")
    }
    
    if(outliers_sup > 0) {
      x[x > p99] <- p99
      cat("Winsorized", outliers_sup, "outliers superiores al P99 =", p99, "\n")
    }
    
    # Actualizar en el dataset
    datos_modelo[[var]] <- x
    
    cat("Rango final:", range(x), "\n")
  }
}

# Mostrar resumen del dataset preparado
cat("\n=== RESUMEN DEL DATASET PREPARADO ===\n")
cat("Dimensiones finales:", dim(datos_modelo), "\n")
cat("Variables categ√≥ricas procesadas:", length(vars_categoricas), "\n")
cat("Variables num√©ricas procesadas:", length(vars_numericas), "\n")

In [None]:
# Tratamiento expl√≠cito de variables categ√≥ricas usando as.character() y relevel()
cat("\n=== TRATAMIENTO DE VARIABLES CATEG√ìRICAS ===\n")

# Lista de variables categ√≥ricas a procesar
vars_categoricas <- c("Color", "Carroceria", "CLASE_FASECOLDA", 
                     "TIPO_VEHICULO", "SERVICIO", "Sexo_Aseg", "Accidentado")

for(var in vars_categoricas) {
  cat("\n--- Procesando variable:", var, "---\n")
  
  # Paso 1: Convertir expl√≠citamente a character
  var_char <- as.character(datos_modelo[[var]])
  cat("Convertida a character, clase:", class(var_char), "\n")
  
  # Paso 2: Limpiar valores problem√°ticos
  # Reemplazar NAs, espacios vac√≠os, etc.
  var_char[is.na(var_char) | var_char == "" | var_char == " "] <- "Desconocido"
  
  # Paso 3: Analizar frecuencias y agrupar niveles raros
  tabla_freq <- table(var_char)
  n_niveles_inicial <- length(tabla_freq)
  
  # Agrupar niveles con menos de 10 observaciones en "Otros"
  niveles_raros <- names(tabla_freq)[tabla_freq < 10]
  if(length(niveles_raros) > 0) {
    var_char[var_char %in% niveles_raros] <- "Otros"
    cat("Agrupados", length(niveles_raros), "niveles raros en 'Otros'\n")
  }
  
  # Paso 4: Convertir a factor
  var_factor <- factor(var_char)
  n_niveles_final <- nlevels(var_factor)
  
  cat("Niveles: inicial =", n_niveles_inicial, ", final =", n_niveles_final, "\n")
  
  # Paso 5: Aplicar relevel() expl√≠citamente con as.character()
  # Usar el nivel m√°s frecuente como referencia
  tabla_final <- table(var_factor)
  nivel_mas_frecuente <- names(tabla_final)[which.max(tabla_final)]
  
  cat("Nivel m√°s frecuente:", nivel_mas_frecuente, 
      "(", max(tabla_final), "observaciones)\n")
  
  # Aplicar relevel usando as.character expl√≠citamente
  var_factor_releveled <- relevel(var_factor, ref = as.character(nivel_mas_frecuente))
  
  cat("Nivel de referencia establecido:", levels(var_factor_releveled)[1], "\n")
  cat("Todos los niveles:", paste(levels(var_factor_releveled), collapse = ", "), "\n")
  
  # Asignar la variable procesada al dataset
  datos_modelo[[var]] <- var_factor_releveled
  
  # Mostrar tabla final de frecuencias
  cat("Tabla final de frecuencias:\n")
  print(table(datos_modelo[[var]]))
}

In [None]:
datos_modelo <- datos
min_positivo <- min(datos_modelo$SumaDePagos[datos_modelo$SumaDePagos > 0])
valor_remplazo <- min_positivo / 1000

datos_modelo$y_tweedie <- ifelse(datos_modelo$SumaDePagos == 0, 
                                valor_remplazo, 
                                datos_modelo$SumaDePagos)

## Preparaci√≥n de Datos

In [None]:
# An√°lisis de variables num√©ricas
cat("=== AN√ÅLISIS DE VARIABLES NUM√âRICAS ===\n")

variables_numericas <- c("Edad", "Vr_Comercial", "exposicion")

for(var in variables_numericas) {
  if(var %in% names(datos)) {
    cat("\n--- Variable:", var, "---\n")
    
    x <- datos[[var]]
    
    # Estad√≠sticas descriptivas
    cat("Estad√≠sticas b√°sicas:\n")
    print(summary(x))
    
    # Detectar valores faltantes
    n_na <- sum(is.na(x))
    if(n_na > 0) {
      cat("Valores faltantes:", n_na, "(", round(n_na/length(x) * 100, 2), "%)\n")
    }
    
    # Detectar outliers usando criterio IQR
    q1 <- quantile(x, 0.25, na.rm = TRUE)
    q3 <- quantile(x, 0.75, na.rm = TRUE)
    iqr <- q3 - q1
    outliers_inf <- sum(x < (q1 - 1.5 * iqr), na.rm = TRUE)
    outliers_sup <- sum(x > (q3 + 1.5 * iqr), na.rm = TRUE)
    
    cat("Outliers inferiores:", outliers_inf, "\n")
    cat("Outliers superiores:", outliers_sup, "\n")
    cat("Total outliers:", outliers_inf + outliers_sup, 
        "(", round((outliers_inf + outliers_sup)/length(x) * 100, 2), "%)\n")
  }
}

In [None]:
# An√°lisis de variables categ√≥ricas
cat("=== AN√ÅLISIS DE VARIABLES CATEG√ìRICAS ===\n")

variables_categoricas <- c("Amparo", "Color", "Carroceria", "CLASE_FASECOLDA", 
                          "TIPO_VEHICULO", "SERVICIO", "Sexo_Aseg", "Accidentado")

for(var in variables_categoricas) {
  if(var %in% names(datos)) {
    cat("\n--- Variable:", var, "---\n")
    
    # Convertir a character para an√°lisis
    var_char <- as.character(datos[[var]])
    
    # Tabla de frecuencias
    tabla_freq <- table(var_char, useNA = "ifany")
    n_niveles <- length(tabla_freq)
    
    cat("N√∫mero de niveles √∫nicos:", n_niveles, "\n")
    cat("Tabla de frecuencias:\n")
    print(sort(tabla_freq, decreasing = TRUE))
    
    # Calcular proporci√≥n de la moda
    freq_max <- max(tabla_freq)
    prop_moda <- freq_max / sum(tabla_freq)
    cat("Proporci√≥n de la moda:", round(prop_moda * 100, 2), "%\n")
  }
}

In [None]:
# Visualizaciones de la variable respuesta
p1 <- ggplot(datos, aes(x = SumaDePagos)) +
  geom_histogram(bins = 100, fill = "lightblue", alpha = 0.7) +
  labs(title = "Distribuci√≥n de SumaDePagos (Todos los valores)",
       x = "Suma de Pagos", y = "Frecuencia") +
  theme_minimal()

# Solo valores positivos en escala logar√≠tmica
datos_pos <- datos[datos$SumaDePagos > 0, ]
p2 <- ggplot(datos_pos, aes(x = SumaDePagos)) +
  geom_histogram(bins = 50, fill = "steelblue", alpha = 0.7) +
  scale_x_log10() +
  labs(title = "Distribuci√≥n de SumaDePagos (Valores positivos - log10)",
       x = "Suma de Pagos (log10)", y = "Frecuencia") +
  theme_minimal()

# Mostrar ambos gr√°ficos
grid.arrange(p1, p2, ncol = 2)

In [None]:
summary(datos$SumaDePagos)
n_total <- length(datos$SumaDePagos)
n_ceros <- sum(datos$SumaDePagos == 0)
prop_ceros <- n_ceros / n_total

cat("Total observaciones:", n_total, "\n")
cat("Valores cero:", n_ceros, "(", round(prop_ceros * 100, 2), "%)\n")

## An√°lisis Descriptivo

In [None]:
# Mostrar primeras observaciones
cat("=== PRIMERAS 10 OBSERVACIONES ===\n")
head(datos, 10)

# Resumen de todas las variables
cat("\n=== RESUMEN ESTAD√çSTICO INICIAL ===\n")
summary(datos)

In [None]:
ruta_datos <- "../data/processed/datos_limpios.csv"
datos <- read.csv(ruta_datos, stringsAsFactors = FALSE)
str(datos)

## Carga de Datos

In [None]:
# Cargar librer√≠as necesarias
library(statmod)
library(tweedie)
library(ggplot2)
library(gridExtra)
library(corrplot)

# Configuraci√≥n de opciones
options(scipen = 999)  # Evitar notaci√≥n cient√≠fica
set.seed(123)          # Reproducibilidad

# An√°lisis de Modelo Tweedie para Datos de Seguros