<div align="center">

# **Predicciones de Modelos GLM**

</div>

Este notebook calcula las predicciones para todas las combinaciones posibles de variables explicativas en los modelos de frecuencia y severidad.

## Librerías y Carga de Modelos

In [1]:
library(dplyr)
library(tidyr)
library(knitr)
library(kableExtra)

# Cargar modelos entrenados
modelo_frecuencia <- readRDS("../models/modelo_frecuencia_quasipoisson.rds")
modelo_severidad <- readRDS("../models/modelo_severidad_lognormal.rds")

# Cargar datos procesados
datos <- read.csv("../data/processed/tabla_severidad.csv")
datos$X <- NULL


Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union



Attaching package: ‘kableExtra’


The following object is masked from ‘package:dplyr’:

    group_rows




## Establecer Categorías de Referencia

In [2]:
establecer_categorias_referencia <- function(df, vars_categoricas, var_exposicion = "exposicion_total") {
  df_copy <- df
  
  for (var in vars_categoricas) {
    if (var %in% colnames(df_copy)) {
      exposicion_por_categoria <- aggregate(df_copy[[var_exposicion]], 
                                          by = list(df_copy[[var]]), 
                                          FUN = sum, na.rm = TRUE)
      names(exposicion_por_categoria) <- c("categoria", "exposicion_total")
      
      categoria_referencia <- exposicion_por_categoria$categoria[which.max(exposicion_por_categoria$exposicion_total)]
      
      df_copy[[var]] <- factor(df_copy[[var]])
      df_copy[[var]] <- relevel(df_copy[[var]], ref = as.character(categoria_referencia))
    }
  }
  
  return(df_copy)
}

vars_categoricas <- c("Modelo", "Color", "Carroceria", "SERVICIO", "Sexo_Aseg", "Edad", "Gama")
datos <- establecer_categorias_referencia(datos, vars_categoricas)

# Verificar niveles de factores
cat("Niveles de variables:\n")
cat("Modelo:", levels(datos$Modelo), "\n")
cat("Edad:", levels(datos$Edad), "\n")
cat("Color:", levels(datos$Color), "\n")
cat("Carroceria:", levels(datos$Carroceria), "\n")
cat("SERVICIO:", levels(datos$SERVICIO), "\n")

Niveles de variables:
Modelo: 2007_2013 1993_1999 2000_2006 
Edad: 41_63 19_41 63_85 Otros 
Color: Otros AMARILLO BLANCO PLATA 
Carroceria: SEDAN CABINADO HATCHBACK Otros 
SERVICIO: Particular Oficial Publico Transporte Personal 


## ANÁLISIS 1: Modelo de Frecuencia (Quasi-Poisson)

Variables explicativas: **Modelo + Edad**

In [3]:
# Crear todas las combinaciones posibles para frecuencia
combinaciones_freq <- expand.grid(
  Modelo = levels(datos$Modelo),
  Edad = levels(datos$Edad),
  stringsAsFactors = FALSE
)

# Añadir exposición estándar de 1 año
combinaciones_freq$exposicion_total <- 1

cat("Combinaciones para modelo de frecuencia:", nrow(combinaciones_freq), "\n")
print(combinaciones_freq)

Combinaciones para modelo de frecuencia: 12 
      Modelo  Edad exposicion_total
1  2007_2013 41_63                1
2  1993_1999 41_63                1
3  2000_2006 41_63                1
4  2007_2013 19_41                1
5  1993_1999 19_41                1
6  2000_2006 19_41                1
7  2007_2013 63_85                1
8  1993_1999 63_85                1
9  2000_2006 63_85                1
10 2007_2013 Otros                1
11 1993_1999 Otros                1
12 2000_2006 Otros                1


In [4]:
# Convertir a factores con los mismos niveles que los datos originales
combinaciones_freq$Modelo <- factor(combinaciones_freq$Modelo, levels = levels(datos$Modelo))
combinaciones_freq$Edad <- factor(combinaciones_freq$Edad, levels = levels(datos$Edad))

# Calcular predicciones de frecuencia
predicciones_freq <- predict(modelo_frecuencia, newdata = combinaciones_freq, type = "response")

# TABLA COMPLETA DE FRECUENCIAS - TODAS LAS COMBINACIONES
tabla_frecuencia_completa <- data.frame(
  Modelo = combinaciones_freq$Modelo,
  Edad = combinaciones_freq$Edad,
  Frecuencia_Esperada = round(predicciones_freq, 6)
) %>%
  arrange(desc(Frecuencia_Esperada))

cat("\n═══════════════════════════════════════════════════════════════════\n")
cat("      TABLA COMPLETA - MODELO DE FRECUENCIA (12 COMBINACIONES)     \n")
cat("═══════════════════════════════════════════════════════════════════\n")
cat("Variables: Modelo + Edad | Distribución: Quasi-Poisson\n")
cat("Ordenada de mayor a menor frecuencia esperada\n\n")
print(tabla_frecuencia_completa, row.names = FALSE)

# Exportar tabla para LaTeX
write.csv(tabla_frecuencia_completa, "../data/output/tabla_frecuencia_completa.csv", row.names = FALSE)

cat("\n✅ Tabla de frecuencia exportada: tabla_frecuencia_completa.csv\n")
cat("📊 Total de combinaciones:", nrow(tabla_frecuencia_completa), "\n")


═══════════════════════════════════════════════════════════════════
      TABLA COMPLETA - MODELO DE FRECUENCIA (12 COMBINACIONES)     
═══════════════════════════════════════════════════════════════════
Variables: Modelo + Edad | Distribución: Quasi-Poisson
Ordenada de mayor a menor frecuencia esperada

    Modelo  Edad Frecuencia_Esperada
 2000_2006 Otros            0.320443
 2000_2006 19_41            0.314085
 2000_2006 63_85            0.307532
 2000_2006 41_63            0.269351
 1993_1999 Otros            0.266723
 1993_1999 19_41            0.261431
 1993_1999 63_85            0.255976
 2007_2013 Otros            0.247011
 2007_2013 19_41            0.242110
 2007_2013 63_85            0.237058
 1993_1999 41_63            0.224196
 2007_2013 41_63            0.207627

✅ Tabla de frecuencia exportada: tabla_frecuencia_completa.csv
📊 Total de combinaciones: 12 


In [5]:
# Crear tabla pivot para frecuencia (mejor formato para LaTeX)
tabla_pivot_frecuencia <- tabla_frecuencia_completa %>%
  select(Modelo, Edad, Frecuencia_Esperada) %>%
  pivot_wider(names_from = Edad, values_from = Frecuencia_Esperada) %>%
  mutate_if(is.numeric, ~ round(.x, 6))

cat("\n═══════════════════════════════════════════════════════════════════\n")
cat("                  TABLA PIVOT - FRECUENCIAS                        \n")
cat("═══════════════════════════════════════════════════════════════════\n")
print(tabla_pivot_frecuencia, row.names = FALSE)

# Exportar tabla pivot para LaTeX
write.csv(tabla_pivot_frecuencia, "../data/output/tabla_pivot_frecuencia.csv", row.names = FALSE)

cat("\n✅ Tabla pivot de frecuencia exportada: tabla_pivot_frecuencia.csv\n")


═══════════════════════════════════════════════════════════════════


                  TABLA PIVOT - FRECUENCIAS                        
═══════════════════════════════════════════════════════════════════
[90m# A tibble: 3 × 5[39m
  Modelo    Otros `19_41` `63_85` `41_63`
  [3m[90m<fct>[39m[23m     [3m[90m<dbl>[39m[23m   [3m[90m<dbl>[39m[23m   [3m[90m<dbl>[39m[23m   [3m[90m<dbl>[39m[23m
[90m1[39m 2000_2006 0.320   0.314   0.308   0.269
[90m2[39m 1993_1999 0.267   0.261   0.256   0.224
[90m3[39m 2007_2013 0.247   0.242   0.237   0.208

✅ Tabla pivot de frecuencia exportada: tabla_pivot_frecuencia.csv


## ANÁLISIS 2: Modelo de Severidad (Log-Normal)

Variables explicativas: **Modelo + Color + Carrocería + Servicio + Edad**

In [6]:
# Crear todas las combinaciones posibles para severidad
combinaciones_sev <- expand.grid(
  Modelo = levels(datos$Modelo),
  Color = levels(datos$Color),
  Carroceria = levels(datos$Carroceria),
  SERVICIO = levels(datos$SERVICIO),
  Edad = levels(datos$Edad),
  stringsAsFactors = FALSE
)

cat("Combinaciones para modelo de severidad:", nrow(combinaciones_sev), "\n")
cat("Primeras 10 combinaciones:\n")
print(head(combinaciones_sev, 10))

Combinaciones para modelo de severidad: 768 
Primeras 10 combinaciones:
      Modelo    Color Carroceria   SERVICIO  Edad
1  2007_2013    Otros      SEDAN Particular 41_63
2  1993_1999    Otros      SEDAN Particular 41_63
3  2000_2006    Otros      SEDAN Particular 41_63
4  2007_2013 AMARILLO      SEDAN Particular 41_63
5  1993_1999 AMARILLO      SEDAN Particular 41_63
6  2000_2006 AMARILLO      SEDAN Particular 41_63
7  2007_2013   BLANCO      SEDAN Particular 41_63
8  1993_1999   BLANCO      SEDAN Particular 41_63
9  2000_2006   BLANCO      SEDAN Particular 41_63
10 2007_2013    PLATA      SEDAN Particular 41_63


In [7]:
# Convertir a factores con los mismos niveles que los datos originales
combinaciones_sev$Modelo <- factor(combinaciones_sev$Modelo, levels = levels(datos$Modelo))
combinaciones_sev$Color <- factor(combinaciones_sev$Color, levels = levels(datos$Color))
combinaciones_sev$Carroceria <- factor(combinaciones_sev$Carroceria, levels = levels(datos$Carroceria))
combinaciones_sev$SERVICIO <- factor(combinaciones_sev$SERVICIO, levels = levels(datos$SERVICIO))
combinaciones_sev$Edad <- factor(combinaciones_sev$Edad, levels = levels(datos$Edad))

# Calcular predicciones de severidad (en escala logarítmica)
predicciones_sev_log <- predict(modelo_severidad, newdata = combinaciones_sev, type = "response")

# Convertir de logaritmo a escala original
predicciones_sev <- exp(predicciones_sev_log)

# TABLA COMPLETA DE SEVERIDAD - TODAS LAS COMBINACIONES
tabla_severidad_completa <- data.frame(
  Modelo = combinaciones_sev$Modelo,
  Color = combinaciones_sev$Color,
  Carroceria = combinaciones_sev$Carroceria,
  SERVICIO = combinaciones_sev$SERVICIO,
  Edad = combinaciones_sev$Edad,
  Severidad_Esperada = round(predicciones_sev, 0)
) %>%
  arrange(desc(Severidad_Esperada))

cat("\n═══════════════════════════════════════════════════════════════════\n")
cat("      TABLA COMPLETA - MODELO DE SEVERIDAD (768 COMBINACIONES)     \n")
cat("═══════════════════════════════════════════════════════════════════\n")
cat("Variables: Modelo + Color + Carrocería + Servicio + Edad\n")
cat("Distribución: Log-Normal | Ordenada de mayor a menor severidad\n\n")

# Mostrar las primeras 30 y últimas 10 combinaciones
cat("PRIMERAS 30 COMBINACIONES (Mayor severidad):\n")
print(head(tabla_severidad_completa, 30), row.names = FALSE)

cat("\n...\n")
cat("ÚLTIMAS 10 COMBINACIONES (Menor severidad):\n")  
print(tail(tabla_severidad_completa, 10), row.names = FALSE)

# Exportar tabla completa para LaTeX
write.csv(tabla_severidad_completa, "../data/output/tabla_severidad_completa.csv", row.names = FALSE)

cat("\n✅ Tabla de severidad exportada: tabla_severidad_completa.csv\n")
cat("📊 Total de combinaciones:", nrow(tabla_severidad_completa), "\n")
cat("💰 Severidad mínima:", format(min(tabla_severidad_completa$Severidad_Esperada), big.mark = ","), "COP\n")
cat("💰 Severidad máxima:", format(max(tabla_severidad_completa$Severidad_Esperada), big.mark = ","), "COP\n")


═══════════════════════════════════════════════════════════════════
      TABLA COMPLETA - MODELO DE SEVERIDAD (768 COMBINACIONES)     
═══════════════════════════════════════════════════════════════════
Variables: Modelo + Color + Carrocería + Servicio + Edad
Distribución: Log-Normal | Ordenada de mayor a menor severidad



PRIMERAS 30 COMBINACIONES (Mayor severidad):
    Modelo  Color Carroceria SERVICIO  Edad Severidad_Esperada
 2007_2013  Otros  HATCHBACK  Publico 19_41          168558185
 2007_2013  Otros  HATCHBACK  Publico 41_63          161588960
 2007_2013  Otros      SEDAN  Publico 19_41          142153897
 2007_2013  Otros      SEDAN  Publico 41_63          136276387
 2007_2013  Otros  HATCHBACK  Publico 63_85           96173907
 2007_2013  Otros  HATCHBACK  Publico Otros           95376310
 2007_2013  PLATA  HATCHBACK  Publico 19_41           94092616
 2007_2013  PLATA  HATCHBACK  Publico 41_63           90202253
 2000_2006  Otros  HATCHBACK  Publico 19_41           85615135
 2007_2013 BLANCO  HATCHBACK  Publico 19_41           82913885
 2000_2006  Otros  HATCHBACK  Publico 41_63           82075282
 2007_2013  Otros      SEDAN  Publico 63_85           81108465
 2007_2013  Otros      SEDAN  Publico Otros           80435810
 2007_2013 BLANCO  HATCHBACK  Publico 41_63           79485719
 2007_2013

In [8]:
# TABLA COMPLETA DE SEVERIDAD - TODAS LAS 768 COMBINACIONES
# Crear tabla formateada para LaTeX con todas las combinaciones
tabla_severidad_768_completa <- tabla_severidad_completa %>%
  mutate(
    Ranking = row_number(),
    Severidad_LaTeX = paste0("\\$", format(Severidad_Esperada, big.mark = ","))
  ) %>%
  select(Ranking, Modelo, Color, Carroceria, SERVICIO, Edad, Severidad_Esperada, Severidad_LaTeX)

cat("\n═══════════════════════════════════════════════════════════════════\n")
cat("        TABLA COMPLETA DE SEVERIDAD - 768 COMBINACIONES            \n")
cat("═══════════════════════════════════════════════════════════════════\n")
cat("Para insertar en documentación LaTeX\n\n")

# Mostrar estructura de la tabla
cat("Estructura de la tabla (primeras 20 filas):\n")
print(head(tabla_severidad_768_completa, 20), row.names = FALSE)

cat("\n...")
cat("\nÚltimas 5 filas:\n")
print(tail(tabla_severidad_768_completa, 5), row.names = FALSE)

# Exportar tabla completa para LaTeX
write.csv(tabla_severidad_768_completa, "../data/output/tabla_severidad_768_completa.csv", row.names = FALSE)

cat("\n✅ Tabla completa de 768 combinaciones exportada: tabla_severidad_768_completa.csv\n")
cat("📊 Combinaciones ordenadas de mayor a menor severidad esperada\n")


═══════════════════════════════════════════════════════════════════
        TABLA COMPLETA DE SEVERIDAD - 768 COMBINACIONES            
═══════════════════════════════════════════════════════════════════
Para insertar en documentación LaTeX

Estructura de la tabla (primeras 20 filas):
 Ranking    Modelo  Color Carroceria SERVICIO  Edad Severidad_Esperada
       1 2007_2013  Otros  HATCHBACK  Publico 19_41          168558185
       2 2007_2013  Otros  HATCHBACK  Publico 41_63          161588960
       3 2007_2013  Otros      SEDAN  Publico 19_41          142153897
       4 2007_2013  Otros      SEDAN  Publico 41_63          136276387
       5 2007_2013  Otros  HATCHBACK  Publico 63_85           96173907
       6 2007_2013  Otros  HATCHBACK  Publico Otros           95376310
       7 2007_2013  PLATA  HATCHBACK  Publico 19_41           94092616
       8 2007_2013  PLATA  HATCHBACK  Publico 41_63           90202253
       9 2000_2006  Otros  HATCHBACK  Publico 19_41           85615135
   