<div align="center">

# **Siniestros**

</div>

## Librerias

In [1]:
library(readxl)
library(lubridate)
library(dplyr)


Attaching package: ‘lubridate’


The following objects are masked from ‘package:base’:

    date, intersect, setdiff, union



Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union




In [2]:
source("../src/data/ajuste_dinero_ipc.R")

## Data

In [3]:
siniestros <- read_excel("../data/input/Siniestros_Hist.xlsx")

In [4]:
colnames(siniestros)

In [5]:
names(siniestros) <- c(
  "Fecha",
  "Prima_efectivamente_pagada_hasta_fecha_siniestro",
  "Prima_suscrita_incluida_cobertura_responsabilidad_civil",
  "Asegurado_otras_coberturas_distintas_responsabilidad_civil",
  "Asegurado_original",
  "Efectivamente_pagado_por_siniestro",
  "Siniestro_incurrido",
  "Deducible",
  "Recobro_obtenido",
  "Reserva_constituida_para_amparo",
  "Reserva_pagada_para_amparo",
  "Fecha_pago_amparo",
  "Estado_final_siniestro",
  "Cobertura"
)

In [6]:
unique(siniestros$Cobertura)

In [7]:
siniestros$Cobertura <- factor(siniestros$Cobertura,
                               levels = c("PTH", "PPD", "RC BIENES", "PPH", "RC PERS"),
                               labels = c("pth", 
                                          "ppd",
                                          "rc",
                                          "pph",
                                          "rc"))

Juntamos ambas responsabilidades civiles para que concuerde con las coberturas de polizas_v2.txt

## Fechas

In [8]:
siniestros$Fecha <- as.Date(siniestros$Fecha)

In [9]:
unique(format(siniestros$Fecha, "%Y"))

In [10]:
unique(format(siniestros$Fecha[year(siniestros$Fecha) == 2017], "%m"))

In [11]:
unique(format(siniestros$Fecha[year(siniestros$Fecha) == 2018], "%m"))

Vamos a ignorar 2017 porque solo hay datos de enero

In [12]:
siniestros <- siniestros[year(siniestros$Fecha) == 2018, ]

## Nulos

In [13]:
sum(is.na(siniestros))

In [14]:
colSums(is.na(siniestros))

Fecha_pago_amparo no es relevante para la modelacion que estamos llevando a cabo

## Eliminando duplicados

In [15]:
siniestros <- unique(siniestros)

## Seleccion de columnas

Vamos a seleccionar Siniestro_incurrido como la severidad, pues es el valor neto de los siniestros sin haber descontado el pago del deducible u otras posibles alteraciones del valor de cada accidente

In [16]:
siniestros <- siniestros[, c("Fecha", "Siniestro_incurrido", "Cobertura")]
names(siniestros) <- c("fecha", "severidad", "cobertura")
siniestros$semana <- week(siniestros$fecha)
siniestros$dia <- yday(siniestros$fecha)

## Llevando la severidad a enero de 2019

In [17]:
siniestros <- ajuste_dinero_ipc(siniestros, "fecha", "severidad")

## Segmentando por cobertura y eliminado valores extraños

- pph

In [18]:
siniestros_pph <- siniestros[(siniestros$cobertura) == "pph", ]
siniestros_pph$cobertura <- NULL
head(sort(unique(siniestros_pph$severidad)),20)

In [19]:
nrow(siniestros_pph[(siniestros_pph$severidad < 70000),])*100/nrow(siniestros_pph)

In [20]:
siniestros_pph <- siniestros_pph[(siniestros_pph$severidad >= 70000),]

In [21]:
write.csv(siniestros_pph$severidad, "../data/processed/severidad_pph.csv")

- pth

In [22]:
siniestros_pth <- siniestros[(siniestros$cobertura) == "pth", ]
siniestros_pth$cobertura <- NULL
head(sort(unique(siniestros_pth$severidad)),20)

In [23]:
nrow(siniestros_pth[(siniestros_pth$severidad < 3000000),])*100/nrow(siniestros_pth)

In [24]:
siniestros_pth <- siniestros_pth[(siniestros_pth$severidad >= 3000000),]

In [25]:
write.csv(siniestros_pth$severidad, "../data/processed/severidad_pth.csv")

- ppd

In [26]:
siniestros_ppd <- siniestros[(siniestros$cobertura) == "ppd", ]
siniestros_ppd$cobertura <- NULL
head(sort(unique(siniestros_ppd$severidad)) ,20)

In [27]:
nrow(siniestros_ppd[(siniestros_ppd$severidad < 70000),])*100/nrow(siniestros_ppd)

In [28]:
siniestros_ppd <- siniestros_ppd[(siniestros_ppd$severidad >= 70000),]

In [29]:
write.csv(siniestros_ppd$severidad, "../data/processed/severidad_ppd.csv")

- rh

In [30]:
siniestros_rc <- siniestros[(siniestros$cobertura) == "rc", ]
siniestros_rc$cobertura <- NULL
head(sort(unique(siniestros_rc$severidad)),20)

In [31]:
nrow(siniestros_rc[(siniestros_rc$severidad < 500000),])*100/nrow(siniestros_rc)

In [32]:
siniestros_rc <- siniestros_rc[(siniestros_rc$severidad >= 500000),]

In [33]:
write.csv(siniestros_rc$severidad, "../data/processed/severidad_rc.csv")

## Agrupando por semanas

- pph

In [34]:
siniestros_pph_semana <- siniestros_pph %>%
  group_by(semana) %>%
  summarise(
    severidad = sum(severidad),
    siniestros = n()
  )

write.csv(siniestros_pph_semana, "../data/processed/siniestros_pph_semana.csv")

In [35]:
siniestros_pph_dia <- siniestros_pph %>%
  group_by(dia) %>%
  summarise(
    severidad = sum(severidad),
    siniestros = n()
  )

write.csv(siniestros_pph_dia, "../data/processed/siniestros_pph_dia.csv")

- pth

In [36]:
siniestros_pth_semana <- siniestros_pth %>%
  group_by(semana) %>%
  summarise(
    severidad = sum(severidad),
    siniestros = n()
  )

write.csv(siniestros_pth_semana, "../data/processed/siniestros_pth_semana.csv")

In [37]:
siniestros_pth_dia <- siniestros_pth %>%
  group_by(dia) %>%
  summarise(
    severidad = sum(severidad),
    siniestros = n()
  )

write.csv(siniestros_pth_dia, "../data/processed/siniestros_pth_dia.csv")

- ppd

In [38]:
siniestros_ppd_semana <- siniestros_ppd %>%
  group_by(semana) %>%
  summarise(
    severidad = sum(severidad),
    siniestros = n()
  )

write.csv(siniestros_ppd_semana, "../data/processed/siniestros_ppd_semana.csv")

In [39]:
siniestros_ppd_dia <- siniestros_ppd %>%
  group_by(dia) %>%
  summarise(
    severidad = sum(severidad),
    siniestros = n()
  )

write.csv(siniestros_ppd_dia, "../data/processed/siniestros_ppd_dia.csv")

- rc

In [40]:
siniestros_rc_semana <- siniestros_rc %>%
  group_by(semana) %>%
  summarise(
    severidad = sum(severidad),
    siniestros = n()
  )

write.csv(siniestros_rc_semana, "../data/processed/siniestros_rc_semana.csv")

In [41]:
siniestros_rc_dia <- siniestros_rc %>%
  group_by(dia) %>%
  summarise(
    severidad = sum(severidad),
    siniestros = n()
  )

write.csv(siniestros_rc_dia, "../data/processed/siniestros_rc_dia.csv")