<div align="center">

# **Exploracion y limpieza de los siniestros**

</div>

## Librerias

In [271]:
library(readxl)
library(lubridate)

In [272]:
source("../src/data/ajuste_dinero_ipc.R")

## Data

In [273]:
siniestros <- read_excel("../data/input/Siniestros_Hist.xlsx")

In [274]:
colnames(siniestros)

In [275]:
names(siniestros) <- c(
  "Fecha",
  "Prima_efectivamente_pagada_hasta_fecha_siniestro",
  "Prima_suscrita_incluida_cobertura_responsabilidad_civil",
  "Asegurado_otras_coberturas_distintas_responsabilidad_civil",
  "Asegurado_original",
  "Efectivamente_pagado_por_siniestro",
  "Siniestro_incurrido",
  "Deducible",
  "Recobro_obtenido",
  "Reserva_constituida_para_amparo",
  "Reserva_pagada_para_amparo",
  "Fecha_pago_amparo",
  "Estado_final_siniestro",
  "Cobertura"
)

In [276]:
unique(siniestros$Cobertura)

In [277]:
siniestros$Cobertura <- factor(siniestros$Cobertura,
                               levels = c("PTH", "PPD", "RC BIENES", "PPH", "RC PERS"),
                               labels = c("pth", 
                                          "ppd",
                                          "rc",
                                          "pph",
                                          "rc"))

Juntamos ambas responsabilidades civiles para que concuerde con las coberturas de polizas_v2.txt

## Fechas

In [278]:
siniestros$Fecha <- as.Date(siniestros$Fecha)

In [279]:
unique(format(siniestros$Fecha, "%Y"))

In [280]:
unique(format(siniestros$Fecha[year(siniestros$Fecha) == 2017], "%m"))

In [281]:
unique(format(siniestros$Fecha[year(siniestros$Fecha) == 2018], "%m"))

Vamos a ignorar 2017 porque solo hay datos de enero

In [282]:
siniestros <- siniestros[year(siniestros$Fecha) == 2018, ]

## Nulos

In [283]:
sum(is.na(siniestros))

In [284]:
colSums(is.na(siniestros))

Fecha_pago_amparo no es relevante para la modelacion que estamos llevando a cabo

## Eliminando duplicados

In [285]:
siniestros <- unique(siniestros)

## Seleccion de columnas

Vamos a seleccionar Siniestro_incurrido como la severidad, pues es el valor neto de los siniestros sin haber descontado el pago del deducible u otras posibles alteraciones del valor de cada accidente

In [286]:
siniestros <- siniestros[, c("Fecha", "Siniestro_incurrido", "Cobertura")]
names(siniestros) <- c("fecha", "severidad", "cobertura")
siniestros$semana <- week(siniestros$fecha)
siniestros$dia <- yday(siniestros$fecha)

## Llevando la severidad a enero de 2019

In [287]:
siniestros <- ajuste_dinero_ipc(siniestros, "fecha", "severidad")

## Segmentando por cobertura y eliminado valores extraños

- pph

In [288]:
siniestros_pph <- siniestros[(siniestros$cobertura) == "pph", ]
head(sort(unique(siniestros_pph$severidad)),20)

In [289]:
nrow(siniestros_pph[(siniestros_pph$severidad < 70000),])*100/nrow(siniestros_pph)

In [290]:
siniestros_pph <- siniestros_pph[(siniestros_pph$severidad >= 70000),]

- pth

In [291]:
siniestros_pth <- siniestros[(siniestros$cobertura) == "pth", ]
head(sort(unique(siniestros_pth$severidad)),20)

In [292]:
nrow(siniestros_pth[(siniestros_pth$severidad < 3000000),])*100/nrow(siniestros_pth)

In [293]:
siniestros_pth <- siniestros_pth[(siniestros_pth$severidad >= 3000000),]

- ppd

In [294]:
siniestros_ppd <- siniestros[(siniestros$cobertura) == "ppd", ]
head(sort(unique(siniestros_ppd$severidad)),20)

In [295]:
nrow(siniestros_ppd[(siniestros_ppd$severidad < 70000),])*100/nrow(siniestros_ppd)

In [296]:
siniestros_ppd <- siniestros_ppd[(siniestros_ppd$severidad >= 70000),]

- rh

In [297]:
siniestros_rc <- siniestros[(siniestros$cobertura) == "rc", ]
head(sort(unique(siniestros_rc$severidad)),20)

In [298]:
nrow(siniestros_rc[(siniestros_rc$severidad < 500000),])*100/nrow(siniestros_rc)

In [299]:
siniestros_rc <- siniestros_rc[(siniestros_rc$severidad >= 500000),]

## Agrupando por semanas y dia

## Exportando resultados