<div align="center">

# **Limpieza de Polizas**

</div>

## Librerias

In [1]:
library(readxl)
library(lubridate)
library(dplyr)
library(DT)


Attaching package: ‘lubridate’


The following objects are masked from ‘package:base’:

    date, intersect, setdiff, union



Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union




## Datos

In [2]:
polizas <- read.table("../data/input/polizas_v2.txt", header = TRUE, sep = "|")

## Limpieza

### Columnas

In [3]:
names(polizas)

In [4]:
names(polizas) <- c(
    "Fecha_inicio",
    "Fecha_fin",
    "Prima",
    "Valor_asegurado",
    "Valor_asegurado_rc",
    "ptd", 
    "ppd",
    "pth",
    "pph",
    "rc"
)

En la data de siniestros no hay ninguno con ptd

In [5]:
polizas$ptd <- NULL

### Duplicados

In [6]:
nrow(polizas)

In [7]:
polizas <- unique(polizas)

In [8]:
nrow(polizas)

### Valores nulos

In [9]:
sum(is.na(polizas))

In [10]:
100*sum(is.na(polizas))/(nrow(polizas)*ncol(polizas))

Son tan pocos que se pueden eliminar sin problema

In [11]:
polizas <- na.omit(polizas)

### Seleccion de fechas

Al igual que con los siniestros, vamos a reducir el analisis a las polizas que tienen exposicion en 2018

In [12]:
polizas$Fecha_inicio <- as.Date(polizas$Fecha_inicio)
polizas$Fecha_fin <- as.Date(polizas$Fecha_fin)
polizas <- polizas[polizas$Fecha_inicio <= as.Date("2018-12-31") & polizas$Fecha_fin >= as.Date("2018-01-01"), ]

### Prima

humbral seleccionado de tarifas de seguros todo riesgo en 2016

In [13]:
h <- 1250000

In [14]:
nrow(polizas[(polizas$Prima < h), ])*100/nrow(polizas)

In [15]:
polizas_h <- polizas[(polizas$Prima < h), ]

In [16]:
sum(polizas_h$Prima)*100/sum(polizas$Prima)

In [17]:
polizas <- polizas[(polizas$Prima >= h), ]
nrow(polizas)

## Duracion

In [18]:
polizas$Duracion <- as.numeric(difftime(polizas$Fecha_fin, polizas$Fecha_inicio, units="days")) + 1
sort(unique(polizas$Duracion))

In [19]:
100*sum(polizas$Duracion < 90)/nrow(polizas)

Vamos a eliminar estos datos suponiendo que fueron seguros adquiridos por pagos mensuales y que despues de tres meses de impago se terminaron. 

In [20]:
polizas <- polizas[polizas$Duracion >= 90,]

In [21]:
nrow(polizas)

In [22]:
summary(polizas)

  Fecha_inicio          Fecha_fin              Prima          
 Min.   :2016-01-01   Min.   :2018-01-01   Min.   :  1250000  
 1st Qu.:2017-03-16   1st Qu.:2018-09-20   1st Qu.:  1495500  
 Median :2017-10-26   Median :2019-06-15   Median :  1735572  
 Mean   :2017-10-09   Mean   :2019-06-07   Mean   :  2037437  
 3rd Qu.:2018-06-13   3rd Qu.:2020-01-02   3rd Qu.:  2188076  
 Max.   :2018-12-31   Max.   :2020-12-31   Max.   :424284704  
 Valor_asegurado     Valor_asegurado_rc      ppd              pth        
 Min.   :0.000e+00   Min.   :0.00e+00   Min.   :0.0000   Min.   :0.0000  
 1st Qu.:3.420e+07   1st Qu.:8.00e+08   1st Qu.:1.0000   1st Qu.:1.0000  
 Median :4.480e+07   Median :2.00e+09   Median :1.0000   Median :1.0000  
 Mean   :5.515e+07   Mean   :1.73e+09   Mean   :0.9856   Mean   :0.9866  
 3rd Qu.:6.480e+07   3rd Qu.:3.00e+09   3rd Qu.:1.0000   3rd Qu.:1.0000  
 Max.   :1.624e+09   Max.   :4.00e+09   Max.   :1.0000   Max.   :1.0000  
      pph               rc            Dur

### Dataframes por mes

In [23]:
source("../src/data/polizas_diarias.R")

In [24]:
dataframes_mes <- polizas_mensuales(polizas)

In [25]:
write.csv(dataframes_mes$PPD, "../data/processed/polizas_ppd_mes.csv", row.names = FALSE)
write.csv(dataframes_mes$PTH, "../data/processed/polizas_pth_mes.csv", row.names = FALSE)
write.csv(dataframes_mes$PPH, "../data/processed/polizas_pph_mes.csv", row.names = FALSE)
write.csv(dataframes_mes$RC, "../data/processed/polizas_rc_mes.csv", row.names = FALSE)