<div align="center">

# **Limpieza de Polizas**

</div>

## Librerias

In [1]:
library(readxl)
library(lubridate)
library(dplyr)
library(DT)


Attaching package: ‘lubridate’


The following objects are masked from ‘package:base’:

    date, intersect, setdiff, union



Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union




## Datos

In [2]:
polizas <- read.table("../data/input/polizas_v2.txt", header = TRUE, sep = "|")

## Limpieza

### Columnas

In [3]:
names(polizas)

In [4]:
names(polizas) <- c(
    "Fecha_inicio",
    "Fecha_fin",
    "Prima",
    "Valor_asegurado",
    "Valor_asegurado_rc",
    "ptd", 
    "ppd",
    "pth",
    "pph",
    "rc"
)

En la data de siniestros no hay ninguno con ptd

In [5]:
polizas$ptd <- NULL

### Duplicados

In [6]:
polizas <- unique(polizas)

### Valores nulos

In [7]:
sum(is.na(polizas))

In [8]:
100*sum(is.na(polizas))/(nrow(polizas)*ncol(polizas))

Son tan pocos que se pueden eliminar sin problema

In [9]:
polizas <- na.omit(polizas)

### Seleccion de fechas

Al igual que con los siniestros, vamos a reducir el analisis a las polizas que tienen exposicion en 2018

In [10]:
polizas$Fecha_inicio <- as.Date(polizas$Fecha_inicio)
polizas$Fecha_fin <- as.Date(polizas$Fecha_fin)
polizas <- polizas[polizas$Fecha_inicio <= as.Date("2018-12-31") & polizas$Fecha_fin >= as.Date("2018-01-01"), ]

### Prima

In [11]:
polizas <- na.omit(polizas)

humbral seleccionado de tarifas soat en 2016

In [12]:
h <- 459500

In [13]:
nrow(polizas[(polizas$Prima < h), ])*100/nrow(polizas)

In [14]:
polizas_h <- polizas[(polizas$Prima < h), ]

In [15]:
sum(polizas_h$Prima)*100/sum(polizas$Prima)

In [16]:
polizas <- polizas[(polizas$Prima >= h), ]
nrow(polizas)

## Duracion

In [17]:
polizas$Duracion <- as.numeric(difftime(polizas$Fecha_fin, polizas$Fecha_inicio, units="days")) + 1
sort(unique(polizas$Duracion))

In [18]:
100*sum(polizas$Duracion < 60)/nrow(polizas)

Vamos a eliminar estos datos suponiendo que fueron seguros adquiridos por pagos mensuales y que despues de dos meses de impago se terminaron. 

In [19]:
polizas <- polizas[polizas$Duracion >= 60,]

In [20]:
summary(polizas)

  Fecha_inicio          Fecha_fin              Prima          
 Min.   :2016-01-01   Min.   :2018-01-01   Min.   :   459503  
 1st Qu.:2017-03-13   1st Qu.:2018-09-01   1st Qu.:  1086654  
 Median :2017-11-01   Median :2019-05-01   Median :  1483930  
 Mean   :2017-10-10   Mean   :2019-05-14   Mean   :  1655916  
 3rd Qu.:2018-06-27   3rd Qu.:2019-12-14   3rd Qu.:  1903244  
 Max.   :2018-12-31   Max.   :2020-12-31   Max.   :424284704  
 Valor_asegurado     Valor_asegurado_rc       ppd            pth        
 Min.   :0.000e+00   Min.   :0.000e+00   Min.   :0.00   Min.   :0.0000  
 1st Qu.:2.660e+07   1st Qu.:8.000e+08   1st Qu.:1.00   1st Qu.:1.0000  
 Median :3.730e+07   Median :2.000e+09   Median :1.00   Median :1.0000  
 Mean   :4.597e+07   Mean   :1.779e+09   Mean   :0.98   Mean   :0.9829  
 3rd Qu.:5.485e+07   3rd Qu.:3.000e+09   3rd Qu.:1.00   3rd Qu.:1.0000  
 Max.   :1.624e+09   Max.   :4.000e+09   Max.   :1.00   Max.   :1.0000  
      pph             rc            Duracion    

### Dataframes por dia

In [21]:
source("../src/data/polizas_diarias.R")

In [22]:
dataframes_dia <- polizas_diarias(polizas)

In [23]:
dataframes_dia$PPD$dia <- yday(dataframes_dia$PPD$Fecha)
dataframes_dia$PPD$Fecha <- NULL
dataframes_dia$PPH$dia <- yday(dataframes_dia$PPH$Fecha)
dataframes_dia$PPH$Fecha <- NULL
dataframes_dia$PTH$dia <- yday(dataframes_dia$PTH$Fecha)
dataframes_dia$PTH$Fecha <- NULL
dataframes_dia$RC$dia <- yday(dataframes_dia$RC$Fecha)
dataframes_dia$RC$Fecha <- NULL

In [24]:
write.csv(dataframes_dia$PPD, "../data/processed/polizas_ppd_dia.csv")
write.csv(dataframes_dia$PTH, "../data/processed/polizas_pth_dia.csv")
write.csv(dataframes_dia$PPH, "../data/processed/polizas_pph_dia.csv")
write.csv(dataframes_dia$RC, "../data/processed/polizas_rc_dia.csv")