# <center> Modelo Determinista <center>
    
    En este caso calculamos los lost development factors para conocer como serán las pérdidas en los períodos siguientes, de los cuales no se conocen las pérdidas incurridas

In [11]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from IPython.display import display, HTML
# !(pip install chainladder)
import chainladder as cl # librería para realizar triángulos de pérdidas

print("pandas: " + pd.__version__)
print("numpy: " + np.__version__)
print("chainladder: " + cl.__version__)

pandas: 1.4.2
numpy: 1.22.0
chainladder: 0.8.18


## Ingreso de los Datos

In [12]:
data=pd.read_csv('wkcomp_pos.csv') # cargar o abrir un csv
display(data.head())

Unnamed: 0,GRCODE,GRNAME,AccidentYear,DevelopmentYear,DevelopmentLag,IncurLoss_D,CumPaidLoss_D,BulkLoss_D,EarnedPremDIR_D,EarnedPremCeded_D,EarnedPremNet_D,Single,PostedReserve97_D
0,86,Allstate Ins Co Grp,1988,1988,1,367404,70571,127737,400699,5957,394742,0,281872
1,86,Allstate Ins Co Grp,1988,1989,2,362988,155905,60173,400699,5957,394742,0,281872
2,86,Allstate Ins Co Grp,1988,1990,3,347288,220744,27763,400699,5957,394742,0,281872
3,86,Allstate Ins Co Grp,1988,1991,4,330648,251595,15280,400699,5957,394742,0,281872
4,86,Allstate Ins Co Grp,1988,1992,5,354690,274156,27689,400699,5957,394742,0,281872


Creamos un triángulo con los datos de entrada, para el análisis vamos a tomar únicamente las variables de pérdida

In [13]:
triangle = cl.Triangle(
    data,
    origin="AccidentYear", # filas
    development="DevelopmentYear", # columnas
    columns=data.columns[5:], # tomamos en cuenta solamente las columnas de ganancias y pérdidas
    index=["GRNAME"], # nombres de las compañías
    cumulative=False, # triángulo de pérdidas acumulado o no
)
triangle #objeto de pandas

Unnamed: 0,Triangle Summary
Valuation:,2006-12
Grain:,OYDY
Shape:,"(132, 8, 19, 19)"
Index:,[GRNAME]
Columns:,"[IncurLoss_D, CumPaidLoss_D, BulkLoss_D, EarnedPremDIR_D, EarnedPremCeded_D, EarnedPremNet_D, Single, PostedReserve97_D]"


## Cálculo del triángulo total

Inicialmente, trabajaremos con el triángulo total para observar el comportamiento global de las pérdidas acumuladas.

In [14]:
total_cum=triangle['CumPaidLoss_D'].sum()
total_cum

Unnamed: 0,12,24,36,48,60,72,84,96,108,120,132,144,156,168,180,192,204,216,228
1988,285804.0,638532.0,865100.0,996363.0,1084351.0,1133188.0,1169749.0,1196917.0,1229203.0,1241715.0,,,,,,,,,
1989,307720.0,684140.0,916996.0,1065674.0,1154072.0,1210479.0,1249886.0,1291512.0,1308706.0,1324671.0,,,,,,,,,
1990,320124.0,757479.0,1017144.0,1169014.0,1258975.0,1315368.0,1368374.0,1394675.0,1417384.0,1431483.0,,,,,,,,,
1991,347417.0,793749.0,1053414.0,1209556.0,1307164.0,1381645.0,1414747.0,1447121.0,1465508.0,1479177.0,,,,,,,,,
1992,342982.0,781402.0,1014982.0,1172915.0,1281864.0,1328801.0,1370935.0,1399901.0,1419809.0,1437891.0,,,,,,,,,
1993,342385.0,743433.0,959147.0,1113314.0,1187581.0,1243689.0,1278194.0,1301968.0,1322101.0,1337171.0,,,,,,,,,
1994,351060.0,750392.0,993751.0,1114842.0,1193861.0,1243285.0,1276145.0,1302620.0,1321778.0,1340950.0,,,,,,,,,
1995,343841.0,768575.0,962081.0,1087925.0,1164217.0,1210269.0,1243983.0,1264903.0,1282868.0,1300678.0,,,,,,,,,
1996,381484.0,736040.0,937936.0,1056949.0,1131168.0,1182716.0,1218813.0,1239839.0,1260284.0,1274282.0,,,,,,,,,
1997,340132.0,730838.0,940850.0,1066652.0,1142476.0,1191886.0,1223282.0,1248906.0,1262903.0,1277512.0,,,,,,,,,


## Cálculo de los development factors para el triángulo total
Se realiza mediante el método link_ratio y cuya fórmula es:
$$
\lambda_j=\frac{\sum_{i=1}^{t-j+1} C_{ij}}{\sum_{i=1}^{t-j+1} C_{i,j-1}}
$$
Con t el último período de desarrollo. 

Básicamente, el lambda siguiente se calcula mediante las pérdidas acumuladas del período anterior.

In [15]:
print('age-to-age factors:')
display(total_cum.link_ratio.heatmap(cmap='Reds'))

age-to-age factors:


Unnamed: 0,12-24,24-36,36-48,48-60,60-72,72-84,84-96,96-108,108-120,120-132,132-144,144-156,156-168,168-180,180-192,192-204,204-216,216-228
1988,2.2342,1.3548,1.1517,1.0883,1.045,1.0323,1.0232,1.027,1.0102,,,,,,,,,
1989,2.2233,1.3404,1.1621,1.083,1.0489,1.0326,1.0333,1.0133,1.0122,,,,,,,,,
1990,2.3662,1.3428,1.1493,1.077,1.0448,1.0403,1.0192,1.0163,1.0099,,,,,,,,,
1991,2.2847,1.3271,1.1482,1.0807,1.057,1.024,1.0229,1.0127,1.0093,,,,,,,,,
1992,2.2783,1.2989,1.1556,1.0929,1.0366,1.0317,1.0211,1.0142,1.0127,,,,,,,,,
1993,2.1713,1.2902,1.1607,1.0667,1.0472,1.0277,1.0186,1.0155,1.0114,,,,,,,,,
1994,2.1375,1.3243,1.1219,1.0709,1.0414,1.0264,1.0207,1.0147,1.0145,,,,,,,,,
1995,2.2353,1.2518,1.1308,1.0701,1.0396,1.0279,1.0168,1.0142,1.0139,,,,,,,,,
1996,1.9294,1.2743,1.1269,1.0702,1.0456,1.0305,1.0173,1.0165,1.0111,,,,,,,,,
1997,2.1487,1.2874,1.1337,1.0711,1.0432,1.0263,1.0209,1.0112,1.0116,,,,,,,,,


## Independencia de los Períodos y de los desarrollos 

Períodos: Filas, ver origin  o AccidentYear
Desarrollos: Columnas, ver DevelopmentYear (respecto al origin)

Realizamos el test de Mack para saber si tanto las filas (períodos) como las columnas (development) son independientes entre si. Para los períodos usamos el z_critical y para los desarrollos el t_critical.

In [16]:
print(total_cum.origin)
print(total_cum.development.values)

PeriodIndex(['1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995',
             '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003',
             '2004', '2005', '2006'],
            dtype='period[A-DEC]', name='origin')
[ 12  24  36  48  60  72  84  96 108 120 132 144 156 168 180 192 204 216
 228]


Estos tests se puede hacer para el total:

In [17]:
# display(total.valuation_correlation(0.05,total=True).z_critical)
# display(total.development_correlation(0.5,total=True).t_critical)
#for my whole data
print(
    "¿Los años de evaluación y los orígenes está correlacionados?",
    total_cum.valuation_correlation(p_critical=0.05, total=True).z_critical.values,
)
print(
    "¿Están correlacionados los años de desarrollo?",
    total_cum.development_correlation(p_critical=0.5).t_critical.values,
)

¿Los años de evaluación y los orígenes está correlacionados? [[False]]
¿Están correlacionados los años de desarrollo? [[ True]]


  r, k = function_base._ureduce(a, func=_nanmedian, axis=axis, out=out,


O para cada año:

In [18]:
display(total_cum.valuation_correlation(0.05,total=False).z_critical)

  r, k = function_base._ureduce(a, func=_nanmedian, axis=axis, out=out,


Unnamed: 0,1989,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006
1988,False,False,False,False,False,False,False,True,True,False,False,True,False,False,False,False,False,False


Para el total es lo que precisamente esperabamos, que los años de valuación no estén correlacionados. Sin embargo, al mirar la correlación en los años 1996 y 1997 vemos que se correlacionan. Por lo que los datos no son tan confiables en este caso.

## Ajuste para el triángulo total

Queremos predecir los valores de las pérdidas acumuladas para los siguientes períodos en el triángulo

In [19]:
model=cl.Chainladder().fit(total_cum) #Creación del modelo de ajuste

Predicciones para los últimos valores

In [20]:
display(model.ultimate_)#.to_frame()

Unnamed: 0,2261
1988,9840922.0
1989,10513856.0
1990,11450020.0
1991,11899498.0
1992,11551482.0
1993,10828983.0
1994,10888684.0
1995,10629340.0
1996,10419511.0
1997,10425437.0


## Estimaciones de los factores de pérdida $\lambda$ (loss development factors ldf)

In [21]:
display(model.ldf_)

Unnamed: 0,12-24,24-36,36-48,48-60,60-72,72-84,84-96,96-108,108-120,120-132,132-144,144-156,156-168,168-180,180-192,192-204,204-216,216-228,228-240,240-252
(All),3.1959,1.8989,1.5416,1.3784,1.2869,1.2296,1.1907,1.1627,1.1415,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


In [22]:
display(model.cdf_)

Unnamed: 0,12-Ult,24-Ult,36-Ult,48-Ult,60-Ult,72-Ult,84-Ult,96-Ult,108-Ult,120-Ult,132-Ult,144-Ult,156-Ult,168-Ult,180-Ult,192-Ult,204-Ult,216-Ult,228-Ult,240-Ult
(All),32.2478,10.0905,5.3137,3.4469,2.5006,1.9432,1.5803,1.3272,1.1415,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


In [23]:
# display(cl.Development(n_periods=[8, 2, 6, 5, -1, 2, -1, -1, 5]).fit(total_cum).ldf_)

## Pérdidas incurridas pero no reportadas (En inglés: losses incurred but not reported INBR)

In [24]:
transformed_triangle = cl.Development(drop_high=[True] * 4 + [False] * 5).fit_transform(
    total_cum
)
transformed_triangle## Pérdidas incurridas pero no reportadas (En inglés: losses incurred but not reported INBR)

Unnamed: 0,12,24,36,48,60,72,84,96,108,120,132,144,156,168,180,192,204,216,228
1988,285804.0,638532.0,865100.0,996363.0,1084351.0,1133188.0,1169749.0,1196917.0,1229203.0,1241715.0,,,,,,,,,
1989,307720.0,684140.0,916996.0,1065674.0,1154072.0,1210479.0,1249886.0,1291512.0,1308706.0,1324671.0,,,,,,,,,
1990,320124.0,757479.0,1017144.0,1169014.0,1258975.0,1315368.0,1368374.0,1394675.0,1417384.0,1431483.0,,,,,,,,,
1991,347417.0,793749.0,1053414.0,1209556.0,1307164.0,1381645.0,1414747.0,1447121.0,1465508.0,1479177.0,,,,,,,,,
1992,342982.0,781402.0,1014982.0,1172915.0,1281864.0,1328801.0,1370935.0,1399901.0,1419809.0,1437891.0,,,,,,,,,
1993,342385.0,743433.0,959147.0,1113314.0,1187581.0,1243689.0,1278194.0,1301968.0,1322101.0,1337171.0,,,,,,,,,
1994,351060.0,750392.0,993751.0,1114842.0,1193861.0,1243285.0,1276145.0,1302620.0,1321778.0,1340950.0,,,,,,,,,
1995,343841.0,768575.0,962081.0,1087925.0,1164217.0,1210269.0,1243983.0,1264903.0,1282868.0,1300678.0,,,,,,,,,
1996,381484.0,736040.0,937936.0,1056949.0,1131168.0,1182716.0,1218813.0,1239839.0,1260284.0,1274282.0,,,,,,,,,
1997,340132.0,730838.0,940850.0,1066652.0,1142476.0,1191886.0,1223282.0,1248906.0,1262903.0,1277512.0,,,,,,,,,


In [25]:
#Our transformed triangle behaves as our original genins triangle. However, notice the link_ratios exclude any droppped values you specified.
transformed_triangle.link_ratio.heatmap()

Unnamed: 0,12-24,24-36,36-48,48-60,60-72,72-84,84-96,96-108,108-120,120-132,132-144,144-156,156-168,168-180,180-192,192-204,204-216,216-228
1988,2.2342,1.3548,1.1517,,1.045,1.0323,1.0232,1.027,1.0102,,,,,,,,,
1989,2.2233,1.3404,,1.083,1.0489,1.0326,1.0333,1.0133,1.0122,,,,,,,,,
1990,,,1.1493,1.077,1.0448,1.0403,1.0192,1.0163,1.0099,,,,,,,,,
1991,2.2847,1.3271,1.1482,1.0807,1.057,1.024,1.0229,1.0127,1.0093,,,,,,,,,
1992,2.2783,1.2989,1.1556,1.0929,1.0366,1.0317,1.0211,1.0142,1.0127,,,,,,,,,
1993,2.1713,1.2902,1.1607,1.0667,1.0472,1.0277,1.0186,1.0155,1.0114,,,,,,,,,
1994,2.1375,1.3243,1.1219,1.0709,1.0414,1.0264,1.0207,1.0147,1.0145,,,,,,,,,
1995,2.2353,1.2518,1.1308,1.0701,1.0396,1.0279,1.0168,1.0142,1.0139,,,,,,,,,
1996,1.9294,1.2743,1.1269,1.0702,1.0456,1.0305,1.0173,1.0165,1.0111,,,,,,,,,
1997,2.1487,1.2874,1.1337,1.0711,1.0432,1.0263,1.0209,1.0112,1.0116,,,,,,,,,


In [26]:
cl.Development(drop_high=8, drop_low=2, preserve=4).fit(total_cum).ldf_



Unnamed: 0,12-24,24-36,36-48,48-60,60-72,72-84,84-96,96-108,108-120,120-132,132-144,144-156,156-168,168-180,180-192,192-204,204-216,216-228
(All),3.1959,1.8989,1.5416,1.3784,1.2869,1.2296,1.1907,1.1627,1.1415,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


La diferencia entre los dos triángulos (triangle['CumPaidLoss'] y triángulo estimado) se refiere a cómo han desarrollado las reclamaciones con el tiempo y cómo se ajustan los valores en el segundo triángulo estimado en comparación con los valores reales en el primer triángulo.

El primer triángulo representa los datos históricos reales de desarrollo de reclamaciones para varios años de accidentes y diferentes períodos de desarrollo después del año del accidente. Cada celda en el triángulo muestra el factor de desarrollo acumulativo para un año de accidente y período de desarrollo específico. Los valores en cada celda indican cuánto se han desarrollado las reclamaciones con el tiempo para ese año de accidente y período de desarrollo.

El segundo triángulo, en cambio, es una estimación basada en los datos originales y en los factores de desarrollo acumulativo proporcionados. Los valores en el segundo triángulo representan estimaciones de cómo se espera que se desarrollen las reclamaciones con el tiempo para los mismos años de accidente y períodos de desarrollo. Estas estimaciones se basan en los factores acumulativos proporcionados y se utilizan para predecir los montos de reclamaciones futuras.

La diferencia entre los dos triángulos radica en cuán bien se ajustan las estimaciones en el segundo triángulo a los datos reales en el primer triángulo. Un buen ajuste significaría que las estimaciones se acercan a los valores reales, lo que indica que el modelo utilizado para las estimaciones es confiable. Una mala ajuste se vería en grandes diferencias entre las estimaciones y los valores reales, lo que podría sugerir que el modelo necesita mejoras o ajustes.