# <center> Modelo Estocástico <center>
    
    Aplicaremos el modelo de Mack, que es estocástico para predecir las futuras reclamaciones basados en los valores históricos de los triángulos acumulados de pérdidas y estimaremos el error estándar alrededor de estos valores.
   Las funciones que utilizaremos ya se encuentran implementadas en módulo chainladder de python

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from IPython.display import display, HTML
# !(pip install chainladder)
import chainladder as cl # librería para realizar triángulos de pérdidas
import statsmodels.api as sm

print("pandas: " + pd.__version__)
print("numpy: " + np.__version__)
print("chainladder: " + cl.__version__)

pandas: 1.4.2
numpy: 1.22.0
chainladder: 0.8.18


## Ingreso de los Datos

In [2]:
data=pd.read_csv('wkcomp_pos.csv') # cargar o abrir un csv
display(data.head())

Unnamed: 0,GRCODE,GRNAME,AccidentYear,DevelopmentYear,DevelopmentLag,IncurLoss_D,CumPaidLoss_D,BulkLoss_D,EarnedPremDIR_D,EarnedPremCeded_D,EarnedPremNet_D,Single,PostedReserve97_D
0,86,Allstate Ins Co Grp,1988,1988,1,367404,70571,127737,400699,5957,394742,0,281872
1,86,Allstate Ins Co Grp,1988,1989,2,362988,155905,60173,400699,5957,394742,0,281872
2,86,Allstate Ins Co Grp,1988,1990,3,347288,220744,27763,400699,5957,394742,0,281872
3,86,Allstate Ins Co Grp,1988,1991,4,330648,251595,15280,400699,5957,394742,0,281872
4,86,Allstate Ins Co Grp,1988,1992,5,354690,274156,27689,400699,5957,394742,0,281872


Creamos un triángulo con los datos de entrada, para el análisis vamos a tomar únicamente las variables de pérdida. Este triangulo es el triángulo de la variable CumPaidLoss_D sumado para todas las compañías listadas, por lo cual se obtiene un solo triángulo total.

In [3]:
triangle = cl.Triangle(
    data,
    origin="AccidentYear", # filas
    development="DevelopmentYear", # columnas
    columns=data.columns[5:], # tomamos en cuenta solamente las columnas de ganancias y pérdidas
    index=["GRNAME"], # nombres de las compañías
    cumulative=False, # triángulo de pérdidas acumulado o no
)['CumPaidLoss_D'].sum()
#objeto de pandas
triangle
# triangle['CumPaidLoss_D'].sum() 

Unnamed: 0,12,24,36,48,60,72,84,96,108,120,132,144,156,168,180,192,204,216,228
1988,285804.0,638532.0,865100.0,996363.0,1084351.0,1133188.0,1169749.0,1196917.0,1229203.0,1241715.0,,,,,,,,,
1989,307720.0,684140.0,916996.0,1065674.0,1154072.0,1210479.0,1249886.0,1291512.0,1308706.0,1324671.0,,,,,,,,,
1990,320124.0,757479.0,1017144.0,1169014.0,1258975.0,1315368.0,1368374.0,1394675.0,1417384.0,1431483.0,,,,,,,,,
1991,347417.0,793749.0,1053414.0,1209556.0,1307164.0,1381645.0,1414747.0,1447121.0,1465508.0,1479177.0,,,,,,,,,
1992,342982.0,781402.0,1014982.0,1172915.0,1281864.0,1328801.0,1370935.0,1399901.0,1419809.0,1437891.0,,,,,,,,,
1993,342385.0,743433.0,959147.0,1113314.0,1187581.0,1243689.0,1278194.0,1301968.0,1322101.0,1337171.0,,,,,,,,,
1994,351060.0,750392.0,993751.0,1114842.0,1193861.0,1243285.0,1276145.0,1302620.0,1321778.0,1340950.0,,,,,,,,,
1995,343841.0,768575.0,962081.0,1087925.0,1164217.0,1210269.0,1243983.0,1264903.0,1282868.0,1300678.0,,,,,,,,,
1996,381484.0,736040.0,937936.0,1056949.0,1131168.0,1182716.0,1218813.0,1239839.0,1260284.0,1274282.0,,,,,,,,,
1997,340132.0,730838.0,940850.0,1066652.0,1142476.0,1191886.0,1223282.0,1248906.0,1262903.0,1277512.0,,,,,,,,,


In [4]:
# triangle=triangle[triangle.development <= 120][triangle.origin < "1997"]
triangle

Unnamed: 0,12,24,36,48,60,72,84,96,108,120,132,144,156,168,180,192,204,216,228
1988,285804.0,638532.0,865100.0,996363.0,1084351.0,1133188.0,1169749.0,1196917.0,1229203.0,1241715.0,,,,,,,,,
1989,307720.0,684140.0,916996.0,1065674.0,1154072.0,1210479.0,1249886.0,1291512.0,1308706.0,1324671.0,,,,,,,,,
1990,320124.0,757479.0,1017144.0,1169014.0,1258975.0,1315368.0,1368374.0,1394675.0,1417384.0,1431483.0,,,,,,,,,
1991,347417.0,793749.0,1053414.0,1209556.0,1307164.0,1381645.0,1414747.0,1447121.0,1465508.0,1479177.0,,,,,,,,,
1992,342982.0,781402.0,1014982.0,1172915.0,1281864.0,1328801.0,1370935.0,1399901.0,1419809.0,1437891.0,,,,,,,,,
1993,342385.0,743433.0,959147.0,1113314.0,1187581.0,1243689.0,1278194.0,1301968.0,1322101.0,1337171.0,,,,,,,,,
1994,351060.0,750392.0,993751.0,1114842.0,1193861.0,1243285.0,1276145.0,1302620.0,1321778.0,1340950.0,,,,,,,,,
1995,343841.0,768575.0,962081.0,1087925.0,1164217.0,1210269.0,1243983.0,1264903.0,1282868.0,1300678.0,,,,,,,,,
1996,381484.0,736040.0,937936.0,1056949.0,1131168.0,1182716.0,1218813.0,1239839.0,1260284.0,1274282.0,,,,,,,,,
1997,340132.0,730838.0,940850.0,1066652.0,1142476.0,1191886.0,1223282.0,1248906.0,1262903.0,1277512.0,,,,,,,,,


Creación del modelo

In [5]:
mack = cl.MackChainladder().fit(triangle)

    Vamos a tomar las primeras dos columnas, correspondientes a los triángulos en los meses 12 y 24

In [6]:
clrd_first_lags = triangle[triangle.development <= 24][triangle.origin < "1997"]["CumPaidLoss_D"]
clrd_first_lags

Unnamed: 0,12,24
1988,285804,638532
1989,307720,684140
1990,320124,757479
1991,347417,793749
1992,342982,781402
1993,342385,743433
1994,351060,750392
1995,343841,768575
1996,381484,736040


La  columna 1 es la variable dependiente y las primera columna sirve de variable independiente,
es decir el comportamiento del período siguiente depende exclusivamente del anterior. Sobre estos datos se realizará un ajuste por mínimos cuadrados (realizado con sm.WLS), solo que ahora los datos tendrán un peso $1/x^2$.

In [7]:
y = clrd_first_lags.to_frame(origin_as_datetime=True).values[:, 1]
x = clrd_first_lags.to_frame(origin_as_datetime=True).values[:, 0]

model = sm.WLS(y, x, weights=(1 / x) ** 2)
results = model.fit()
results.summary()



0,1,2,3
Dep. Variable:,y,R-squared (uncentered):,0.997
Model:,WLS,Adj. R-squared (uncentered):,0.997
Method:,Least Squares,F-statistic:,2887.0
Date:,"Mon, 04 Dec 2023",Prob (F-statistic):,1.6e-11
Time:,18:11:51,Log-Likelihood:,-107.89
No. Observations:,9,AIC:,217.8
Df Residuals:,8,BIC:,218.0
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
x1,2.2067,0.041,53.735,0.000,2.112,2.301

0,1,2,3
Omnibus:,7.448,Durbin-Watson:,1.177
Prob(Omnibus):,0.024,Jarque-Bera (JB):,2.533
Skew:,-1.187,Prob(JB):,0.282
Kurtosis:,4.058,Cond. No.,1.0


In [8]:
dev = cl.Development(average="simple").fit(triangle["CumPaidLoss_D"])
print("Sigma")
display(dev.sigma_)
print("Error Estándar")
display(dev.std_err_)

Sigma


Unnamed: 0,12-24,24-36,36-48,48-60,60-72,72-84,84-96,96-108,108-120,120-132,132-144,144-156,156-168,168-180,180-192,192-204,204-216,216-228
(All),0.1176,0.0334,0.0156,0.0094,0.0057,0.004,0.0033,0.0027,0.0019,,,,,,,,,


Error Estándar


Unnamed: 0,12-24,24-36,36-48,48-60,60-72,72-84,84-96,96-108,108-120,120-132,132-144,144-156,156-168,168-180,180-192,192-204,204-216,216-228
(All),0.0372,0.0106,0.0049,0.003,0.0018,0.0013,0.0011,0.0008,0.0006,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


## Resumen de las predicciones del modelo para el último período

In [9]:
mack.summary_

Unnamed: 0,Latest,IBNR,Ultimate,Mack Std Err
1988,,,9840922.0,
1989,,,10513856.0,
1990,,,11450020.0,
1991,,,11899498.0,
1992,,,11551482.0,
1993,,,10828983.0,
1994,,,10888684.0,
1995,,,10629340.0,
1996,,,10419511.0,
1997,1277512.0,,10425437.0,


* Interpretación

**R-cuadrado y R-cuadrado Ajustado:**
   - El valor de R-cuadrado es 0.997, lo que indica que aproximadamente el 99.7% de la varianza en la variable dependiente (y) es explicada por las variables independientes. Este valor sugiere un ajuste muy bueno.
   - El R-cuadrado ajustado también es 0.997, lo que significa que ajusta el R-cuadrado para tener en cuenta el número de variables independientes en el modelo.

**Información del Modelo:**
   - Modelo: Especifica que es un modelo WLS.
   - Método: Mínimos Cuadrados.
   - El estadístico F es 2887, y el valor p asociado es 1.60e-11, lo que sugiere que el modelo es estadísticamente significativo.

**Observaciones y Grados de Libertad:**
   - No. Observaciones: El número de puntos de datos en el conjunto de datos es 9.
   - Df Residuals: Grados de libertad de los residuos son 8 (la diferencia entre el número de observaciones y el número de parámetros en el modelo).
   - Df Modelo: Grados de libertad del modelo son 1 (el número de variables independientes).

6. **Tipo de Covarianza:**
   - El tipo de covarianza utilizado en la estimación es no robusta.

7. **Coeficientes:**
   - El coeficiente (coef) para la variable independiente x1 es 2.2067.
   - El error estándar (std err) asociado a este coeficiente es 0.041.
   - El estadístico t (t) es 53.735, y el valor p asociado (P>|t|) es prácticamente cero (0.000), lo que indica que el coeficiente x1 es estadísticamente significativo.
   - El intervalo de confianza del 95% ([0.025 0.975]) para el coeficiente x1 es (2.112, 2.301).

10. **IBNR, Ultimate, Mack Std Err:**
    - Los valores específicos para IBNR, Ultimate, y Mack Std Err no están proporcionados en la descripción.

En resumen, el modelo de regresión parece tener un ajuste muy sólido con un R-cuadrado alto. La variable independiente x1 tiene un coeficiente significativo y la estadística F respalda la significancia general del modelo. Las estadísticas adicionales proporcionan información sobre la normalidad y ajuste de los residuos.