### Review of the paper `The Population Accuracy Index: A New Measure of Population Stability for Model Monitoring`

Resumen: Los modelos de riesgo desarrollados en un conjunto de datos a menudo se aplican a nuevos datos y, en tales casos,
es prudente comprobar que el modelo es adecuado para los nuevos datos. 
Una aplicación importante está en
la industria bancaria, donde se aplican modelos estadísticos a los préstamos para determinar provisiones y
requisitos de capital. Estos modelos se desarrollan sobre datos históricos, y la normativa exige su
monitoreo para garantizar que sigan siendo válidos en las carteras actuales, a menudo años desde que los modelos fueron
desarrollado. 

El Índice de Estabilidad de la Población (PSI) es un estándar de la industria para medir si la
distribución de los datos actuales ha cambiado significativamente de la distribución de datos utilizados para desarrollar
el modelo. Este artículo explora varias desventajas del PSI y propone la Precisión de Predicción
Índice (PAI) como alternativa. Las propiedades superiores y la interpretación del PAI se discuten y
se concluye que el PAI puede resumir con mayor precisión el nivel de estabilidad de la población, ayudando
los analistas y administradores de riesgos a determinar si el modelo sigue siendo adecuado para su propósito.



1. Introducción

Para los bancos, sus préstamos no son solo activos, ya que producen ingresos, sino también pasivos cuando
los clientes incumplen y no pagan su deuda. En muchas jurisdicciones, estos pasivos se miden por
procedimientos en regulaciones como el Acuerdo de Basilea (Comité de Supervisión Bancaria de Basilea 2006) para
capital y las Normas Internacionales de Información Financiera (NIIF 9) para provisiones (International
Consejo de Normas de Contabilidad 2014). Se requiere capital en caso de una grave recesión económica, mientras que
las provisiones reflejan las pérdidas esperadas en las condiciones económicas actuales. Como estas valoraciones forman parte del
valor de la empresa, su precisión es importante para muchas partes interesadas. Estas partes interesadas incluyen la
el propio banco (por ejemplo, para tomar decisiones de adquisición rentables para nuevos préstamos); auditores externos (que
evaluar la exactitud y confiabilidad de los estados financieros); reguladores (que evalúan la sostenibilidad de
el Banco); e inversores (que confían en esta información para tomar decisiones de inversión).
Tanto el Acuerdo de Basilea como la NIIF 9 adoptan un enfoque estándar de evaluación del riesgo de préstamos con
tres componentes: probabilidad de incumplimiento (PD), exposición en caso de incumplimiento (EAD) y pérdida en caso de incumplimiento (LGD).

El desarrollo de modelos en la industria bancaria está bien cubierto en la literatura (Siddiqi 2005), pero un
actividad regulada igualmente importante es el control continuo de si el modelo sigue siendo adecuado
(adecuado para el propósito). 


La estabilidad y el rendimiento (es decir, la precisión de la predicción) son extremadamente importantes ya que proporcionan
información sobre la calidad de los modelos de puntuación. Como tales, deben ser rastreados y
analizada al menos mensualmente por los bancos, independientemente del ejercicio de validación. 

Este aspecto generalmente lo realizan interna y externamente banqueros, auditores y reguladores.

El monitoreo es importante porque un modelo desarrollado años antes puede que ya no sea adecuado para
la cartera actual. Una razón de esto es que el tipo de clientes dentro de la cartera puede diferir de
los tipos de clientes disponibles para desarrollar el modelo.

La estabilidad de la población se refiere a si las características de la cartera (especialmente la distribución
de variables explicativas) está cambiando con el tiempo. Cuando esta distribución cambia (baja población
estabilidad) existe más preocupación sobre si el modelo es actualmente adecuado para su propósito ya que los datos utilizados
para desarrollar el modelo difiere de los datos a los que se aplica el modelo. Aplicando el modelo a estos
los nuevos tipos de clientes pueden implicar la extrapolación y, por lo tanto, una menor confianza en los resultados del modelo.

Hay otras características de un modelo que requieren monitoreo para asegurar que el modelo sea
adecuado para el propósito. Estos incluyen calibración (si el modelo es imparcial) y discriminación (si
el modelo clasifica correctamente los préstamos de mejor a peor). Si bien estas medidas son importantes,
requieren resultados conocidos. 

Por ejemplo, un modelo de PD que predice incumplimientos en una ventana de un año
debe evaluar los préstamos de al menos un año de antigüedad para determinar la calibración y la discriminación. 

Por lo tanto,
las conclusiones de estas medidas tienen al menos un año de atraso en comparación con la cartera actual.

La estabilidad de la población es importante ya que no requiere retrasos; se puede medir con la corriente
cartera ya que no se requiere el resultado. Por lo tanto, es importante monitorear la estabilidad de la población.
para obtener información sobre si la cartera actual (en lugar de la cartera de hace un año)
es apto para el propósito.

Este trabajo se enfoca en la medición de la estabilidad de la población, especialmente la Estabilidad de la Población
(PSI) que se ha convertido en un estándar de la industria. Se exploran las deficiencias en el PSI y se
Se introduce una alternativa que tiene propiedades superiores y cuyos valores son más directamente interpretables.

También existen pruebas estadísticas para probar la hipótesis nula de que la distribución de los datos de desarrollo y
la distribución de los datos de revisión son iguales. Los ejemplos incluyen la prueba de Kolmogorov-Smirnov para
datos numéricos o una prueba de chi-cuadrado para datos categóricos. No los consideramos apropiados porque
resumen la cantidad de evidencia contra la hipótesis nula y dependen demasiado del tamaño de la muestra.
En muestras grandes, las diferencias pequeñas y sin importancia en las distribuciones pueden ser estadísticamente significativas,
mientras que en muestras pequeñas, las diferencias grandes e importantes pueden ser estadísticamente insignificantes. Nosotros por lo tanto
no los considere más en este documento.


1.1. Modelos y Notación

Las tareas de desarrollo de modelos son extensas y están bien cubiertas en la literatura, de la cual Siddiqi (2005) es particularmente relevante para la industria bancaria. Brevemente, se utilizan datos históricos empíricos para estimar relaciones entre la respuesta/output (como el incumplimiento en el caso de un modelo PD) y las variables explicativas
(como la situación laboral del cliente).

Los modelos de PD típicamente estiman las probabilidades de incumplimiento
dentro de un año, por lo que para el desarrollo del modelo, las variables explicativas deben tener al menos un año de antigüedad (por lo que el
se conoce el resultado). El desarrollo del modelo luego busca y captura en forma matemática,
relaciones en los datos entre las variables explicativas y el resultado. Por ejemplo, esto puede
tomar la forma de un modelo de regresión logística  que predice el incumplimiento. 



Esta forma matemática a menudo toma la forma de una regresión donde alguna medida (posiblemente transformada) de la respuesta es igual a

$$
 \beta_0 \cdot x_{i0} + \beta_1\cdot x_{i1} + ... + \beta_k \cdot x_{ik} \hspace{0.5cm} (1)
$$

 
donde $\beta_0 , \beta_1,...,\beta_k$ son coeficientes estimados y $x_{i0},x_{i1},...,x_{ik}$ son los valores de las variables explicativas (predictores)
 para la i-ésima observación (típicamente $x_{i0}$ se define como siempre igual a 1). 



Por ejemplo, una regresión logística utilizada para predecir el incumplimiento utiliza la Ecuación (1) para predecir el
log-odds of default (definido como el logaritmo neperiano de la relación entre la probabilidad de incumplimiento y la
probabilidad de no incumplimiento).

Las variables explicativas tienen varios tipos básicos cuyos tratamientos se resumen aquí porque estos afectan los detalles presentados más adelante (ver Pyle (1999) para más detalles de estos temas y tratamientos).
En particular, las variables pueden ser categóricas o numéricas. Variables categóricas (como el tipo de empleo) toman valores de una lista (como comerciante, profesional, jubilado, estudiante, etc.). Este tipo de variables deben introducirse en el modelo a traves de variables dummies asociadas a sus categorias, pero sin meter la asociada a una de las categorias (la cual se tomaría como categoria de referencia), asi que si tiene $h$ categorias en el modelo se meten dummies asociadas a $h-1$ de esas $h$ categorias.


Las variables numéricas se definen en términos numéricos. Por ejemplo, la relación préstamo-valor (LVR)
se define como el valor del préstamo dividido por el valor del activo que garantiza el préstamo.  Este tipo de variables se introducen directamente en el modelo, si acaso después de una transformación numérica simple (como logaritmos o
Winsorizing). O tambien pueden ser transformadas en variables categoricas  y darles el tratamiento respectivo antes mencionado.  

Este es un tema clave no solo porque el depósito es una práctica común en la banca, sino porque el PSI solo se define para variables categóricas (o variables cuantitativas categorizadas).




1.2. El Índice de Estabilidad de la Población (PSI)

El PSI está estrechamente relacionado con medidas de entropía bien establecidas y, esencialmente, es una medida simétrica de la diferencia entre dos distribuciones estadisticas.

El índice llamado específicamente ‘Población
índice de estabilidad” (PSI) se encuentra en Karakoulas (2004), como una “técnica de diagnóstico para monitorear cambios
en distribuciones". También se describe en Siddiqi (2005). La misma formulación ha aparecido en la literatura estadística.
como la "divergencia J" (Lin 1991, quien a su vez hace referencia a Je reys 1946), y está estrechamente relacionado con la
Divergencia de Jensen-Shannon.


Supongamos que tenemos una variable categorica $X_j$ con $h$ categorias $( \hspace{0.1cm} Range(X_j)=\lbrace c_1 , c_2,...,c_h\rbrace \hspace{0.1cm} )$

Se define el population stability index $(PSI)$ de la variable categorica $X_j$ como :

$$ PSI(X_j) = \sum_{i=1}^{h} (O_i - E_i) \cdot ln\left(\dfrac{O_i}{E_i} \right)

Donde:

$O_i$ es la frecuencia relativa de la categoria $c_i$ de $X_j$ en el **nuevo** data-set

$E_i$ es la frecuencia relativa de la categoria $c_i$ de $X_j$ en el data-set **inicial**

**Propiedades :**



- $PSI \geqslant 0$



Justificación:

Si $ (O_i - E_i) \geqslant 0 \Rightarrow ln\left(\dfrac{O_i}{E_i} \right) \geqslant 0  \Rightarrow (O_i - E_i) \cdot ln\left(\dfrac{O_i}{E_i} \right) \geqslant 0 $ 

Si $ (O_i - E_i) \leqslant 0 \Rightarrow ln\left(\dfrac{O_i}{E_i} \right) \leqslant 0  \Rightarrow (O_i - E_i) \cdot ln\left(\dfrac{O_i}{E_i} \right) \geqslant 0 $ 


- Si hay muchas diferencias entre los $O_i$ y $E_i$ (positivas y/o negativas), el $PSI$ sera alto.



 Justificación:

Si $(O_i - E_i)  \rightarrow \infty \hspace{0.15cm} \Rightarrow \hspace{0.15cm} ln\left(\dfrac{O_i}{E_i} \right)  \rightarrow \infty \hspace{0.15cm}\Rightarrow\hspace{0.15cm} (O_i - E_i) \cdot ln\left(\dfrac{O_i}{E_i} \right) \rightarrow \infty $   

Si $(O_i - E_i)  \rightarrow - \infty \hspace{0.15cm}\Rightarrow\hspace{0.15cm} ln\left(\dfrac{O_i}{E_i} \right)  \rightarrow - \infty \hspace{0.15cm}\Rightarrow\hspace{0.15cm} (O_i - E_i) \cdot ln\left(\dfrac{O_i}{E_i} \right) \rightarrow \infty $ 

Si $(O_i - E_i)  \rightarrow 0 \hspace{0.15cm}\Rightarrow\hspace{0.15cm} ln\left(\dfrac{O_i}{E_i} \right)  \rightarrow 0 \hspace{0.15cm}\Rightarrow\hspace{0.15cm} (O_i - E_i) \cdot ln\left(\dfrac{O_i}{E_i} \right) \rightarrow 0 $

 

Un valor PSI de 0 implica que las distribuciones observadas y esperadas son idénticas

El valor del PSI aumenta a medida que las dos distribuciones divergen de los datos (iniciales vs nuevos). 



Siddiqi (2005) interpretó los valores de PSI de la siguiente manera:

- $PSI < 10\% \hspace{0.15cm} (0.1) \Rightarrow $ no muestran cambios significativos; 

- $PSI \in [10\% , 25\% ] \hspace{0.15cm} [0.1,0.25] \Rightarrow $  pequeño cambio que requiere
investigación

- $PSI > 25\% \hspace{0.15cm} (0.25) \Rightarrow $  muestran un cambio significativo. 



Tenga en cuenta que el PSI es grande cuando un
categoría tiene la frecuencia relativa observada o esperada cercana a cero y no está definida si
o la frecuencia relativa es igual a 0. Por lo tanto, un argumento de límite sugiere que el PSI podría interpretarse como
que tiene un valor infinito cuando una de las frecuencias relativas es igual a cero.


El cálculo del PSI se ilustra con un ejemplo hipotético en la Tabla 1. En el ejemplo se ha obtenido un PSI de 0.25 , debido
principalmente de las altas frecuencias observadas del 21% en las categorías 1 y 10. 
Por lo tanto, la interpretación siguiendo a Siddiqi (2005) se puede interpretar que la distribución de los datos ha cambiado significativamente.

<img src="tabla 1.jpg"  width=1000 height=180>


La tabla 2 muestra el calculo de PSI para un segundo ejemplo hipotetico en el que tambien se obtiene un PSI = 0.25. 

Los valores somilares de PSI en los dos ejemplos son interpretados como que en media las desviaciones entre los data-sets son similares en magnitud.

<img src="tabla 2.jpg"  width=1000 height=180>


Las interpretaciones similares basadas en el PSI de estos ejemplos podrían ser razonables si el
10 categorías representan divisiones categóricas, como el sector industrial. 

Sin embargo, esto es cuestionable si
las categorías representan una división de una escala continua utilizada en el desarrollo del modelo. por ejemplo, el
variable explicativa podría ser la relación préstamo-valor (LVR): el valor del préstamo dividido por el valor
del activo que garantiza el préstamo (un predictor de pérdida común e intuitivo). Este continuo se divide
en 10 categorías, ya que esto se requiere para el cálculo del PSI (puede o no haber sido un modelo
elección). No tener en cuenta esta información y, en cambio, tratar las categorías como desordenadas
puede conducir a conclusiones engañosas sobre si el modelo sigue siendo adecuado para su propósito.

<img src="distribuciones.jpg"  width=700 height=300>


Aunque el valor de PSI en las tablas 1 y 2 es igual a 0,25, la medida en que el modelo es
apto para el propósito de los datos de revisión correspondientes no lo es. En la Tabla 1, el modelo se aplica a más
datos extremos que estaban disponibles en el desarrollo. Confianza en que los datos son adecuados para esta revisión
los datos deben ser bajos; especialmente cuando el modelo se extrapola de los datos de desarrollo a la
datos de revisión más extremos. Un pequeño cambio en los coeficientes estimados no solo tendrá un mayor impacto
en el valor predicho para estas observaciones, pero tenemos menos confianza en la validez de las suposiciones
como la linealidad de las relaciones entre la respuesta y las variables explicativas. En cambio, la revisión
los datos en la Tabla 2 sugieren que no hay extrapolación involucrada. Si el modelo se consideró apto para su propósito
en el desarrollo, este cambio en la distribución no da ninguna razón para sugerir que el modelo ya no es
apto para el propósito: si era apto para datos normales estándar (95% de los cuales está entre -1.96 y +1.96), entonces
debe ser apto para los datos de revisión (95% de los cuales está entre -1,35 y +1,35). Estos ejemplos ilustran
cómo el PSI captura cualquier diferencia entre los datos de desarrollo y revisión en lugar de enfocarse
sobre aquellas diferencias que sugieren que el modelo no es apto para el propósito de la estimación sobre los datos de revisión

El PSI generalmente se calcula para cada variable independiente en el modelo. También se puede calcular
para variables que no están en el modelo, como variables consideradas candidatas serias durante el modelado.
Sin embargo, dado que se obtiene un valor de PSI separado para cada variable, esto puede resultar en numerosas
resultados cuantitativos cuando se desea un único valor que resuma la estabilidad. Para evitar este problema de
valores múltiples que resumen la estabilidad de la población, el PSI se puede calcular en la salida del modelo (o
puntuación) en su lugar. Sin embargo, esto requiere colocar la salida del modelo típicamente numérico en categorías
antes del cálculo

Finalmente, el valor del PSI puede verse influenciado por el número y la elección de categorías. También
muchas categorías y el PSI puede detectar pequeñas diferencias en la distribución; muy pocas categorías y
puede pasar por alto las diferencias (por ejemplo, si dos categorías, una con alta frecuencia y otra con baja
frecuencia, se combinan para formar una sola categoría). Esto puede crear problemas de interpretación ya que no es
siempre claro si las categorías utilizadas se determinan a priori, o si se eligen para suavizar
detectar diferencias en las distribuciones. Este es un tema importante en la práctica ya que las categorías para el PSI
a menudo tienen que ser elegidos después de la inspección de los datos. En particular, el PSI tiene propiedades poco fiables
cuando las frecuencias para una categoría se acercan a 0. Además, debido a la necesidad de crear categorías para
variables numéricas, los valores atípicos extremos tienen un impacto mínimo en el PSI a pesar de que pueden tener
impacto significativo en la precisión del modelo; si el modelo usa una variable numérica, entonces evaluar la población
Es posible que la estabilidad que utiliza una versión categórica (en cubos) no capture los cambios en la estabilidad de manera adecuada

El índice de precisión de la predicción (PAI)

El índice de precisión de predicción (PAI) se define como la varianza promedio de la media estimada
respuesta en la revisión dividida por la varianza promedio de la respuesta media estimada en el desarrollo.
Al igual que con el PSI, en esta definición son los valores de las variables explicativas (espacio de diseño) que es
importante; los valores de la respuesta son irrelevantes y no requeridos. El PAI es alto cuando: en la revisión,
las variables explicativas toman valores que dan como resultado una varianza de la respuesta pronosticada que es mayor
que la correspondiente varianza en el desarrollo. Los casos de una sola variable numérica, múltiples
regresión y una variable categórica se consideran en las siguientes tres secciones. Tenga en cuenta que estos
Las secciones se presentan para la regresión de mínimos cuadrados ordinarios donde la respuesta se distribuye normalmente,
sin embargo, la definición anterior de PAI se puede aplicar a cualquier modelo (por ejemplo, una red neuronal) donde
las varianzas de las respuestas medias estimadas están disponibles (mediante técnicas como bootstrapping si es necesario).

En particular, los resultados que se presentan a continuación son inmediatamente aplicables a la regresión logística utilizada para
predecir el incumplimiento si las predicciones se toman como las probabilidades logarítmicas de incumplimiento (consulte la Ecuación (1)).

A diferencia del PSI, que se define en una escala sin interpretación obvia, el PAI mide la
aumento en la varianza de la respuesta media estimada desde el desarrollo. Por ejemplo, un valor PAI
de 2 es directamente interpretable ya que la varianza de la respuesta media predicha en la revisión es el doble de la
varianza de la respuesta media en el desarrollo (en promedio). Se recomienda que los valores PAI sean
interpretado de la siguiente manera: los valores inferiores a 1,1 indican que no hay deterioro significativo; valores de 1.1 a 1.5
indicar un deterioro que requiere mayor investigación; y los valores superiores a 1,5 indican el valor predictivo
la precisión del modelo se ha deteriorado significativamente. Tenga en cuenta que estas pautas son más estrictas
que las interpretaciones de Siddiqi (2005) para el PSI (nota en la Tabla 1 el PSI fue 0.252, el límite de
un cambio significativo, pero el PAI es igual a 1,78, muy por encima del límite recomendado de 1,5). Estas
recomendaciones más estrictas se basan en varios factores: un valor de PAI igual a 1,5 corresponde
para revisar datos que tienen una desviación estándar de 1,4 veces la desviación estándar de los datos de desarrollo
(si las distribuciones son normales), que es un aumento significativo; un PSI superior a 0,25 es raro; y desde el
PAI está más enfocado en la precisión predictiva del modelo, tiene más poder para detectar el deterioro en este
importante característica específica del modelo.

$$ 

PAI = \dfrac{\dfrac{1}{N} \sum_{h \in NewData} \widehat{Var}(\hat{y}_h)}{\dfrac{1}{n} \sum_{h \in OldData} \widehat{Var}(\hat{y}_h)}  

$$

Calculo del numerador por remuestreo: (procedimiento analogo para el denominador)

Tenemos B submuestras de la muestra NewData

Se estima $\hat{y}_1$ con cada una de las B submuestras

Se calcula la varianza de las estimaciones obtenidas, que se considera una estimacion de $Var(\hat{y}_1)$  , por tanto, se obtiene $\widehat{Var}(\hat{y}_1)$

Se repite el proceso con $\hat{y}_2$,...,$\hat{y}_N$ , se obtienen asi $\widehat{Var}(\hat{y}_2)$ ,..., $\widehat{Var}(\hat{y}_N)$

Se promedian las estimaciones de las varianzas obtenidas y asi se obtiene el numerador del PAI:

$$ \dfrac{1}{N} \sum_{h \in NewData} \widehat{Var}(\hat{y}_h) $$