## Monitoramento com PSI
---


In [1]:
# importanto bibliotecas
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
# importando dados
populacao_de_treino = pd.read_csv('dados/dados_populacao_de_treino.csv')
dados_scorecard = pd.read_csv('dados/dados_scorecard.csv')
nova_populacao  = pd.read_csv('dados/dados_nova_populacao.csv', low_memory=False)

In [3]:
dados_scorecard.head()

Unnamed: 0,index,nome_feature,coeficiente,p_valor,nome_original_feature,calculo_score,score_preliminar,diferenca,score_final
0,0,intercept,-10.076345,,intercept,-626.6192,-627.0,-0.3808,-627.0
1,1,purpose:credit_card,2.258435,0.0,purpose,150.26686,150.0,-0.26686,150.0
2,2,purpose:debt_consolidation,1.99895,0.0,purpose,133.001802,133.0,-0.001802,133.0
3,3,purpose:home_improvement,2.635993,0.0,purpose,175.387996,175.0,-0.387996,175.0
4,4,home_ownership:OWN,0.845471,0.0,home_ownership,56.254144,56.0,-0.254144,56.0


In [4]:
populacao_de_treino.head()

Unnamed: 0,purpose:credit_card,purpose:debt_consolidation,purpose:home_improvement,home_ownership:OWN,verification_status:Not Verified,verification_status:Source Verified,initial_list_status:f,grade:B,grade:C,grade:D,...,max_bal_bc:<12500,max_bal_bc:25000-37500,max_bal_bc:>37500,total_rev_hi_lim:<10000,total_rev_hi_lim:10000-20000,total_rev_hi_lim:20000-40000,total_rev_hi_lim:40000-60000,total_rev_hi_lim:60000-80000,total_rev_hi_lim:80000-100000,target
0,0,0,0,0,0,0,0,0,1,0,...,1,0,0,0,0,0,1,0,0,0
1,0,0,0,0,0,1,1,0,0,0,...,1,0,0,0,0,0,1,0,0,1
2,0,1,0,0,0,1,0,0,0,1,...,1,0,0,0,0,0,1,0,0,0
3,0,1,0,0,0,0,0,0,1,0,...,1,0,0,0,0,1,0,0,0,1
4,0,1,0,0,0,0,0,0,0,1,...,1,0,0,1,0,0,0,0,0,0


In [5]:
nova_populacao.head()

Unnamed: 0,purpose:credit_card,purpose:debt_consolidation,purpose:home_improvement,home_ownership:OWN,verification_status:Not Verified,verification_status:Source Verified,initial_list_status:f,grade:B,grade:C,grade:D,...,max_bal_bc:<12500,max_bal_bc:25000-37500,max_bal_bc:>37500,total_rev_hi_lim:<10000,total_rev_hi_lim:10000-20000,total_rev_hi_lim:20000-40000,total_rev_hi_lim:40000-60000,total_rev_hi_lim:60000-80000,total_rev_hi_lim:80000-100000,target
0,0,0,1,0,0,1,0,0,1,0,...,1,0,0,0,0,0,1,0,0,1
1,1,0,0,0,1,0,0,0,0,0,...,1,0,0,0,0,1,0,0,0,1
2,0,1,0,0,0,1,0,0,1,0,...,1,0,0,1,0,0,0,0,0,1
3,0,1,0,0,1,0,0,0,1,0,...,1,0,0,0,1,0,0,0,0,1
4,0,0,1,0,1,0,0,1,0,0,...,1,0,0,0,1,0,0,0,0,1


### Population Stability Index (PSI)

O Índice de estabilidade populacional, é uma métrica utilizada para verificar modificações em uma população. Em casos como este, este índice auxilia na comparação entre a população em que modelo foi treinado e a população presente, para saber se modelo continua performando bem ou deve ser modelado novamente.

O cáculo é feito pela seguinte fórmula:

<br>

\begin{align}
\text{PSI:} \qquad &\sum_{j=1}^n \left( \text{% pop atual}_j - \text{% pop esperada}_j \right) \cdot \ln \left( \frac{\text{% pop atual}_j}{\text{% pop esperada}_j} \right)
\end{align}

<br><br>

Valores de referência do PSI:


Valor PSI        | Diferença na População 
-----------------|------------------------
PSI = 0          | Nenhuma diferença 
PSI < 0.1        | Pequena para nenhuma diferença 
0.1 < PSI < 0.25 | Pequena diferença (nenhuma ação é tomada) 
PSI > 0.25       | Grande diferença (alguma ação deve ser tomada)
PSI = 1          | Diferença absoluta


Este notebook foi criado para simular uma mudança na população em que o modelo foi treinado, então serão comparados os dados de treino com dados de uma nova população.

### Escorando dados

Primeiramente os dados de treino e os dados da nova população serão escorados utilizando a tabela de score criada.

In [6]:
# copiando dataframe dos dados de treino para o dataframe que será escorado
df_dados_treino_scorado = populacao_de_treino.copy()
df_dados_treino_scorado.insert(0, 'intercept', 1)

# ordenando colunas
df_dados_treino_scorado = df_dados_treino_scorado[dados_scorecard['nome_feature'].values]
df_dados_treino_scorado.head()

Unnamed: 0,intercept,purpose:credit_card,purpose:debt_consolidation,purpose:home_improvement,home_ownership:OWN,verification_status:Not Verified,verification_status:Source Verified,initial_list_status:f,grade:B,grade:C,...,funded_amnt:>9050,max_bal_bc:<12500,max_bal_bc:25000-37500,max_bal_bc:>37500,total_rev_hi_lim:<10000,total_rev_hi_lim:10000-20000,total_rev_hi_lim:20000-40000,total_rev_hi_lim:40000-60000,total_rev_hi_lim:60000-80000,total_rev_hi_lim:80000-100000
0,1,0,0,0,0,0,0,0,0,1,...,0,1,0,0,0,0,0,1,0,0
1,1,0,0,0,0,0,1,1,0,0,...,0,1,0,0,0,0,0,1,0,0
2,1,0,1,0,0,0,1,0,0,0,...,1,1,0,0,0,0,0,1,0,0
3,1,0,1,0,0,0,0,0,0,1,...,0,1,0,0,0,0,1,0,0,0
4,1,0,1,0,0,0,0,0,0,0,...,1,1,0,0,1,0,0,0,0,0


In [7]:
# copiando dataframe dos dados da nova população para o dataframe que será escorado
df_dados_nova_populacao_scorado = nova_populacao.copy()
df_dados_nova_populacao_scorado.insert(0, 'intercept', 1)

# ordenando colunas
df_dados_nova_populacao_scorado = df_dados_nova_populacao_scorado[dados_scorecard['nome_feature'].values]
df_dados_nova_populacao_scorado.head()

Unnamed: 0,intercept,purpose:credit_card,purpose:debt_consolidation,purpose:home_improvement,home_ownership:OWN,verification_status:Not Verified,verification_status:Source Verified,initial_list_status:f,grade:B,grade:C,...,funded_amnt:>9050,max_bal_bc:<12500,max_bal_bc:25000-37500,max_bal_bc:>37500,total_rev_hi_lim:<10000,total_rev_hi_lim:10000-20000,total_rev_hi_lim:20000-40000,total_rev_hi_lim:40000-60000,total_rev_hi_lim:60000-80000,total_rev_hi_lim:80000-100000
0,1,0,0,1,0,0,1,0,0,1,...,1,1,0,0,0,0,0,1,0,0
1,1,1,0,0,0,1,0,0,0,0,...,0,1,0,0,0,0,1,0,0,0
2,1,0,1,0,0,0,1,0,0,1,...,0,1,0,0,1,0,0,0,0,0
3,1,0,1,0,0,1,0,0,0,1,...,1,1,0,0,0,1,0,0,0,0
4,1,0,0,1,0,1,0,0,1,0,...,1,1,0,0,0,1,0,0,0,0


In [8]:
scorecard_scores = dados_scorecard['score_final']
scorecard_scores = scorecard_scores.values.reshape(78, 1)

In [9]:
# calculado o score
y_scores_train = df_dados_treino_scorado.dot(scorecard_scores)
y_scores_nova_pop = df_dados_nova_populacao_scorado.dot(scorecard_scores)

In [10]:
# concatenando score no dataframe 
df_dados_treino_scorado = pd.concat([df_dados_treino_scorado, y_scores_train], axis = 1)
df_dados_nova_populacao_scorado = pd.concat([df_dados_nova_populacao_scorado, y_scores_nova_pop], axis = 1)

# renomeando colunas de score
df_dados_treino_scorado.columns.values[df_dados_treino_scorado.shape[1] - 1] = 'score'
df_dados_nova_populacao_scorado.columns.values[df_dados_nova_populacao_scorado.shape[1] - 1] = 'score'

In [11]:
# criando dummies de intervalos de score para os dados de treino
df_dados_treino_scorado['score:0-99']     = np.where((df_dados_treino_scorado['score'] <= 0)   & (df_dados_treino_scorado['score'] < 99), 1, 0)
df_dados_treino_scorado['score:100-199']  = np.where((df_dados_treino_scorado['score'] >= 100) & (df_dados_treino_scorado['score'] < 199), 1, 0)
df_dados_treino_scorado['score:200-299']  = np.where((df_dados_treino_scorado['score'] >= 200) & (df_dados_treino_scorado['score'] < 299), 1, 0)
df_dados_treino_scorado['score:300-399']  = np.where((df_dados_treino_scorado['score'] >= 300) & (df_dados_treino_scorado['score'] < 399), 1, 0)
df_dados_treino_scorado['score:400-499']  = np.where((df_dados_treino_scorado['score'] >= 400) & (df_dados_treino_scorado['score'] < 499), 1, 0)
df_dados_treino_scorado['score:500-599']  = np.where((df_dados_treino_scorado['score'] >= 500) & (df_dados_treino_scorado['score'] < 599), 1, 0)
df_dados_treino_scorado['score:600-699']  = np.where((df_dados_treino_scorado['score'] >= 600) & (df_dados_treino_scorado['score'] < 699), 1, 0)
df_dados_treino_scorado['score:700-799']  = np.where((df_dados_treino_scorado['score'] >= 700) & (df_dados_treino_scorado['score'] < 799), 1, 0)
df_dados_treino_scorado['score:800-899']  = np.where((df_dados_treino_scorado['score'] >= 800) & (df_dados_treino_scorado['score'] < 899), 1, 0)
df_dados_treino_scorado['score:900-1000'] = np.where((df_dados_treino_scorado['score'] >= 900) & (df_dados_treino_scorado['score'] < 1000), 1, 0)

In [12]:
# criando dummies de intervalos de score para os dados da nova população
df_dados_nova_populacao_scorado['score:0-99']     = np.where((df_dados_nova_populacao_scorado['score'] <= 0)   & (df_dados_nova_populacao_scorado['score'] < 99), 1, 0)
df_dados_nova_populacao_scorado['score:100-199']  = np.where((df_dados_nova_populacao_scorado['score'] >= 100) & (df_dados_nova_populacao_scorado['score'] < 199), 1, 0)
df_dados_nova_populacao_scorado['score:200-299']  = np.where((df_dados_nova_populacao_scorado['score'] >= 200) & (df_dados_nova_populacao_scorado['score'] < 299), 1, 0)
df_dados_nova_populacao_scorado['score:300-399']  = np.where((df_dados_nova_populacao_scorado['score'] >= 300) & (df_dados_nova_populacao_scorado['score'] < 399), 1, 0)
df_dados_nova_populacao_scorado['score:400-499']  = np.where((df_dados_nova_populacao_scorado['score'] >= 400) & (df_dados_nova_populacao_scorado['score'] < 499), 1, 0)
df_dados_nova_populacao_scorado['score:500-599']  = np.where((df_dados_nova_populacao_scorado['score'] >= 500) & (df_dados_nova_populacao_scorado['score'] < 599), 1, 0)
df_dados_nova_populacao_scorado['score:600-699']  = np.where((df_dados_nova_populacao_scorado['score'] >= 600) & (df_dados_nova_populacao_scorado['score'] < 699), 1, 0)
df_dados_nova_populacao_scorado['score:700-799']  = np.where((df_dados_nova_populacao_scorado['score'] >= 700) & (df_dados_nova_populacao_scorado['score'] < 799), 1, 0)
df_dados_nova_populacao_scorado['score:800-899']  = np.where((df_dados_nova_populacao_scorado['score'] >= 800) & (df_dados_nova_populacao_scorado['score'] < 899), 1, 0)
df_dados_nova_populacao_scorado['score:900-1000'] = np.where((df_dados_nova_populacao_scorado['score'] >= 900) & (df_dados_nova_populacao_scorado['score'] < 1000), 1, 0)

### Cálculo PSI

In [13]:
# calculando a proporção de cada variável
PSI_calc_treino   = df_dados_treino_scorado.sum() / df_dados_treino_scorado.shape[0]
PSI_calc_nova_pop = df_dados_nova_populacao_scorado.sum() / df_dados_nova_populacao_scorado.shape[0]

# concatenando dados
PSI_calc = pd.concat([PSI_calc_treino, PSI_calc_nova_pop], axis = 1)
PSI_calc = PSI_calc.reset_index()

In [14]:
# renomeando e ordenando colunas 
PSI_calc['nome_original_feature'] = PSI_calc['index'].str.split(':').str[0]
PSI_calc.columns = ['index', 'proporcao_treino', 'proporcao_novos', 'nome_original_feature']
PSI_calc = PSI_calc[np.array(['index', 'nome_original_feature', 'proporcao_treino', 'proporcao_novos'])]
PSI_calc = PSI_calc[(PSI_calc['index'] != 'intercept') & (PSI_calc['index'] != 'score')]

In [15]:
PSI_calc

Unnamed: 0,index,nome_original_feature,proporcao_treino,proporcao_novos
1,purpose:credit_card,purpose,2.069119e-01,0.242286
2,purpose:debt_consolidation,purpose,5.732560e-01,0.593739
3,purpose:home_improvement,purpose,5.347432e-02,0.060063
4,home_ownership:OWN,home_ownership,9.312470e-02,0.108684
5,verification_status:Not Verified,verification_status,2.936761e-01,0.281441
...,...,...,...,...
84,score:500-599,score,1.871007e-05,0.000000
85,score:600-699,score,9.355036e-07,0.000000
86,score:700-799,score,0.000000e+00,0.000000
87,score:800-899,score,0.000000e+00,0.000000


In [16]:
# calculando a contribuição das variáveis
PSI_calc['contribuicao'] = np.where((PSI_calc['proporcao_treino'] == 0) | (PSI_calc['proporcao_novos'] == 0), 0, (PSI_calc['proporcao_novos'] - PSI_calc['proporcao_treino']) * np.log(PSI_calc['proporcao_novos'] / PSI_calc['proporcao_treino']))

  result = getattr(ufunc, method)(*inputs, **kwargs)


In [17]:
PSI_calc

Unnamed: 0,index,nome_original_feature,proporcao_treino,proporcao_novos,contribuicao
1,purpose:credit_card,purpose,2.069119e-01,0.242286,0.005583
2,purpose:debt_consolidation,purpose,5.732560e-01,0.593739,0.000719
3,purpose:home_improvement,purpose,5.347432e-02,0.060063,0.000765
4,home_ownership:OWN,home_ownership,9.312470e-02,0.108684,0.002404
5,verification_status:Not Verified,verification_status,2.936761e-01,0.281441,0.000521
...,...,...,...,...,...
84,score:500-599,score,1.871007e-05,0.000000,0.000000
85,score:600-699,score,9.355036e-07,0.000000,0.000000
86,score:700-799,score,0.000000e+00,0.000000,0.000000
87,score:800-899,score,0.000000e+00,0.000000,0.000000


#### Valores de PSI das features

- Pequena para nenhuma diferença: `annual_inc`, `dti`, `home_ownership`, `funded_amnt`, `grade`, `initial_list_status`, `inq_last_6mths`, `int_rate`, `max_bal_bc`, `purpose`, `revol_util`, `term`, `tot_cur_bal`, `total_rev_hi_lim`,`verification_status`, `score`

- Grande diferença: `il_util`, `mths_since_rcnt_il`

- Diferença absoluta: `total_bal_il`


In [18]:
PSI_calc.groupby('nome_original_feature')['contribuicao'].sum()

nome_original_feature
annual_inc             0.011717
dti                    0.000132
funded_amnt            0.005979
grade                  0.009262
home_ownership         0.002563
initial_list_status    0.030482
inq_last_6mths         0.000009
int_rate               0.087780
max_bal_bc             0.014568
mths_since_rcnt_il     0.649209
purpose                0.008132
revol_util             0.018771
score                  0.145420
term                   0.002236
tot_cur_bal            0.025511
total_bal_il           1.246583
total_rev_hi_lim       0.004708
verification_status    0.009007
Name: contribuicao, dtype: float64

*Obs.: Apesar dos valores de PSI irem de 0 a 1, total_bal_il teve PSI maior que 1, isso acontece devido a impossibilidade de divisão por zero durante o cálculo.*

### Conclusão

Após o cálculo do índice de estabilidade populacional conclui-se que a população recém-admitida difere significativamente da antiga em relação ao score de crédito, esta diferença substancial entre as duas populações mostra que é necessário construir um novo modelo de PD que corresponda mais de perto à população mais recente.

---