## Importações

In [1]:
from funcoes.funcoes import *

pd.set_option('display.max_rows', 200)

In [2]:
# importando dados

populacao_de_treino = pd.read_csv('dados/dados_populacao_de_treino.zip')
dados_scorecard = pd.read_csv('dados/dados_scorecard.csv')
nova_populacao  = pd.read_csv('dados/loan_data_2015.zip', low_memory=False)

---
## 1. Monitoramento com PSI


### 1.1 Population Stability Index (PSI)

O Índice de Estabilidade Populacional constitui uma métrica empregada para a análise de variações dentro de uma dada população. Essencialmente, este índice é instrumental na avaliação comparativa entre o conjunto populacional subjacente ao treinamento de um modelo estatístico e o conjunto populacional atualmente observado. A finalidade dessa comparação reside na determinação da manutenção da eficácia do modelo ou da necessidade de sua readequação em face de possíveis deslocamentos populacionais.

O cálculo é feito pela seguinte fórmula:

<br>

\begin{align}
\text{PSI:} \qquad &\sum_{j=1}^n \left( \text{% pop atual}_j - \text{% pop esperada}_j \right) \cdot \ln \left( \frac{\text{% pop atual}_j}{\text{% pop esperada}_j} \right)
\end{align}

<br><br>

Valores de referência do PSI:


Valor PSI        | Diferença na População 
-----------------|------------------------
PSI = 0          | Nenhuma diferença 
PSI < 0.1        | Pequena para nenhuma diferença 
0.1 < PSI < 0.25 | Pequena diferença (nenhuma ação é tomada) 
PSI > 0.25       | Grande diferença (alguma ação deve ser tomada)
PSI = 1          | Diferença absoluta


Este notebook foi criado para simular uma mudança na população em que o modelo foi treinado, então serão comparados os dados de treino com dados de uma nova população.


### 1.2 Escorando dados

Primeiramente os dados de treino e os dados da nova população serão escorados utilizando a tabela de score criada.

In [3]:
# copiando dataframe dos dados de treino para o dataframe que será escorado

df_dados_treino_scorado = populacao_de_treino.copy()
df_dados_treino_scorado.insert(0, 'intercept', 1)


# ordenando colunas

df_dados_treino_scorado = df_dados_treino_scorado[dados_scorecard['nome_feature'].values]
df_dados_treino_scorado.head()

Unnamed: 0,intercept,grade:A,grade:B,grade:C,grade:D,grade:E,grade:F,home_ownership:OWN,home_ownership:MORTGAGE,addr_state:NM_VA,...,mths_since_last_delinq:Missing,mths_since_last_delinq:4-30,mths_since_last_delinq:31-56,mths_since_last_delinq:>=57,mths_since_last_record:Missing,mths_since_last_record:3-20,mths_since_last_record:21-31,mths_since_last_record:32-80,mths_since_last_record:81-86,mths_since_last_record:>86
0,1,0,0,1,0,0,0,1,0,0,...,1,0,0,0,0,0,0,0,0,1
1,1,0,0,1,0,0,0,0,1,0,...,0,0,1,0,1,0,0,0,0,0
2,1,1,0,0,0,0,0,0,1,0,...,0,1,0,0,1,0,0,0,0,0
3,1,0,0,0,0,1,0,0,1,0,...,0,0,0,1,1,0,0,0,0,0
4,1,0,0,1,0,0,0,0,1,0,...,1,0,0,0,0,0,0,0,0,1


In [4]:
# copiando dataframe dos dados da nova população para o dataframe que será escorado

df_dados_nova_populacao_scorado = nova_populacao.copy()
df_dados_nova_populacao_scorado.insert(0, 'intercept', 1)


# ordenando colunas

df_dados_nova_populacao_scorado = df_dados_nova_populacao_scorado[dados_scorecard['nome_feature'].values]
df_dados_nova_populacao_scorado.head()

Unnamed: 0,intercept,grade:A,grade:B,grade:C,grade:D,grade:E,grade:F,home_ownership:OWN,home_ownership:MORTGAGE,addr_state:NM_VA,...,mths_since_last_delinq:Missing,mths_since_last_delinq:4-30,mths_since_last_delinq:31-56,mths_since_last_delinq:>=57,mths_since_last_record:Missing,mths_since_last_record:3-20,mths_since_last_record:21-31,mths_since_last_record:32-80,mths_since_last_record:81-86,mths_since_last_record:>86
0,1,0,0,1,0,0,0,0,1,0,...,0,0,1,0,1,0,0,0,0,0
1,1,1,0,0,0,0,0,0,1,0,...,1,0,0,0,1,0,0,0,0,0
2,1,0,0,1,0,0,0,0,0,0,...,0,1,0,0,1,0,0,0,0,0
3,1,0,0,1,0,0,0,0,0,0,...,1,0,0,0,1,0,0,0,0,0
4,1,0,1,0,0,0,0,0,1,0,...,1,0,0,0,1,0,0,0,0,0


In [5]:
scorecard_scores = dados_scorecard['score_final']
scorecard_scores = scorecard_scores.values.reshape(105, 1)

In [6]:
# calculado o score

y_scores_train = df_dados_treino_scorado.dot(scorecard_scores)
y_scores_nova_pop = df_dados_nova_populacao_scorado.dot(scorecard_scores)

In [7]:
# concatenando score no dataframe 

df_dados_treino_scorado = pd.concat([df_dados_treino_scorado, y_scores_train], axis = 1)
df_dados_nova_populacao_scorado = pd.concat([df_dados_nova_populacao_scorado, y_scores_nova_pop], axis = 1)


# renomeando colunas de score

df_dados_treino_scorado.columns.values[df_dados_treino_scorado.shape[1] - 1] = 'score'
df_dados_nova_populacao_scorado.columns.values[df_dados_nova_populacao_scorado.shape[1] - 1] = 'score'

In [8]:
# separando os dados em 10 faixas de risco 

df_dados_treino_scorado['risco'] = pd.qcut(df_dados_treino_scorado['score'], 8, labels=[1, 2, 3, 4, 5, 6, 7, 8])
df_dados_treino_scorado['risco'].value_counts(normalize=True)*100

2    12.751265
6    12.658740
1    12.609414
3    12.510761
5    12.480124
7    12.427121
8    12.347771
4    12.214805
Name: risco, dtype: float64

In [9]:
# intervalos do score de cada faixa

subset1 = df_dados_treino_scorado.groupby(['risco']).agg({'score':['min','max']})
subset1

Unnamed: 0_level_0,score,score
Unnamed: 0_level_1,min,max
risco,Unnamed: 1_level_2,Unnamed: 2_level_2
1,245.0,433.0
2,434.0,465.0
3,466.0,490.0
4,491.0,513.0
5,514.0,537.0
6,538.0,566.0
7,567.0,609.0
8,610.0,766.0


In [10]:
# criando dummies de intervalos de score para os dados de treino

df_dados_treino_scorado['score:0-433']   = np.where((df_dados_treino_scorado['score'] >= 0)   & (df_dados_treino_scorado['score'] <= 433), 1, 0)
df_dados_treino_scorado['score:434-465'] = np.where((df_dados_treino_scorado['score'] >= 434) & (df_dados_treino_scorado['score'] <= 465), 1, 0)
df_dados_treino_scorado['score:466-490'] = np.where((df_dados_treino_scorado['score'] >= 466) & (df_dados_treino_scorado['score'] <= 490), 1, 0)
df_dados_treino_scorado['score:491-513'] = np.where((df_dados_treino_scorado['score'] >= 491) & (df_dados_treino_scorado['score'] <= 513), 1, 0)
df_dados_treino_scorado['score:514-537'] = np.where((df_dados_treino_scorado['score'] >= 514) & (df_dados_treino_scorado['score'] <= 537), 1, 0)
df_dados_treino_scorado['score:538-566'] = np.where((df_dados_treino_scorado['score'] >= 538) & (df_dados_treino_scorado['score'] <= 566), 1, 0)
df_dados_treino_scorado['score:567-609'] = np.where((df_dados_treino_scorado['score'] >= 567) & (df_dados_treino_scorado['score'] <= 609), 1, 0)
df_dados_treino_scorado['score:610-850'] = np.where((df_dados_treino_scorado['score'] >= 610) & (df_dados_treino_scorado['score'] <= 850), 1, 0)


In [11]:
# criando dummies de intervalos de score para os dados da nova população

df_dados_nova_populacao_scorado['score:0-433']   = np.where((df_dados_nova_populacao_scorado['score'] >= 0)   & (df_dados_nova_populacao_scorado['score'] <= 433), 1, 0)
df_dados_nova_populacao_scorado['score:434-465'] = np.where((df_dados_nova_populacao_scorado['score'] >= 434) & (df_dados_nova_populacao_scorado['score'] <= 465), 1, 0)
df_dados_nova_populacao_scorado['score:466-490'] = np.where((df_dados_nova_populacao_scorado['score'] >= 466) & (df_dados_nova_populacao_scorado['score'] <= 490), 1, 0)
df_dados_nova_populacao_scorado['score:491-513'] = np.where((df_dados_nova_populacao_scorado['score'] >= 491) & (df_dados_nova_populacao_scorado['score'] <= 513), 1, 0)
df_dados_nova_populacao_scorado['score:514-537'] = np.where((df_dados_nova_populacao_scorado['score'] >= 514) & (df_dados_nova_populacao_scorado['score'] <= 537), 1, 0)
df_dados_nova_populacao_scorado['score:538-566'] = np.where((df_dados_nova_populacao_scorado['score'] >= 538) & (df_dados_nova_populacao_scorado['score'] <= 566), 1, 0)
df_dados_nova_populacao_scorado['score:567-609'] = np.where((df_dados_nova_populacao_scorado['score'] >= 567) & (df_dados_nova_populacao_scorado['score'] <= 609), 1, 0)
df_dados_nova_populacao_scorado['score:610-850'] = np.where((df_dados_nova_populacao_scorado['score'] >= 610) & (df_dados_nova_populacao_scorado['score'] <= 850), 1, 0)

### 1.3 Cálculo do PSI

In [12]:
# calculando a proporção de cada variável

PSI_calc_treino   = df_dados_treino_scorado.sum() / df_dados_treino_scorado.shape[0]
PSI_calc_nova_pop = df_dados_nova_populacao_scorado.sum() / df_dados_nova_populacao_scorado.shape[0]


# concatenando dados

PSI_calc = pd.concat([PSI_calc_treino, PSI_calc_nova_pop], axis = 1)
PSI_calc = PSI_calc.reset_index()

In [13]:
# renomeando e ordenando colunas 

PSI_calc['nome_original_feature'] = PSI_calc['index'].str.split(':').str[0]
PSI_calc.columns = ['index', 'proporcao_treino', 'proporcao_novos', 'nome_original_feature']
PSI_calc = PSI_calc[np.array(['index', 'nome_original_feature', 'proporcao_treino', 'proporcao_novos'])]
PSI_calc = PSI_calc[(PSI_calc['index'] != 'intercept') & (PSI_calc['index'] != 'score')]

In [14]:
PSI_calc

Unnamed: 0,index,nome_original_feature,proporcao_treino,proporcao_novos
1,grade:A,grade,0.160874,0.174154
2,grade:B,grade,0.293221,0.279287
3,grade:C,grade,0.268861,0.286318
4,grade:D,grade,0.165258,0.148789
5,grade:E,grade,0.076394,0.082993
6,grade:F,grade,0.028318,0.023313
7,home_ownership:OWN,home_ownership,0.089424,0.108684
8,home_ownership:MORTGAGE,home_ownership,0.506252,0.493196
9,addr_state:NM_VA,addr_state,0.036284,0.034159
10,addr_state:NY,addr_state,0.085892,0.080372


In [15]:
# calculando a contribuição das variáveis

PSI_calc['contribuicao'] = np.where((PSI_calc['proporcao_treino'] == 0) | (PSI_calc['proporcao_novos'] == 0), 0, (PSI_calc['proporcao_novos'] - PSI_calc['proporcao_treino']) * np.log(PSI_calc['proporcao_novos'] / PSI_calc['proporcao_treino']))

In [16]:
PSI_calc

Unnamed: 0,index,nome_original_feature,proporcao_treino,proporcao_novos,contribuicao
1,grade:A,grade,0.160874,0.174154,0.001053
2,grade:B,grade,0.293221,0.279287,0.000678
3,grade:C,grade,0.268861,0.286318,0.001098
4,grade:D,grade,0.165258,0.148789,0.001729
5,grade:E,grade,0.076394,0.082993,0.000547
6,grade:F,grade,0.028318,0.023313,0.000973
7,home_ownership:OWN,home_ownership,0.089424,0.108684,0.003756
8,home_ownership:MORTGAGE,home_ownership,0.506252,0.493196,0.000341
9,addr_state:NM_VA,addr_state,0.036284,0.034159,0.000128
10,addr_state:NY,addr_state,0.085892,0.080372,0.000367


#### 1.3.1 Valores de PSI das features

- Pequena diferença: `initial_list_status`

- Grande diferença: `score`

- Diferença absoluta: `mths_since_issue_d`

In [17]:
PSI_calc.groupby('nome_original_feature')['contribuicao'].sum()

nome_original_feature
acc_now_delinq                 0.000844
addr_state                     0.003475
annual_inc                     0.005124
delinq_2yrs                    0.003956
dti                            0.024571
emp_length                     0.006124
grade                          0.006079
home_ownership                 0.004098
initial_list_status            0.168428
inq_last_6mths                 0.046386
int_rate                       0.058619
mths_since_earliest_cr_line    0.016560
mths_since_issue_d             2.380325
mths_since_last_delinq         0.011086
mths_since_last_record         0.049182
open_acc                       0.022374
pub_rec                        0.004260
purpose                        0.002209
score                          0.889387
term                           0.003898
total_acc                      0.000992
total_rev_hi_lim               0.047915
verification_status            0.033703
Name: contribuicao, dtype: float64

*Obs.: Apesar dos valores de PSI irem de 0 a 1, mths_since_issue_d teve PSI maior que 1, isso acontece devido a impossibilidade de divisão por zero durante o cálculo.*

Após o cálculo do índice de estabilidade populacional conclui-se que a população recém-admitida difere significativamente da antiga em relação ao score de crédito, ou seja, será necessário construir um novo modelo de PD que corresponda à população mais recente, além de uma investigação quanto as variáveis que apresentaram alguma diferença.

---