# Segunda Aula - Introdução à Análise de Dados

## Importando dependências e definindo variáveis de ambiente

In [1]:
import pandas as pd

In [2]:
import locale

In [3]:
locale.setlocale(locale.LC_ALL, '')

'Portuguese_Brazil.1252'

In [4]:
salario = 25000

In [5]:
locale.currency(salario)

'R$25000,00'

In [6]:
locale.currency(salario, grouping = True)

'R$25.000,00'

In [7]:
locale.LC_MONETARY

3

## Carregando a base de dados

In [8]:
file_directory = './'
file_name = 'default of credit card clients.xls'
file_path = file_directory + file_name

In [9]:
file_path

'./default of credit card clients.xls'

In [10]:
df_dados = pd.read_excel(file_path)

# Criando a regra de negócios no Pandas
## Identificando se a(o) ciente é homem

In [11]:
df_dados["SEX"].value_counts()

2    18112
1    11888
Name: SEX, dtype: int64

Criando uma máscara para identificar os homens.

In [12]:
mask_filter_man = df_dados["SEX"] == 1

In [13]:
mask_filter_man

0        False
1        False
2        False
3        False
4         True
         ...  
29995     True
29996     True
29997     True
29998     True
29999     True
Name: SEX, Length: 30000, dtype: bool

In [14]:
sum(mask_filter_man)

11888

In [15]:
df_dados["eh_homem"] = mask_filter_man
df_dados["eh_homem"]

0        False
1        False
2        False
3        False
4         True
         ...  
29995     True
29996     True
29997     True
29998     True
29999     True
Name: eh_homem, Length: 30000, dtype: bool

In [16]:
df_dados.columns

Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_0',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default payment next month', 'eh_homem'],
      dtype='object')

## Identificando se o cliente tem baixa escolaridade 

In [17]:
df_dados["EDUCATION"].value_counts()

2    14030
1    10585
3     4917
5      280
4      123
6       51
0       14
Name: EDUCATION, dtype: int64

Criando uma máscara para identificar se o cliente tem baixa escolaridade.

In [18]:
mask_filter_education = df_dados["EDUCATION"] >= 3

In [19]:
mask_filter_education

0        False
1        False
2        False
3        False
4        False
         ...  
29995     True
29996     True
29997    False
29998     True
29999    False
Name: EDUCATION, Length: 30000, dtype: bool

In [20]:
sum(mask_filter_education)

5371

In [21]:
df_dados["tem_baixa_escolaridade"] = mask_filter_education
df_dados["tem_baixa_escolaridade"]

0        False
1        False
2        False
3        False
4        False
         ...  
29995     True
29996     True
29997    False
29998     True
29999    False
Name: tem_baixa_escolaridade, Length: 30000, dtype: bool

In [22]:
df_dados.columns

Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_0',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default payment next month', 'eh_homem', 'tem_baixa_escolaridade'],
      dtype='object')

In [23]:
pd.pivot_table(data=df_dados, index="tem_baixa_escolaridade", columns="EDUCATION", values="ID", aggfunc="count", fill_value=True)

EDUCATION,0,1,2,3,4,5,6
tem_baixa_escolaridade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
False,14,10585,14030,True,True,True,True
True,True,True,True,4917,123,280,51


## Identificando se o cliente está atrasado no mês anterior

In [24]:
df_dados["PAY_0"].value_counts()

 0    14737
-1     5686
 1     3688
-2     2759
 2     2667
 3      322
 4       76
 5       26
 8       19
 6       11
 7        9
Name: PAY_0, dtype: int64

Criando uma máscara para identificar se o cliente tem baixa escolaridade.

In [25]:
mask_filter_default_last_month = df_dados["PAY_0"] > 0

In [26]:
mask_filter_default_last_month

0         True
1        False
2        False
3        False
4        False
         ...  
29995    False
29996    False
29997     True
29998     True
29999    False
Name: PAY_0, Length: 30000, dtype: bool

In [27]:
sum(mask_filter_default_last_month)

6818

In [28]:
df_dados["deve_mes_anterior"] = mask_filter_default_last_month
df_dados["deve_mes_anterior"]

0         True
1        False
2        False
3        False
4        False
         ...  
29995    False
29996    False
29997     True
29998     True
29999    False
Name: deve_mes_anterior, Length: 30000, dtype: bool

In [29]:
df_dados.columns

Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_0',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default payment next month', 'eh_homem', 'tem_baixa_escolaridade',
       'deve_mes_anterior'],
      dtype='object')

In [30]:
pd.pivot_table(data=df_dados, index="deve_mes_anterior", columns="PAY_0", values="ID", aggfunc="count", fill_value=0)

PAY_0,-2,-1,0,1,2,3,4,5,6,7,8
deve_mes_anterior,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
False,2759,5686,14737,0,0,0,0,0,0,0,0
True,0,0,0,3688,2667,322,76,26,11,9,19


## Criando a coluna de previsão do atraso

In [31]:
df_dados["previsao_atraso"] = (df_dados["eh_homem"]) & (df_dados["deve_mes_anterior"]) & (df_dados["tem_baixa_escolaridade"])

In [32]:
df_dados["previsao_atraso"].tail()

29995    False
29996    False
29997    False
29998     True
29999    False
Name: previsao_atraso, dtype: bool

In [33]:
sum(df_dados["previsao_atraso"])

579

## Verificando se a regra funcionou

In [34]:
pd.pivot_table(data=df_dados, index="previsao_atraso", columns=["eh_homem","deve_mes_anterior","tem_baixa_escolaridade"], values="ID", aggfunc="count", fill_value=0)

eh_homem,False,False,False,False,True,True,True,True
deve_mes_anterior,False,False,True,True,False,False,True,True
tem_baixa_escolaridade,False,True,False,True,False,True,False,True
previsao_atraso,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
False,11693,2455,3200,764,7461,1573,2275,0
True,0,0,0,0,0,0,0,579


# Analisando a qualidade da previsão da regra de negócio: matriz de confusão

Cassificador Binário

Comparação das duas colunas: 'previsao_de_atraso' e 'default payment next month'

In [35]:
pd.pivot_table(data=df_dados, index="default payment next month", columns="previsao_atraso", values="ID", aggfunc="count", fill_value=0)

previsao_atraso,False,True
default payment next month,Unnamed: 1_level_1,Unnamed: 2_level_1
0,23096,268
1,6325,311


In [36]:
fp = 268
tp = 311
tn = 23096
fn = 6325
precision = (tp / (tp + fp)) * 100
recall = (tp / (tp + fn)) * 100
print("Precisão: " + str(precision) + "%")
print("Recall: " + str(recall) + "%")

Precisão: 53.71329879101899%
Recall: 4.686558167570825%


Ou seja, de todos os casos que o modelo disse ser verdade, 53.71% de fato era verdade (precisão). Enquanto todos casos que são de fato verdade, 4.68% o modelo disse ser verdade (recall).

## Impacto financeiro sem a previsão

In [37]:
mask_filter_not_default = (df_dados["default payment next month"] == 0)

In [38]:
mask_filter_default = (df_dados["default payment next month"] == 1)

### Impacto financeiro de quem PAGOU

In [39]:
tx = 5/100
tx

0.05

In [40]:
df_dados.loc[mask_filter_not_default, "LIMIT_BAL"]

2         90000
3         50000
4         50000
5         50000
6        500000
          ...  
29990    140000
29992     10000
29993    100000
29995    220000
29996    150000
Name: LIMIT_BAL, Length: 23364, dtype: int64

In [41]:
df_dados.loc[mask_filter_default, "LIMIT_BAL"]

0         20000
1        120000
13        70000
16        20000
21       120000
          ...  
29991    210000
29994     80000
29997     30000
29998     80000
29999     50000
Name: LIMIT_BAL, Length: 6636, dtype: int64

Criando a coluna de impacto financeiro sem a regra:

In [42]:
df_dados["impacto_financeiro_sem_a_regra"] =  0

### Calculando o impacto de quem pagou e de quem não pagou

In [43]:
df_dados.loc[mask_filter_not_default, "impacto_financeiro_sem_a_regra"] = tx * df_dados["LIMIT_BAL"]

In [44]:
df_dados.loc[mask_filter_default, "impacto_financeiro_sem_a_regra"] = -df_dados["LIMIT_BAL"]

Pagantes:

In [45]:
locale.currency(sum(df_dados.loc[mask_filter_not_default, "impacto_financeiro_sem_a_regra"]), grouping = True)

'R$208.056.100,00'

Não Pagantes:

In [46]:
locale.currency(sum(df_dados.loc[mask_filter_default, "impacto_financeiro_sem_a_regra"]), grouping = True)

'R$-863.407.680,00'

Impacto Total:

In [47]:
locale.currency(sum(df_dados["impacto_financeiro_sem_a_regra"]), grouping = True)

'R$-655.351.580,00'

## Impacto financeiro com a previsão atual

In [48]:
cl = 20
tr = 20/100
print("Taxa de transação: " + str(tx))
print("Taxa da ligação: " + str(cl))
print("Taxa de recuperação: " + str(tr))

Taxa de transação: 0.05
Taxa da ligação: 20
Taxa de recuperação: 0.2


Criando a coluna impacto financeiro com regra:

In [49]:
df_dados["impacto_financeiro_com_regra"] =  0

### Impacto dos Negativos Verdadeiros (TN = True Negatives)

$$
J_{TN} = \sum_i^{TN} T_x V_F
$$

In [50]:
mask_filter_true_negatives = (df_dados["previsao_atraso"] == False) & (df_dados["default payment next month"] == 0)

True Negatives:

In [51]:
df_dados.loc[mask_filter_true_negatives, "impacto_financeiro_com_regra"] = tx * df_dados["LIMIT_BAL"]
locale.currency(sum(df_dados.loc[mask_filter_true_negatives, "impacto_financeiro_com_regra"]), grouping = True)

'R$206.759.100,00'

### Impacto dos Falsos Positivos (FP = False Positives)

$$
J_{FP} = \sum_i^{FP} T_x V_F - C_L
$$

In [52]:
mask_filter_false_positives = (df_dados["previsao_atraso"] == True) & (df_dados["default payment next month"] == 0)

Falsos Positivos:

In [53]:
df_dados.loc[mask_filter_false_positives, "impacto_financeiro_com_regra"] = (tx * df_dados["LIMIT_BAL"]) - cl
locale.currency(sum(df_dados.loc[mask_filter_false_positives, "impacto_financeiro_com_regra"]), grouping = True)

'R$1.291.640,00'

### Impacto dos Falsos Negativos  (FN = False Negatives)

$$
J_{FN} = \sum_i^{FN} -V_F
$$

In [54]:
mask_filter_false_negatives = (df_dados["previsao_atraso"] == False) & (df_dados["default payment next month"] == 1)

False Negatives:

In [55]:
df_dados.loc[mask_filter_false_negatives, "impacto_financeiro_com_regra"] = - df_dados["LIMIT_BAL"]
locale.currency(sum(df_dados.loc[mask_filter_false_negatives, "impacto_financeiro_com_regra"]), grouping = True)

'R$-837.707.680,00'

### Impacto dos Positivos Verdadeiros (TP = True Positives)

$$
J_{TP} = \sum_i^{TP} (T_R V_F) - V_F - C_L
$$

In [56]:
mask_filter_true_positives = (df_dados["previsao_atraso"] == True) & (df_dados["default payment next month"] == 1)

True Positives:

In [57]:
df_dados.loc[mask_filter_true_positives, "impacto_financeiro_com_regra"] = (tr * df_dados["LIMIT_BAL"]) - df_dados["LIMIT_BAL"] - cl
locale.currency(sum(df_dados.loc[mask_filter_true_positives, "impacto_financeiro_com_regra"]), grouping = True)

'R$-20.566.220,00'

### Impacto Total com a Regra

$$
J = J_{TN} + J_{FP} + J_{FN} + J_{TP}
$$

In [58]:
locale.currency(sum(df_dados["impacto_financeiro_com_regra"]), grouping = True)

'R$-650.223.160,00'

## Afinal, houve melhora?

Sim, houve uma melhora e o risco de crédito será reduzido com a adoção desse modelo.

Previsão de ganho em R$ em um mês:

In [59]:
locale.currency(sum(df_dados["impacto_financeiro_sem_a_regra"])-sum(df_dados["impacto_financeiro_com_regra"]), grouping = True)

'R$-5.128.420,00'

Previsão de ganho em % em um mês:

In [60]:
100 - sum(df_dados["impacto_financeiro_com_regra"]) * 100 / sum(df_dados["impacto_financeiro_sem_a_regra"])

0.7825448440972735