# Tarefa 02 Módulo 05

O nosso projeto desta sequência de módulos do curso será um aprofundamento da demonstração sobre classificação de risco de crédito que vimos lá no comecinho. Pois recebemos uma base já montada pra nós. Tenha certeza de que ela passou por um longo processamento até ficar daquele jeito. Neste exercício vamos exercitar o que aprendemos nas ultimas aulas e montar a variável resposta da base do nosso projeto.

#### Marcação de bom e mau
O objetivo da modelagem é classificar o risco de inadimplência, ou como se diz no meio, o risco de *default*. Podemos fazer longas discussões sobre o conceito de *default* com base em estudos e exigências regulatórias, para efeitos deste estudo, um cliente em *default* é aquele que está em 60 dias de atraso ou mais. Então classificaremos os clientes como 'bons' e 'maus' assim:
- **Maus** pagadores: são aqueles que entraram em 'default' (atraso 60 dias ou mais) nos 24 meses seguintes à aquisição do cartão de crédito.
- **Bons** pagadores: são considerados todos os demais.
- **Excluídos**: Clientes que não adquiriram um cartão de crédito (seja por recusa, seja por desistência) não possuem informações de pagamento, portanto não se pode identificar se são bons ou maus. Há uma longa discussão e literatura sobre *inferência de rejeitados* que está fora do escopo deste exercício.

#### Bases disponíveis
Temos duas bases importantes aqui: uma de propostas, com diversas informações dos vários solicitantes de cartão de crédito, e uma base de pagamentos. A base de pagamentos será utilizada para identificar a ocorrência de *default*. A base de propostas tem diversas informações coletadas no momento da solicitação do crédito (isto é importante: qualquer informação posterior a essa data é impossível de ser coletada na aplicação do modelo e não pode ser utilizada).

As variáveis delas são:

Base de propostas - application_records.csv

| Nome da Variável         | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| ID| identificador do cliente (chave) |inteiro|
| CODE_GENDER| M = 'Masculino'; F = 'Feminino' |M/F|
| FLAG_OWN_CAR| Y = 'possui'; N = 'não possui' |Y/N|
| FLAG_OWN_REALTY| Y = 'possui'; N = 'não possui' |Y/N|
| CNT_CHILDREN| Quantidade de filhos |inteiro|
| AMT_INCOME_TOTAL| Annual income |inteiro|
| NAME_INCOME_TYPE|Tipo de renda (ex: assaliariado, autônomo etc) | texto |
| NAME_EDUCATION_TYPE| Nível de educação (ex: secundário, superior etc) |texto|
| NAME_FAMILY_STATUS | Estado civil (ex: solteiro, casado etc)| texto |
| NAME_HOUSING_TYPE | tipo de residência (ex: casa/apartamento, com os pais etc) | texto |
| DAYS_BIRTH | Count backwards from current day (0), -1 means yesterday |inteiro|
| DAYS_EMPLOYED | Count backwards from current day (0), -1 means yesterday |inteiro|
| FLAG_MOBIL | Indica se possui celular (1 = sim, 0 = não) |binária|
| FLAG_WORK_PHONE | Indica se possui telefone comercial (1 = sim, 0 = não) |binária|
| FLAG_PHONE | Indica se possui telefone (1 = sim, 0 = não) |binária|
| FLAG_EMAIL | Indica se possui e-mail (1 = sim, 0 = não) |binária|
| OCCUPATION_TYPE | Occupation	 |Qualitativa|
| CNT_FAM_MEMBERS | quantidade de pessoas na residência |inteiro|

Base de pagamentos - pagamentos_largo.csv  

| Nome da Variável         | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| ID| identificador do cliente (chave) |inteiro|
| mes_00 a mes_24| faixa de atraso mês a mês do cliente <br> 0: 1-29 days past due &nbsp;&nbsp;&nbsp;&nbsp; <br /> 1: 30-59 days past due <br /> 2: 60-89 days overdue &nbsp;&nbsp;&nbsp;&nbsp; <br /> 3: 90-119 days overdue <br /> 4: 120-149 days overdue &nbsp;&nbsp;&nbsp;&nbsp; <br /> 5: more than 150 days <br />C: paid off that month &nbsp;&nbsp;&nbsp;&nbsp; <br />X: No loan for the month |Qualitativa|

#### Construindo a variável resposta
A base de pagamentos está em um formato de 'base larga'. Essa base possui informações de pagamentos do cliente mês a mês a partir do mês de aquisição do crédito (mês 0) até o vigésimo quarto mês após a aquisição do crédito (mês 24). Utilizaremos essa base para determinar se um proponente é considerado 'bom pagador' ou caso apresente atraso representativo, será considerado 'mau pagador'.

#### Base larga vs base longa
A base ser larga significa que há uma linha para cada cliente, e que as informações estarão nas colunas, em contraste com a 'base longa', em que haveria uma linha para cada combinação cliente/mês, uma coluna indicando o cliente, outra indicando o mês, e apenas uma coluna com a informação do atraso.

#### Tarefa 1) Marcar *default* no mês
Faça uma indicadora de se o cliente está em *default* em cada uma das marcações (mes_00 a mes_24). Dica: você pode utilizar o método ```.isin()``` do Pandas. Consulte a [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isin.html) caso necessário.

#### Tarefa 2) 'bons' e 'maus' ao longo de todos os 24 meses de desempenho
Marque para cada cliente se ele teve pelo menos um episódio de *default* entre o mês 0 e o mês 24. Dica: o método ```sum()``` pode ajudar. Caso precise, consulte a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html) e procure pelo argumento ```axis```, você viu outros métodos que possuem esse argumento também. Tendo o número de meses em default de cada cliente, basta marcar ```True``` para todos aqueles que possuem pelo menos 1 mês em *default* e ```False``` para os demais.

#### Tarefa 3) Marcando proponentes expostos ao risco de crédito
Marcando proponentes que se tornaram tomadores: lembre-se de que clientes que não adquiriram o cartão devem ser desconsiderados. A base de pagamentos possui apenas clientes que adquiriram cartão de crédito, então você pode selecionar somente os clientes da base de propostas que se encontram na base de pagamentos.

#### Tarefa 4) Consolidando as informações
Faça uma junção das informações da base de propostas com a variável de *default* que você acabou de construir. Talvez você consiga realizar a tarefa 3 e tarefa 4 em uma única linha de código ;)

#### Tarefa 5) Verificando
Faça uma contagem dos valores do *default* que você construiu.

In [8]:
import pandas as pd

In [9]:
propostas = pd.read_csv('application_record.csv')
pg = pd.read_csv('pagamentos_largo.csv')

In [10]:
pg.head()

Unnamed: 0,ID,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,...,mes_22,mes_23,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9
0,5001718,0,0,0,0,0,0,0,0,,...,,0,,0,0,0,0,,0,
1,5001719,0,0,C,C,C,C,C,C,C,...,C,C,C,C,C,C,C,C,C,C
2,5001720,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
3,5001723,0,0,,,,,,,,...,,,,0,0,0,0,0,,
4,5001726,0,0,C,C,C,C,C,C,C,...,C,C,C,0,0,0,C,C,C,C


#1.
Faça uma indicadora de se o cliente está em default em cada uma das marcações (mes_00 a mes_24). Dica: você pode utilizar o método .isin() do Pandas. Consulte a documentação caso necessário.

In [11]:
# 1) Seu código aqui
pg.columns

Index(['ID', 'mes_0', 'mes_1', 'mes_10', 'mes_11', 'mes_12', 'mes_13',
       'mes_14', 'mes_15', 'mes_16', 'mes_17', 'mes_18', 'mes_19', 'mes_2',
       'mes_20', 'mes_21', 'mes_22', 'mes_23', 'mes_24', 'mes_3', 'mes_4',
       'mes_5', 'mes_6', 'mes_7', 'mes_8', 'mes_9'],
      dtype='object')

In [12]:
# Indicadores de default
default_indicators = ['3', '4', '5']

# Criando uma coluna indicadora de default para cada mês
for col in pg.columns:
    pg[f'{col}_default'] = pg[col].isin(default_indicators).astype(int)

In [13]:
pg.columns # verificando as colunas criadas

Index(['ID', 'mes_0', 'mes_1', 'mes_10', 'mes_11', 'mes_12', 'mes_13',
       'mes_14', 'mes_15', 'mes_16', 'mes_17', 'mes_18', 'mes_19', 'mes_2',
       'mes_20', 'mes_21', 'mes_22', 'mes_23', 'mes_24', 'mes_3', 'mes_4',
       'mes_5', 'mes_6', 'mes_7', 'mes_8', 'mes_9', 'ID_default',
       'mes_0_default', 'mes_1_default', 'mes_10_default', 'mes_11_default',
       'mes_12_default', 'mes_13_default', 'mes_14_default', 'mes_15_default',
       'mes_16_default', 'mes_17_default', 'mes_18_default', 'mes_19_default',
       'mes_2_default', 'mes_20_default', 'mes_21_default', 'mes_22_default',
       'mes_23_default', 'mes_24_default', 'mes_3_default', 'mes_4_default',
       'mes_5_default', 'mes_6_default', 'mes_7_default', 'mes_8_default',
       'mes_9_default'],
      dtype='object')

# 2.
Tarefa 2) 'bons' e 'maus' ao longo de todos os 24 meses de desempenho
Marque para cada cliente se ele teve pelo menos um episódio de default entre o mês 0 e o mês 24. Dica: o método sum() pode ajudar. Caso precise, consulte a documentação e procure pelo argumento axis, você viu outros métodos que possuem esse argumento também. Tendo o número de meses em default de cada cliente, basta marcar True para todos aqueles que possuem pelo menos 1 mês em default e False para os demais.

In [14]:
# 2) Seu código aqui
# Criando uma nova coluna em que o valor é True caso o cliente tenha cometido Default
pg['teve_default'] = pg.apply(lambda row: any(row.isin(default_indicators)), axis=1)

In [15]:
pg['teve_default'].value_counts() #Verificando quantos clientes não realizaram pagamento

False    20724
True       213
Name: teve_default, dtype: int64

In [16]:
pg.set_index(pg['ID']) # verificando a tabela

Unnamed: 0_level_0,ID,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,...,mes_23_default,mes_24_default,mes_3_default,mes_4_default,mes_5_default,mes_6_default,mes_7_default,mes_8_default,mes_9_default,teve_default
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
5001718,5001718,0,0,0,0,0,0,0,0,,...,0,0,0,0,0,0,0,0,0,False
5001719,5001719,0,0,C,C,C,C,C,C,C,...,0,0,0,0,0,0,0,0,0,False
5001720,5001720,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,False
5001723,5001723,0,0,,,,,,,,...,0,0,0,0,0,0,0,0,0,False
5001726,5001726,0,0,C,C,C,C,C,C,C,...,0,0,0,0,0,0,0,0,0,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5150475,5150475,C,C,C,C,C,C,C,C,C,...,0,0,0,0,0,0,0,0,0,False
5150476,5150476,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,False
5150480,5150480,0,0,C,C,C,C,C,C,C,...,0,0,0,0,0,0,0,0,0,False
5150482,5150482,0,0,0,0,C,C,C,C,C,...,0,0,0,0,0,0,0,0,0,False


In [17]:
ids_com_default = pg[pg['teve_default']]['ID'] # Relacionando a tabela de teve_default com o número do cliente
ids_com_default

130      5002126
556      5003267
618      5003471
702      5003712
735      5003804
          ...   
20435    5148932
20521    5149188
20523    5149192
20734    5149698
20776    5149838
Name: ID, Length: 213, dtype: int64

# 3.
Marcando proponentes que se tornaram tomadores: lembre-se de que clientes que não adquiriram o cartão devem ser desconsiderados. A base de pagamentos possui apenas clientes que adquiriram cartão de crédito, então você pode selecionar somente os clientes da base de propostas que se encontram na base de pagamentos.

In [32]:
# 3) Seu código aqui
#utilizando a intersecção de ID de uma tabela com a outra, podemos saber quem recebeu a proposta e se tornou tomador
recebeu_proposta = propostas.merge(pg, on='ID', how='inner')
recebeu_proposta

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,...,mes_23_default,mes_24_default,mes_3_default,mes_4_default,mes_5_default,mes_6_default,mes_7_default,mes_8_default,mes_9_default,teve_default
0,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,...,0,0,0,0,0,0,0,0,0,False
1,5008810,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,...,0,0,0,0,0,0,0,0,0,False
2,5008811,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,...,0,0,0,0,0,0,0,0,0,False
3,5112956,M,Y,Y,0,270000.0,Working,Higher education,Married,House / apartment,...,0,0,0,0,0,0,0,0,0,False
4,5008825,F,Y,N,0,130500.0,Working,Incomplete higher,Married,House / apartment,...,0,0,0,0,0,0,0,0,0,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8803,5085696,F,N,Y,0,121500.0,Working,Secondary / secondary special,Married,House / apartment,...,0,0,0,0,0,0,0,0,0,False
8804,5085698,F,N,Y,0,121500.0,Working,Secondary / secondary special,Married,House / apartment,...,0,0,0,0,0,0,0,0,0,False
8805,5085702,M,N,Y,1,90000.0,Working,Secondary / secondary special,Married,House / apartment,...,0,0,0,0,0,0,0,0,0,False
8806,5085704,M,Y,Y,0,126000.0,Pensioner,Secondary / secondary special,Married,House / apartment,...,0,0,0,0,0,0,0,0,0,False


#4
Faça uma junção das informações da base de propostas com a variável de default que você acabou de construir. Talvez você consiga realizar a tarefa 3 e tarefa 4 em uma única linha de código ;)

In [35]:
# 4) eu código aqui
#Aqui estamos filtrando quais IDs tiveram default e receberam a proposta
recebeu_proposta_default = recebeu_proposta[recebeu_proposta['teve_default']]['ID']
recebeu_proposta_default

284     5009628
328     5009746
744     5010864
849     5018498
851     5018501
852     5018503
1366    5022617
1711    5023534
1712    5023536
1946    5024213
2008    5024430
2134    5025155
2199    5024916
2200    5024917
3020    5029451
3293    5033829
3679    5036625
4123    5038807
4490    5042064
4969    5045888
4970    5045894
5448    5048363
6013    5053254
6472    5054524
6657    5058345
6850    5061360
6866    5061396
6960    5061636
7120    5062137
7253    5062444
7361    5065313
7362    5065314
7363    5065316
7372    5065348
7383    5065376
7413    5065462
7435    5065518
7633    5066706
8490    5069216
8579    5069453
8583    5069475
8702    5078945
8703    5078946
8784    5085623
Name: ID, dtype: int64

#5
Tarefa 5) Verificando
Faça uma contagem dos valores do default que você construiu.

In [37]:
recebeu_proposta_default.nunique() #Com este método podemos contar quantas pessoas cometeram default

44