# Tarefa 02 Módulo 05

O nosso projeto desta sequência de módulos do curso será um aprofundamento da demonstração sobre classificação de risco de crédito que vimos lá no comecinho. Pois recebemos uma base já montada pra nós. Tenha certeza de que ela passou por um longo processamento até ficar daquele jeito. Neste exercício vamos exercitar o que aprendemos nas ultimas aulas e montar a variável resposta da base do nosso projeto.

#### Marcação de bom e mau
O objetivo da modelagem é classificar o risco de inadimplência, ou como se diz no meio, o risco de *default*. Podemos fazer longas discussões sobre o conceito de *default* com base em estudos e exigências regulatórias, para efeitos deste estudo, um cliente em *default* é aquele que está em 60 dias de atraso ou mais. Então classificaremos os clientes como 'bons' e 'maus' assim:
- **Maus** pagadores: são aqueles que entraram em 'default' (atraso 60 dias ou mais) nos 24 meses seguintes à aquisição do cartão de crédito. 
- **Bons** pagadores: são considerados todos os demais.
- **Excluídos**: Clientes que não adquiriram um cartão de crédito (seja por recusa, seja por desistência) não possuem informações de pagamento, portanto não se pode identificar se são bons ou maus. Há uma longa discussão e literatura sobre *inferência de rejeitados* que está fora do escopo deste exercício.

#### Bases disponíveis
Temos duas bases importantes aqui: uma de propostas, com diversas informações dos vários solicitantes de cartão de crédito, e uma base de pagamentos. A base de pagamentos será utilizada para identificar a ocorrência de *default*. A base de propostas tem diversas informações coletadas no momento da solicitação do crédito (isto é importante: qualquer informação posterior a essa data é impossível de ser coletada na aplicação do modelo e não pode ser utilizada).

As variáveis delas são:

Base de propostas - application_records.csv

| Nome da Variável         | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| ID| identificador do cliente (chave) |inteiro|
| CODE_GENDER| M = 'Masculino'; F = 'Feminino' |M/F|
| FLAG_OWN_CAR| Y = 'possui'; N = 'não possui' |Y/N|
| FLAG_OWN_REALTY| Y = 'possui'; N = 'não possui' |Y/N|
| CNT_CHILDREN| Quantidade de filhos |inteiro|
| AMT_INCOME_TOTAL| Annual income |inteiro|
| NAME_INCOME_TYPE|Tipo de renda (ex: assaliariado, autônomo etc) | texto |
| NAME_EDUCATION_TYPE| Nível de educação (ex: secundário, superior etc) |texto|
| NAME_FAMILY_STATUS | Estado civil (ex: solteiro, casado etc)| texto |
| NAME_HOUSING_TYPE | tipo de residência (ex: casa/apartamento, com os pais etc) | texto |
| DAYS_BIRTH | Count backwards from current day (0), -1 means yesterday |inteiro|
| DAYS_EMPLOYED | Count backwards from current day (0), -1 means yesterday |inteiro|
| FLAG_MOBIL | Indica se possui celular (1 = sim, 0 = não) |binária|
| FLAG_WORK_PHONE | Indica se possui telefone comercial (1 = sim, 0 = não) |binária|
| FLAG_PHONE | Indica se possui telefone (1 = sim, 0 = não) |binária|
| FLAG_EMAIL | Indica se possui e-mail (1 = sim, 0 = não) |binária|
| OCCUPATION_TYPE | Occupation	 |Qualitativa|
| CNT_FAM_MEMBERS | quantidade de pessoas na residência |inteiro|

Base de pagamentos - pagamentos_largo.csv  

| Nome da Variável         | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| ID| identificador do cliente (chave) |inteiro|
| mes_00 a mes_24| faixa de atraso mês a mês do cliente <br>0: 1-29 days past due &nbsp;&nbsp;&nbsp;&nbsp; 1: 30-59 days past due <br />2: 60-89 days overdue &nbsp;&nbsp;&nbsp;&nbsp; 3: 90-119 days overdue <br /> 4: 120-149 days overdue &nbsp;&nbsp;&nbsp;&nbsp; 5: more than 150 days <br />C: paid off that month &nbsp;&nbsp;&nbsp;&nbsp; X: No loan for the month |Qualitativa|

#### Construindo a variável resposta
A base de pagamentos está em um formato de 'base larga'. Essa base possui informações de pagamentos do cliente mês a mês a partir do mês de aquisição do crédito (mês 0) até o vigésimo quarto mês após a aquisição do crédito (mês 24). Utilizaremos essa base para determinar se um proponente é considerado 'bom pagador' ou caso apresente atraso representativo, será considerado 'mau pagador'.

#### Base larga vs base longa
A base ser larga significa que há uma linha para cada cliente, e que as informações estarão nas colunas, em contraste com a 'base longa', em que haveria uma linha para cada combinação cliente/mês, uma coluna indicando o cliente, outra indicando o mês, e apenas uma coluna com a informação do atraso.

#### Tarefa 1) Marcar *default* no mês
Faça uma indicadora de se o cliente está em *default* em cada uma das marcações (mes_00 a mes_24). Dica: você pode utilizar o método ```.isin()``` do Pandas. Consulte a [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isin.html) caso necessário.

#### Tarefa 2) 'bons' e 'maus' ao longo de todos os 24 meses de desempenho
Marque para cada cliente se ele teve pelo menos um episódio de *default* entre o mês 0 e o mês 24. Dica: o método ```sum()``` pode ajudar. Caso precise, consulte a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html) e procure pelo argumento ```axis```, você viu outros métodos que possuem esse argumento também. Tendo o número de meses em default de cada cliente, basta marcar ```True``` para todos aqueles que possuem pelo menos 1 mês em *default* e ```False``` para os demais.

#### Tarefa 3) Marcando proponentes expostos ao risco de crédito
Marcando proponentes que se tornaram tomadores: lembre-se de que clientes que não adquiriram o cartão devem ser desconsiderados. A base de pagamentos possui apenas clientes que adquiriram cartão de crédito, então você pode selecionar somente os clientes da base de propostas que se encontram na base de pagamentos.

#### Tarefa 4) Consolidando as informações
Faça uma junção das informações da base de propostas com a variável de *default* que você acabou de construir. Talvez você consiga realizar a tarefa 3 e tarefa 4 em uma única linha de código ;)

#### Tarefa 5) Verificando
Faça uma contagem dos valores do *default* que você construiu. 

In [3]:
import pandas as pd

In [5]:
# leitura da bases de propostas e pagamentos
propostas = pd.read_csv('application_record.csv')
pagamentos = pd.read_csv('pagamentos_largo.csv')

In [23]:
# tamanho das bases (# linhas e # colunas)
print("tamanho da base de propostas:", propostas.shape)
print("tamanho da base de pagamentos:", pagamentos.shape)

tamanho da base de propostas: (438557, 18)
tamanho da base de pagamentos: (20937, 26)


In [47]:
# método .unique() para retornar todos os elementos pertencentes as colunas mês_0 - mês_24
print('Valores na coluna mês_0:', pagamentos['mes_0'].unique())
print('Valores na coluna mês_1:', pagamentos['mes_1'].unique())
print('Valores na coluna mês_2:', pagamentos['mes_2'].unique())
print('Valores na coluna mês_3:', pagamentos['mes_3'].unique())
print('Valores na coluna mês_4:', pagamentos['mes_4'].unique())
print('Valores na coluna mês_5:', pagamentos['mes_5'].unique())
print('Valores na coluna mês_6:', pagamentos['mes_6'].unique())
print('Valores na coluna mês_7:', pagamentos['mes_7'].unique())
print('Valores na coluna mês_8:', pagamentos['mes_8'].unique())
print('Valores na coluna mês_9:', pagamentos['mes_9'].unique())
print('Valores na coluna mês_10:', pagamentos['mes_10'].unique())
print('Valores na coluna mês_11:', pagamentos['mes_11'].unique())
print('Valores na coluna mês_12:', pagamentos['mes_12'].unique())
print('Valores na coluna mês_13:', pagamentos['mes_13'].unique())
print('Valores na coluna mês_14:', pagamentos['mes_14'].unique())
print('Valores na coluna mês_15:', pagamentos['mes_15'].unique())
print('Valores na coluna mês_16:', pagamentos['mes_16'].unique())
print('Valores na coluna mês_17:', pagamentos['mes_17'].unique())
print('Valores na coluna mês_18:', pagamentos['mes_18'].unique())
print('Valores na coluna mês_19:', pagamentos['mes_19'].unique())
print('Valores na coluna mês_20:', pagamentos['mes_20'].unique())
print('Valores na coluna mês_21:', pagamentos['mes_21'].unique())
print('Valores na coluna mês_22:', pagamentos['mes_22'].unique())
print('Valores na coluna mês_23:', pagamentos['mes_23'].unique())
print('Valores na coluna mês_24:', pagamentos['mes_24'].unique())

Valores na coluna mês_0: ['0' 'C' '1' '4' '5' '2' '3']
Valores na coluna mês_1: ['0' nan 'C' '1' '2' '5' '4']
Valores na coluna mês_2: ['0' 'C' nan '1' '3' '2' '5']
Valores na coluna mês_3: ['0' 'C' nan '1' '3' '2' '5' '4']
Valores na coluna mês_4: ['0' 'C' nan '1' '2' '5' '3' '4']
Valores na coluna mês_5: ['0' 'C' nan '2' '1' '3' '5' '4']
Valores na coluna mês_6: ['0' 'C' nan '1' '2' '4' '5' '3']
Valores na coluna mês_7: [nan 'C' '0' '1' '3' '2' '5' '4']
Valores na coluna mês_8: ['0' 'C' nan '1' '3' '4' '5' '2']
Valores na coluna mês_9: [nan 'C' '0' '1' '2' '5' '3' '4']
Valores na coluna mês_10: ['0' 'C' nan '1' '3' '5' '2' '4']
Valores na coluna mês_11: ['0' 'C' nan '2' '1' '4' '3' '5']
Valores na coluna mês_12: ['0' 'C' nan '1' '2' '5' '3' '4']
Valores na coluna mês_13: ['0' 'C' nan '1' '3' '5' '4' '2']
Valores na coluna mês_14: ['0' 'C' nan '1' '5' '3' '2' '4']
Valores na coluna mês_15: ['0' 'C' nan '1' '5' '4' '2' '3']
Valores na coluna mês_16: [nan 'C' '0' '1' '5' '2' '3' '4']
Va

In [59]:
# método .value_counts() para calcular a frequência de cada elemento nas colunas mês_0 - mês_24
print('frequência dos elementos da coluna', pagamentos['mes_0'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_1'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_2'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_3'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_4'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_5'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_6'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_7'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_8'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_9'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_10'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_11'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_12'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_13'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_14'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_15'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_16'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_17'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_18'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_19'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_20'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_21'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_22'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_23'].value_counts())
print('frequência dos elementos da coluna', pagamentos['mes_24'].value_counts())

frequência dos elementos da coluna mes_0
0    20302
C      550
1       78
4        2
5        2
2        2
3        1
Name: count, dtype: int64
frequência dos elementos da coluna mes_1
0    17884
C      982
1      332
2       11
5        6
4        1
Name: count, dtype: int64
frequência dos elementos da coluna mes_2
0    17354
C     1516
1      430
2       32
5       10
3        6
Name: count, dtype: int64
frequência dos elementos da coluna mes_3
0    16146
C     2293
1      427
2       36
3       11
5        8
4        4
Name: count, dtype: int64
frequência dos elementos da coluna mes_4
0    15150
C     3168
1      426
2       32
5       10
3        9
4        7
Name: count, dtype: int64
frequência dos elementos da coluna mes_5
0    13906
C     4097
1      433
2       33
3       21
5       19
4        3
Name: count, dtype: int64
frequência dos elementos da coluna mes_6
0    11973
C     5649
1      512
2       45
3       14
5       12
4        9
Name: count, dtype: int64
frequência dos

In [125]:
# 1) Seu código aqui
# transformando a coluna 'ID' no index do df
pagamentos_bool = pagamentos.set_index('ID')
pagamentos_bool.index.names = [None]

# método isin() para marcar os casos default = 'True' e não default = 'False'
pagamentos_bool = pagamentos_bool.isin(['2', '5'])

In [127]:
# 2) Seu código aqui
# função .sum() para marcar os casos com pelo menos um evento de default. Se a soma for maior ou igual à 1, o cliente teve um evento de default
pagamentos_bool['default'] = pagamentos_bool.sum(axis = 1)

# método isin() para marcar os casos default = 'True' e não default = 'False'
pagamentos_bool = pagamentos_bool.isin({'default': [1, 24]})

In [129]:
# validação dos clientes com evento de default
print('Valores "True" e "False" na coluna default:', pagamentos_bool['default'].unique())

Valores "True" e "False" na coluna default: [False  True]


In [131]:
# 3 e 4) Seu código aqui
# convertendo 'index' numa columa
pagamentos_bool["index"] = pagamentos_bool.index
# renomear 'index' para 'ID' e resetar os indices do df
pagamentos_bool = pagamentos_bool.rename_axis("ID").reset_index()
# exclusão da coluna 'index'
pagamentos_bool = pagamentos_bool.drop(['index'], axis = 1)
# manter apenas as colunas 'ID' e 'default'
pagamentos_bool = pagamentos_bool[['ID', 'default']]

# cruzar base propostas x pagamentos com flag do evento de default
df_final = propostas.merge(pagamentos_bool, how = 'inner', on = 'ID')

In [145]:
# 5) Seu código aqui
# retorno da quantiade de clientes expostos ao risco
print("quantidade de proponentes expostos ao risco:", df_final.shape[0])

# df com apenas os clientes em default
df_final_default = df_final.query('default == True')

# retorno da quantiade de clientes em default
print("quantidade de proponentes com marcação de default:", df_final_default.shape[0])

quantidade de proponentes expostos ao risco: 16650
quantidade de proponentes com marcação de default: 203
