# Tarefa 02 Módulo 05

O nosso projeto desta sequência de módulos do curso será um aprofundamento da demonstração sobre classificação de risco de crédito que vimos lá no comecinho. Pois recebemos uma base já montada pra nós. Tenha certeza de que ela passou por um longo processamento até ficar daquele jeito. Neste exercício vamos exercitar o que aprendemos nas ultimas aulas e montar a variável resposta da base do nosso projeto.

#### Marcação de bom e mau
O objetivo da modelagem é classificar o risco de inadimplência, ou como se diz no meio, o risco de *default*. Podemos fazer longas discussões sobre o conceito de *default* com base em estudos e exigências regulatórias, para efeitos deste estudo, um cliente em *default* é aquele que está em 60 dias de atraso ou mais. Então classificaremos os clientes como 'bons' e 'maus' assim:
- **Maus** pagadores: são aqueles que entraram em 'default' (atraso 60 dias ou mais) nos 24 meses seguintes à aquisição do cartão de crédito.
- **Bons** pagadores: são considerados todos os demais.
- **Excluídos**: Clientes que não adquiriram um cartão de crédito (seja por recusa, seja por desistência) não possuem informações de pagamento, portanto não se pode identificar se são bons ou maus. Há uma longa discussão e literatura sobre *inferência de rejeitados* que está fora do escopo deste exercício.

#### Bases disponíveis
Temos duas bases importantes aqui: uma de propostas, com diversas informações dos vários solicitantes de cartão de crédito, e uma base de pagamentos. A base de pagamentos será utilizada para identificar a ocorrência de *default*. A base de propostas tem diversas informações coletadas no momento da solicitação do crédito (isto é importante: qualquer informação posterior a essa data é impossível de ser coletada na aplicação do modelo e não pode ser utilizada).

As variáveis delas são:

Base de propostas - application_records.csv

| Nome da Variável         | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| ID| identificador do cliente (chave) |inteiro|
| CODE_GENDER| M = 'Masculino'; F = 'Feminino' |M/F|
| FLAG_OWN_CAR| Y = 'possui'; N = 'não possui' |Y/N|
| FLAG_OWN_REALTY| Y = 'possui'; N = 'não possui' |Y/N|
| CNT_CHILDREN| Quantidade de filhos |inteiro|
| AMT_INCOME_TOTAL| Annual income |inteiro|
| NAME_INCOME_TYPE|Tipo de renda (ex: assaliariado, autônomo etc) | texto |
| NAME_EDUCATION_TYPE| Nível de educação (ex: secundário, superior etc) |texto|
| NAME_FAMILY_STATUS | Estado civil (ex: solteiro, casado etc)| texto |
| NAME_HOUSING_TYPE | tipo de residência (ex: casa/apartamento, com os pais etc) | texto |
| DAYS_BIRTH | Count backwards from current day (0), -1 means yesterday |inteiro|
| DAYS_EMPLOYED | Count backwards from current day (0), -1 means yesterday |inteiro|
| FLAG_MOBIL | Indica se possui celular (1 = sim, 0 = não) |binária|
| FLAG_WORK_PHONE | Indica se possui telefone comercial (1 = sim, 0 = não) |binária|
| FLAG_PHONE | Indica se possui telefone (1 = sim, 0 = não) |binária|
| FLAG_EMAIL | Indica se possui e-mail (1 = sim, 0 = não) |binária|
| OCCUPATION_TYPE | Occupation	 |Qualitativa|
| CNT_FAM_MEMBERS | quantidade de pessoas na residência |inteiro|

Base de pagamentos - pagamentos_largo.csv  

| Nome da Variável         | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| ID| identificador do cliente (chave) |inteiro|
| mes_00 a mes_24| faixa de atraso mês a mês do cliente <br>0: 1-29 days past due &nbsp;&nbsp;&nbsp;&nbsp; 1: 30-59 days past due <br />2: 60-89 days overdue &nbsp;&nbsp;&nbsp;&nbsp; 3: 90-119 days overdue <br /> 4: 120-149 days overdue &nbsp;&nbsp;&nbsp;&nbsp; 5: more than 150 days <br />C: paid off that month &nbsp;&nbsp;&nbsp;&nbsp; X: No loan for the month |Qualitativa|

#### Construindo a variável resposta
A base de pagamentos está em um formato de 'base larga'. Essa base possui informações de pagamentos do cliente mês a mês a partir do mês de aquisição do crédito (mês 0) até o vigésimo quarto mês após a aquisição do crédito (mês 24). Utilizaremos essa base para determinar se um proponente é considerado 'bom pagador' ou caso apresente atraso representativo, será considerado 'mau pagador'.

#### Base larga vs base longa
A base ser larga significa que há uma linha para cada cliente, e que as informações estarão nas colunas, em contraste com a 'base longa', em que haveria uma linha para cada combinação cliente/mês, uma coluna indicando o cliente, outra indicando o mês, e apenas uma coluna com a informação do atraso.

#### Tarefa 1) Marcar *default* no mês
Faça uma indicadora de se o cliente está em *default* em cada uma das marcações (mes_00 a mes_24). Dica: você pode utilizar o método ```.isin()``` do Pandas. Consulte a [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isin.html) caso necessário.

#### Tarefa 2) 'bons' e 'maus' ao longo de todos os 24 meses de desempenho
Marque para cada cliente se ele teve pelo menos um episódio de *default* entre o mês 0 e o mês 24. Dica: o método ```sum()``` pode ajudar. Caso precise, consulte a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html) e procure pelo argumento ```axis```, você viu outros métodos que possuem esse argumento também. Tendo o número de meses em default de cada cliente, basta marcar ```True``` para todos aqueles que possuem pelo menos 1 mês em *default* e ```False``` para os demais.

#### Tarefa 3) Marcando proponentes expostos ao risco de crédito
Marcando proponentes que se tornaram tomadores: lembre-se de que clientes que não adquiriram o cartão devem ser desconsiderados. A base de pagamentos possui apenas clientes que adquiriram cartão de crédito, então você pode selecionar somente os clientes da base de propostas que se encontram na base de pagamentos.

#### Tarefa 4) Consolidando as informações
Faça uma junção das informações da base de propostas com a variável de *default* que você acabou de construir. Talvez você consiga realizar a tarefa 3 e tarefa 4 em uma única linha de código ;)

#### Tarefa 5) Verificando
Faça uma contagem dos valores do *default* que você construiu.

In [1]:
import pandas as pd

In [2]:
propostas = pd.read_csv('application_record.csv')
pg = pd.read_csv('pagamentos_largo.csv')

In [3]:
propostas.head()

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
1,5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
2,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0
3,5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
4,5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0


In [4]:
pg.head()

Unnamed: 0,ID,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,...,mes_22,mes_23,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9
0,5001718,0,0,0,0,0,0,0,0,,...,,0,,0,0,0,0,,0,
1,5001719,0,0,C,C,C,C,C,C,C,...,C,C,C,C,C,C,C,C,C,C
2,5001720,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
3,5001723,0,0,,,,,,,,...,,,,0,0,0,0,0,,
4,5001726,0,0,C,C,C,C,C,C,C,...,C,C,C,0,0,0,C,C,C,C


In [5]:
# 1) Marcar default no mês
# Faça uma indicadora de se o cliente está em default em cada uma das
# marcações (mes_00 a mes_24). Dica: você pode utilizar o método .isin() do
# Pandas. Consulte a documentação caso necessário.

# Criando uma lista com os possíveis identificadores que representam default
# na base de dados desejada:

# 2: 60-89 days overdue      3: 90-119 days overdue
# 4: 120-149 days overdue      5: more than 150 days

id_default = ["2", "3", "4", "5"]

# Criei um for que vai iterando por cada mês (coluna) para criar uma nova
# coluna indicando se o cliente está em default nesse mês.

for month in range(25):
  nome_colunas = f"mes_{month:02d}"

# Criei uma verificação para garantir que a coluna existe antes de criar a
# nova coluna para indicar o default (exemplo: mes_00)

  if nome_colunas in pg:

# A função isin() é usada para verificar se os valores na coluna estão
# presentes na lista de códigos de default

    pg[nome_colunas + "_default"] = pg[nome_colunas].isin(id_default)

# Imprimindo uma amostra aleatória do dataframe para verificar as mudanças
# feitas

pg.sample(7)

Unnamed: 0,ID,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,...,mes_15_default,mes_16_default,mes_17_default,mes_18_default,mes_19_default,mes_20_default,mes_21_default,mes_22_default,mes_23_default,mes_24_default
15454,5113261,0,0,C,C,C,C,C,C,C,...,False,False,False,False,False,False,False,False,False,False
17790,5121990,0,0,0,0,0,0,0,0,0,...,False,False,False,False,False,False,False,False,False,False
18613,5132442,0,0,C,C,C,C,C,C,C,...,False,False,False,False,False,False,False,False,False,False
4697,5023927,0,0,C,C,C,C,C,C,C,...,False,False,False,False,False,False,False,False,False,False
12710,5089377,0,0,,,,,,,,...,False,False,False,False,False,False,False,False,False,False
18100,5125610,0,0,,,,,,,,...,False,False,False,False,False,False,False,False,False,False
5559,5028661,0,0,,,,,,,,...,False,False,False,False,False,False,False,False,False,False


In [6]:
# 2) 'bons' e 'maus' ao longo de todos os 24 meses de desempenho

# Marque para cada cliente se ele teve pelo menos um episódio de default
# entre o mês 0 e o mês 24. Dica: o método sum() pode ajudar. Caso precise,
# consulte a documentação e procure pelo argumento axis, você viu outros
# métodos que possuem esse argumento também. Tendo o número de meses em default
# de cada cliente, basta marcar True para todos aqueles que possuem pelo menos
# 1 mês em default e False para os demais.

# Criando uma nova coluna chamada "default_24_meses". Ela irá verificar se,
# para cada cliente, a soma dos valores em default entre as colunas de mês 0 a
# 24 é maior ou igual a 1.

# Isso é feito usando iloc[:, 2:26] para selecionar as colunas correspondentes
# aos meses e isin(id_default) para verificar se o valor está em default

# Em seguida, sum(axis=1) soma ao longo do eixo das colunas para cada cliente
# e, em seguida, comparamos se é maior ou igual a 1 para marcar True ou False
# na nova coluna

pg["default_24_meses"] = pg.iloc[:, 2:26].isin(id_default).sum(axis=1) >= 1

# Imprimindo uma amostra

pg.sample(10)

Unnamed: 0,ID,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,...,mes_16_default,mes_17_default,mes_18_default,mes_19_default,mes_20_default,mes_21_default,mes_22_default,mes_23_default,mes_24_default,default_24_meses
3625,5018210,0,,,,,,,,,...,False,False,False,False,False,False,False,False,False,False
8260,5050739,0,0.0,C,C,C,C,C,C,C,...,False,False,False,False,False,False,False,False,False,False
8412,5051250,0,0.0,0,0,C,C,C,C,C,...,False,False,False,False,False,False,False,False,False,False
7722,5046232,0,0.0,,,0,,,,,...,False,False,False,False,False,False,False,False,False,False
9473,5060006,0,,,,0,,0,,,...,False,False,False,False,False,False,False,False,False,False
10538,5065536,0,0.0,,,,,,,,...,False,False,False,False,False,False,False,False,False,False
6828,5041105,0,0.0,,,,,,,,...,False,False,False,False,False,False,False,False,False,False
2775,5012344,0,0.0,C,C,C,C,C,C,C,...,False,False,False,False,False,False,False,False,False,False
2844,5012552,0,0.0,0,0,,0,0,0,0,...,False,False,False,False,False,False,False,False,False,False
20871,5150127,0,0.0,1,C,C,C,C,C,C,...,False,False,False,False,False,False,False,False,False,False


In [7]:
# 3) Marcando proponentes expostos ao risco de crédito

# Marcando proponentes que se tornaram tomadores: lembre-se de que clientes
# que não adquiriram o cartão devem ser desconsiderados. A base de pagamentos
# possui apenas clientes que adquiriram cartão de crédito, então você pode
# selecionar somente os clientes da base de propostas que se encontram na base
# de pagamentos.

# Em meu código, combino as informações das bases de propostas e pagamentos e
# crio a coluna "exposto_ao_risco"

# Usao a função isin() junto com a função unique() para filtrar os clientes
# tomadores de crédito da base de propostas

# Em seguida, uso o método merge() para combinar as informações das bases de
# propostas e pagamentos com base na coluna "ID" e usando a opção "left" para
# garantir que todos os clientes da base de propostas estejam presentes

# Por fim, utilizo o método assign() para criar a coluna "exposto_ao_risco".
# Utilizo uma função lambda para preencher a coluna com base na coluna
# "default_24_months" da base de pagamentos. Os valores NaN são preenchidos
# com False usando fillna(False)

propostas_com_risco_df = (
    propostas[propostas['ID'].isin(pg['ID'].unique())]  # Filtrndo clientes tomadores
    .merge(pg[['ID', 'default_24_meses']], on='ID', how='left')  # Combinando as informações
    .assign(exposto_ao_risco=lambda x: x['default_24_meses'].fillna(False))  # Criando a coluna "exposto_ao_risco"
)

# Por fim, imprimo uma amostra aleatória do dataframe praa verificar as
# mudanças realizadas

propostas_com_risco_df.sample(7)

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS,default_24_meses,exposto_ao_risco
9887,5090597,M,Y,N,0,189000.0,Working,Secondary / secondary special,Civil marriage,With parents,-12661,-401,1,0,0,0,Security staff,2.0,False,False
1295,5022418,F,Y,Y,1,157500.0,Working,Higher education,Married,With parents,-10845,-521,1,0,0,1,High skill tech staff,3.0,False,False
16165,5149401,F,N,N,1,135000.0,Commercial associate,Secondary / secondary special,Married,With parents,-13689,-1172,1,0,0,0,Sales staff,3.0,False,False
9545,5089675,F,Y,N,2,90000.0,Working,Secondary / secondary special,Married,House / apartment,-13135,-3657,1,1,1,0,High skill tech staff,4.0,False,False
7936,5067580,M,Y,Y,1,270000.0,Pensioner,Secondary / secondary special,Married,House / apartment,-18948,365243,1,0,0,0,,3.0,False,False
767,5010935,F,N,N,0,135000.0,Working,Secondary / secondary special,Single / not married,House / apartment,-16814,-6614,1,0,0,0,,1.0,False,False
6567,5056031,F,N,N,0,112500.0,Working,Secondary / secondary special,Civil marriage,House / apartment,-20086,-3220,1,0,0,0,Sales staff,2.0,False,False


In [8]:
from numpy.random import PCG64
## 4) Consolidando as informações

# Faça uma junção das informações da base de propostas com a variável de
# default que você acabou de construir. Talvez você consiga realizar a
# tarefa 3 e tarefa 4 em uma única linha de código

# Filtrando os clientes que adquiriram cartão de crédito

clientes_tomadores = pg['ID'].unique()

# Filtrando a base de propostas apenas para os clientes tomadores

propostas_tomadores_df = propostas[propostas['ID'].isin(clientes_tomadores)]

# Combinando as informações das bases de propostas e pagamentos usando merge

propostas_com_risco_df = (
    propostas_tomadores_df
    .merge(pg[['ID', 'default_24_meses']], on='ID', how='left')
    .assign(exposto_ao_risco=lambda x: x['default_24_meses'].fillna(False))
)

# Imprimindo uma amostra do novo dataframe criado

propostas_com_risco_df.sample(5)

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS,default_24_meses,exposto_ao_risco
1235,5022239,F,Y,Y,1,180000.0,Commercial associate,Secondary / secondary special,Separated,House / apartment,-14329,-6180,1,0,0,0,Laborers,2.0,False,False
10679,5095402,F,Y,Y,0,450000.0,State servant,Higher education,Married,House / apartment,-19804,-1161,1,0,0,0,Core staff,2.0,False,False
426,5010019,F,Y,Y,1,112500.0,Commercial associate,Secondary / secondary special,Separated,House / apartment,-12896,-709,1,0,0,0,,2.0,False,False
1305,5022436,F,N,Y,0,67500.0,Pensioner,Secondary / secondary special,Married,House / apartment,-21412,365243,1,0,0,0,,2.0,False,False
6785,5061198,F,N,Y,1,135000.0,Working,Secondary / secondary special,Civil marriage,With parents,-11567,-655,1,0,0,1,Sales staff,3.0,False,False


In [9]:
# 5) Verificando

# Faça uma contagem dos valores do default que você construiu.

# Utilizando o método value_counts() para imprimir a quantidade equivalente
# dos valores False e dos valores True de default

propostas_com_risco_df['exposto_ao_risco'].value_counts()

False    16262
True       388
Name: exposto_ao_risco, dtype: int64