# Tarefa 02 Módulo 05

O nosso projeto desta sequência de módulos do curso será um aprofundamento da demonstração sobre classificação de risco de crédito que vimos lá no comecinho. Pois recebemos uma base já montada pra nós. Tenha certeza de que ela passou por um longo processamento até ficar daquele jeito. Neste exercício vamos exercitar o que aprendemos nas ultimas aulas e montar a variável resposta da base do nosso projeto.

#### Marcação de bom e mau
O objetivo da modelagem é classificar o risco de inadimplência, ou como se diz no meio, o risco de *default*. Podemos fazer longas discussões sobre o conceito de *default* com base em estudos e exigências regulatórias, para efeitos deste estudo, um cliente em *default* é aquele que está em 60 dias de atraso ou mais. Então classificaremos os clientes como 'bons' e 'maus' assim:
- **Maus** pagadores: são aqueles que entraram em 'default' (atraso 60 dias ou mais) nos 24 meses seguintes à aquisição do cartão de crédito. 
- **Bons** pagadores: são considerados todos os demais.
- **Excluídos**: Clientes que não adquiriram um cartão de crédito (seja por recusa, seja por desistência) não possuem informações de pagamento, portanto não se pode identificar se são bons ou maus. Há uma longa discussão e literatura sobre *inferência de rejeitados* que está fora do escopo deste exercício.

#### Bases disponíveis
Temos duas bases importantes aqui: uma de propostas, com diversas informações dos vários solicitantes de cartão de crédito, e uma base de pagamentos. A base de pagamentos será utilizada para identificar a ocorrência de *default*. A base de propostas tem diversas informações coletadas no momento da solicitação do crédito (isto é importante: qualquer informação posterior a essa data é impossível de ser coletada na aplicação do modelo e não pode ser utilizada).

As variáveis delas são:

Base de propostas - application_records.csv

| Nome da Variável         | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| ID| identificador do cliente (chave) |inteiro|
| CODE_GENDER| M = 'Masculino'; F = 'Feminino' |M/F|
| FLAG_OWN_CAR| Y = 'possui'; N = 'não possui' |Y/N|
| FLAG_OWN_REALTY| Y = 'possui'; N = 'não possui' |Y/N|
| CNT_CHILDREN| Quantidade de filhos |inteiro|
| AMT_INCOME_TOTAL| Annual income |inteiro|
| NAME_INCOME_TYPE|Tipo de renda (ex: assaliariado, autônomo etc) | texto |
| NAME_EDUCATION_TYPE| Nível de educação (ex: secundário, superior etc) |texto|
| NAME_FAMILY_STATUS | Estado civil (ex: solteiro, casado etc)| texto |
| NAME_HOUSING_TYPE | tipo de residência (ex: casa/apartamento, com os pais etc) | texto |
| DAYS_BIRTH | Count backwards from current day (0), -1 means yesterday |inteiro|
| DAYS_EMPLOYED | Count backwards from current day (0), -1 means yesterday |inteiro|
| FLAG_MOBIL | Indica se possui celular (1 = sim, 0 = não) |binária|
| FLAG_WORK_PHONE | Indica se possui telefone comercial (1 = sim, 0 = não) |binária|
| FLAG_PHONE | Indica se possui telefone (1 = sim, 0 = não) |binária|
| FLAG_EMAIL | Indica se possui e-mail (1 = sim, 0 = não) |binária|
| OCCUPATION_TYPE | Occupation	 |Qualitativa|
| CNT_FAM_MEMBERS | quantidade de pessoas na residência |inteiro|

Base de pagamentos - pagamentos_largo.csv  

| Nome da Variável         | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| ID| identificador do cliente (chave) |inteiro|
| mes_00 a mes_24| faixa de atraso mês a mês do cliente <br>0: 1-29 days past due &nbsp;&nbsp;&nbsp;&nbsp; 1: 30-59 days past due <br />2: 60-89 days overdue &nbsp;&nbsp;&nbsp;&nbsp; 3: 90-119 days overdue <br /> 4: 120-149 days overdue &nbsp;&nbsp;&nbsp;&nbsp; 5: more than 150 days <br />C: paid off that month &nbsp;&nbsp;&nbsp;&nbsp; X: No loan for the month |Qualitativa|

#### Construindo a variável resposta
A base de pagamentos está em um formato de 'base larga'. Essa base possui informações de pagamentos do cliente mês a mês a partir do mês de aquisição do crédito (mês 0) até o vigésimo quarto mês após a aquisição do crédito (mês 24). Utilizaremos essa base para determinar se um proponente é considerado 'bom pagador' ou caso apresente atraso representativo, será considerado 'mau pagador'.

#### Base larga vs base longa
A base ser larga significa que há uma linha para cada cliente, e que as informações estarão nas colunas, em contraste com a 'base longa', em que haveria uma linha para cada combinação cliente/mês, uma coluna indicando o cliente, outra indicando o mês, e apenas uma coluna com a informação do atraso.

#### Tarefa 1) Marcar *default* no mês
Faça uma indicadora de se o cliente está em *default* em cada uma das marcações (mes_00 a mes_24). Dica: você pode utilizar o método ```.isin()``` do Pandas. Consulte a [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isin.html) caso necessário.

#### Tarefa 2) 'bons' e 'maus' ao longo de todos os 24 meses de desempenho
Marque para cada cliente se ele teve pelo menos um episódio de *default* entre o mês 0 e o mês 24. Dica: o método ```sum()``` pode ajudar. Caso precise, consulte a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html) e procure pelo argumento ```axis```, você viu outros métodos que possuem esse argumento também. Tendo o número de meses em default de cada cliente, basta marcar ```True``` para todos aqueles que possuem pelo menos 1 mês em *default* e ```False``` para os demais.

#### Tarefa 3) Marcando proponentes expostos ao risco de crédito
Marcando proponentes que se tornaram tomadores: lembre-se de que clientes que não adquiriram o cartão devem ser desconsiderados. A base de pagamentos possui apenas clientes que adquiriram cartão de crédito, então você pode selecionar somente os clientes da base de propostas que se encontram na base de pagamentos.

#### Tarefa 4) Consolidando as informações
Faça uma junção das informações da base de propostas com a variável de *default* que você acabou de construir. Talvez você consiga realizar a tarefa 3 e tarefa 4 em uma única linha de código ;)

#### Tarefa 5) Verificando
Faça uma contagem dos valores do *default* que você construiu. 

In [199]:
import pandas as pd

In [200]:
propostas = pd.read_csv('application_record.csv')
pg = pd.read_csv('pagamentos_largo.csv')

In [201]:
pg.head()

Unnamed: 0,ID,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,...,mes_22,mes_23,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9
0,5001718,0,0,0,0,0,0,0,0,,...,,0,,0,0,0,0,,0,
1,5001719,0,0,C,C,C,C,C,C,C,...,C,C,C,C,C,C,C,C,C,C
2,5001720,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
3,5001723,0,0,,,,,,,,...,,,,0,0,0,0,0,,
4,5001726,0,0,C,C,C,C,C,C,C,...,C,C,C,0,0,0,C,C,C,C


In [202]:
# Reorganizar colunas pelo nome
pg.columns

Index(['ID', 'mes_0', 'mes_1', 'mes_10', 'mes_11', 'mes_12', 'mes_13',
       'mes_14', 'mes_15', 'mes_16', 'mes_17', 'mes_18', 'mes_19', 'mes_2',
       'mes_20', 'mes_21', 'mes_22', 'mes_23', 'mes_24', 'mes_3', 'mes_4',
       'mes_5', 'mes_6', 'mes_7', 'mes_8', 'mes_9'],
      dtype='object')

In [203]:
pg.columns = ['ID', 'mes_0', 'mes_01', 'mes_10', 'mes_11', 'mes_12', 'mes_13',
       'mes_14', 'mes_15', 'mes_16', 'mes_17', 'mes_18', 'mes_19', 'mes_02',
       'mes_20', 'mes_21', 'mes_22', 'mes_23', 'mes_24', 'mes_03', 'mes_04',
       'mes_05', 'mes_06', 'mes_07', 'mes_08', 'mes_09']

pg = pg.sort_index(axis = 1)
pg.tail()

Unnamed: 0,ID,mes_0,mes_01,mes_02,mes_03,mes_04,mes_05,mes_06,mes_07,mes_08,...,mes_15,mes_16,mes_17,mes_18,mes_19,mes_20,mes_21,mes_22,mes_23,mes_24
20932,5150475,C,C,C,C,C,C,C,C,C,...,C,C,C,C,C,C,C,C,C,C
20933,5150476,0,0,0,0,0,0,0,0,0,...,0,0,,,,,,,,
20934,5150480,0,0,0,0,0,0,C,C,C,...,C,C,C,C,C,C,C,C,C,C
20935,5150482,0,0,0,0,0,0,0,0,0,...,C,C,C,,,,,,,
20936,5150487,C,C,C,C,C,C,C,C,C,...,C,C,C,C,C,C,C,C,C,C


In [204]:
# Informações do formato da tabela pg 
print(pg.shape)

(20937, 26)


In [205]:
#Remover dados duplcados de pg 
pg.drop_duplicates(inplace = True)
print(pg.shape)

#Remover dados duplcados de propostas
print(propostas.shape)
propostas.drop_duplicates(inplace = True)
print(propostas.shape)

(20937, 26)
(438557, 18)
(438557, 18)


In [206]:
# Confirmar se todos os valores de ID presentes na tabela de pagementos estão na de propostas

verif = 0

for id_pg in pg['ID']:
    if id_pg in propostas['ID'].values:
        verif += 1

print(verif)

16650


In [207]:
print((pg.shape[0] - verif), "ID's presentes na tabela de pagamentos não estão presentes também na tabela de propostas.")

4287 ID's presentes na tabela de pagamentos não estão presentes também na tabela de propostas.


In [208]:
#Acrescentar uma coluna de Classificação na base de Propostas onde já classificarei os excluidos, e posteriormente classificarei os bons e maus
propostas['CLASSIFICACAO'] = propostas['ID'].apply(lambda x: 'Excluido' if x not in pg['ID'].values else '')
propostas.sort_values('ID').head()

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS,CLASSIFICACAO
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0,Excluido
1,5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0,Excluido
2,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0,
3,5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0,Excluido
4,5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0,Excluido


In [209]:
#Contar "missing values" por linha em pg 
count_nulls = pg.isnull().sum(axis=1)

# Contagem de linhas com 24 valores nulos
linhas_24_nulls = (count_nulls >= 24).sum()

# Contagem de linhas com mais de 0 e menos de 24 valores nulos
linhas_menos_24_nulls = ((count_nulls >0) & (count_nulls < 24)).sum()

# Impressão das contagens
print(f'Linhas com valores nulos: {linhas_24_nulls+linhas_menos_24_nulls}')
print(f'Linhas com 24 valores nulos: {linhas_24_nulls}')
print(f'Linhas com menos de 24 valores nulos: {linhas_menos_24_nulls}')

Linhas com valores nulos: 8670
Linhas com 24 valores nulos: 443
Linhas com menos de 24 valores nulos: 8227


In [210]:
# Análise dos dados X apresentados em pg
pg.values.ravel().tolist().count('X')

0

In [211]:
# Pelo o que observamos da explicação das variáveis da base de pagamentos podemos considerar que resultados NaN são similares a X
# assim, subtituirei um pelo outro
pg.fillna('X', inplace = True)

In [212]:
# Vou separar as 443 linhas com 24 valores X, acrescentá-lo na coluna CLASSIFICACAO de propostas como Bom (No Loan)

# Dividindo a tabela pg entre os No Loan e quem tem dado de pagamento
pg['Xs'] = pg.apply(lambda row: (row == 'X').sum(), axis=1)
noloan = pg.loc[pg['Xs'] == 24]
pg = pg.loc[pg['Xs'] != 24]

pg = pg.drop(columns=['Xs'])
noloan = noloan.drop(columns=['Xs'])
noloan.shape

(443, 26)

In [213]:
# Acrescentando os ID's da noloan como Bom (No Loan) na propostas 

propostas.loc[propostas['CLASSIFICACAO'] == '', 'CLASSIFICACAO'] = \
    propostas.loc[propostas['CLASSIFICACAO'] == '', 'ID'].apply(lambda 
                                                                x: 'Bom (No Loan)' if x in noloan['ID'].values else '')
propostas.head()

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS,CLASSIFICACAO
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0,Excluido
1,5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0,Excluido
2,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0,
3,5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0,Excluido
4,5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0,Excluido


In [214]:
# 1) Marcar default no mês
# Indicar se cada cliente foi "default" em cada um dos últimos 24 meses

# Selecionando as colunas desejadas
colunas_selecionadas = pg.loc[:, 'mes_0':'mes_24']

# Verificando se os valores das colunas selecionadas estão dentro do intervalo [3, 5] 
# (Se nesse intervalo o resultado é True)
pg_bool = colunas_selecionadas.isin(['3', '4', '5', '6'])

#Reincereindo a coluna de ID no Dataframe boolean
pg_bool.insert(0, 'ID', pg['ID'])
pg_bool.head()

Unnamed: 0,ID,mes_0,mes_01,mes_02,mes_03,mes_04,mes_05,mes_06,mes_07,mes_08,...,mes_15,mes_16,mes_17,mes_18,mes_19,mes_20,mes_21,mes_22,mes_23,mes_24
0,5001718,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,5001719,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,5001720,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,5001723,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,5001726,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [215]:
pg.loc[pg['ID'] == 5002126]

Unnamed: 0,ID,mes_0,mes_01,mes_02,mes_03,mes_04,mes_05,mes_06,mes_07,mes_08,...,mes_15,mes_16,mes_17,mes_18,mes_19,mes_20,mes_21,mes_22,mes_23,mes_24
130,5002126,0,0,X,X,1,2,2,3,3,...,C,C,C,C,C,C,C,C,C,C


In [216]:
pg_bool.loc[pg_bool['ID'] == 5002126]

Unnamed: 0,ID,mes_0,mes_01,mes_02,mes_03,mes_04,mes_05,mes_06,mes_07,mes_08,...,mes_15,mes_16,mes_17,mes_18,mes_19,mes_20,mes_21,mes_22,mes_23,mes_24
130,5002126,False,False,False,False,False,False,False,True,True,...,False,False,False,False,False,False,False,False,False,False


In [217]:
# 2) 'bons' e 'maus' ao longo de todos os 24 meses de desempenho
# Indique 'maus' para cada cliente se teve pelo menos um episódio de default 

# Para encontramos essa classificação aplicamos o código no DF encontrado anteriormente
# False = 0, True = 1, se o resultado da soma das linhas igual a 0 o cliente não entrou em 
# Default em nenhum momento dos últimos 24 meses. Se diferente 
pg_bool['classificacao'] = pg_bool.iloc[:, 1:].sum(axis=1).apply(lambda x: 'Bom' if x == 0 else 'Mau')
pg_bool.head()

Unnamed: 0,ID,mes_0,mes_01,mes_02,mes_03,mes_04,mes_05,mes_06,mes_07,mes_08,...,mes_16,mes_17,mes_18,mes_19,mes_20,mes_21,mes_22,mes_23,mes_24,classificacao
0,5001718,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,Bom
1,5001719,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,Bom
2,5001720,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,Bom
3,5001723,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,Bom
4,5001726,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,Bom


In [218]:
pg_bool.loc[pg_bool['classificacao'] == 'Mau'].head()

Unnamed: 0,ID,mes_0,mes_01,mes_02,mes_03,mes_04,mes_05,mes_06,mes_07,mes_08,...,mes_16,mes_17,mes_18,mes_19,mes_20,mes_21,mes_22,mes_23,mes_24,classificacao
130,5002126,False,False,False,False,False,False,False,True,True,...,False,False,False,False,False,False,False,False,False,Mau
556,5003267,False,False,True,True,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,Mau
618,5003471,False,False,False,False,False,False,False,False,True,...,False,False,False,False,False,False,False,False,False,Mau
702,5003712,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,Mau
735,5003804,False,False,False,False,False,False,False,False,False,...,True,True,True,True,True,True,True,True,True,Mau


In [219]:
# 3)  Marcando proponentes expostos ao risco de crédito
# Quais proponentes (base propostas) se tornaram tomadores (base pg)

# 4) Consolidando as informações
# Junção das informações da base de propostas com a variável de default

#Como já viemos construindo a coluna CLASSIFICACAO no DF propostas, e já passamos os dados dos não
# tomadores (Excluidos) e os tomadores sem dados de pagemneto (Bom (No Loan)). Passarei os dados de 
# Bons e Maus.

# quebrarei pg_bool em uma tabela de acordo com a classificacao bom 
pg_bom = pg_bool.loc[pg_bool['classificacao'] == 'Bom']

# passarei esse dado para a tabela de propostas
propostas.loc[propostas['CLASSIFICACAO'] == '', 'CLASSIFICACAO'] = \
    propostas.loc[propostas['CLASSIFICACAO'] == '', 'ID'].apply(lambda 
                                                                x: 'Bom' if x in pg_bom['ID'].values
                                                                else 'Mau')
propostas.head()

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS,CLASSIFICACAO
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0,Excluido
1,5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0,Excluido
2,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0,Bom
3,5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0,Excluido
4,5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0,Excluido


In [221]:
# 5) Verificando
# Contar os valores do default

bom_noloan = (propostas['CLASSIFICACAO'] == 'Bom (No Loan)').sum()
bom = (propostas['CLASSIFICACAO'] == 'Bom').sum()
mau = (propostas['CLASSIFICACAO'] == 'Mau').sum()

print('Há', (propostas['CLASSIFICACAO'] == 'Excluido').sum(), 'clientes não aprovados na tabela de propostas.')

print('Há no total', bom_noloan + bom + mau, 'clientes classificados como tomadores na tabela de propostas, sendo calculado, no início,', verif,'ID iguais entre tabelas.')

print('Há, na tabela de propostas,', bom_noloan, 'clientes aprovados, mas sem dados de pagamentos na tabela de pagamentos.')

print('Há', bom, 'clientes bons pagadores na tabela de propostas.')

print('Há', mau, 'clientes maus aprovados na tabela de propostas.')

Há 421907 clientes não aprovados na tabela de propostas.
Há no total 16650 clientes classificados como tomadores na tabela de propostas, sendo calculado, no início, 16650 ID iguais entre tabelas.
Há, na tabela de propostas, 374 clientes aprovados, mas sem dados de pagamentos na tabela de pagamentos.
Há 16088 clientes bons pagadores na tabela de propostas.
Há 188 clientes maus aprovados na tabela de propostas.
