# Tarefa 02 Módulo 05

O nosso projeto desta sequência de módulos do curso será um aprofundamento da demonstração sobre classificação de risco de crédito que vimos lá no comecinho. Pois recebemos uma base já montada pra nós. Tenha certeza de que ela passou por um longo processamento até ficar daquele jeito. Neste exercício vamos exercitar o que aprendemos nas ultimas aulas e montar a variável resposta da base do nosso projeto.

#### Marcação de bom e mau
O objetivo da modelagem é classificar o risco de inadimplência, ou como se diz no meio, o risco de *default*. Podemos fazer longas discussões sobre o conceito de *default* com base em estudos e exigências regulatórias, para efeitos deste estudo, um cliente em *default* é aquele que está em 60 dias de atraso ou mais. Então classificaremos os clientes como 'bons' e 'maus' assim:
- **Maus** pagadores: são aqueles que entraram em 'default' (atraso 60 dias ou mais) nos 24 meses seguintes à aquisição do cartão de crédito. 
- **Bons** pagadores: são considerados todos os demais.
- **Excluídos**: Clientes que não adquiriram um cartão de crédito (seja por recusa, seja por desistência) não possuem informações de pagamento, portanto não se pode identificar se são bons ou maus. Há uma longa discussão e literatura sobre *inferência de rejeitados* que está fora do escopo deste exercício.

#### Bases disponíveis
Temos duas bases importantes aqui: uma de propostas, com diversas informações dos vários solicitantes de cartão de crédito, e uma base de pagamentos. A base de pagamentos será utilizada para identificar a ocorrência de *default*. A base de propostas tem diversas informações coletadas no momento da solicitação do crédito (isto é importante: qualquer informação posterior a essa data é impossível de ser coletada na aplicação do modelo e não pode ser utilizada).

As variáveis delas são:

Base de propostas - application_records.csv

| Nome da Variável         | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| ID| identificador do cliente (chave) |inteiro|
| CODE_GENDER| M = 'Masculino'; F = 'Feminino' |M/F|
| FLAG_OWN_CAR| Y = 'possui'; N = 'não possui' |Y/N|
| FLAG_OWN_REALTY| Y = 'possui'; N = 'não possui' |Y/N|
| CNT_CHILDREN| Quantidade de filhos |inteiro|
| AMT_INCOME_TOTAL| Annual income |inteiro|
| NAME_INCOME_TYPE|Tipo de renda (ex: assaliariado, autônomo etc) | texto |
| NAME_EDUCATION_TYPE| Nível de educação (ex: secundário, superior etc) |texto|
| NAME_FAMILY_STATUS | Estado civil (ex: solteiro, casado etc)| texto |
| NAME_HOUSING_TYPE | tipo de residência (ex: casa/apartamento, com os pais etc) | texto |
| DAYS_BIRTH | Count backwards from current day (0), -1 means yesterday |inteiro|
| DAYS_EMPLOYED | Count backwards from current day (0), -1 means yesterday |inteiro|
| FLAG_MOBIL | Indica se possui celular (1 = sim, 0 = não) |binária|
| FLAG_WORK_PHONE | Indica se possui telefone comercial (1 = sim, 0 = não) |binária|
| FLAG_PHONE | Indica se possui telefone (1 = sim, 0 = não) |binária|
| FLAG_EMAIL | Indica se possui e-mail (1 = sim, 0 = não) |binária|
| OCCUPATION_TYPE | Occupation	 |Qualitativa|
| CNT_FAM_MEMBERS | quantidade de pessoas na residência |inteiro|

Base de pagamentos - pagamentos_largo.csv  

| Nome da Variável         | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| ID| identificador do cliente (chave) |inteiro|
| mes_00 a mes_24| faixa de atraso mês a mês do cliente <br>0: 1-29 days past due &nbsp;&nbsp;&nbsp;&nbsp; 1: 30-59 days past due <br />2: 60-89 days overdue &nbsp;&nbsp;&nbsp;&nbsp; 3: 90-119 days overdue <br /> 4: 120-149 days overdue &nbsp;&nbsp;&nbsp;&nbsp; 5: more than 150 days <br />C: paid off that month &nbsp;&nbsp;&nbsp;&nbsp; X: No loan for the month |Qualitativa|

#### Construindo a variável resposta
A base de pagamentos está em um formato de 'base larga'. Essa base possui informações de pagamentos do cliente mês a mês a partir do mês de aquisição do crédito (mês 0) até o vigésimo quarto mês após a aquisição do crédito (mês 24). Utilizaremos essa base para determinar se um proponente é considerado 'bom pagador' ou caso apresente atraso representativo, será considerado 'mau pagador'.

#### Base larga vs base longa
A base ser larga significa que há uma linha para cada cliente, e que as informações estarão nas colunas, em contraste com a 'base longa', em que haveria uma linha para cada combinação cliente/mês, uma coluna indicando o cliente, outra indicando o mês, e apenas uma coluna com a informação do atraso.

#### Tarefa 1) Marcar *default* no mês
Faça uma indicadora de se o cliente está em *default* em cada uma das marcações (mes_00 a mes_24). Dica: você pode utilizar o método ```.isin()``` do Pandas. Consulte a [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isin.html) caso necessário.

#### Tarefa 2) 'bons' e 'maus' ao longo de todos os 24 meses de desempenho
Marque para cada cliente se ele teve pelo menos um episódio de *default* entre o mês 0 e o mês 24. Dica: o método ```sum()``` pode ajudar. Caso precise, consulte a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html) e procure pelo argumento ```axis```, você viu outros métodos que possuem esse argumento também. Tendo o número de meses em default de cada cliente, basta marcar ```True``` para todos aqueles que possuem pelo menos 1 mês em *default* e ```False``` para os demais.

#### Tarefa 3) Marcando proponentes expostos ao risco de crédito
Marcando proponentes que se tornaram tomadores: lembre-se de que clientes que não adquiriram o cartão devem ser desconsiderados. A base de pagamentos possui apenas clientes que adquiriram cartão de crédito, então você pode selecionar somente os clientes da base de propostas que se encontram na base de pagamentos.

#### Tarefa 4) Consolidando as informações
Faça uma junção das informações da base de propostas com a variável de *default* que você acabou de construir. Talvez você consiga realizar a tarefa 3 e tarefa 4 em uma única linha de código ;)

#### Tarefa 5) Verificando
Faça uma contagem dos valores do *default* que você construiu. 

In [1]:
import pandas as pd

In [2]:
propostas = pd.read_csv('./application_record.csv', sep = ',')
pg = pd.read_csv('./pagamentos_largo.csv', sep = ',')

FileNotFoundError: [Errno 2] No such file or directory: './application_record.csv'

In [None]:
propostas.head()

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
1,5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
2,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0
3,5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
4,5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0


In [None]:
pg.head()

Unnamed: 0,ID,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,...,mes_22,mes_23,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9
0,5001718,0,0,0,0,0,0,0,0,,...,,0,,0,0,0,0,,0,
1,5001719,0,0,C,C,C,C,C,C,C,...,C,C,C,C,C,C,C,C,C,C
2,5001720,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
3,5001723,0,0,,,,,,,,...,,,,0,0,0,0,0,,
4,5001726,0,0,C,C,C,C,C,C,C,...,C,C,C,0,0,0,C,C,C,C


In [None]:
# Verificando o nome das colunas da base de propostas
propostas.columns

Index(['ID', 'CODE_GENDER', 'FLAG_OWN_CAR', 'FLAG_OWN_REALTY', 'CNT_CHILDREN',
       'AMT_INCOME_TOTAL', 'NAME_INCOME_TYPE', 'NAME_EDUCATION_TYPE',
       'NAME_FAMILY_STATUS', 'NAME_HOUSING_TYPE', 'DAYS_BIRTH',
       'DAYS_EMPLOYED', 'FLAG_MOBIL', 'FLAG_WORK_PHONE', 'FLAG_PHONE',
       'FLAG_EMAIL', 'OCCUPATION_TYPE', 'CNT_FAM_MEMBERS'],
      dtype='object')

In [None]:
# Verificando as informações da base de propostas
propostas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 438557 entries, 0 to 438556
Data columns (total 18 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   ID                   438557 non-null  int64  
 1   CODE_GENDER          438557 non-null  object 
 2   FLAG_OWN_CAR         438557 non-null  object 
 3   FLAG_OWN_REALTY      438557 non-null  object 
 4   CNT_CHILDREN         438557 non-null  int64  
 5   AMT_INCOME_TOTAL     438557 non-null  float64
 6   NAME_INCOME_TYPE     438557 non-null  object 
 7   NAME_EDUCATION_TYPE  438557 non-null  object 
 8   NAME_FAMILY_STATUS   438557 non-null  object 
 9   NAME_HOUSING_TYPE    438557 non-null  object 
 10  DAYS_BIRTH           438557 non-null  int64  
 11  DAYS_EMPLOYED        438557 non-null  int64  
 12  FLAG_MOBIL           438557 non-null  int64  
 13  FLAG_WORK_PHONE      438557 non-null  int64  
 14  FLAG_PHONE           438557 non-null  int64  
 15  FLAG_EMAIL       

In [None]:
# Verificando os tipos da base de propostas
propostas.dtypes

ID                       int64
CODE_GENDER             object
FLAG_OWN_CAR            object
FLAG_OWN_REALTY         object
CNT_CHILDREN             int64
AMT_INCOME_TOTAL       float64
NAME_INCOME_TYPE        object
NAME_EDUCATION_TYPE     object
NAME_FAMILY_STATUS      object
NAME_HOUSING_TYPE       object
DAYS_BIRTH               int64
DAYS_EMPLOYED            int64
FLAG_MOBIL               int64
FLAG_WORK_PHONE          int64
FLAG_PHONE               int64
FLAG_EMAIL               int64
OCCUPATION_TYPE         object
CNT_FAM_MEMBERS        float64
dtype: object

In [None]:
# Verificando as colunas da base de pagamentos
pg.columns

Index(['ID', 'mes_0', 'mes_1', 'mes_10', 'mes_11', 'mes_12', 'mes_13',
       'mes_14', 'mes_15', 'mes_16', 'mes_17', 'mes_18', 'mes_19', 'mes_2',
       'mes_20', 'mes_21', 'mes_22', 'mes_23', 'mes_24', 'mes_3', 'mes_4',
       'mes_5', 'mes_6', 'mes_7', 'mes_8', 'mes_9'],
      dtype='object')

In [None]:
# Verificando as informações da base de pagamentos
pg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20937 entries, 0 to 20936
Data columns (total 26 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ID      20937 non-null  int64 
 1   mes_0   20937 non-null  object
 2   mes_1   19216 non-null  object
 3   mes_10  17455 non-null  object
 4   mes_11  16972 non-null  object
 5   mes_12  16943 non-null  object
 6   mes_13  16540 non-null  object
 7   mes_14  16525 non-null  object
 8   mes_15  16155 non-null  object
 9   mes_16  16093 non-null  object
 10  mes_17  15911 non-null  object
 11  mes_18  15630 non-null  object
 12  mes_19  15336 non-null  object
 13  mes_2   19348 non-null  object
 14  mes_20  15184 non-null  object
 15  mes_21  15076 non-null  object
 16  mes_22  14797 non-null  object
 17  mes_23  14598 non-null  object
 18  mes_24  14433 non-null  object
 19  mes_3   18925 non-null  object
 20  mes_4   18802 non-null  object
 21  mes_5   18512 non-null  object
 22  mes_6   18214 non-null

In [None]:
# Verificando os tipos das bases de pagamentos
pg.dtypes

ID         int64
mes_0     object
mes_1     object
mes_10    object
mes_11    object
mes_12    object
mes_13    object
mes_14    object
mes_15    object
mes_16    object
mes_17    object
mes_18    object
mes_19    object
mes_2     object
mes_20    object
mes_21    object
mes_22    object
mes_23    object
mes_24    object
mes_3     object
mes_4     object
mes_5     object
mes_6     object
mes_7     object
mes_8     object
mes_9     object
dtype: object

In [None]:
# Somar os valores NaN na base de pagamentos
pg.isna().sum()

ID           0
mes_0        0
mes_1     1721
mes_10    3482
mes_11    3965
mes_12    3994
mes_13    4397
mes_14    4412
mes_15    4782
mes_16    4844
mes_17    5026
mes_18    5307
mes_19    5601
mes_2     1589
mes_20    5753
mes_21    5861
mes_22    6140
mes_23    6339
mes_24    6504
mes_3     2012
mes_4     2135
mes_5     2425
mes_6     2723
mes_7     3175
mes_8     3196
mes_9     3427
dtype: int64

In [None]:
# Somar os valores NaN na base de pagamentos
propostas.isna().sum()

ID                          0
CODE_GENDER                 0
FLAG_OWN_CAR                0
FLAG_OWN_REALTY             0
CNT_CHILDREN                0
AMT_INCOME_TOTAL            0
NAME_INCOME_TYPE            0
NAME_EDUCATION_TYPE         0
NAME_FAMILY_STATUS          0
NAME_HOUSING_TYPE           0
DAYS_BIRTH                  0
DAYS_EMPLOYED               0
FLAG_MOBIL                  0
FLAG_WORK_PHONE             0
FLAG_PHONE                  0
FLAG_EMAIL                  0
OCCUPATION_TYPE        134203
CNT_FAM_MEMBERS             0
dtype: int64

In [None]:
# Preencher os valores NaN com 0
pg.fillna(0, inplace = True)

In [None]:
propostas.fillna(0, inplace = True)

In [None]:
# Somar os valores NaN na base de pagamentos
pg.isna().sum()

ID        0
mes_0     0
mes_1     0
mes_10    0
mes_11    0
mes_12    0
mes_13    0
mes_14    0
mes_15    0
mes_16    0
mes_17    0
mes_18    0
mes_19    0
mes_2     0
mes_20    0
mes_21    0
mes_22    0
mes_23    0
mes_24    0
mes_3     0
mes_4     0
mes_5     0
mes_6     0
mes_7     0
mes_8     0
mes_9     0
dtype: int64

In [None]:
# Somar os valores NaN na base de pagamentos
propostas.isna().sum()

ID                     0
CODE_GENDER            0
FLAG_OWN_CAR           0
FLAG_OWN_REALTY        0
CNT_CHILDREN           0
AMT_INCOME_TOTAL       0
NAME_INCOME_TYPE       0
NAME_EDUCATION_TYPE    0
NAME_FAMILY_STATUS     0
NAME_HOUSING_TYPE      0
DAYS_BIRTH             0
DAYS_EMPLOYED          0
FLAG_MOBIL             0
FLAG_WORK_PHONE        0
FLAG_PHONE             0
FLAG_EMAIL             0
OCCUPATION_TYPE        0
CNT_FAM_MEMBERS        0
dtype: int64

In [None]:
# 1) 
# Criamos uma variável 'meses_default' que armazena as colunas relacionadas aos meses de atraso na base de pagamentos
# Excluimos a primeira coluna 
# Iteramos sobre cada coluna de atraso na base de pagamentos
# Utilizamos o método isin() para marcar como True aqueles valores que correspondem aos códigos de atraso 2, 3, 4 ou 5
meses_default = pg.columns

for mes in meses_default[1:]:
    pg[mes] = pg[mes].isin([2,3,4,5])
pg

Unnamed: 0,ID,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,...,mes_22,mes_23,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9
0,5001718,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,5001719,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,5001720,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,5001723,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,5001726,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20932,5150475,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
20933,5150476,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
20934,5150480,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
20935,5150482,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [None]:
# Mostramos novamente os tipos da base de pagamentos
pg.dtypes

ID        int64
mes_0      bool
mes_1      bool
mes_10     bool
mes_11     bool
mes_12     bool
mes_13     bool
mes_14     bool
mes_15     bool
mes_16     bool
mes_17     bool
mes_18     bool
mes_19     bool
mes_2      bool
mes_20     bool
mes_21     bool
mes_22     bool
mes_23     bool
mes_24     bool
mes_3      bool
mes_4      bool
mes_5      bool
mes_6      bool
mes_7      bool
mes_8      bool
mes_9      bool
dtype: object

In [None]:
# 2) 
# Criamos uma nova coluna chamada 'default' na base de pagamentos
# Utilizamos o método sum() com o argumento axis=1
# Somamos os valores das colunas a partir da coluna 1 (excluindo a coluna de identificação) para cada linha
# Usamos '>= 1' para compararmos e atribuímos True aos clientes que tiveram pelo menos um mês em default e False para os demais
pg['default'] = pg.iloc[:, 1:].sum(axis=1) >= 1
pg['default'] 

0        False
1        False
2        False
3        False
4        False
         ...  
20932    False
20933    False
20934    False
20935    False
20936    False
Name: default, Length: 20937, dtype: bool

In [None]:
# Criamos um novo DataFrame chamado 'df_propostas' contendo apenas as propostas dos clientes que possuem um ID presente na base de pagamentos
df_propostas = propostas[propostas['ID'].isin(pg['ID'])].copy()

In [None]:
df_propostas.head()

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS
2,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0
5,5008810,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
6,5008811,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
11,5112956,M,Y,Y,0,270000.0,Working,Higher education,Married,House / apartment,-16872,-769,1,1,1,1,Accountants,2.0
19,5008825,F,Y,N,0,130500.0,Working,Incomplete higher,Married,House / apartment,-10669,-1103,1,0,0,0,Accountants,2.0


In [None]:
# 4) 
# Criamos o DataFrame 'consolidado' ao realizar a junção entre 'df_propostas' e uma seleção da base de pagamentos ('pg') que contém as colunas 'ID' e 'default'
consolidado = pd.merge(df_propostas, pg[['ID', 'default']], on='ID')


In [None]:
# Contamos a quantidade de valores na coluna 'default' do DataFrame 'consolidado' para verificar a distribuição dos clientes em relação ao risco de inadimplência
consolidado['default'].value_counts()

False    16650
Name: default, dtype: int64