# Tarefa 02 Módulo 05

O nosso projeto desta sequência de módulos do curso será um aprofundamento da demonstração sobre classificação de risco de crédito que vimos lá no comecinho. Pois recebemos uma base já montada pra nós. Tenha certeza de que ela passou por um longo processamento até ficar daquele jeito. Neste exercício vamos exercitar o que aprendemos nas ultimas aulas e montar a variável resposta da base do nosso projeto.

#### Marcação de bom e mau
O objetivo da modelagem é classificar o risco de inadimplência, ou como se diz no meio, o risco de *default*. Podemos fazer longas discussões sobre o conceito de *default* com base em estudos e exigências regulatórias, para efeitos deste estudo, um cliente em *default* é aquele que está em 60 dias de atraso ou mais. Então classificaremos os clientes como 'bons' e 'maus' assim:
- **Maus** pagadores: são aqueles que entraram em 'default' (atraso 60 dias ou mais) nos 24 meses seguintes à aquisição do cartão de crédito. 
- **Bons** pagadores: são considerados todos os demais.
- **Excluídos**: Clientes que não adquiriram um cartão de crédito (seja por recusa, seja por desistência) não possuem informações de pagamento, portanto não se pode identificar se são bons ou maus. Há uma longa discussão e literatura sobre *inferência de rejeitados* que está fora do escopo deste exercício.

#### Bases disponíveis
Temos duas bases importantes aqui: uma de propostas, com diversas informações dos vários solicitantes de cartão de crédito, e uma base de pagamentos. A base de pagamentos será utilizada para identificar a ocorrência de *default*. A base de propostas tem diversas informações coletadas no momento da solicitação do crédito (isto é importante: qualquer informação posterior a essa data é impossível de ser coletada na aplicação do modelo e não pode ser utilizada).

As variáveis delas são:

Base de propostas - application_records.csv

| Nome da Variável         | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| ID| identificador do cliente (chave) |inteiro|
| CODE_GENDER| M = 'Masculino'; F = 'Feminino' |M/F|
| FLAG_OWN_CAR| Y = 'possui'; N = 'não possui' |Y/N|
| FLAG_OWN_REALTY| Y = 'possui'; N = 'não possui' |Y/N|
| CNT_CHILDREN| Quantidade de filhos |inteiro|
| AMT_INCOME_TOTAL| Annual income |inteiro|
| NAME_INCOME_TYPE|Tipo de renda (ex: assaliariado, autônomo etc) | texto |
| NAME_EDUCATION_TYPE| Nível de educação (ex: secundário, superior etc) |texto|
| NAME_FAMILY_STATUS | Estado civil (ex: solteiro, casado etc)| texto |
| NAME_HOUSING_TYPE | tipo de residência (ex: casa/apartamento, com os pais etc) | texto |
| DAYS_BIRTH | Count backwards from current day (0), -1 means yesterday |inteiro|
| DAYS_EMPLOYED | Count backwards from current day (0), -1 means yesterday |inteiro|
| FLAG_MOBIL | Indica se possui celular (1 = sim, 0 = não) |binária|
| FLAG_WORK_PHONE | Indica se possui telefone comercial (1 = sim, 0 = não) |binária|
| FLAG_PHONE | Indica se possui telefone (1 = sim, 0 = não) |binária|
| FLAG_EMAIL | Indica se possui e-mail (1 = sim, 0 = não) |binária|
| OCCUPATION_TYPE | Occupation	 |Qualitativa|
| CNT_FAM_MEMBERS | quantidade de pessoas na residência |inteiro|

Base de pagamentos - pagamentos_largo.csv  

| Nome da Variável         | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| ID| identificador do cliente (chave) |inteiro|
| mes_00 a mes_24| faixa de atraso mês a mês do cliente <br>0: 1-29 days past due &nbsp;&nbsp;&nbsp;&nbsp; 1: 30-59 days past due <br />2: 60-89 days overdue &nbsp;&nbsp;&nbsp;&nbsp; 3: 90-119 days overdue <br /> 4: 120-149 days overdue &nbsp;&nbsp;&nbsp;&nbsp; 5: more than 150 days <br />C: paid off that month &nbsp;&nbsp;&nbsp;&nbsp; X: No loan for the month |Qualitativa|

#### Construindo a variável resposta
A base de pagamentos está em um formato de 'base larga'. Essa base possui informações de pagamentos do cliente mês a mês a partir do mês de aquisição do crédito (mês 0) até o vigésimo quarto mês após a aquisição do crédito (mês 24). Utilizaremos essa base para determinar se um proponente é considerado 'bom pagador' ou caso apresente atraso representativo, será considerado 'mau pagador'.

#### Base larga vs base longa
A base ser larga significa que há uma linha para cada cliente, e que as informações estarão nas colunas, em contraste com a 'base longa', em que haveria uma linha para cada combinação cliente/mês, uma coluna indicando o cliente, outra indicando o mês, e apenas uma coluna com a informação do atraso.

#### Tarefa 1) Marcar *default* no mês
Faça uma indicadora de se o cliente está em *default* em cada uma das marcações (mes_00 a mes_24). Dica: você pode utilizar o método ```.isin()``` do Pandas. Consulte a [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isin.html) caso necessário.

#### Tarefa 2) 'bons' e 'maus' ao longo de todos os 24 meses de desempenho
Marque para cada cliente se ele teve pelo menos um episódio de *default* entre o mês 0 e o mês 24. Dica: o método ```sum()``` pode ajudar. Caso precise, consulte a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html) e procure pelo argumento ```axis```, você viu outros métodos que possuem esse argumento também. Tendo o número de meses em default de cada cliente, basta marcar ```True``` para todos aqueles que possuem pelo menos 1 mês em *default* e ```False``` para os demais.

#### Tarefa 3) Marcando proponentes expostos ao risco de crédito
Marcando proponentes que se tornaram tomadores: lembre-se de que clientes que não adquiriram o cartão devem ser desconsiderados. A base de pagamentos possui apenas clientes que adquiriram cartão de crédito, então você pode selecionar somente os clientes da base de propostas que se encontram na base de pagamentos.

#### Tarefa 4) Consolidando as informações
Faça uma junção das informações da base de propostas com a variável de *default* que você acabou de construir. Talvez você consiga realizar a tarefa 3 e tarefa 4 em uma única linha de código ;)

#### Tarefa 5) Verificando
Faça uma contagem dos valores do *default* que você construiu. 

In [18]:
import pandas as pd

In [19]:
propostas = pd.read_csv('application_record.csv')
pg = pd.read_csv('pagamentos_largo.csv')

In [20]:
propostas.head()

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
1,5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
2,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0
3,5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
4,5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0


In [21]:
pg.head()

Unnamed: 0,ID,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,...,mes_22,mes_23,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9
0,5001718,0,0,0,0,0,0,0,0,,...,,0,,0,0,0,0,,0,
1,5001719,0,0,C,C,C,C,C,C,C,...,C,C,C,C,C,C,C,C,C,C
2,5001720,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
3,5001723,0,0,,,,,,,,...,,,,0,0,0,0,0,,
4,5001726,0,0,C,C,C,C,C,C,C,...,C,C,C,0,0,0,C,C,C,C


In [22]:
pg.dtypes

ID         int64
mes_0     object
mes_1     object
mes_10    object
mes_11    object
mes_12    object
mes_13    object
mes_14    object
mes_15    object
mes_16    object
mes_17    object
mes_18    object
mes_19    object
mes_2     object
mes_20    object
mes_21    object
mes_22    object
mes_23    object
mes_24    object
mes_3     object
mes_4     object
mes_5     object
mes_6     object
mes_7     object
mes_8     object
mes_9     object
dtype: object

In [23]:
propostas = propostas.set_index(['ID'])
propostas

Unnamed: 0_level_0,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0
5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6840104,M,N,Y,0,135000.0,Pensioner,Secondary / secondary special,Separated,House / apartment,-22717,365243,1,0,0,0,,1.0
6840222,F,N,N,0,103500.0,Working,Secondary / secondary special,Single / not married,House / apartment,-15939,-3007,1,0,0,0,Laborers,1.0
6841878,F,N,N,0,54000.0,Commercial associate,Higher education,Single / not married,With parents,-8169,-372,1,1,0,0,Sales staff,1.0
6842765,F,N,Y,0,72000.0,Pensioner,Secondary / secondary special,Married,House / apartment,-21673,365243,1,0,0,0,,2.0


In [24]:
faixa_atraso = ['2', '3', '4', '5']
pg_atrasados = pg.set_index(['ID']).isin(faixa_atraso)
pg_atrasados

Unnamed: 0_level_0,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,mes_17,...,mes_22,mes_23,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
5001718,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5001719,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5001720,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5001723,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5001726,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5150475,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5150476,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5150480,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5150482,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [25]:
pg_atrasados.sum()

mes_0       7
mes_1      18
mes_10    102
mes_11     90
mes_12     94
mes_13    100
mes_14     85
mes_15     71
mes_16     76
mes_17     73
mes_18     58
mes_19     54
mes_2      48
mes_20     57
mes_21     66
mes_22     60
mes_23     65
mes_24     61
mes_3      59
mes_4      58
mes_5      76
mes_6      80
mes_7     102
mes_8      91
mes_9     109
dtype: int64

In [26]:
# 2) Seu código aqui
#Marque para cada cliente se ele teve pelo menos um episódio de default entre o mês 0 e o mês 24.
pg_atrasados['qtd_atrasos'] = pg_atrasados.sum(axis=1)
pg_atrasados

Unnamed: 0_level_0,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,mes_17,...,mes_23,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9,qtd_atrasos
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
5001718,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,0
5001719,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,0
5001720,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,0
5001723,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,0
5001726,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5150475,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,0
5150476,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,0
5150480,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,0
5150482,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,0


In [27]:
pg_atrasados['qtd_atrasos'].value_counts()

qtd_atrasos
0     20506
1       175
2        69
3        48
4        28
6        19
5        17
12       13
8        10
10        7
18        6
15        5
13        4
20        4
9         4
7         4
14        4
24        3
19        3
11        3
16        2
17        2
23        1
Name: count, dtype: int64

In [28]:
pg_atrasados.loc[pg_atrasados['qtd_atrasos'] == 0, 'default']= False
pg_atrasados.loc[pg_atrasados['qtd_atrasos'] > 0, 'default'] = True
pg_atrasados

Unnamed: 0_level_0,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,mes_17,...,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9,qtd_atrasos,default
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
5001718,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,0,False
5001719,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,0,False
5001720,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,0,False
5001723,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,0,False
5001726,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,0,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5150475,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,0,False
5150476,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,0,False
5150480,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,0,False
5150482,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,0,False


In [29]:
pg_atrasados['default'].value_counts()

default
False    20506
True       431
Name: count, dtype: int64

In [30]:
pg_atrasados.loc[pg_atrasados['default'] == True]

Unnamed: 0_level_0,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,mes_17,...,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9,qtd_atrasos,default
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
5002126,False,False,False,False,False,False,False,False,False,False,...,False,False,False,True,True,True,True,True,5,True
5002283,False,False,False,True,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,1,True
5002642,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,True,1,True
5002795,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,True,False,False,1,True
5003267,False,True,False,False,False,False,False,False,False,False,...,False,True,False,False,False,False,False,False,3,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5149192,False,False,True,True,True,False,False,False,False,False,...,False,True,True,True,True,True,True,True,11,True
5149698,False,False,False,False,False,True,True,True,False,False,...,False,False,False,False,False,False,True,False,4,True
5149728,False,False,False,False,True,False,False,False,False,False,...,False,False,False,False,False,False,False,False,1,True
5149730,False,False,False,False,True,False,False,False,False,False,...,False,False,False,False,False,False,False,False,1,True


In [31]:
# 3) Seu código aqui
#Marcando proponentes que se tornaram tomadores: lembre-se de que clientes que não adquiriram o cartão devem ser desconsiderados.
#A base de pagamentos possui apenas clientes que adquiriram cartão de crédito, então você pode selecionar somente os clientes
#da base de propostas que se encontram na base de pagamentos.
# 4) eu código aqui
#Faça uma junção das informações da base de propostas com a variável de default que você acabou de construir. 
#Talvez você consiga realizar a tarefa 3 e tarefa 4 em uma única linha de código ;)
df = propostas.merge(pg_atrasados, on = 'ID', how = 'inner')
df

Unnamed: 0_level_0,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,...,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9,qtd_atrasos,default
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,...,False,False,False,False,False,False,False,False,0,False
5008810,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,...,False,False,False,False,False,False,False,False,0,False
5008811,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,...,False,False,False,False,False,False,False,False,0,False
5112956,M,Y,Y,0,270000.0,Working,Higher education,Married,House / apartment,-16872,...,False,False,False,False,False,False,False,False,0,False
5008825,F,Y,N,0,130500.0,Working,Incomplete higher,Married,House / apartment,-10669,...,False,False,False,False,False,False,False,False,0,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5149042,F,N,Y,0,180000.0,Working,Secondary / secondary special,Civil marriage,House / apartment,-19750,...,False,False,True,False,False,False,False,False,1,True
5149056,F,N,Y,0,112500.0,Commercial associate,Secondary / secondary special,Married,House / apartment,-15837,...,False,False,False,False,True,True,False,False,2,True
5149145,M,Y,Y,0,247500.0,Working,Secondary / secondary special,Married,House / apartment,-10952,...,False,False,False,False,False,True,True,False,2,True
5149158,M,Y,Y,0,247500.0,Working,Secondary / secondary special,Married,House / apartment,-10952,...,False,False,False,True,False,True,False,False,2,True


In [32]:
# 5) Seu código aqui
#Faça uma contagem dos valores do default que você construiu
contagem = df['default'].value_counts()
contagem

default
False    16260
True       390
Name: count, dtype: int64

In [33]:
total = df.value_counts('ID').sum()
total

16650

In [34]:
print(f'Dos {total} clientes na base, {contagem[True]} têm "default" True e são considerados mau pagadores, isso equivale à {(contagem[True]/total)*100:.2f}% de todos os clientes.')

Dos 16650 clientes na base, 390 têm "default" True e são considerados mau pagadores, isso equivale à 2.34% de todos os clientes.
