<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Pratique** | Exploração Python em Dados  
## Caderno **Módulo 5 | Tarefa 2**<br>

Notebook [Alexandre Camargo](#eu)

---

# **Introdução**


Nesta tarefa, vamos aprofundar a análise de risco de crédito, baseando-nos na classificação de clientes em "bons" e "maus" pagadores. 

Para isso, utilizaremos duas bases de dados: uma de propostas de crédito e outra de pagamentos.

**Objetivo**

O objetivo é classificar o risco de inadimplência dos clientes, definindo-os como "bons" ou "maus" pagadores com base no histórico de pagamentos. Clientes com atrasos de 60 dias ou mais são considerados "maus pagadores". Vamos construir uma variável resposta que reflete essa classificação e integrar essas informações com a base de propostas.

**Bases Disponíveis**

#### **1. Base de Propostas - `application_records.csv`**

| Nome da Variável        | Descrição                                        | Tipo    |
|-------------------------|--------------------------------------------------|---------|
| ID                      | Identificador do cliente (chave)                 | Inteiro |
| CODE_GENDER             | M = 'Masculino'; F = 'Feminino'                  | M/F     |
| FLAG_OWN_CAR            | Y = 'possui'; N = 'não possui'                   | Y/N     |
| FLAG_OWN_REALTY         | Y = 'possui'; N = 'não possui'                   | Y/N     |
| CNT_CHILDREN            | Quantidade de filhos                            | Inteiro |
| AMT_INCOME_TOTAL        | Renda anual                                      | Inteiro |
| NAME_INCOME_TYPE        | Tipo de renda (ex: assalariado, autônomo etc)    | Texto   |
| NAME_EDUCATION_TYPE     | Nível de educação (ex: secundário, superior etc) | Texto   |
| NAME_FAMILY_STATUS      | Estado civil (ex: solteiro, casado etc)          | Texto   |
| NAME_HOUSING_TYPE       | Tipo de residência (ex: casa, apartamento etc)   | Texto   |
| DAYS_BIRTH              | Contagem de dias desde o nascimento              | Inteiro |
| DAYS_EMPLOYED           | Contagem de dias desde o início do emprego       | Inteiro |
| FLAG_MOBIL              | Indica se possui celular (1 = sim, 0 = não)      | Binária |
| FLAG_WORK_PHONE         | Indica se possui telefone comercial (1 = sim, 0 = não) | Binária |
| FLAG_PHONE              | Indica se possui telefone (1 = sim, 0 = não)     | Binária |
| FLAG_EMAIL              | Indica se possui e-mail (1 = sim, 0 = não)       | Binária |
| OCCUPATION_TYPE         | Ocupação                                         | Qualitativa |
| CNT_FAM_MEMBERS         | Quantidade de pessoas na residência              | Inteiro |

#### **2. Base de Pagamentos - `pagamentos_largo.csv`**

| Nome da Variável | Descrição                                              | Tipo        |
|------------------|--------------------------------------------------------|-------------|
| ID               | Identificador do cliente (chave)                       | Inteiro     |
| mes_00 a mes_24  | Faixa de atraso mês a mês do cliente (0-5, C, X)        | Qualitativa |


**Observações**

* Certifique-se de que todas as operações de merge e transformação sejam realizadas corretamente para evitar inconsistências nos dados.
    
* Utilize a documentação do Pandas e outras fontes de referência para esclarecer dúvidas sobre os métodos e suas aplicações.

Boa sorte com a tarefa!

## Exercício 1: Marcar Default no Mês

Na base de pagamentos, cada coluna mes_00 a mes_24 representa o status de atraso do cliente para cada mês após a aquisição do crédito. Os valores dessas colunas indicam o status de atraso como segue:

0: 1-29 dias de atraso<br>
1: 30-59 dias de atraso<br>
2: 60-89 dias de atraso<br>
3: 90-119 dias de atraso<br>
4: 120-149 dias de atraso<br>
5: Mais de 150 dias de atraso<br>
C: Pago no mês<br>
X: Sem empréstimo no mês<br>

Para classificar um cliente como em default, precisamos verificar se ele tem algum atraso significativo, ou seja, um atraso de 60 dias ou mais. Nesse contexto, consideramos os valores 2, 3, 4 e 5 como "default".

> **Dica:** Para cada coluna de mês (mes_0 a mes_24), você pode criar uma nova coluna que indique se o cliente  está em default ou substituir.
    >> Default é definido como qualquer valor igual a 2, 3, 4 ou 5.
    >> Utilize o método .isin() do Pandas para verificar se o valor da coluna está na lista de valores que representam default.

In [7]:
# Seu código aqui
import pandas as pd

pg = pd.read_csv('pagamentos_largo.csv')
propostas = pd.read_csv('application_record.csv')

In [2]:
pg.head()

Unnamed: 0,ID,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,...,mes_22,mes_23,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9
0,5001718,0,0,0,0,0,0,0,0,,...,,0,,0,0,0,0,,0,
1,5001719,0,0,C,C,C,C,C,C,C,...,C,C,C,C,C,C,C,C,C,C
2,5001720,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
3,5001723,0,0,,,,,,,,...,,,,0,0,0,0,0,,
4,5001726,0,0,C,C,C,C,C,C,C,...,C,C,C,0,0,0,C,C,C,C


In [3]:
pg1 = pg.copy()

In [4]:
for mes in pg1.select_dtypes(include = 'object').columns:
    pg1[mes] = pg1[mes].isin(['2', '3', '4', '5'])
pg1

Unnamed: 0,ID,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,...,mes_22,mes_23,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9
0,5001718,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,5001719,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,5001720,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,5001723,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,5001726,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20932,5150475,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
20933,5150476,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
20934,5150480,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
20935,5150482,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


## Exercício 2: Identificar 'bons' e 'maus' Pagadores


Determine se um cliente teve pelo menos um episódio de default entre o mês 0 e o mês 24. 

Use a variável teve_default para ser a coluna indicadora.

> **Dica:** Use o método .sum() para essa tarefa e marque True para clientes com pelo menos 1 mês em default e False para os demais.

In [5]:
pg1.set_index('ID', inplace=True)

mes_cols = [col for col in pg1.columns if col.startswith('mes_')]

bons_maus = pg1[mes_cols].sum(axis=1)

pg1['teve_default'] = bons_maus > 0

print(pg1[['teve_default']])

         teve_default
ID                   
5001718         False
5001719         False
5001720         False
5001723         False
5001726         False
...               ...
5150475         False
5150476         False
5150480         False
5150482         False
5150487         False

[20937 rows x 1 columns]


 ## Exercício 3: Marcar Proponentes Expostos ao Risco de Crédito


Selecione apenas os clientes da base de propostas que também estão na base de pagamentos. Isso garante que estamos considerando apenas clientes que adquiriram o cartão de crédito.

In [8]:
# Seu código aqui
pg1 = pg1[pg1.index.isin(propostas['ID'])]

pg1

Unnamed: 0_level_0,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,mes_17,...,mes_23,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9,teve_default
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
5008806,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5008810,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5008811,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5008825,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5008826,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5150475,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5150476,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5150480,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
5150482,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


## Exercício 4: Consolidar as Informações


Faça a junção das informações da base de propostas com a variável de default construída. Tente realizar essa tarefa em uma única linha de código se possível.

In [9]:
# Seu código aqui

consolidado = propostas.merge(pg1[['teve_default']], how='inner', left_on='ID', right_index=True)

consolidado

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS,teve_default
2,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0,False
5,5008810,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0,False
6,5008811,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0,False
11,5112956,M,Y,Y,0,270000.0,Working,Higher education,Married,House / apartment,-16872,-769,1,1,1,1,Accountants,2.0,False
19,5008825,F,Y,N,0,130500.0,Working,Incomplete higher,Married,House / apartment,-10669,-1103,1,0,0,0,Accountants,2.0,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
434800,5149042,F,N,Y,0,180000.0,Working,Secondary / secondary special,Civil marriage,House / apartment,-19750,-3608,1,0,0,0,Laborers,2.0,True
434802,5149056,F,N,Y,0,112500.0,Commercial associate,Secondary / secondary special,Married,House / apartment,-15837,-2694,1,1,1,0,,2.0,True
434803,5149145,M,Y,Y,0,247500.0,Working,Secondary / secondary special,Married,House / apartment,-10952,-3577,1,1,0,0,Laborers,2.0,True
434804,5149158,M,Y,Y,0,247500.0,Working,Secondary / secondary special,Married,House / apartment,-10952,-3577,1,1,0,0,Laborers,2.0,True


## Exercício  5. Verificar a Contagem de Default



Conte os valores da variável teve_default para verificar a distribuição dos clientes entre bons e maus pagadores.

In [10]:
# Seu código aqui

consolidado['teve_default'].value_counts()

teve_default
False    16260
True       390
Name: count, dtype: int64