# Tarefa 02 Módulo 05

O nosso projeto desta sequência de módulos do curso será um aprofundamento da demonstração sobre classificação de risco de crédito que vimos lá no comecinho. Pois recebemos uma base já montada pra nós. Tenha certeza de que ela passou por um longo processamento até ficar daquele jeito. Neste exercício vamos exercitar o que aprendemos nas ultimas aulas e montar a variável resposta da base do nosso projeto.

#### Marcação de bom e mau
O objetivo da modelagem é classificar o risco de inadimplência, ou como se diz no meio, o risco de *default*. Podemos fazer longas discussões sobre o conceito de *default* com base em estudos e exigências regulatórias, para efeitos deste estudo, um cliente em *default* é aquele que está em 60 dias de atraso ou mais. Então classificaremos os clientes como 'bons' e 'maus' assim:
- **Maus** pagadores: são aqueles que entraram em 'default' (atraso 60 dias ou mais) nos 24 meses seguintes à aquisição do cartão de crédito. 
- **Bons** pagadores: são considerados todos os demais.
- **Excluídos**: Clientes que não adquiriram um cartão de crédito (seja por recusa, seja por desistência) não possuem informações de pagamento, portanto não se pode identificar se são bons ou maus. Há uma longa discussão e literatura sobre *inferência de rejeitados* que está fora do escopo deste exercício.

#### Bases disponíveis
Temos duas bases importantes aqui: uma de propostas, com diversas informações dos vários solicitantes de cartão de crédito, e uma base de pagamentos. A base de pagamentos será utilizada para identificar a ocorrência de *default*. A base de propostas tem diversas informações coletadas no momento da solicitação do crédito (isto é importante: qualquer informação posterior a essa data é impossível de ser coletada na aplicação do modelo e não pode ser utilizada).

As variáveis delas são:

Base de propostas - application_records.csv

| Nome da Variável         | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| ID| identificador do cliente (chave) |inteiro|
| CODE_GENDER| M = 'Masculino'; F = 'Feminino' |M/F|
| FLAG_OWN_CAR| Y = 'possui'; N = 'não possui' |Y/N|
| FLAG_OWN_REALTY| Y = 'possui'; N = 'não possui' |Y/N|
| CNT_CHILDREN| Quantidade de filhos |inteiro|
| AMT_INCOME_TOTAL| Annual income |inteiro|
| NAME_INCOME_TYPE|Tipo de renda (ex: assaliariado, autônomo etc) | texto |
| NAME_EDUCATION_TYPE| Nível de educação (ex: secundário, superior etc) |texto|
| NAME_FAMILY_STATUS | Estado civil (ex: solteiro, casado etc)| texto |
| NAME_HOUSING_TYPE | tipo de residência (ex: casa/apartamento, com os pais etc) | texto |
| DAYS_BIRTH | Count backwards from current day (0), -1 means yesterday |inteiro|
| DAYS_EMPLOYED | Count backwards from current day (0), -1 means yesterday |inteiro|
| FLAG_MOBIL | Indica se possui celular (1 = sim, 0 = não) |binária|
| FLAG_WORK_PHONE | Indica se possui telefone comercial (1 = sim, 0 = não) |binária|
| FLAG_PHONE | Indica se possui telefone (1 = sim, 0 = não) |binária|
| FLAG_EMAIL | Indica se possui e-mail (1 = sim, 0 = não) |binária|
| OCCUPATION_TYPE | Occupation	 |Qualitativa|
| CNT_FAM_MEMBERS | quantidade de pessoas na residência |inteiro|

Base de pagamentos - pagamentos_largo.csv  

| Nome da Variável         | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| ID| identificador do cliente (chave) |inteiro|
| mes_00 a mes_24| faixa de atraso mês a mês do cliente <br>0: 1-29 days past due &nbsp;&nbsp;&nbsp;&nbsp; 1: 30-59 days past due <br />2: 60-89 days overdue &nbsp;&nbsp;&nbsp;&nbsp; 3: 90-119 days overdue <br /> 4: 120-149 days overdue &nbsp;&nbsp;&nbsp;&nbsp; 5: more than 150 days <br />C: paid off that month &nbsp;&nbsp;&nbsp;&nbsp; X: No loan for the month |Qualitativa|

#### Construindo a variável resposta
A base de pagamentos está em um formato de 'base larga'. Essa base possui informações de pagamentos do cliente mês a mês a partir do mês de aquisição do crédito (mês 0) até o vigésimo quarto mês após a aquisição do crédito (mês 24). Utilizaremos essa base para determinar se um proponente é considerado 'bom pagador' ou caso apresente atraso representativo, será considerado 'mau pagador'.

#### Base larga vs base longa
A base ser larga significa que há uma linha para cada cliente, e que as informações estarão nas colunas, em contraste com a 'base longa', em que haveria uma linha para cada combinação cliente/mês, uma coluna indicando o cliente, outra indicando o mês, e apenas uma coluna com a informação do atraso.

#### Tarefa 1) Marcar *default* no mês
Faça uma indicadora de se o cliente está em *default* em cada uma das marcações (mes_00 a mes_24). Dica: você pode utilizar o método ```.isin()``` do Pandas. Consulte a [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isin.html) caso necessário.

#### Tarefa 2) 'bons' e 'maus' ao longo de todos os 24 meses de desempenho
Marque para cada cliente se ele teve pelo menos um episódio de *default* entre o mês 0 e o mês 24. Dica: o método ```sum()``` pode ajudar. Caso precise, consulte a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html) e procure pelo argumento ```axis```, você viu outros métodos que possuem esse argumento também. Tendo o número de meses em default de cada cliente, basta marcar ```True``` para todos aqueles que possuem pelo menos 1 mês em *default* e ```False``` para os demais.

#### Tarefa 3) Marcando proponentes expostos ao risco de crédito
Marcando proponentes que se tornaram tomadores: lembre-se de que clientes que não adquiriram o cartão devem ser desconsiderados. A base de pagamentos possui apenas clientes que adquiriram cartão de crédito, então você pode selecionar somente os clientes da base de propostas que se encontram na base de pagamentos.

#### Tarefa 4) Consolidando as informações
Faça uma junção das informações da base de propostas com a variável de *default* que você acabou de construir. Talvez você consiga realizar a tarefa 3 e tarefa 4 em uma única linha de código ;)

#### Tarefa 5) Verificando
Faça uma contagem dos valores do *default* que você construiu. 

In [3]:
import pandas as pd

In [4]:
propostas = pd.read_csv('application_record.csv')
pg = pd.read_csv('pagamentos_largo.csv')

In [5]:
pg.head()

Unnamed: 0,ID,mes_0,mes_1,mes_10,mes_11,mes_12,mes_13,mes_14,mes_15,mes_16,...,mes_22,mes_23,mes_24,mes_3,mes_4,mes_5,mes_6,mes_7,mes_8,mes_9
0,5001718,0,0,0,0,0,0,0,0,,...,,0,,0,0,0,0,,0,
1,5001719,0,0,C,C,C,C,C,C,C,...,C,C,C,C,C,C,C,C,C,C
2,5001720,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
3,5001723,0,0,,,,,,,,...,,,,0,0,0,0,0,,
4,5001726,0,0,C,C,C,C,C,C,C,...,C,C,C,0,0,0,C,C,C,C


In [19]:
# 1) Seu código aqui

# garantir colunas mes_00 .. mes_24 na ordem correta
mes_cols = [f"mes_{i:02d}" for i in range(25) if f"mes_{i:02d}" in pg.columns]

# normalizar valores (remover espaços, uppercase) e manter NaN como NaN
pg[mes_cols] = pg[mes_cols].apply(lambda s: s.astype(str).str.strip().str.upper().replace({'NAN': pd.NA}))

# definir códigos que representam default (60+ dias)
default_codes = {'2', '3', '4', '5'}

# criar indicadores booleanos mes_XX_def (True/False)
for col in mes_cols:
    pg[f"{col}_def"] = pg[col].isin(default_codes)

# verificação rápida: somatório de defaults por mês
def_cols = [f"{c}_def" for c in mes_cols]
print(pg[def_cols].sum())

mes_10_def    102
mes_11_def     90
mes_12_def     94
mes_13_def    100
mes_14_def     85
mes_15_def     71
mes_16_def     76
mes_17_def     73
mes_18_def     58
mes_19_def     54
mes_20_def     57
mes_21_def     66
mes_22_def     60
mes_23_def     65
mes_24_def     61
dtype: int64


In [20]:
# 2) Seu código aqui

mes_cols = [f"mes_{i:02d}" for i in range(25) if f"mes_{i:02d}" in pg.columns]
default_codes = {'2','3','4','5'}
for col in mes_cols:
    def_col = f"{col}_def"
    if def_col not in pg.columns:
        pg[def_col] = pg[col].astype(str).str.strip().str.upper().replace({'NAN': pd.NA}).isin(default_codes)

#  lista das colunas indicadoras
def_cols = [f"{c}_def" for c in mes_cols]

#  marcar se o cliente teve pelo menos 1 mês em default usando sum (True/False)
#    .sum(axis=1) soma True como 1; > 0 indica pelo menos um mês com default
pg['teve_default_0_24'] = (pg[def_cols].sum(axis=1) > 0)
pg['teve_default_0_24_bin'] = pg['teve_default_0_24'].astype(int)
print("Total clientes:", len(pg))
print(pg['teve_default_0_24'].value_counts(dropna=False))
print("Total em default (bin):", pg['teve_default_0_24_bin'].sum())

Total clientes: 20937
teve_default_0_24
False    20680
True       257
Name: count, dtype: int64
Total em default (bin): 257


In [17]:
# 3) Seu código aqui

ARQUIVO_PAG = "pagamentos_largo.csv"
ARQUIVO_APP = "application_record.csv"   

pg = pd.read_csv(ARQUIVO_PAG, dtype=str, low_memory=False)
app = pd.read_csv(ARQUIVO_APP, low_memory=False)

#  identificar colunas de mês (mes_00 .. mes_24)
mes_cols = [f"mes_{i:02d}" for i in range(25) if f"mes_{i:02d}" in pg.columns]
mes_cols = sorted(mes_cols)

#  normalizar valores de mes_cols (remover espaços, uppercase, preservar NaN reais)
pg[mes_cols] = pg[mes_cols].apply(lambda s: s.astype(str).str.strip().str.upper().replace({'NAN': pd.NA}))

#  criar indicadores mensais de default (60+ dias -> códigos 2,3,4,5)
default_codes = {'2', '3', '4', '5'}
for col in mes_cols:
    def_col = f"{col}_def"
    pg[def_col] = pg[col].isin(default_codes)

# lista das colunas indicadoras
def_cols = [f"{c}_def" for c in mes_cols]

#  transformar ID para int (tanto em pg quanto em app)
pg['ID'] = pg['ID'].astype(int)
if 'ID' not in app.columns:
    raise KeyError("A base de propostas não contém coluna 'ID'. Verifique o arquivo.")
app['ID'] = app['ID'].astype(int)

# agregar pg por ID (caso haja duplicatas) usando any() nas colunas _def
agg_dict = {c: 'any' for c in def_cols}
pg_agg = pg.groupby('ID').agg(agg_dict).reset_index()

# determinar sem_historico por ID
# sem_historico = True quando TODOS mes_cols são 'X' ou todos são NaN
# calculamos por linha e depois agregamos por ID (se houver duplicatas, consideramos ALL -> True só se todas as linhas do ID forem sem historico)
pg['sem_historico_row'] = pg[mes_cols].apply(lambda row: (row.isin({'X'}).all()) or row.isna().all(), axis=1)
sem_hist_by_id = pg.groupby('ID')['sem_historico_row'].agg(lambda s: s.all()).reset_index().rename(columns={'sem_historico_row': 'sem_historico'})

# juntar sem_historico em pg_agg
pg_agg = pg_agg.merge(sem_hist_by_id, on='ID', how='left')

#  criar teve_default_0_24 (True se teve pelo menos 1 mês em default)
pg_agg['teve_default_0_24'] = pg_agg[def_cols].any(axis=1)

#  marcar tomadores na base de propostas (aparecem em pg_agg)
ids_tomadores = set(pg_agg['ID'].unique())
app['tomador'] = app['ID'].isin(ids_tomadores)

#  merge para trazer as colunas de pg_agg para app
app = app.merge(pg_agg[['ID', 'teve_default_0_24', 'sem_historico']], on='ID', how='left')

#  criar rótulo final: 'mau', 'bom', 'excluído'
def rotulo_final(row):
    if not row['tomador']:
        return 'excluído'
    # se estiver na base de pagamentos mas sem histórico (todos X ou NaN) tratamos como excluído
    if pd.notna(row.get('sem_historico')) and row.get('sem_historico') is True:
        return 'excluído'
    # se tomador e teve ao menos um default -> mau
    if row.get('teve_default_0_24') is True:
        return 'mau'
    # caso contrário: tomador sem default -> bom
    return 'bom'

app['label'] = app.apply(rotulo_final, axis=1)

#  rótulo binário opcional: 1 = mau, 0 = bom, NaN para excluído
app['label_bin'] = app['label'].map({'mau': 1, 'bom': 0, 'excluído': pd.NA})

#  criar dataset para modelagem (remover excluídos)
app_model = app[app['label'] != 'excluído'].copy()

#  checagens e prints
print("Contagem rótulos (app):")
print(app['label'].value_counts(dropna=False))
print("\nTotais:")
print(f"Total propostas: {len(app)}")
print(f"Tomadores (presentes em pagamentos): {app['tomador'].sum()}")
print(f"Excluídos: {(app['label']=='excluído').sum()}")
print(f"Bons: {(app['label']=='bom').sum()}")
print(f"Maus: {(app['label']=='mau').sum()}")
if ( (app['label']=='bom').sum() + (app['label']=='mau').sum() ) > 0:
    taxa = (app['label']=='mau').sum() / ((app['label']=='bom').sum() + (app['label']=='mau').sum())
    print(f"Taxa de default (mau/(bom+mau)) = {taxa:.4f}")

# app  -> todas as propostas com rótulo
# app_model -> apenas tomadores com rótulo bom/mau (pronto para modelagem)

Contagem rótulos (app):
label
excluído    424507
bom          13817
mau            233
Name: count, dtype: int64

Totais:
Total propostas: 438557
Tomadores (presentes em pagamentos): 16650
Excluídos: 424507
Bons: 13817
Maus: 233
Taxa de default (mau/(bom+mau)) = 0.0166


In [18]:
# 5) eu código aqui

# contagem das classes finais
print("Contagem label (excluído / bom / mau):")
print(app['label'].value_counts(dropna=False))

# contagem binária (se existir)
if 'label_bin' in app.columns:
    print("\nContagem label_bin (1 = mau, 0 = bom):")
    print(app['label_bin'].value_counts(dropna=False))

# taxa de default entre tomadores (mau / (bom + mau))
n_mau = (app['label']=='mau').sum()
n_bom = (app['label']=='bom').sum()
if n_bom + n_mau > 0:
    taxa = n_mau / (n_bom + n_mau)
    print(f"\nTaxa de default = {n_mau} / {(n_bom + n_mau)} = {taxa:.4%}")
else:
    print("\nNão há tomadores para calcular taxa de default.")

Contagem label (excluído / bom / mau):
label
excluído    424507
bom          13817
mau            233
Name: count, dtype: int64

Contagem label_bin (1 = mau, 0 = bom):
label_bin
<NA>    424507
0        13817
1          233
Name: count, dtype: int64

Taxa de default = 233 / 14050 = 1.6584%
