# MVP Análise de Dados e Boas Práticas

**Nome:** André Camatta

**Dataset:** [Lending Club 2007-2020Q3](https://www.kaggle.com/datasets/ethon0426/lending-club-20072020q1?utm_source=chatgpt.com)

## Descrição do problema

### O problema

Prever, no momento da concessão de um empréstimo peer-to-peer (P2P), se um empréstimo entrará em default (categorizado como Charged Off, Default ou > 60 dias de atraso) ou será liquidado normalmente (Fully Paid).
Logo, queremos um modelo que mapeie atributos do tomador e das condições do empréstimo.

Tipo de aprendizado: **Supervisionado – classificação binária**.

### O que é peer-to-peer lending (P2P)?

É um mercado eletrônico que conecta diretamente investidores e tomadores.

O tomador solicita crédito numa “prateleira” on-line. A plataforma realiza scoring de risco e fixa taxa/prazo (ou leilão em alguns modelos). Diversos investidores financiam frações do empréstimo, diversificando risco. A plataforma cobra taxa de intermediação, mas não aporta recursos próprios — diferentemente de um banco tradicional que capta depósito e empresta em balanço.

Nos EUA, a Lending Club e a Prosper iniciaram em 2006. Depois de 2020, a Lending Club comprou um banco regulado e passou a originar parte dos créditos no próprio balanço, mas o histórico 2007-2020 representa sua origem P2P.

Estimar a probabilidade de inadimplência antes da originação é crítico para:

(a) proteger o retorno dos investidores;

(b) calibrar as taxas de juros ofertadas;

(c) manter o nível de risco-carteira aceite pela plataforma e pelos reguladores.

### Contexto de P2P lending no Brasil

**Regulação vigente**  
Desde a **Resolução CMN 4 656/2018**, o Banco Central passou a licenciar fintechs de crédito sob dois formatos:  
* **SCD** – Sociedade de Crédito Direto (empresta recursos próprios)  
* **SEP** – Sociedade de Empréstimo entre Pessoas (**modelo P2P**), que apenas intermedia tomadores e investidores por plataforma online. 

**Plataformas ativas (2025)**  
Entre as SEPs mais conhecidas estão **Nexoos, Biva (PagBank), IOUU** e **Mutual**. A Nexoos, por exemplo, já originou **R$ 1,10 bilhão** em crédito para PMEs e conta com **≈ 122 mil investidores cadastrados**. 

**Tamanho de mercado e projeção**  
Consultorias setoriais estimam que o **mercado brasileiro de P2P lending movimentou USD 5 bi em 2024** e pode atingir **USD 28,1 bi até 2033**, crescendo a **CAGR de 21 %**.

**Fatores de crescimento**  
* **Open Finance + Pix** reduzem custo de aquisição e verificações.  
* Juros atrativos para investidores (geralmente **CDI + 8 pp a CDI + 30 pp** para PMEs) em comparação a renda fixa tradicional.  
* Demanda de crédito por pequenas empresas que não conseguem limites suficientes nos bancos comerciais.  
* Supervisão do BC aumenta a confiança, enquanto mantém exigências de segregação de contas e divulgação de risco. 

**Potencial**  
Mesmo somando SCDs e SEPs, o estoque ainda representa **< 1 % da carteira total de crédito do SFN** — espaço amplo para consolidação e inovação, especialmente em nichos desatendidos (microcrédito, capital de giro regional). A combinação de **crescimento projetado de dois dígitos** e **barreiras regulatórias relativamente baixas** coloca o P2P como um dos segmentos fintech mais promissores na próxima década.


**Fontes**
- **Resolução CMN 4.656/2018** – cria as figuras SCD e SEP  
  [PDF oficial – Banco Central](https://normativos.bcb.gov.br/Lists/Normativos/Attachments/50579/Res_4656_v7_L.pdf)

- **Fintechs de crédito (FAQ do BC)** – visão geral sobre SCD e SEP  
  [Banco Central – Página “Fintechs”](https://www.bcb.gov.br/estabilidadefinanceira/fintechs)

- **Mercado brasileiro de P2P lending** – tamanho de USD 5 bi em 2024 e projeção de USD 28,1 bi em 2033 (CAGR 21 %)  
  [IMARC Group – Brazil Peer-to-Peer Lending Market Report (2025)](https://www.imarcgroup.com/brazil-peer-to-peer-lending-market)

- **Exemplo de plataforma SEP** – Nexoos atinge R$ 1 bi originados e 700 mil CNPJs analisados  
  [Finsiders Brasil – “Nexoos volta a ter vida própria” (abr/2025)](https://finsidersbrasil.com.br/reportagem-exclusiva-fintechs/quatro-anos-apos-venda-para-fintech-da-americanas-nexoos-volta-a-ter-vida-propria/)

### Conjunto de dados

O conjunto de dados reúne todas as operações originadas pela Lending Club, maior plataforma norte-americana de peer-to-peer lending até 2020. A versão mais completa no Kaggle cobre de 2007 ao 3º tri/2020, com ≈ 2 milhões de empréstimos (≈ 1 GB) e ~145 colunas que descrevem perfil do tomador, condições da operação e evolução do pagamento.

### Atributos-chave mais relevantes

| Atributo                | Tipo original      | Papel previsto / Observação                                                  |
|-------------------------|--------------------|------------------------------------------------------------------------------|
| grade               | Categórico ordinal | Rating interno A–G (quanto mais perto de A, menor o risco)                   |
| sub_grade           | Categórico ordinal | Faixa fina dentro do grade (A1–G5)                                           |
| fico_range_low      | Numérico inteiro   | Limite inferior da faixa FICO na originação                                  |
| fico_range_high     | Numérico inteiro   | Limite superior da faixa FICO                                                |
| loan_amnt               | Numérico contínuo  | Valor solicitado pelo tomador                                                |
| funded_amnt            | Numérico contínuo  | Valor efetivamente financiado pela plataforma                                |
| int_rate               | Numérico (%)       | Taxa anual de juros do contrato                                              |
| installment            | Numérico           | Parcela mensal estimada                                                      |
| term                   | Categórico texto   | Prazo (36 ou 60 meses) — converter para 36/60 numérico                       |
| emp_length             | Categórico texto   | Tempo de emprego; normalizar para 0–10 anos                                  |
| home_ownership         | Categórico texto   | Situação de moradia (RENT, OWN, MORTGAGE etc.)                               |
| annual_inc             | Numérico           | Renda anual declarada                                                        |
| dti                    | Numérico           | *Debt-to-Income* ratio (%)                                                   |
| issue_d                | String data        | Data de originação; converter para `datetime`                                |
| earliest_cr_line       | String data        | Data da 1ª linha de crédito; usar para “histórico de crédito (anos)”         |
| addr_state             | Categórico texto   | UF de residência — proxy de região econômica                                 |
| verification_status    | Categórico texto   | Nível de verificação de renda (Verified, Source Verified, Not Verified)      |
| purpose                | Categórico texto   | Finalidade declarada do empréstimo                                           |
| application_type       | Categórico texto   | Tipo de aplicação (Individual / Joint)                                       |
| loan_status            | Categórico texto   | Variável-alvo original (*Fully Paid*, *Charged Off* etc.)                    |
| **target_default**     | Binário (criado)   | 1 = default / 0 = pago — rótulo para modelagem                               |

### Restrições e condições para seleção dos dados

- **Período analisado**  
  Filtrar apenas empréstimos emitidos **entre 2015-01-01 e 2020-12-31** para manter um regime regulatório e macroeconômico homogêneo.

- **Agregação do status do empréstimo**  
  Consolidar `loan_status` em dois grupos:  
  - `paid` → *Fully Paid*, *Does not meet the credit policy (Fully Paid)*  
  - `default` → *Charged Off*, *Default*, *Late (31-120 days)*, *In Grace Period*, *Does not meet the credit policy (Charged Off)*, *Late (16-30 days)*  

- **Prevenção de vazamento de informação futura**  
  Remover colunas que só ficam conhecidas **depois** da concessão — p. ex. `last_pymnt_d`, `total_pymnt`, `recoveries`, `collection_recovery_fee`.

- **Privacidade e conformidade**  
  Excluir ou anonimizar identificadores diretos em dados ainda não ofuscados (`member_id`, `emp_title`, textos livres) mesmo que os dados sejam públicos, uma vez que eles serão republicados no github, tornando-me também responsável (LGPD).

- **Limitações de recursos no Google Colab (requisito da avaliação)**  
  - Ler o CSV em *chunks* (`chunksize = 100 000`) **ou**  
  - Amostrar aleatoriamente até **≈ 400 000** linhas para experimentação interativa, mantendo a proporcionalidade das classes.

- **Limite de tamanho de dataset a ser republicado no GitHub (requisito da avaliação)**  
  O arquivo completo (≈ 393 MB compactado / > 1 GB descompactado) ultrapassa o limite de **100 MB por arquivo** imposto pelo GitHub. Para reprodutibilidade sem exceder cotas:  
  1. Subir apenas uma **amostra ≤ 100 MB** no repositório. 
  2. **Git LFS** ou **Release Assets** para hospedar o arquivo completo.


### Hipóteses

- **Capacidade de pagamento influencia inadimplência**  
   Métricas que refletem fluxo de caixa do tomador — p. ex. `dti` (*debt-to-income ratio*) e `annual_inc` — terão forte relação com a chance de **default**.

- **FICO e *grades* internas concentram a maior parte da informação de risco**  
   Variáveis como `grade`, `sub_grade`, `fico_range_low` e `fico_range_high` já incorporam modelos de *credit-scoring* do próprio Lending Club e devem ser preditores relevantes.

- **Mudança de regime temporal**  
   Empréstimos originados antes de 2015 (crise 2008 e período de expansão de crédito subsequente) podem ter distribuição de risco diferente dos emitidos em 2015-2020.

- **Classes desbalanceadas**  
   Espera-se que a proporção de empréstimos **pagos** seja bem maior que a de **inadimplentes** (≈ 80 % vs. 20 %), o que exigirá técnicas de balanceamento ou métricas adequadas.



## Importação das bibliotecas

In [None]:
import pandas as pd
import numpy as np
import kaggle
import zipfile
import os


In [5]:
# Download e carregamento do dataset

# Download do dataset do Kaggle
kaggle.api.authenticate()
kaggle.api.dataset_download_files('ethon0426/lending-club-20072020q1', path='.', unzip=True)

# Carregamento dos dados
df = pd.read_csv('Loan_status_2007-2020Q3.gzip', low_memory=False)
print(f"Dataset carregado: {df.shape}")
df.head()

Dataset URL: https://www.kaggle.com/datasets/ethon0426/lending-club-20072020q1
Dataset carregado: (2925493, 142)
Dataset carregado: (2925493, 142)


Unnamed: 0.1,Unnamed: 0,id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,...,hardship_start_date,hardship_end_date,payment_plan_start_date,hardship_length,hardship_dpd,hardship_loan_status,orig_projected_additional_accrued_interest,hardship_payoff_balance_amount,hardship_last_payment_amount,debt_settlement_flag
0,0,1077501,5000.0,5000.0,4975.0,36 months,10.65%,162.87,B,B2,...,,,,,,,,,,N
1,1,1077430,2500.0,2500.0,2500.0,60 months,15.27%,59.83,C,C4,...,,,,,,,,,,N
2,2,1077175,2400.0,2400.0,2400.0,36 months,15.96%,84.33,C,C5,...,,,,,,,,,,N
3,3,1076863,10000.0,10000.0,10000.0,36 months,13.49%,339.31,C,C1,...,,,,,,,,,,N
4,4,1075358,3000.0,3000.0,3000.0,60 months,12.69%,67.79,B,B5,...,,,,,,,,,,N


## Processamento e Anonimização dos Dados

In [None]:
# Análise inicial das colunas
print("Informações do dataset:")
print(f"Shape: {df.shape}")
print(f"\nColunas ({len(df.columns)}):")
for i, col in enumerate(df.columns, 1):
    print(f"{i:3d}. {col}")

# Verificar valores únicos de loan_status para entender as categorias
print(f"\nValores únicos de loan_status:")
print(df['loan_status'].value_counts())

In [None]:
# Anonimização e filtragem dos dados conforme especificações

# 1. Filtrar período 2015-2020
df['issue_d'] = pd.to_datetime(df['issue_d'])
df_filtered = df[(df['issue_d'] >= '2015-01-01') & (df['issue_d'] <= '2020-12-31')].copy()
print(f"Dados após filtro de período (2015-2020): {df_filtered.shape}")

# 2. Criar variável target binária
paid_status = ['Fully Paid', 'Does not meet the credit policy. Status:Fully Paid']
default_status = ['Charged Off', 'Default', 'Late (31-120 days)', 'In Grace Period', 
                 'Does not meet the credit policy. Status:Charged Off', 'Late (16-30 days)']

df_filtered = df_filtered[df_filtered['loan_status'].isin(paid_status + default_status)]
df_filtered['target_default'] = df_filtered['loan_status'].isin(default_status).astype(int)

print(f"Distribuição da variável target:")
print(df_filtered['target_default'].value_counts(normalize=True))

# 3. Remover colunas com vazamento de informação futura
future_leak_cols = ['last_pymnt_d', 'total_pymnt', 'recoveries', 'collection_recovery_fee', 
                   'last_credit_pull_d', 'out_prncp', 'out_prncp_inv', 'total_pymnt_inv',
                   'total_rec_prncp', 'total_rec_int', 'total_rec_late_fee', 'hardship_flag',
                   'settlement_status', 'settlement_date', 'settlement_amount', 'debt_settlement_flag']

# Verificar quais dessas colunas existem no dataset
existing_leak_cols = [col for col in future_leak_cols if col in df_filtered.columns]
print(f"\nColunas de vazamento encontradas: {len(existing_leak_cols)}")
print(existing_leak_cols)

# Remover as colunas existentes
df_filtered = df_filtered.drop(columns=existing_leak_cols)

# 4. Remover/Anonimizar identificadores diretos para LGPD
privacy_cols = ['member_id', 'emp_title', 'url', 'desc', 'title']
existing_privacy_cols = [col for col in privacy_cols if col in df_filtered.columns]
print(f"\nColunas de privacidade encontradas: {len(existing_privacy_cols)}")
print(existing_privacy_cols)

# Remover as colunas existentes
df_filtered = df_filtered.drop(columns=existing_privacy_cols)

print(f"\nDataset após limpeza: {df_filtered.shape}")
print(f"Colunas restantes: {len(df_filtered.columns)}")

In [None]:
# Criar amostra para GitHub (≤ 100MB)
import os

# Verificar tamanho atual em memória
memory_usage = df_filtered.memory_usage(deep=True).sum() / (1024**2)
print(f"Uso de memória atual: {memory_usage:.1f} MB")

# Criar amostra proporcional às classes (400k registros ou menos)
target_sample_size = 400000
current_size = len(df_filtered)

if current_size > target_sample_size:
    print(f"Criando amostra de {target_sample_size:,} registros (de {current_size:,})")
    
    # Amostragem estratificada para manter proporção das classes
    df_sample = df_filtered.groupby('target_default', group_keys=False).apply(
        lambda x: x.sample(n=int(target_sample_size * len(x) / len(df_filtered)), 
                          random_state=42)
    ).reset_index(drop=True)
else:
    print(f"Dataset já tem tamanho adequado: {current_size:,} registros")
    df_sample = df_filtered.copy()

print(f"Amostra final: {df_sample.shape}")
print(f"Distribuição da variável target na amostra:")
print(df_sample['target_default'].value_counts(normalize=True))

# Salvar amostra para upload no GitHub
sample_filename = 'lending_club_sample_2015_2020.csv.gz'
df_sample.to_csv(sample_filename, index=False, compression='gzip')

# Verificar tamanho do arquivo
file_size = os.path.getsize(sample_filename) / (1024**2)
print(f"\nArquivo '{sample_filename}' criado: {file_size:.1f} MB")

if file_size <= 100:
    print("✅ Arquivo adequado para upload no GitHub (<100MB)")
else:
    print("⚠️ Arquivo muito grande para GitHub, considere reduzir a amostra")

df_sample.head()