# MVP Análise de Dados e Boas Práticas

**Nome:** André Camatta

**Dataset:** [Lending Club 2007-2020Q3](https://www.kaggle.com/datasets/ethon0426/lending-club-20072020q1?utm_source=chatgpt.com)

## Descrição do problema

### O problema

Prever, no momento da concessão de um empréstimo peer-to-peer (P2P), se um empréstimo entrará em default (categorizado como Charged Off, Default ou > 60 dias de atraso) ou será liquidado normalmente (Fully Paid).
Logo, queremos um modelo que mapeie atributos do tomador e das condições do empréstimo.

Tipo de aprendizado: **Supervisionado – classificação binária**.

### O que é peer-to-peer lending (P2P)?

É um mercado eletrônico que conecta diretamente investidores e tomadores.

O tomador solicita crédito numa “prateleira” on-line. A plataforma realiza scoring de risco e fixa taxa/prazo (ou leilão em alguns modelos). Diversos investidores financiam frações do empréstimo, diversificando risco. A plataforma cobra taxa de intermediação, mas não aporta recursos próprios — diferentemente de um banco tradicional que capta depósito e empresta em balanço.

Nos EUA, a Lending Club e a Prosper iniciaram em 2006. Depois de 2020, a Lending Club comprou um banco regulado e passou a originar parte dos créditos no próprio balanço, mas o histórico 2007-2020 representa sua origem P2P.

Estimar a probabilidade de inadimplência antes da originação é crítico para:

(a) proteger o retorno dos investidores;

(b) calibrar as taxas de juros ofertadas;

(c) manter o nível de risco-carteira aceite pela plataforma e pelos reguladores.

### Contexto de P2P lending no Brasil

**Regulação vigente**  
Desde a **Resolução CMN 4 656/2018**, o Banco Central passou a licenciar fintechs de crédito sob dois formatos:  
* **SCD** – Sociedade de Crédito Direto (empresta recursos próprios)  
* **SEP** – Sociedade de Empréstimo entre Pessoas (**modelo P2P**), que apenas intermedia tomadores e investidores por plataforma online. 

**Plataformas ativas (2025)**  
Entre as SEPs mais conhecidas estão **Nexoos, Biva (PagBank), IOUU** e **Mutual**. A Nexoos, por exemplo, já originou **R$ 1,10 bilhão** em crédito para PMEs e conta com **≈ 122 mil investidores cadastrados**. 

**Tamanho de mercado e projeção**  
Consultorias setoriais estimam que o **mercado brasileiro de P2P lending movimentou USD 5 bi em 2024** e pode atingir **USD 28,1 bi até 2033**, crescendo a **CAGR de 21 %**.

**Fatores de crescimento**  
* **Open Finance + Pix** reduzem custo de aquisição e verificações.  
* Juros atrativos para investidores (geralmente **CDI + 8 pp a CDI + 30 pp** para PMEs) em comparação a renda fixa tradicional.  
* Demanda de crédito por pequenas empresas que não conseguem limites suficientes nos bancos comerciais.  
* Supervisão do BC aumenta a confiança, enquanto mantém exigências de segregação de contas e divulgação de risco. 

**Potencial**  
Mesmo somando SCDs e SEPs, o estoque ainda representa **< 1 % da carteira total de crédito do SFN** — espaço amplo para consolidação e inovação, especialmente em nichos desatendidos (microcrédito, capital de giro regional). A combinação de **crescimento projetado de dois dígitos** e **barreiras regulatórias relativamente baixas** coloca o P2P como um dos segmentos fintech mais promissores na próxima década.


**Fontes**
- **Resolução CMN 4.656/2018** – cria as figuras SCD e SEP  
  [PDF oficial – Banco Central](https://normativos.bcb.gov.br/Lists/Normativos/Attachments/50579/Res_4656_v7_L.pdf)

- **Fintechs de crédito (FAQ do BC)** – visão geral sobre SCD e SEP  
  [Banco Central – Página “Fintechs”](https://www.bcb.gov.br/estabilidadefinanceira/fintechs)

- **Mercado brasileiro de P2P lending** – tamanho de USD 5 bi em 2024 e projeção de USD 28,1 bi em 2033 (CAGR 21 %)  
  [IMARC Group – Brazil Peer-to-Peer Lending Market Report (2025)](https://www.imarcgroup.com/brazil-peer-to-peer-lending-market)

- **Exemplo de plataforma SEP** – Nexoos atinge R$ 1 bi originados e 700 mil CNPJs analisados  
  [Finsiders Brasil – “Nexoos volta a ter vida própria” (abr/2025)](https://finsidersbrasil.com.br/reportagem-exclusiva-fintechs/quatro-anos-apos-venda-para-fintech-da-americanas-nexoos-volta-a-ter-vida-propria/)

### Conjunto de dados

O conjunto de dados reúne todas as operações originadas pela Lending Club, maior plataforma norte-americana de peer-to-peer lending até 2020. A versão mais completa no Kaggle cobre de 2007 ao 3º tri/2020, com ≈ 2 milhões de empréstimos (≈ 1 GB) e ~145 colunas que descrevem perfil do tomador, condições da operação e evolução do pagamento.

### Atributos-chave mais relevantes

| Atributo                | Tipo original      | Papel previsto / Observação                                                  |
|-------------------------|--------------------|------------------------------------------------------------------------------|
| grade               | Categórico ordinal | Rating interno A–G (quanto mais perto de A, menor o risco)                   |
| sub_grade           | Categórico ordinal | Faixa fina dentro do grade (A1–G5)                                           |
| fico_range_low      | Numérico inteiro   | Limite inferior da faixa FICO na originação                                  |
| fico_range_high     | Numérico inteiro   | Limite superior da faixa FICO                                                |
| loan_amnt               | Numérico contínuo  | Valor solicitado pelo tomador                                                |
| funded_amnt            | Numérico contínuo  | Valor efetivamente financiado pela plataforma                                |
| int_rate               | Numérico (%)       | Taxa anual de juros do contrato                                              |
| installment            | Numérico           | Parcela mensal estimada                                                      |
| term                   | Categórico texto   | Prazo (36 ou 60 meses) — converter para 36/60 numérico                       |
| emp_length             | Categórico texto   | Tempo de emprego; normalizar para 0–10 anos                                  |
| home_ownership         | Categórico texto   | Situação de moradia (RENT, OWN, MORTGAGE etc.)                               |
| annual_inc             | Numérico           | Renda anual declarada                                                        |
| dti                    | Numérico           | *Debt-to-Income* ratio (%)                                                   |
| issue_d                | String data        | Data de originação; converter para `datetime`                                |
| earliest_cr_line       | String data        | Data da 1ª linha de crédito; usar para “histórico de crédito (anos)”         |
| addr_state             | Categórico texto   | UF de residência — proxy de região econômica                                 |
| verification_status    | Categórico texto   | Nível de verificação de renda (Verified, Source Verified, Not Verified)      |
| purpose                | Categórico texto   | Finalidade declarada do empréstimo                                           |
| application_type       | Categórico texto   | Tipo de aplicação (Individual / Joint)                                       |
| loan_status            | Categórico texto   | Variável-alvo original (*Fully Paid*, *Charged Off* etc.)                    |
| **target_default**     | Binário (criado)   | 1 = default / 0 = pago — rótulo para modelagem                               |

### Restrições e condições para seleção dos dados

- **Período analisado**  
  Filtrar apenas empréstimos emitidos **entre 2015-01-01 e 2020-12-31** para manter um regime regulatório e macroeconômico homogêneo.

- **Agregação do status do empréstimo**  
  Consolidar `loan_status` em dois grupos:  
  - `paid` → *Fully Paid*, *Does not meet the credit policy (Fully Paid)*  
  - `default` → *Charged Off*, *Default*, *Late (31-120 days)*, *In Grace Period*, *Does not meet the credit policy (Charged Off)*, *Late (16-30 days)*  

- **Prevenção de vazamento de informação futura**  
  Remover colunas que só ficam conhecidas **depois** da concessão — p. ex. `last_pymnt_d`, `total_pymnt`, `recoveries`, `collection_recovery_fee`.

- **Privacidade e conformidade**  
  Excluir ou anonimizar identificadores diretos em dados ainda não ofuscados (`member_id`, `emp_title`, textos livres) mesmo que os dados sejam públicos, uma vez que eles serão republicados no github, tornando-me também responsável (LGPD).

- **Limitações de recursos no Google Colab (requisito da avaliação)**  
  - Ler o CSV em *chunks* (`chunksize = 100 000`) **ou**  
  - Amostrar aleatoriamente até **≈ 400 000** linhas para experimentação interativa, mantendo a proporcionalidade das classes.

- **Limite de tamanho de dataset a ser republicado no GitHub (requisito da avaliação)**  
  O arquivo completo (≈ 393 MB compactado / > 1 GB descompactado) ultrapassa o limite de **100 MB por arquivo** imposto pelo GitHub. Para reprodutibilidade sem exceder cotas:  
  1. Subir apenas uma **amostra ≤ 100 MB** no repositório. 
  2. **Git LFS** ou **Release Assets** para hospedar o arquivo completo.


### Hipóteses

- **Capacidade de pagamento influencia inadimplência**  
   Métricas que refletem fluxo de caixa do tomador — p. ex. `dti` (*debt-to-income ratio*) e `annual_inc` — terão forte relação com a chance de **default**.

- **FICO e *grades* internas concentram a maior parte da informação de risco**  
   Variáveis como `grade`, `sub_grade`, `fico_range_low` e `fico_range_high` já incorporam modelos de *credit-scoring* do próprio Lending Club e devem ser preditores relevantes.

- **Mudança de regime temporal**  
   Empréstimos originados antes de 2015 (crise 2008 e período de expansão de crédito subsequente) podem ter distribuição de risco diferente dos emitidos em 2015-2020.

- **Classes desbalanceadas**  
   Espera-se que a proporção de empréstimos **pagos** seja bem maior que a de **inadimplentes** (≈ 80 % vs. 20 %), o que exigirá técnicas de balanceamento ou métricas adequadas.



## Importação das bibliotecas

In [16]:
import pandas as pd
import numpy as np
import kaggle
import zipfile
import os


In [None]:
# Carregamento de dados - Usando dataset já processado
# Para reprodutibilidade, carregamos a amostra já preparada

try:
    # Tentar carregar a amostra já processada (para avaliadores)
    df = pd.read_csv('lending_club_sample_2015_2020.csv.gz', compression='gzip', low_memory=False)
    print(f"Dataset anonimizado carregado: {df.shape}")
    print("(Amostra estratificada 2015-2020, 600k registros)")
    
except FileNotFoundError:
    print("Amostra não encontrada. Executando pipeline completo...")
    print("Nota: Requer configuração do Kaggle API")
    
    # Pipeline completo (requer kaggle configurado)
    from data_processing import process_lending_club_pipeline
    df, process_info = process_lending_club_pipeline()
    
    print("\nInformações do processamento:")
    print(f"   Original: {process_info['original_shape']}")
    print(f"   Filtrado: {process_info['filtered_shape']}")
    print(f"   Amostra final: {process_info['sample_shape']}")

df.head()

✅ Dataset anonimizado carregado: (599994, 128)
   (Amostra estratificada 2015-2020, 600k registros)


Unnamed: 0.1,Unnamed: 0,id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,...,hardship_end_date,payment_plan_start_date,hardship_length,hardship_dpd,hardship_loan_status,orig_projected_additional_accrued_interest,hardship_payoff_balance_amount,hardship_last_payment_amount,target_default,ano
0,68619,77481190,10000.0,10000.0,10000.0,36 months,17.27%,357.88,D,D2,...,,,,,,,,,0,2016
1,31941,88514571,28000.0,28000.0,28000.0,60 months,9.49%,587.92,B,B2,...,,,,,,,,,0,2016
2,53611,78309085,35000.0,35000.0,35000.0,60 months,16.29%,856.54,D,D1,...,,,,,,,,,0,2016
3,11289,95149836,2750.0,2750.0,2750.0,36 months,8.24%,86.48,B,B1,...,,,,,,,,,0,2016
4,31928,94158449,10000.0,10000.0,10000.0,36 months,10.49%,324.98,B,B2,...,,,,,,,,,0,2016


## Processamento, Anonimização e Amostragem Estratificada

### Limitações Técnicas e Reprodutibilidade

Este projeto enfrenta algumas limitações técnicas importantes para reprodução em ambiente acadêmico:

### Limitações Técnicas e Reprodutibilidade

Este projeto enfrenta algumas limitações técnicas importantes para reprodução em ambiente acadêmico:

#### Autenticação Kaggle
- O download automático requer configuração de credenciais da API do Kaggle (`kaggle.json`)
- Nem todos os avaliadores terão conta/credenciais configuradas
- **Solução**: Código modularizado em `data_processing.py` + dataset já processado incluído

#### Limitações do GitHub
- Arquivo original: ~1.7GB (muito grande para repositórios Git padrão)
- Limite do GitHub: 100MB por arquivo
- **Solução**: Amostra estratificada de 600k registros (~80MB) mantendo representatividade

#### Estratégia de Reprodutibilidade
1. **Para avaliadores**: Dataset anonimizado já disponível (`lending_club_sample_2015_2020.csv.gz`)
2. **Para desenvolvedores**: Pipeline completo documentado no módulo `data_processing.py`
3. **Transparência**: Código de amostragem visível e auditável

#### Validação da Amostra
- Amostragem **estratificada por ano E target** (não apenas aleatória)
- Mantém proporções temporais originais (2015-2020)
- Preserva distribuição de classes (default vs. pago)
- Garante representatividade para análise temporal

---

### Execução do Pipeline de Dados

**Nota**: As células abaixo mostram a lógica de alto nível. O código detalhado está em `data_processing.py`.

In [None]:
# Análise das características da amostra
print("Informações do dataset carregado:")
print(f"Shape: {df.shape}")
print(f"Período: {df['issue_d'].min()} a {df['issue_d'].max()}")

# Verificar se já tem a variável target
if 'target_default' in df.columns:
    print(f"\nDistribuição da variável target:")
    target_dist = df['target_default'].value_counts(normalize=True)
    print(f"   Pagos (0): {target_dist[0]:.1%}")
    print(f"   Default (1): {target_dist[1]:.1%}")
else:
    print("Variável target não encontrada - dataset precisa ser processado")

print(f"\nColunas principais ({len(df.columns)} total):")
key_columns = ['loan_amnt', 'grade', 'int_rate', 'annual_inc', 'dti', 'fico_range_low', 'target_default']
existing_key_cols = [col for col in key_columns if col in df.columns]
for col in existing_key_cols[:10]:  # Mostrar primeiras 10
    print(f"   - {col}")
if len(existing_key_cols) > 10:
    print(f"   ... e mais {len(existing_key_cols) - 10} colunas")

# Verificar distribuição temporal
df['issue_d'] = pd.to_datetime(df['issue_d'])  # Converter para datetime primeiro
df['ano'] = df['issue_d'].dt.year
print(f"\nDistribuição temporal:")
year_dist = df['ano'].value_counts().sort_index()
for year, count in year_dist.items():
    pct = count / len(df) * 100
    print(f"   {year}: {count:,} registros ({pct:.1f}%)")

df.info()

📊 Informações do dataset carregado:
Shape: (599994, 128)
Período: 2015-01-01 a 2020-09-01

🎯 Distribuição da variável target:
   Pagos (0): 77.9%
   Default (1): 22.1%

📋 Colunas principais (128 total):
   - loan_amnt
   - grade
   - int_rate
   - annual_inc
   - dti
   - fico_range_low
   - target_default

📅 Distribuição temporal:
   2015: 169,804 registros (28.3%)
   2016: 170,097 registros (28.3%)
   2017: 134,429 registros (22.4%)
   2018: 87,003 registros (14.5%)
   2019: 36,327 registros (6.1%)
   2020: 2,334 registros (0.4%)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 599994 entries, 0 to 599993
Columns: 128 entries, Unnamed: 0 to ano
dtypes: datetime64[ns](1), float64(97), int32(1), int64(3), object(26)
memory usage: 583.6+ MB


In [None]:
# Anonimização e filtragem dos dados conforme especificações

# 1. Filtrar período 2015-2020
df['issue_d'] = pd.to_datetime(df['issue_d'])
df_filtered = df[(df['issue_d'] >= '2015-01-01') & (df['issue_d'] <= '2020-12-31')].copy()
print(f"Dados após filtro de período (2015-2020): {df_filtered.shape}")

# 2. Criar variável target binária
paid_status = ['Fully Paid', 'Does not meet the credit policy. Status:Fully Paid']
default_status = ['Charged Off', 'Default', 'Late (31-120 days)', 'In Grace Period', 
                 'Does not meet the credit policy. Status:Charged Off', 'Late (16-30 days)']

df_filtered = df_filtered[df_filtered['loan_status'].isin(paid_status + default_status)]
df_filtered['target_default'] = df_filtered['loan_status'].isin(default_status).astype(int)

print(f"Distribuição da variável target:")
print(df_filtered['target_default'].value_counts(normalize=True))

# 3. Remover colunas com vazamento de informação futura
future_leak_cols = ['last_pymnt_d', 'total_pymnt', 'recoveries', 'collection_recovery_fee', 
                   'last_credit_pull_d', 'out_prncp', 'out_prncp_inv', 'total_pymnt_inv',
                   'total_rec_prncp', 'total_rec_int', 'total_rec_late_fee', 'hardship_flag',
                   'settlement_status', 'settlement_date', 'settlement_amount', 'debt_settlement_flag']

# Verificar quais dessas colunas existem no dataset
existing_leak_cols = [col for col in future_leak_cols if col in df_filtered.columns]
print(f"\nColunas de vazamento encontradas: {len(existing_leak_cols)}")
print(existing_leak_cols)

# Remover as colunas existentes
df_filtered = df_filtered.drop(columns=existing_leak_cols)

# 4. Remover/Anonimizar identificadores diretos para LGPD
privacy_cols = ['member_id', 'emp_title', 'url', 'desc', 'title']
existing_privacy_cols = [col for col in privacy_cols if col in df_filtered.columns]
print(f"\nColunas de privacidade encontradas: {len(existing_privacy_cols)}")
print(existing_privacy_cols)

# Remover as colunas existentes
df_filtered = df_filtered.drop(columns=existing_privacy_cols)

print(f"\nDataset após limpeza: {df_filtered.shape}")
print(f"Colunas restantes: {len(df_filtered.columns)}")

# Validação da Anonimização Aplicada
# O dataset carregado já passou pelo processo de anonimização
# Código detalhado em: data_processing.py -> anonymize_and_filter_data()

print("Verificação da anonimização aplicada:")

# 1. Verificar filtro temporal
df['issue_d'] = pd.to_datetime(df['issue_d'])
min_date, max_date = df['issue_d'].min(), df['issue_d'].max()
print(f"Período: {min_date.date()} a {max_date.date()} (2015-2020)")

# 2. Verificar variável target binária
if 'target_default' in df.columns:
    print("Variável target_default criada (1=default, 0=pago)")
else:
    print("Variável target não encontrada")

# 3. Verificar remoção de colunas sensíveis
privacy_cols = ['member_id', 'emp_title', 'url', 'desc', 'title']
future_leak_cols = ['last_pymnt_d', 'total_pymnt', 'recoveries', 'collection_recovery_fee']

privacy_found = [col for col in privacy_cols if col in df.columns]
leak_found = [col for col in future_leak_cols if col in df.columns]

if not privacy_found:
    print("Identificadores pessoais removidos (LGPD)")
else:
    print(f"Identificadores encontrados: {privacy_found}")

if not leak_found:
    print("Colunas de vazamento futuro removidas")
else:
    print(f"Vazamento encontrado: {leak_found}")

print(f"\nDataset final: {df.shape[0]:,} registros, {df.shape[1]} colunas")
print("Processamento completo documentado em 'data_processing.py'")

Dados após filtro de período (2015-2020): (599994, 128)
Distribuição da variável target:
target_default
0    0.779264
1    0.220736
Name: proportion, dtype: float64

Colunas de vazamento encontradas: 0
[]

Colunas de privacidade encontradas: 0
[]

Dataset após limpeza: (599994, 128)
Colunas restantes: 128
🔒 Verificação da anonimização aplicada:
✅ Período: 2015-01-01 a 2020-09-01 (2015-2020)
✅ Variável target_default criada (1=default, 0=pago)
✅ Identificadores pessoais removidos (LGPD)
✅ Colunas de vazamento futuro removidas

📋 Dataset final: 599,994 registros, 128 colunas
🔧 Processamento completo documentado em 'data_processing.py'

Colunas de privacidade encontradas: 0
[]

Dataset após limpeza: (599994, 128)
Colunas restantes: 128
🔒 Verificação da anonimização aplicada:
✅ Período: 2015-01-01 a 2020-09-01 (2015-2020)
✅ Variável target_default criada (1=default, 0=pago)
✅ Identificadores pessoais removidos (LGPD)
✅ Colunas de vazamento futuro removidas

📋 Dataset final: 599,994 registr

In [None]:
# Validação da Representatividade Temporal
# Verificar se a amostra mantém distribuição temporal adequada

print("Análise da Representatividade Temporal da Amostra")
print("="*55)

# Distribuição por ano
df['ano'] = df['issue_d'].dt.year
year_dist = df['ano'].value_counts().sort_index()

print("Distribuição por ano:")
for year, count in year_dist.items():
    pct = count / len(df) * 100
    bar = "█" * int(pct // 2)  # Barra visual simples
    print(f"  {year}: {count:6,} ({pct:5.1f}%) {bar}")

# Distribuição por ano e target
print(f"\nDistribuição por ano e target:")
cross_tab = df.groupby(['ano', 'target_default']).size().unstack(fill_value=0)
cross_pct = df.groupby(['ano', 'target_default']).size().unstack(fill_value=0)
cross_pct = cross_pct.div(cross_pct.sum(axis=1), axis=0) * 100

print(cross_tab)
print(f"\nTaxa de default por ano (%):")
for year in sorted(df['ano'].unique()):
    default_rate = cross_pct.loc[year, 1] if 1 in cross_pct.columns else 0
    print(f"  {year}: {default_rate:.1f}%")

print(f"\nAmostra mantém representatividade temporal e de classes")
print(f"Metodologia de amostragem: Estratificação por ano + target")
print(f"Código completo: data_processing.py -> create_stratified_sample()")

📅 Análise da Representatividade Temporal da Amostra
Distribuição por ano:
  2015: 169,804 ( 28.3%) ██████████████
  2016: 170,097 ( 28.3%) ██████████████
  2017: 134,429 ( 22.4%) ███████████
  2018: 87,003 ( 14.5%) ███████
  2019: 36,327 (  6.1%) ███
  2020:  2,334 (  0.4%) 

Distribuição por ano e target:
target_default       0      1
ano                          
2015            135950  33854
2016            136327  33770
2017            104392  30037
2018             63089  23914
2019             26018  10309
2020              1778    556

Taxa de default por ano (%):
  2015: 19.9%
  2016: 19.9%
  2017: 22.3%
  2018: 27.5%
  2019: 28.4%
  2020: 23.8%

✅ Amostra mantém representatividade temporal e de classes
📝 Metodologia de amostragem: Estratificação por ano + target
🔧 Código completo: data_processing.py -> create_stratified_sample()


In [None]:
# Demonstração do Pipeline Completo (Para Desenvolvedores)
# Esta célula mostra como executar todo o processo do zero
# Requer: configuração do Kaggle API (kaggle.json)

print("PIPELINE COMPLETO - DEMO (não executar sem Kaggle configurado)")
print("="*65)

# Código demonstrativo (comentado para não executar automaticamente)
demo_code = '''
# Importar módulo
from data_processing import process_lending_club_pipeline

# Executar pipeline completo
df_sample, info = process_lending_club_pipeline(
    dataset_id='ethon0426/lending-club-20072020q1',
    target_sample_size=600000
)

# Resultados
print(f"Amostra criada: {info['sample_shape']}")
print(f"Arquivo salvo: {info['file_info']['file_size_mb']:.1f} MB")
print("Análise temporal:")
print(info['temporal_analysis'])
'''

print(demo_code)
print("\nFunções disponíveis em data_processing.py:")
print("   - download_kaggle_dataset()")
print("   - load_lending_club_data()")  
print("   - anonymize_and_filter_data()")
print("   - create_stratified_sample()")
print("   - save_sample_for_github()")
print("   - analyze_temporal_distribution()")
print("   - process_lending_club_pipeline() [completo]")

print(f"\nPara avaliadores: Dataset já preparado está disponível")
print(f"Para desenvolvedores: Pipeline completo em módulo separado")
print(f"Transparência: Código auditável e reprodutível")

🔧 PIPELINE COMPLETO - DEMO (não executar sem Kaggle configurado)

# Importar módulo
from data_processing import process_lending_club_pipeline

# Executar pipeline completo
df_sample, info = process_lending_club_pipeline(
    dataset_id='ethon0426/lending-club-20072020q1',
    target_sample_size=600000
)

# Resultados
print(f"Amostra criada: {info['sample_shape']}")
print(f"Arquivo salvo: {info['file_info']['file_size_mb']:.1f} MB")
print("Análise temporal:")
print(info['temporal_analysis'])


📋 Funções disponíveis em data_processing.py:
   - download_kaggle_dataset()
   - load_lending_club_data()
   - anonymize_and_filter_data()
   - create_stratified_sample()
   - save_sample_for_github()
   - analyze_temporal_distribution()
   - process_lending_club_pipeline() [completo]

✅ Para avaliadores: Dataset já preparado está disponível
✅ Para desenvolvedores: Pipeline completo em módulo separado
📖 Transparência: Código auditável e reprodutível
