# MVP An√°lise de Dados e Boas Pr√°ticas

**Nome:** Andr√© Camatta

**Dataset:** [Lending Club 2007-2020Q3](https://www.kaggle.com/datasets/ethon0426/lending-club-20072020q1?utm_source=chatgpt.com)

## Descri√ß√£o do problema

### O problema

Prever, no momento da concess√£o de um empr√©stimo peer-to-peer (P2P), se um empr√©stimo entrar√° em default (categorizado como Charged Off, Default ou > 60 dias de atraso) ou ser√° liquidado normalmente (Fully Paid).
Logo, queremos um modelo que mapeie atributos do tomador e das condi√ß√µes do empr√©stimo.

Tipo de aprendizado: **Supervisionado ‚Äì classifica√ß√£o bin√°ria**.

### O que √© peer-to-peer lending (P2P)?

√â um mercado eletr√¥nico que conecta diretamente investidores e tomadores.

O tomador solicita cr√©dito numa ‚Äúprateleira‚Äù on-line. A plataforma realiza scoring de risco e fixa taxa/prazo (ou leil√£o em alguns modelos). Diversos investidores financiam fra√ß√µes do empr√©stimo, diversificando risco. A plataforma cobra taxa de intermedia√ß√£o, mas n√£o aporta recursos pr√≥prios ‚Äî diferentemente de um banco tradicional que capta dep√≥sito e empresta em balan√ßo.

Nos EUA, a Lending Club e a Prosper iniciaram em 2006. Depois de 2020, a Lending Club comprou um banco regulado e passou a originar parte dos cr√©ditos no pr√≥prio balan√ßo, mas o hist√≥rico 2007-2020 representa sua origem P2P.

Estimar a probabilidade de inadimpl√™ncia antes da origina√ß√£o √© cr√≠tico para:

(a) proteger o retorno dos investidores;

(b) calibrar as taxas de juros ofertadas;

(c) manter o n√≠vel de risco-carteira aceite pela plataforma e pelos reguladores.

### Contexto de P2P lending no Brasil

**Regula√ß√£o vigente**  
Desde a **Resolu√ß√£o CMN 4 656/2018**, o Banco Central passou a licenciar fintechs de cr√©dito sob dois formatos:  
* **SCD** ‚Äì Sociedade de Cr√©dito Direto (empresta recursos pr√≥prios)  
* **SEP** ‚Äì Sociedade de Empr√©stimo entre Pessoas (**modelo P2P**), que apenas intermedia tomadores e investidores por plataforma online. 

**Plataformas ativas (2025)**  
Entre as SEPs mais conhecidas est√£o **Nexoos, Biva (PagBank), IOUU** e **Mutual**. A Nexoos, por exemplo, j√° originou **R$ 1,10 bilh√£o** em cr√©dito para PMEs e conta com **‚âà 122 mil investidores cadastrados**. 

**Tamanho de mercado e proje√ß√£o**  
Consultorias setoriais estimam que o **mercado brasileiro de P2P lending movimentou USD 5 bi em 2024** e pode atingir **USD 28,1 bi at√© 2033**, crescendo a **CAGR de 21 %**.

**Fatores de crescimento**  
* **Open Finance + Pix** reduzem custo de aquisi√ß√£o e verifica√ß√µes.  
* Juros atrativos para investidores (geralmente **CDI + 8 pp a CDI + 30 pp** para PMEs) em compara√ß√£o a renda fixa tradicional.  
* Demanda de cr√©dito por pequenas empresas que n√£o conseguem limites suficientes nos bancos comerciais.  
* Supervis√£o do BC aumenta a confian√ßa, enquanto mant√©m exig√™ncias de segrega√ß√£o de contas e divulga√ß√£o de risco. 

**Potencial**  
Mesmo somando SCDs e SEPs, o estoque ainda representa **< 1 % da carteira total de cr√©dito do SFN** ‚Äî espa√ßo amplo para consolida√ß√£o e inova√ß√£o, especialmente em nichos desatendidos (microcr√©dito, capital de giro regional). A combina√ß√£o de **crescimento projetado de dois d√≠gitos** e **barreiras regulat√≥rias relativamente baixas** coloca o P2P como um dos segmentos fintech mais promissores na pr√≥xima d√©cada.


**Fontes**
- **Resolu√ß√£o CMN 4.656/2018** ‚Äì cria as figuras SCD e SEP  
  [PDF oficial ‚Äì Banco Central](https://normativos.bcb.gov.br/Lists/Normativos/Attachments/50579/Res_4656_v7_L.pdf)

- **Fintechs de cr√©dito (FAQ do BC)** ‚Äì vis√£o geral sobre SCD e SEP  
  [Banco Central ‚Äì P√°gina ‚ÄúFintechs‚Äù](https://www.bcb.gov.br/estabilidadefinanceira/fintechs)

- **Mercado brasileiro de P2P lending** ‚Äì tamanho de USD 5 bi em 2024 e proje√ß√£o de USD 28,1 bi em 2033 (CAGR 21 %)  
  [IMARC Group ‚Äì Brazil Peer-to-Peer Lending Market Report (2025)](https://www.imarcgroup.com/brazil-peer-to-peer-lending-market)

- **Exemplo de plataforma SEP** ‚Äì Nexoos atinge R$ 1 bi originados e 700 mil CNPJs analisados  
  [Finsiders Brasil ‚Äì ‚ÄúNexoos volta a ter vida pr√≥pria‚Äù (abr/2025)](https://finsidersbrasil.com.br/reportagem-exclusiva-fintechs/quatro-anos-apos-venda-para-fintech-da-americanas-nexoos-volta-a-ter-vida-propria/)

### Conjunto de dados

O conjunto de dados re√∫ne todas as opera√ß√µes originadas pela Lending Club, maior plataforma norte-americana de peer-to-peer lending at√© 2020. A vers√£o mais completa no Kaggle cobre de 2007 ao 3¬∫ tri/2020, com ‚âà 2 milh√µes de empr√©stimos (‚âà 1 GB) e ~145 colunas que descrevem perfil do tomador, condi√ß√µes da opera√ß√£o e evolu√ß√£o do pagamento.

### Atributos-chave mais relevantes

| Atributo                | Tipo original      | Papel previsto / Observa√ß√£o                                                  |
|-------------------------|--------------------|------------------------------------------------------------------------------|
| grade               | Categ√≥rico ordinal | Rating interno A‚ÄìG (quanto mais perto de A, menor o risco)                   |
| sub_grade           | Categ√≥rico ordinal | Faixa fina dentro do grade (A1‚ÄìG5)                                           |
| fico_range_low      | Num√©rico inteiro   | Limite inferior da faixa FICO na origina√ß√£o                                  |
| fico_range_high     | Num√©rico inteiro   | Limite superior da faixa FICO                                                |
| loan_amnt               | Num√©rico cont√≠nuo  | Valor solicitado pelo tomador                                                |
| funded_amnt            | Num√©rico cont√≠nuo  | Valor efetivamente financiado pela plataforma                                |
| int_rate               | Num√©rico (%)       | Taxa anual de juros do contrato                                              |
| installment            | Num√©rico           | Parcela mensal estimada                                                      |
| term                   | Categ√≥rico texto   | Prazo (36 ou 60 meses) ‚Äî converter para 36/60 num√©rico                       |
| emp_length             | Categ√≥rico texto   | Tempo de emprego; normalizar para 0‚Äì10 anos                                  |
| home_ownership         | Categ√≥rico texto   | Situa√ß√£o de moradia (RENT, OWN, MORTGAGE etc.)                               |
| annual_inc             | Num√©rico           | Renda anual declarada                                                        |
| dti                    | Num√©rico           | *Debt-to-Income* ratio (%)                                                   |
| issue_d                | String data        | Data de origina√ß√£o; converter para `datetime`                                |
| earliest_cr_line       | String data        | Data da 1¬™ linha de cr√©dito; usar para ‚Äúhist√≥rico de cr√©dito (anos)‚Äù         |
| addr_state             | Categ√≥rico texto   | UF de resid√™ncia ‚Äî proxy de regi√£o econ√¥mica                                 |
| verification_status    | Categ√≥rico texto   | N√≠vel de verifica√ß√£o de renda (Verified, Source Verified, Not Verified)      |
| purpose                | Categ√≥rico texto   | Finalidade declarada do empr√©stimo                                           |
| application_type       | Categ√≥rico texto   | Tipo de aplica√ß√£o (Individual / Joint)                                       |
| loan_status            | Categ√≥rico texto   | Vari√°vel-alvo original (*Fully Paid*, *Charged Off* etc.)                    |
| **target_default**     | Bin√°rio (criado)   | 1 = default / 0 = pago ‚Äî r√≥tulo para modelagem                               |

### Restri√ß√µes e condi√ß√µes para sele√ß√£o dos dados

- **Per√≠odo analisado**  
  Filtrar apenas empr√©stimos emitidos **entre 2015-01-01 e 2020-12-31** para manter um regime regulat√≥rio e macroecon√¥mico homog√™neo.

- **Agrega√ß√£o do status do empr√©stimo**  
  Consolidar `loan_status` em dois grupos:  
  - `paid` ‚Üí *Fully Paid*, *Does not meet the credit policy (Fully Paid)*  
  - `default` ‚Üí *Charged Off*, *Default*, *Late (31-120 days)*, *In Grace Period*, *Does not meet the credit policy (Charged Off)*, *Late (16-30 days)*  

- **Preven√ß√£o de vazamento de informa√ß√£o futura**  
  Remover colunas que s√≥ ficam conhecidas **depois** da concess√£o ‚Äî p. ex. `last_pymnt_d`, `total_pymnt`, `recoveries`, `collection_recovery_fee`.

- **Privacidade e conformidade**  
  Excluir ou anonimizar identificadores diretos em dados ainda n√£o ofuscados (`member_id`, `emp_title`, textos livres) mesmo que os dados sejam p√∫blicos, uma vez que eles ser√£o republicados no github, tornando-me tamb√©m respons√°vel (LGPD).

- **Limita√ß√µes de recursos no Google Colab (requisito da avalia√ß√£o)**  
  - Ler o CSV em *chunks* (`chunksize = 100 000`) **ou**  
  - Amostrar aleatoriamente at√© **‚âà 400 000** linhas para experimenta√ß√£o interativa, mantendo a proporcionalidade das classes.

- **Limite de tamanho de dataset a ser republicado no GitHub (requisito da avalia√ß√£o)**  
  O arquivo completo (‚âà 393 MB compactado / > 1 GB descompactado) ultrapassa o limite de **100 MB por arquivo** imposto pelo GitHub. Para reprodutibilidade sem exceder cotas:  
  1. Subir apenas uma **amostra ‚â§ 100 MB** no reposit√≥rio. 
  2. **Git LFS** ou **Release Assets** para hospedar o arquivo completo.


### Hip√≥teses

- **Capacidade de pagamento influencia inadimpl√™ncia**  
   M√©tricas que refletem fluxo de caixa do tomador ‚Äî p. ex. `dti` (*debt-to-income ratio*) e `annual_inc` ‚Äî ter√£o forte rela√ß√£o com a chance de **default**.

- **FICO e *grades* internas concentram a maior parte da informa√ß√£o de risco**  
   Vari√°veis como `grade`, `sub_grade`, `fico_range_low` e `fico_range_high` j√° incorporam modelos de *credit-scoring* do pr√≥prio Lending Club e devem ser preditores relevantes.

- **Mudan√ßa de regime temporal**  
   Empr√©stimos originados antes de 2015 (crise 2008 e per√≠odo de expans√£o de cr√©dito subsequente) podem ter distribui√ß√£o de risco diferente dos emitidos em 2015-2020.

- **Classes desbalanceadas**  
   Espera-se que a propor√ß√£o de empr√©stimos **pagos** seja bem maior que a de **inadimplentes** (‚âà 80 % vs. 20 %), o que exigir√° t√©cnicas de balanceamento ou m√©tricas adequadas.



## Importa√ß√£o das bibliotecas

In [16]:
import pandas as pd
import numpy as np
import kaggle
import zipfile
import os


In [None]:
# Carregamento de dados - Usando dataset j√° processado
# Para reprodutibilidade, carregamos a amostra j√° preparada

try:
    # Tentar carregar a amostra j√° processada (para avaliadores)
    df = pd.read_csv('lending_club_sample_2015_2020.csv.gz', compression='gzip', low_memory=False)
    print(f"Dataset anonimizado carregado: {df.shape}")
    print("(Amostra estratificada 2015-2020, 600k registros)")
    
except FileNotFoundError:
    print("Amostra n√£o encontrada. Executando pipeline completo...")
    print("Nota: Requer configura√ß√£o do Kaggle API")
    
    # Pipeline completo (requer kaggle configurado)
    from data_processing import process_lending_club_pipeline
    df, process_info = process_lending_club_pipeline()
    
    print("\nInforma√ß√µes do processamento:")
    print(f"   Original: {process_info['original_shape']}")
    print(f"   Filtrado: {process_info['filtered_shape']}")
    print(f"   Amostra final: {process_info['sample_shape']}")

df.head()

‚úÖ Dataset anonimizado carregado: (599994, 128)
   (Amostra estratificada 2015-2020, 600k registros)


Unnamed: 0.1,Unnamed: 0,id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,...,hardship_end_date,payment_plan_start_date,hardship_length,hardship_dpd,hardship_loan_status,orig_projected_additional_accrued_interest,hardship_payoff_balance_amount,hardship_last_payment_amount,target_default,ano
0,68619,77481190,10000.0,10000.0,10000.0,36 months,17.27%,357.88,D,D2,...,,,,,,,,,0,2016
1,31941,88514571,28000.0,28000.0,28000.0,60 months,9.49%,587.92,B,B2,...,,,,,,,,,0,2016
2,53611,78309085,35000.0,35000.0,35000.0,60 months,16.29%,856.54,D,D1,...,,,,,,,,,0,2016
3,11289,95149836,2750.0,2750.0,2750.0,36 months,8.24%,86.48,B,B1,...,,,,,,,,,0,2016
4,31928,94158449,10000.0,10000.0,10000.0,36 months,10.49%,324.98,B,B2,...,,,,,,,,,0,2016


## Processamento, Anonimiza√ß√£o e Amostragem Estratificada

### Limita√ß√µes T√©cnicas e Reprodutibilidade

Este projeto enfrenta algumas limita√ß√µes t√©cnicas importantes para reprodu√ß√£o em ambiente acad√™mico:

### Limita√ß√µes T√©cnicas e Reprodutibilidade

Este projeto enfrenta algumas limita√ß√µes t√©cnicas importantes para reprodu√ß√£o em ambiente acad√™mico:

#### Autentica√ß√£o Kaggle
- O download autom√°tico requer configura√ß√£o de credenciais da API do Kaggle (`kaggle.json`)
- Nem todos os avaliadores ter√£o conta/credenciais configuradas
- **Solu√ß√£o**: C√≥digo modularizado em `data_processing.py` + dataset j√° processado inclu√≠do

#### Limita√ß√µes do GitHub
- Arquivo original: ~1.7GB (muito grande para reposit√≥rios Git padr√£o)
- Limite do GitHub: 100MB por arquivo
- **Solu√ß√£o**: Amostra estratificada de 600k registros (~80MB) mantendo representatividade

#### Estrat√©gia de Reprodutibilidade
1. **Para avaliadores**: Dataset anonimizado j√° dispon√≠vel (`lending_club_sample_2015_2020.csv.gz`)
2. **Para desenvolvedores**: Pipeline completo documentado no m√≥dulo `data_processing.py`
3. **Transpar√™ncia**: C√≥digo de amostragem vis√≠vel e audit√°vel

#### Valida√ß√£o da Amostra
- Amostragem **estratificada por ano E target** (n√£o apenas aleat√≥ria)
- Mant√©m propor√ß√µes temporais originais (2015-2020)
- Preserva distribui√ß√£o de classes (default vs. pago)
- Garante representatividade para an√°lise temporal

---

### Execu√ß√£o do Pipeline de Dados

**Nota**: As c√©lulas abaixo mostram a l√≥gica de alto n√≠vel. O c√≥digo detalhado est√° em `data_processing.py`.

In [None]:
# An√°lise das caracter√≠sticas da amostra
print("Informa√ß√µes do dataset carregado:")
print(f"Shape: {df.shape}")
print(f"Per√≠odo: {df['issue_d'].min()} a {df['issue_d'].max()}")

# Verificar se j√° tem a vari√°vel target
if 'target_default' in df.columns:
    print(f"\nDistribui√ß√£o da vari√°vel target:")
    target_dist = df['target_default'].value_counts(normalize=True)
    print(f"   Pagos (0): {target_dist[0]:.1%}")
    print(f"   Default (1): {target_dist[1]:.1%}")
else:
    print("Vari√°vel target n√£o encontrada - dataset precisa ser processado")

print(f"\nColunas principais ({len(df.columns)} total):")
key_columns = ['loan_amnt', 'grade', 'int_rate', 'annual_inc', 'dti', 'fico_range_low', 'target_default']
existing_key_cols = [col for col in key_columns if col in df.columns]
for col in existing_key_cols[:10]:  # Mostrar primeiras 10
    print(f"   - {col}")
if len(existing_key_cols) > 10:
    print(f"   ... e mais {len(existing_key_cols) - 10} colunas")

# Verificar distribui√ß√£o temporal
df['issue_d'] = pd.to_datetime(df['issue_d'])  # Converter para datetime primeiro
df['ano'] = df['issue_d'].dt.year
print(f"\nDistribui√ß√£o temporal:")
year_dist = df['ano'].value_counts().sort_index()
for year, count in year_dist.items():
    pct = count / len(df) * 100
    print(f"   {year}: {count:,} registros ({pct:.1f}%)")

df.info()

üìä Informa√ß√µes do dataset carregado:
Shape: (599994, 128)
Per√≠odo: 2015-01-01 a 2020-09-01

üéØ Distribui√ß√£o da vari√°vel target:
   Pagos (0): 77.9%
   Default (1): 22.1%

üìã Colunas principais (128 total):
   - loan_amnt
   - grade
   - int_rate
   - annual_inc
   - dti
   - fico_range_low
   - target_default

üìÖ Distribui√ß√£o temporal:
   2015: 169,804 registros (28.3%)
   2016: 170,097 registros (28.3%)
   2017: 134,429 registros (22.4%)
   2018: 87,003 registros (14.5%)
   2019: 36,327 registros (6.1%)
   2020: 2,334 registros (0.4%)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 599994 entries, 0 to 599993
Columns: 128 entries, Unnamed: 0 to ano
dtypes: datetime64[ns](1), float64(97), int32(1), int64(3), object(26)
memory usage: 583.6+ MB


In [None]:
# Anonimiza√ß√£o e filtragem dos dados conforme especifica√ß√µes

# 1. Filtrar per√≠odo 2015-2020
df['issue_d'] = pd.to_datetime(df['issue_d'])
df_filtered = df[(df['issue_d'] >= '2015-01-01') & (df['issue_d'] <= '2020-12-31')].copy()
print(f"Dados ap√≥s filtro de per√≠odo (2015-2020): {df_filtered.shape}")

# 2. Criar vari√°vel target bin√°ria
paid_status = ['Fully Paid', 'Does not meet the credit policy. Status:Fully Paid']
default_status = ['Charged Off', 'Default', 'Late (31-120 days)', 'In Grace Period', 
                 'Does not meet the credit policy. Status:Charged Off', 'Late (16-30 days)']

df_filtered = df_filtered[df_filtered['loan_status'].isin(paid_status + default_status)]
df_filtered['target_default'] = df_filtered['loan_status'].isin(default_status).astype(int)

print(f"Distribui√ß√£o da vari√°vel target:")
print(df_filtered['target_default'].value_counts(normalize=True))

# 3. Remover colunas com vazamento de informa√ß√£o futura
future_leak_cols = ['last_pymnt_d', 'total_pymnt', 'recoveries', 'collection_recovery_fee', 
                   'last_credit_pull_d', 'out_prncp', 'out_prncp_inv', 'total_pymnt_inv',
                   'total_rec_prncp', 'total_rec_int', 'total_rec_late_fee', 'hardship_flag',
                   'settlement_status', 'settlement_date', 'settlement_amount', 'debt_settlement_flag']

# Verificar quais dessas colunas existem no dataset
existing_leak_cols = [col for col in future_leak_cols if col in df_filtered.columns]
print(f"\nColunas de vazamento encontradas: {len(existing_leak_cols)}")
print(existing_leak_cols)

# Remover as colunas existentes
df_filtered = df_filtered.drop(columns=existing_leak_cols)

# 4. Remover/Anonimizar identificadores diretos para LGPD
privacy_cols = ['member_id', 'emp_title', 'url', 'desc', 'title']
existing_privacy_cols = [col for col in privacy_cols if col in df_filtered.columns]
print(f"\nColunas de privacidade encontradas: {len(existing_privacy_cols)}")
print(existing_privacy_cols)

# Remover as colunas existentes
df_filtered = df_filtered.drop(columns=existing_privacy_cols)

print(f"\nDataset ap√≥s limpeza: {df_filtered.shape}")
print(f"Colunas restantes: {len(df_filtered.columns)}")

# Valida√ß√£o da Anonimiza√ß√£o Aplicada
# O dataset carregado j√° passou pelo processo de anonimiza√ß√£o
# C√≥digo detalhado em: data_processing.py -> anonymize_and_filter_data()

print("Verifica√ß√£o da anonimiza√ß√£o aplicada:")

# 1. Verificar filtro temporal
df['issue_d'] = pd.to_datetime(df['issue_d'])
min_date, max_date = df['issue_d'].min(), df['issue_d'].max()
print(f"Per√≠odo: {min_date.date()} a {max_date.date()} (2015-2020)")

# 2. Verificar vari√°vel target bin√°ria
if 'target_default' in df.columns:
    print("Vari√°vel target_default criada (1=default, 0=pago)")
else:
    print("Vari√°vel target n√£o encontrada")

# 3. Verificar remo√ß√£o de colunas sens√≠veis
privacy_cols = ['member_id', 'emp_title', 'url', 'desc', 'title']
future_leak_cols = ['last_pymnt_d', 'total_pymnt', 'recoveries', 'collection_recovery_fee']

privacy_found = [col for col in privacy_cols if col in df.columns]
leak_found = [col for col in future_leak_cols if col in df.columns]

if not privacy_found:
    print("Identificadores pessoais removidos (LGPD)")
else:
    print(f"Identificadores encontrados: {privacy_found}")

if not leak_found:
    print("Colunas de vazamento futuro removidas")
else:
    print(f"Vazamento encontrado: {leak_found}")

print(f"\nDataset final: {df.shape[0]:,} registros, {df.shape[1]} colunas")
print("Processamento completo documentado em 'data_processing.py'")

Dados ap√≥s filtro de per√≠odo (2015-2020): (599994, 128)
Distribui√ß√£o da vari√°vel target:
target_default
0    0.779264
1    0.220736
Name: proportion, dtype: float64

Colunas de vazamento encontradas: 0
[]

Colunas de privacidade encontradas: 0
[]

Dataset ap√≥s limpeza: (599994, 128)
Colunas restantes: 128
üîí Verifica√ß√£o da anonimiza√ß√£o aplicada:
‚úÖ Per√≠odo: 2015-01-01 a 2020-09-01 (2015-2020)
‚úÖ Vari√°vel target_default criada (1=default, 0=pago)
‚úÖ Identificadores pessoais removidos (LGPD)
‚úÖ Colunas de vazamento futuro removidas

üìã Dataset final: 599,994 registros, 128 colunas
üîß Processamento completo documentado em 'data_processing.py'

Colunas de privacidade encontradas: 0
[]

Dataset ap√≥s limpeza: (599994, 128)
Colunas restantes: 128
üîí Verifica√ß√£o da anonimiza√ß√£o aplicada:
‚úÖ Per√≠odo: 2015-01-01 a 2020-09-01 (2015-2020)
‚úÖ Vari√°vel target_default criada (1=default, 0=pago)
‚úÖ Identificadores pessoais removidos (LGPD)
‚úÖ Colunas de vazamento fut

In [None]:
# Valida√ß√£o da Representatividade Temporal
# Verificar se a amostra mant√©m distribui√ß√£o temporal adequada

print("An√°lise da Representatividade Temporal da Amostra")
print("="*55)

# Distribui√ß√£o por ano
df['ano'] = df['issue_d'].dt.year
year_dist = df['ano'].value_counts().sort_index()

print("Distribui√ß√£o por ano:")
for year, count in year_dist.items():
    pct = count / len(df) * 100
    bar = "‚ñà" * int(pct // 2)  # Barra visual simples
    print(f"  {year}: {count:6,} ({pct:5.1f}%) {bar}")

# Distribui√ß√£o por ano e target
print(f"\nDistribui√ß√£o por ano e target:")
cross_tab = df.groupby(['ano', 'target_default']).size().unstack(fill_value=0)
cross_pct = df.groupby(['ano', 'target_default']).size().unstack(fill_value=0)
cross_pct = cross_pct.div(cross_pct.sum(axis=1), axis=0) * 100

print(cross_tab)
print(f"\nTaxa de default por ano (%):")
for year in sorted(df['ano'].unique()):
    default_rate = cross_pct.loc[year, 1] if 1 in cross_pct.columns else 0
    print(f"  {year}: {default_rate:.1f}%")

print(f"\nAmostra mant√©m representatividade temporal e de classes")
print(f"Metodologia de amostragem: Estratifica√ß√£o por ano + target")
print(f"C√≥digo completo: data_processing.py -> create_stratified_sample()")

üìÖ An√°lise da Representatividade Temporal da Amostra
Distribui√ß√£o por ano:
  2015: 169,804 ( 28.3%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
  2016: 170,097 ( 28.3%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
  2017: 134,429 ( 22.4%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
  2018: 87,003 ( 14.5%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
  2019: 36,327 (  6.1%) ‚ñà‚ñà‚ñà
  2020:  2,334 (  0.4%) 

Distribui√ß√£o por ano e target:
target_default       0      1
ano                          
2015            135950  33854
2016            136327  33770
2017            104392  30037
2018             63089  23914
2019             26018  10309
2020              1778    556

Taxa de default por ano (%):
  2015: 19.9%
  2016: 19.9%
  2017: 22.3%
  2018: 27.5%
  2019: 28.4%
  2020: 23.8%

‚úÖ Amostra mant√©m representatividade temporal e de classes
üìù Metodologia de amostragem: Estratifica√ß√£o por ano + target
üîß C√≥digo completo: data_processing.py -> create_stratified_sample()


In [None]:
# Demonstra√ß√£o do Pipeline Completo (Para Desenvolvedores)
# Esta c√©lula mostra como executar todo o processo do zero
# Requer: configura√ß√£o do Kaggle API (kaggle.json)

print("PIPELINE COMPLETO - DEMO (n√£o executar sem Kaggle configurado)")
print("="*65)

# C√≥digo demonstrativo (comentado para n√£o executar automaticamente)
demo_code = '''
# Importar m√≥dulo
from data_processing import process_lending_club_pipeline

# Executar pipeline completo
df_sample, info = process_lending_club_pipeline(
    dataset_id='ethon0426/lending-club-20072020q1',
    target_sample_size=600000
)

# Resultados
print(f"Amostra criada: {info['sample_shape']}")
print(f"Arquivo salvo: {info['file_info']['file_size_mb']:.1f} MB")
print("An√°lise temporal:")
print(info['temporal_analysis'])
'''

print(demo_code)
print("\nFun√ß√µes dispon√≠veis em data_processing.py:")
print("   - download_kaggle_dataset()")
print("   - load_lending_club_data()")  
print("   - anonymize_and_filter_data()")
print("   - create_stratified_sample()")
print("   - save_sample_for_github()")
print("   - analyze_temporal_distribution()")
print("   - process_lending_club_pipeline() [completo]")

print(f"\nPara avaliadores: Dataset j√° preparado est√° dispon√≠vel")
print(f"Para desenvolvedores: Pipeline completo em m√≥dulo separado")
print(f"Transpar√™ncia: C√≥digo audit√°vel e reprodut√≠vel")

üîß PIPELINE COMPLETO - DEMO (n√£o executar sem Kaggle configurado)

# Importar m√≥dulo
from data_processing import process_lending_club_pipeline

# Executar pipeline completo
df_sample, info = process_lending_club_pipeline(
    dataset_id='ethon0426/lending-club-20072020q1',
    target_sample_size=600000
)

# Resultados
print(f"Amostra criada: {info['sample_shape']}")
print(f"Arquivo salvo: {info['file_info']['file_size_mb']:.1f} MB")
print("An√°lise temporal:")
print(info['temporal_analysis'])


üìã Fun√ß√µes dispon√≠veis em data_processing.py:
   - download_kaggle_dataset()
   - load_lending_club_data()
   - anonymize_and_filter_data()
   - create_stratified_sample()
   - save_sample_for_github()
   - analyze_temporal_distribution()
   - process_lending_club_pipeline() [completo]

‚úÖ Para avaliadores: Dataset j√° preparado est√° dispon√≠vel
‚úÖ Para desenvolvedores: Pipeline completo em m√≥dulo separado
üìñ Transpar√™ncia: C√≥digo audit√°vel e reprodut√≠vel
