# MVP Análise de Dados e Boas Práticas

**Nome:** André Camatta

**Dataset:** [Lending Club 2007-2020Q3](https://www.kaggle.com/datasets/ethon0426/lending-club-20072020q1?utm_source=chatgpt.com)

## Descrição do problema

### O problema

Prever, no momento da concessão de um empréstimo peer-to-peer (P2P), se um empréstimo entrará em default (categorizado como Charged Off, Default ou > 60 dias de atraso) ou será liquidado normalmente (Fully Paid).
Logo, queremos um modelo que mapeie atributos do tomador e das condições do empréstimo.

Tipo de aprendizado: **Supervisionado – classificação binária**.

### O que é peer-to-peer lending (P2P)?

É um mercado eletrônico que conecta diretamente investidores e tomadores.

O tomador solicita crédito numa “prateleira” on-line. A plataforma realiza scoring de risco e fixa taxa/prazo (ou leilão em alguns modelos). Diversos investidores financiam frações do empréstimo, diversificando risco. A plataforma cobra taxa de intermediação, mas não aporta recursos próprios — diferentemente de um banco tradicional que capta depósito e empresta em balanço.

Nos EUA, a Lending Club e a Prosper iniciaram em 2006. Depois de 2020, a Lending Club comprou um banco regulado e passou a originar parte dos créditos no próprio balanço, mas o histórico 2007-2020 representa sua origem P2P.

Estimar a probabilidade de inadimplência antes da originação é crítico para:

(a) proteger o retorno dos investidores;

(b) calibrar as taxas de juros ofertadas;

(c) manter o nível de risco-carteira aceite pela plataforma e pelos reguladores.

### Contexto de P2P lending no Brasil

**Regulação vigente**  
Desde a **Resolução CMN 4 656/2018**, o Banco Central passou a licenciar fintechs de crédito sob dois formatos:  
* **SCD** – Sociedade de Crédito Direto (empresta recursos próprios)  
* **SEP** – Sociedade de Empréstimo entre Pessoas (**modelo P2P**), que apenas intermedia tomadores e investidores por plataforma online. 

**Plataformas ativas (2025)**  
Entre as SEPs mais conhecidas estão **Nexoos, Biva (PagBank), IOUU** e **Mutual**. A Nexoos, por exemplo, já originou **R$ 1,10 bilhão** em crédito para PMEs e conta com **≈ 122 mil investidores cadastrados**. 

**Tamanho de mercado e projeção**  
Consultorias setoriais estimam que o **mercado brasileiro de P2P lending movimentou USD 5 bi em 2024** e pode atingir **USD 28,1 bi até 2033**, crescendo a **CAGR de 21 %**.

**Fatores de crescimento**  
* **Open Finance + Pix** reduzem custo de aquisição e verificações.  
* Juros atrativos para investidores (geralmente **CDI + 8 pp a CDI + 30 pp** para PMEs) em comparação a renda fixa tradicional.  
* Demanda de crédito por pequenas empresas que não conseguem limites suficientes nos bancos comerciais.  
* Supervisão do BC aumenta a confiança, enquanto mantém exigências de segregação de contas e divulgação de risco. 

**Potencial**  
Mesmo somando SCDs e SEPs, o estoque ainda representa **< 1 % da carteira total de crédito do SFN** — espaço amplo para consolidação e inovação, especialmente em nichos desatendidos (microcrédito, capital de giro regional). A combinação de **crescimento projetado de dois dígitos** e **barreiras regulatórias relativamente baixas** coloca o P2P como um dos segmentos fintech mais promissores na próxima década.


**Fontes**
- **Resolução CMN 4.656/2018** – cria as figuras SCD e SEP  
  [PDF oficial – Banco Central](https://normativos.bcb.gov.br/Lists/Normativos/Attachments/50579/Res_4656_v7_L.pdf)

- **Fintechs de crédito (FAQ do BC)** – visão geral sobre SCD e SEP  
  [Banco Central – Página “Fintechs”](https://www.bcb.gov.br/estabilidadefinanceira/fintechs)

- **Mercado brasileiro de P2P lending** – tamanho de USD 5 bi em 2024 e projeção de USD 28,1 bi em 2033 (CAGR 21 %)  
  [IMARC Group – Brazil Peer-to-Peer Lending Market Report (2025)](https://www.imarcgroup.com/brazil-peer-to-peer-lending-market)

- **Exemplo de plataforma SEP** – Nexoos atinge R$ 1 bi originados e 700 mil CNPJs analisados  
  [Finsiders Brasil – “Nexoos volta a ter vida própria” (abr/2025)](https://finsidersbrasil.com.br/reportagem-exclusiva-fintechs/quatro-anos-apos-venda-para-fintech-da-americanas-nexoos-volta-a-ter-vida-propria/)

### Conjunto de dados

O conjunto de dados reúne todas as operações originadas pela Lending Club, maior plataforma norte-americana de peer-to-peer lending até 2020. A versão mais completa no Kaggle cobre de 2007 ao 3º tri/2020, com ≈ 2 milhões de empréstimos (≈ 1 GB) e ~145 colunas que descrevem perfil do tomador, condições da operação e evolução do pagamento.

### Atributos-chave mais relevantes

| Atributo                | Tipo original      | Papel previsto / Observação                                                  |
|-------------------------|--------------------|------------------------------------------------------------------------------|
| grade               | Categórico ordinal | Rating interno A–G (quanto mais perto de A, menor o risco)                   |
| sub_grade           | Categórico ordinal | Faixa fina dentro do grade (A1–G5)                                           |
| fico_range_low      | Numérico inteiro   | Limite inferior da faixa FICO na originação                                  |
| fico_range_high     | Numérico inteiro   | Limite superior da faixa FICO                                                |
| loan_amnt               | Numérico contínuo  | Valor solicitado pelo tomador                                                |
| funded_amnt            | Numérico contínuo  | Valor efetivamente financiado pela plataforma                                |
| int_rate               | Numérico (%)       | Taxa anual de juros do contrato                                              |
| installment            | Numérico           | Parcela mensal estimada                                                      |
| term                   | Categórico texto   | Prazo (36 ou 60 meses) — converter para 36/60 numérico                       |
| emp_length             | Categórico texto   | Tempo de emprego; normalizar para 0–10 anos                                  |
| home_ownership         | Categórico texto   | Situação de moradia (RENT, OWN, MORTGAGE etc.)                               |
| annual_inc             | Numérico           | Renda anual declarada                                                        |
| dti                    | Numérico           | *Debt-to-Income* ratio (%)                                                   |
| issue_d                | String data        | Data de originação; converter para `datetime`                                |
| earliest_cr_line       | String data        | Data da 1ª linha de crédito; usar para “histórico de crédito (anos)”         |
| addr_state             | Categórico texto   | UF de residência — proxy de região econômica                                 |
| verification_status    | Categórico texto   | Nível de verificação de renda (Verified, Source Verified, Not Verified)      |
| purpose                | Categórico texto   | Finalidade declarada do empréstimo                                           |
| application_type       | Categórico texto   | Tipo de aplicação (Individual / Joint)                                       |
| loan_status            | Categórico texto   | Variável-alvo original (*Fully Paid*, *Charged Off* etc.)                    |
| **target_default**     | Binário (criado)   | 1 = default / 0 = pago — rótulo para modelagem                               |

### Restrições e condições para seleção dos dados

- **Período analisado**  
  Filtrar apenas empréstimos emitidos **entre 2015-01-01 e 2020-12-31** para manter um regime regulatório e macroeconômico homogêneo.

- **Agregação do status do empréstimo**  
  Consolidar `loan_status` em dois grupos:  
  - `paid` → *Fully Paid*, *Does not meet the credit policy (Fully Paid)*  
  - `default` → *Charged Off*, *Default*, *Late (31-120 days)*, *In Grace Period*, *Does not meet the credit policy (Charged Off)*, *Late (16-30 days)*  

- **Prevenção de vazamento de informação futura**  
  Remover colunas que só ficam conhecidas **depois** da concessão — p. ex. `last_pymnt_d`, `total_pymnt`, `recoveries`, `collection_recovery_fee`.

- **Privacidade e conformidade**  
  Excluir ou anonimizar identificadores diretos em dados ainda não ofuscados (`member_id`, `emp_title`, textos livres) mesmo que os dados sejam públicos, uma vez que eles serão republicados no github, tornando-me também responsável (LGPD).

- **Limitações de recursos no Google Colab (requisito da avaliação)**  
  - Ler o CSV em *chunks* (`chunksize = 100 000`) **ou**  
  - Amostrar aleatoriamente até **≈ 400 000** linhas para experimentação interativa, mantendo a proporcionalidade das classes.

- **Limite de tamanho de dataset a ser republicado no GitHub (requisito da avaliação)**  
  O arquivo completo (≈ 393 MB compactado / > 1 GB descompactado) ultrapassa o limite de **100 MB por arquivo** imposto pelo GitHub. Para reprodutibilidade sem exceder cotas:  
  1. Subir apenas uma **amostra ≤ 100 MB** no repositório. 
  2. **Git LFS** ou **Release Assets** para hospedar o arquivo completo.


### Hipóteses

- **Capacidade de pagamento influencia inadimplência**  
   Métricas que refletem fluxo de caixa do tomador — p. ex. `dti` (*debt-to-income ratio*) e `annual_inc` — terão forte relação com a chance de **default**.

- **FICO e *grades* internas concentram a maior parte da informação de risco**  
   Variáveis como `grade`, `sub_grade`, `fico_range_low` e `fico_range_high` já incorporam modelos de *credit-scoring* do próprio Lending Club e devem ser preditores relevantes.

- **Mudança de regime temporal**  
   Empréstimos originados antes de 2015 (crise 2008 e período de expansão de crédito subsequente) podem ter distribuição de risco diferente dos emitidos em 2015-2020.

- **Classes desbalanceadas**  
   Espera-se que a proporção de empréstimos **pagos** seja bem maior que a de **inadimplentes** (≈ 80 % vs. 20 %), o que exigirá técnicas de balanceamento ou métricas adequadas.



## Importação das bibliotecas

In [2]:
import pandas as pd
import numpy as np
import kaggle
import zipfile
import os


In [3]:
# Carregamento de dados - Amostra estratificada do GitHub
# Os dados foram pré-processados e anonimizados conforme documentado no Anexo A

import requests
from io import StringIO

# URL do dataset anonimizado no GitHub
github_url = "https://raw.githubusercontent.com/andrecamatta/mvp_puc_analise_dados/master/lending_club_sample_2015_2020.csv.gz"

# Carregar diretamente do GitHub
df = pd.read_csv(github_url, compression='gzip', low_memory=False)
print(f"Dataset anonimizado carregado do GitHub: {df.shape}")
print("Amostra estratificada 2015-2020 (600k registros)")
print("Dados já anonimizados e filtrados conforme LGPD")
print("Processo documentado no Anexo A (final do notebook)")

print(f"\nInformações da amostra:")
print(f"   • Registros: {df.shape[0]:,}")
print(f"   • Colunas: {df.shape[1]}")
print(f"   • Período: 2015-2020")
print(f"   • Método: Amostragem estratificada por ano e target")

df.head()

Dataset anonimizado carregado do GitHub: (599994, 128)
Amostra estratificada 2015-2020 (600k registros)
Dados já anonimizados e filtrados conforme LGPD
Processo documentado no Anexo A (final do notebook)

Informações da amostra:
   • Registros: 599,994
   • Colunas: 128
   • Período: 2015-2020
   • Método: Amostragem estratificada por ano e target


Unnamed: 0.1,Unnamed: 0,id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,...,hardship_end_date,payment_plan_start_date,hardship_length,hardship_dpd,hardship_loan_status,orig_projected_additional_accrued_interest,hardship_payoff_balance_amount,hardship_last_payment_amount,target_default,ano
0,68619,77481190,10000.0,10000.0,10000.0,36 months,17.27%,357.88,D,D2,...,,,,,,,,,0,2016
1,31941,88514571,28000.0,28000.0,28000.0,60 months,9.49%,587.92,B,B2,...,,,,,,,,,0,2016
2,53611,78309085,35000.0,35000.0,35000.0,60 months,16.29%,856.54,D,D1,...,,,,,,,,,0,2016
3,11289,95149836,2750.0,2750.0,2750.0,36 months,8.24%,86.48,B,B1,...,,,,,,,,,0,2016
4,31928,94158449,10000.0,10000.0,10000.0,36 months,10.49%,324.98,B,B2,...,,,,,,,,,0,2016


## Dados pré-processados e anonimizados

### Sobre a amostra utilizada

Os dados carregados acima são uma **amostra estratificada** já processada do dataset original Lending Club (2007-2020Q3). Esta amostra foi criada especificamente para:

1. **Reprodutibilidade**: Permitir execução sem configuração da API e sem necessidade de disponibilidade do Kaggle
2. **Conformidade**: Dados anonimizados seguindo princípios da LGPD  
3. **Viabilidade técnica**: Arquivo <100MB compatível com repositórios GitHub
4. **Representatividade**: Mantém distribuição temporal e de classes originais

### Limitações técnicas endereçadas

#### **Autenticação Kaggle**
- Dataset original requer credenciais da API do Kaggle (`kaggle.json`)
- Nem todos os avaliadores possuem conta/configuração
- **Solução**: Amostra pré-processada disponível diretamente no GitHub

#### **Limitações do github** 
- Arquivo original: ~1.7GB (incompatível com Git padrão)
- Limite GitHub: 100MB por arquivo
- **Solução**: Amostragem estratificada mantendo representatividade

### Garantias de qualidade da amostra

**Amostragem estratificada** por ano E variável target 
**Preservação de proporções temporais** (2015-2020)  
**Manutenção da distribuição de classes** (default vs. pago)  
**Anonimização completa** removendo identificadores pessoais e colunas de vazamento futuro

O processo completo está documentado no **Anexo A** ao final deste notebook.

In [4]:
# Análise das características da amostra
print("Informações do dataset carregado:")
print(f"Shape: {df.shape}")
print(f"Período: {df['issue_d'].min()} a {df['issue_d'].max()}")

# Verificar se já tem a variável target
if 'target_default' in df.columns:
    print(f"\nDistribuição da variável target:")
    target_dist = df['target_default'].value_counts(normalize=True)
    print(f"   Pagos (0): {target_dist[0]:.1%}")
    print(f"   Default (1): {target_dist[1]:.1%}")
else:
    print("Variável target não encontrada - dataset precisa ser processado")

print(f"\nColunas principais ({len(df.columns)} total):")
key_columns = ['loan_amnt', 'grade', 'int_rate', 'annual_inc', 'dti', 'fico_range_low', 'target_default']
existing_key_cols = [col for col in key_columns if col in df.columns]
for col in existing_key_cols[:10]:  # Mostrar primeiras 10
    print(f"   - {col}")
if len(existing_key_cols) > 10:
    print(f"   ... e mais {len(existing_key_cols) - 10} colunas")

# Verificar distribuição temporal
df['issue_d'] = pd.to_datetime(df['issue_d'])  # Converter para datetime primeiro
df['ano'] = df['issue_d'].dt.year
print(f"\nDistribuição temporal:")
year_dist = df['ano'].value_counts().sort_index()
for year, count in year_dist.items():
    pct = count / len(df) * 100
    print(f"   {year}: {count:,} registros ({pct:.1f}%)")

df.info()

Informações do dataset carregado:
Shape: (599994, 128)
Período: 2015-01-01 a 2020-09-01

Distribuição da variável target:
   Pagos (0): 77.9%
   Default (1): 22.1%

Colunas principais (128 total):
   - loan_amnt
   - grade
   - int_rate
   - annual_inc
   - dti
   - fico_range_low
   - target_default

Distribuição temporal:
   2015: 169,804 registros (28.3%)
   2016: 170,097 registros (28.3%)
   2017: 134,429 registros (22.4%)
   2018: 87,003 registros (14.5%)
   2019: 36,327 registros (6.1%)
   2020: 2,334 registros (0.4%)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 599994 entries, 0 to 599993
Columns: 128 entries, Unnamed: 0 to ano
dtypes: datetime64[ns](1), float64(97), int32(1), int64(3), object(26)
memory usage: 583.6+ MB


## Análise exploratória dos dados

Agora que temos os dados carregados, vamos analisar suas características principais para entender o conjunto de dados e preparar para a modelagem.

In [5]:
# Análise da distribuição da variável target
print(" DISTRIBUIÇÃO DA VARIÁVEL TARGET")
print("="*50)

if 'target_default' in df.columns:
    target_counts = df['target_default'].value_counts()
    target_pct = df['target_default'].value_counts(normalize=True)
    
    print(f"Classe 0 (Pago):    {target_counts[0]:6,} ({target_pct[0]:.1%})")
    print(f"Classe 1 (Default): {target_counts[1]:6,} ({target_pct[1]:.1%})")
    
    # Verificar se há desbalanceamento
    imbalance_ratio = target_counts[0] / target_counts[1]
    print(f"\nRazão de desbalanceamento: {imbalance_ratio:.1f}:1")
    
    if imbalance_ratio > 3:
        print("  Classes desbalanceadas - considerar técnicas de balanceamento")
    else:
        print(" Classes relativamente balanceadas")
        
else:
    print(" Variável target não encontrada")

print(f"\n DISTRIBUIÇÃO TEMPORAL")
print("="*50)
df['issue_d'] = pd.to_datetime(df['issue_d'])
df['ano'] = df['issue_d'].dt.year

year_counts = df['ano'].value_counts().sort_index()
for year, count in year_counts.items():
    pct = count / len(df) * 100
    bar = "█" * int(pct // 3)
    print(f"{year}: {count:6,} ({pct:5.1f}%) {bar}")
    
print(f"\nPeríodo total: {df['issue_d'].min().date()} a {df['issue_d'].max().date()}")

 DISTRIBUIÇÃO DA VARIÁVEL TARGET
Classe 0 (Pago):    467,554 (77.9%)
Classe 1 (Default): 132,440 (22.1%)

Razão de desbalanceamento: 3.5:1
  Classes desbalanceadas - considerar técnicas de balanceamento

 DISTRIBUIÇÃO TEMPORAL
2015: 169,804 ( 28.3%) █████████
2016: 170,097 ( 28.3%) █████████
2017: 134,429 ( 22.4%) ███████
2018: 87,003 ( 14.5%) ████
2019: 36,327 (  6.1%) ██
2020:  2,334 (  0.4%) 

Período total: 2015-01-01 a 2020-09-01


---

## ANEXO A - Pipeline de Anonimização e Amostragem Estratificada

Este anexo documenta o processo completo de preparação dos dados utilizado para criar a amostra anonimizada carregada no notebook principal.

### Objetivos do Pipeline

1. **Download automatizado** do dataset original via API do Kaggle
2. **Anonimização completa** removendo identificadores pessoais (LGPD)
3. **Filtragem temporal** para período homogêneo (2015-2020)
4. **Amostragem estratificada** mantendo representatividade
5. **Compactação** para compatibilidade com GitHub (<100MB)

### Módulo: `dataset_anonymization.py`

O código abaixo foi modularizado no arquivo `dataset_anonymization.py` para facilitar manutenção e reutilização.

In [6]:
# CÓDIGO DOCUMENTATIVO - Pipeline de Anonimização e Amostragem
# Este código está comentado pois a amostra já foi processada
# Para execução, descomente e configure kaggle.json

'''
# 1. Download do dataset original (requer configuração do Kaggle)
import kaggle
import zipfile
import os

def download_kaggle_dataset(dataset_id='ethon0426/lending-club-20072020q1'):
    """Download do dataset do Kaggle via API"""
    try:
        kaggle.api.dataset_download_files(dataset_id, path='.', unzip=True)
        print(f" Dataset baixado: {dataset_id}")
        return True
    except Exception as e:
        print(f" Erro no download: {e}")
        return False

# 2. Carregamento do arquivo principal
def load_lending_club_data():
    """Carrega o dataset principal do Lending Club"""
    filename = 'Loan_status_2007-2020Q3.gzip'
    
    # O arquivo está em formato CSV, não gzip binário
    df = pd.read_csv(filename, low_memory=False)
    print(f"Dataset original carregado: {df.shape}")
    return df

# 3. Anonimização e filtragem
def anonymize_and_filter_data(df):
    """
    Aplica anonimização e filtros conforme LGPD e requisitos do projeto
    """
    # Filtrar período 2015-2020
    df['issue_d'] = pd.to_datetime(df['issue_d'])
    df_filtered = df[(df['issue_d'] >= '2015-01-01') & 
                     (df['issue_d'] <= '2020-12-31')].copy()
    
    # Criar variável target binária
    paid_status = ['Fully Paid', 'Does not meet the credit policy. Status:Fully Paid']
    default_status = ['Charged Off', 'Default', 'Late (31-120 days)', 
                     'In Grace Period', 'Does not meet the credit policy. Status:Charged Off', 
                     'Late (16-30 days)']
    
    df_filtered = df_filtered[df_filtered['loan_status'].isin(paid_status + default_status)]
    df_filtered['target_default'] = df_filtered['loan_status'].isin(default_status).astype(int)
    
    # Remover colunas com vazamento de informação futura
    future_leak_cols = ['last_pymnt_d', 'total_pymnt', 'recoveries', 
                       'collection_recovery_fee', 'last_credit_pull_d', 
                       'out_prncp', 'out_prncp_inv', 'total_pymnt_inv',
                       'total_rec_prncp', 'total_rec_int', 'total_rec_late_fee', 
                       'hardship_flag', 'settlement_status', 'settlement_date', 
                       'settlement_amount', 'debt_settlement_flag']
    
    existing_leak_cols = [col for col in future_leak_cols if col in df_filtered.columns]
    df_filtered = df_filtered.drop(columns=existing_leak_cols)
    
    # Remover identificadores pessoais (LGPD)
    privacy_cols = ['member_id', 'emp_title', 'url', 'desc', 'title']
    existing_privacy_cols = [col for col in privacy_cols if col in df_filtered.columns]
    df_filtered = df_filtered.drop(columns=existing_privacy_cols)
    
    print(f"Dados anonimizados: {df_filtered.shape}")
    return df_filtered
'''

print(" Pipeline de anonimização documentado")
print(" Para executar: descomente o código e configure kaggle.json")
print(" Código completo disponível em: dataset_anonymization.py")

 Pipeline de anonimização documentado
 Para executar: descomente o código e configure kaggle.json
 Código completo disponível em: dataset_anonymization.py


In [7]:
# CÓDIGO DOCUMENTATIVO - Amostragem Estratificada

'''
def create_stratified_sample(df, target_sample_size=600000):
    """
    Cria amostra estratificada por ano e variável target
    Garante representatividade temporal e de classes
    """
    # Criar estratos combinando ano e target
    df['strata'] = df['ano'].astype(str) + '_' + df['target_default'].astype(str)
    
    # Calcular proporções dos estratos
    strata_props = df['strata'].value_counts(normalize=True)
    
    # Calcular tamanhos das amostras por estrato
    sample_sizes = (strata_props * target_sample_size).round().astype(int)
    
    # Ajustar para atingir exatamente o tamanho desejado
    current_size = sample_sizes.sum()
    if current_size != target_sample_size:
        diff = target_sample_size - current_size
        largest_stratum = sample_sizes.idxmax()
        sample_sizes[largest_stratum] += diff
    
    # Amostrar de cada estrato
    dfs_sample = []
    for strata, sample_size in sample_sizes.items():
        if sample_size > 0:
            strata_data = df[df['strata'] == strata]
            
            # Se o estrato tem menos dados que o necessário, pegar todos
            if len(strata_data) <= sample_size:
                sampled = strata_data
            else:
                sampled = strata_data.sample(n=sample_size, random_state=42)
            dfs_sample.append(sampled)
    
    # Combinar todas as amostras
    df_sample = pd.concat(dfs_sample, ignore_index=True)
    df_sample = df_sample.drop(columns=['strata'])  # Remover coluna auxiliar
    
    print(f"Amostra estratificada criada: {df_sample.shape}")
    print(f"Taxa de amostragem: {len(df_sample)/len(df):.1%}")
    
    return df_sample

def save_sample_for_github(df_sample, filename='lending_club_sample_2015_2020.csv.gz'):
    """
    Salva amostra compactada para upload no GitHub
    """
    df_sample.to_csv(filename, compression='gzip', index=False)
    
    # Verificar tamanho do arquivo
    file_size = os.path.getsize(filename) / (1024**2)  # MB
    print(f"Arquivo salvo: {filename}")
    print(f"Tamanho: {file_size:.1f} MB")
    
    if file_size < 100:
        print("Compatível com GitHub (<100MB)")
    else:
        print("Arquivo muito grande para GitHub")
    
    return filename, file_size
'''

print("Algoritmo de amostragem estratificada documentado")
print("Garante representatividade por ano E variável target")
print("Resultado: arquivo <100MB compatível com GitHub")

Algoritmo de amostragem estratificada documentado
Garante representatividade por ano E variável target
Resultado: arquivo <100MB compatível com GitHub


In [8]:
# CÓDIGO DOCUMENTATIVO - Validação da Representatividade

'''
def analyze_temporal_distribution(df_original, df_sample):
    """
    Analisa se a amostra mantém representatividade temporal
    """
    # Distribuição por ano
    original_years = df_original['ano'].value_counts(normalize=True).sort_index()
    sample_years = df_sample['ano'].value_counts(normalize=True).sort_index()
    
    print("Comparação da distribuição temporal:")
    print("Ano | Original | Amostra  | Diferença")
    print("-" * 40)
    
    for year in original_years.index:
        orig_pct = original_years[year] * 100
        samp_pct = sample_years.get(year, 0) * 100
        diff = abs(orig_pct - samp_pct)
        print(f"{year} | {orig_pct:6.1f}% | {samp_pct:6.1f}% | {diff:6.1f}pp")
    
    # Distribuição da variável target
    orig_target = df_original['target_default'].value_counts(normalize=True)
    samp_target = df_sample['target_default'].value_counts(normalize=True)
    
    print(f"\nDistribuição da variável target:")
    print(f"Classe | Original | Amostra  | Diferença")
    print("-" * 40)
    for cls in [0, 1]:
        orig_pct = orig_target[cls] * 100
        samp_pct = samp_target[cls] * 100
        diff = abs(orig_pct - samp_pct)
        print(f"   {cls}   | {orig_pct:6.1f}% | {samp_pct:6.1f}% | {diff:6.1f}pp")

# Pipeline completo
def process_lending_club_pipeline(dataset_id='ethon0426/lending-club-20072020q1', 
                                 target_sample_size=600000):
    """
    Pipeline completo: download → anonimização → amostragem → salvamento
    """
    print("Iniciando pipeline completo...")
    
    # 1. Download
    if not download_kaggle_dataset(dataset_id):
        return None, None
    
    # 2. Carregamento
    df_original = load_lending_club_data()
    
    # 3. Anonimização
    df_clean = anonymize_and_filter_data(df_original)
    
    # 4. Amostragem estratificada
    df_sample = create_stratified_sample(df_clean, target_sample_size)
    
    # 5. Salvamento
    filename, file_size = save_sample_for_github(df_sample)
    
    # 6. Validação
    analyze_temporal_distribution(df_clean, df_sample)
    
    # Informações do processo
    process_info = {
        'original_shape': df_original.shape,
        'filtered_shape': df_clean.shape,
        'sample_shape': df_sample.shape,
        'file_info': {'filename': filename, 'file_size_mb': file_size}
    }
    
    print("Pipeline concluído com sucesso!")
    return df_sample, process_info
'''

print("Validação de representatividade documentada")
print("Pipeline completo disponível em dataset_anonymization.py")
print("Para desenvolvedores: import dataset_anonymization; process_lending_club_pipeline()")

Validação de representatividade documentada
Pipeline completo disponível em dataset_anonymization.py
Para desenvolvedores: import dataset_anonymization; process_lending_club_pipeline()
