# üè¶ Como Empresas Financeiras avaliam seu cr√©dito?
### An√°lise Preditiva de Score de Cr√©dito desenvolvido em Python e Jupyter Notebook
### ML Pipeline Completo: Da An√°lise Explorat√≥ria √† API em Produ√ß√£o

OBJETIVO
- Criar banco de dados SQLite com dados fict√≠cios realistas
- Gerar 100.000 registros de clientes com 16 colunas
- Aplicar l√≥gica de neg√≥cio para criar target (inadimplente)
- Salvar backup em CSV
- Validar integridade dos dados

SCHEMA DO BANCO
- 4 categorias de dados (Demogr√°fico, Financeiro, Cr√©dito, Target)
- Total: 16 colunas
- Target: inadimplente (0 = Adimplente, 1 = Inadimplente)


In [None]:
import sqlite3
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

plt.style.use('default')
sns.set_palette("husl")
%matplotlib inline

print("üóÑÔ∏è CRIA√á√ÉO DO BANCO DE DADOS SQLite")
print(f"üìÖ Data de execu√ß√£o: {datetime.now().strftime('%d/%m/%Y %H:%M')}")

# Config
RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)

N_CLIENTES = 100000 

DB_PATH = 'data/database.db'
CSV_BACKUP_PATH = 'data/clientes_backup.csv'

print(f"\n‚öôÔ∏è CONFIGURA√á√ïES:")
print(f"   ‚Ä¢ N√∫mero de clientes: {N_CLIENTES:}")
print(f"   ‚Ä¢ Seed aleat√≥ria: {RANDOM_SEED}")
print(f"   ‚Ä¢ Banco SQLite: {DB_PATH}")
print(f"   ‚Ä¢ Backup CSV: {CSV_BACKUP_PATH}")

# Gerar dados fict√≠cios
print(f"\nüîÑ GERANDO {N_CLIENTES} registros de clientes...")

In [None]:
# 1. Identifica√ß√£o e perfil demogr√°fico
print("\n1Ô∏è‚É£ Categoria: Identifica√ß√£o e Perfil Demogr√°fico")

dados = {
  'id_cliente': list(range(1, N_CLIENTES + 1)),

  'idade': np.clip(
    np.random.normal(40, 15, N_CLIENTES).astype(int),
    18,80
  ),

  'genero': np.random.choice(
    ['M', 'F'],
    N_CLIENTES,
    p=[0.48, 0.52]
  ),

  'estado_civil': np.random.choice(
    ['Solteiro', 'Casado', 'Divorciado', 'Vi√∫vo'],
    N_CLIENTES,
    p=[0.35, 0.45, 0.15, 0.05]
  ),

  'escolaridade': np.random.choice(
    ['Fundamental', 'Ensino M√©dio', 'Ensino Superior', 'P√≥s-gradua√ß√£o'],
    N_CLIENTES,
    p=[0.20, 0.35, 0.35, 0.10]
  ),

  'estado': np.random.choice(
    ['SP', 'RJ', 'MG', 'RS', 'BA', 'PR', 'SC', 'PE', 'CE', 'GO'],
    N_CLIENTES,
    p=[0.25, 0.15, 0.10, 0.08, 0.08, 0.07, 0.06, 0.06, 0.05, 0.10]
  )
}

print(f"‚úÖ Gerados: id_cliente, idade, genero, estado_civil, escolaridade, estado")

# 2. Dados Financeiros
print("\n2Ô∏è‚É£ Categoria: Dados Financeiros")

dados['renda_anual'] = np.random.lognormal(10.4, 0.8, N_CLIENTES)

dados['valor_patrimonio'] = (
  dados['renda_anual'] * np.random.uniform(1.5, 5, N_CLIENTES) + np.random.lognormal(10, 1.5, N_CLIENTES)
)

prob_imovel = np.clip(dados['valor_patrimonio'] / 300000, 0.2, 0.7)
dados['possui_imovel_proprio'] = np.random.binomial(1, prob_imovel)

prob_carro  = np.clip(dados['renda_anual'] / 100000, 0.3, 0.8)
dados['possui_carro'] = np.random.binomial(1, prob_carro)

dados['ocupacao'] = np.random.choice(
  ['CLT', 'Aut√¥nomo', 'Empres√°rio', 'Desempregado'],
  N_CLIENTES,
  p=[0.60, 0.25, 0.10, 0.05]
)

print(f"‚úÖ Gerados: renda_anual, valor_patrimonio, possui_imovel_proprio,")
print(f"possui_carro, ocupacao")

# 3. Hist√≥rico de Cr√©dito e Comportamento
print("\n3Ô∏è‚É£ Categoria: Hist√≥rico de Cr√©dito e Comportamento")

dados['numero_dependentes'] = np.random.choice(
  [0, 1, 2, 3, 4],
  N_CLIENTES,
  p=[0.25, 0.30, 0.25, 0.25, 0.05]
)

dados['tempo_emprego_atual'] = np.where(
  dados['ocupacao'] == 'Desempregado',
  0,
  np.random.randint(1, 360, N_CLIENTES)
)

dados['score_serasa_externo'] = np.clip(
  np.random.normal(600, 150, N_CLIENTES).astype(int),
  300, 900
)

dados['utilizacao_limite_cartao'] = np.clip(
  np.random.normal(40, 25, N_CLIENTES),
  0, 100
)

dados['historico_atraso_90_dias'] = np.random.choice(
  [0, 1, 2, 3, 4, 5],
  N_CLIENTES,
  p=[0.70, 0.15, 0.08, 0.04, 0.02, 0.01]
)

print(f"‚úÖ Gerados: numero_dependentes, tempo_emprego_atual,")
print(f"score_serasa_externo, utilizacao_limite_cartao,")
print(f"historico_atraso_90_dias")

# Criar DataFrame
df = pd.DataFrame(dados)

print(f"\n‚úÖ DataFrame criado com {len(df):,} linhas e {len(df.columns)} colunas")