In [None]:
!pip install faker

Collecting faker
  Downloading faker-37.4.2-py3-none-any.whl.metadata (15 kB)
Downloading faker-37.4.2-py3-none-any.whl (1.9 MB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.9 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.3/1.9 MB[0m [31m8.0 MB/s[0m eta [36m0:00:01[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m1.9/1.9 MB[0m [31m29.0 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.9/1.9 MB[0m [31m23.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-37.4.2


In [None]:
import numpy as np
import pandas as pd
from faker import Faker
from google.colab import files
files.download("dados_credito_1000amostras_20atributos.csv")


# Configuração
np.random.seed(42)
fake = Faker('pt_BR')
n = 1000

# Gerar dados fictícios
data = {
    # Atributos básicos
    "ID_Cliente": [f"CL_{i:04d}" for i in range(1, n+1)],
    "Nome": [fake.name() for _ in range(n)],
    "Idade": np.random.randint(18, 70, size=n),
    "Estado": [fake.estado_sigla() for _ in range(n)],
    "Cidade": [fake.city() for _ in range(n)],

    # Atributos financeiros diretos
    "Renda_Mensal": np.random.randint(1500, 30000, size=n),
    "Score_Credito": np.random.randint(300, 1000, size=n),
    "Tempo_Banco_Meses": np.random.randint(3, 240, size=n),

    # Atributos de emprego
    "Tempo_Emprego_Meses": np.random.randint(0, 240, size=n),
    "Tipo_Emprego": np.random.choice(["CLT", "PJ", "Autônomo", "Outros"], size=n, p=[0.6, 0.2, 0.15, 0.05]),
    "Escolaridade": np.random.choice(["Fundamental", "Médio", "Superior", "Pós-graduação"], size=n, p=[0.1, 0.4, 0.4, 0.1]),

    # Histórico
    "Historico_Inadimplencia": np.random.choice([0, 1], size=n, p=[0.7, 0.3]),
    "Qtde_Emprestimos_Ativos": np.random.randint(0, 5, size=n),
    "Qtde_Cartoes": np.random.randint(1, 6, size=n),

    # Valor solicitado
    "Valor_Solicitado": np.random.randint(1000, 100000, size=n)
}

# Criar DataFrame base
df = pd.DataFrame(data)

# Cálculos derivados
df["Renda_Anual"] = df["Renda_Mensal"] * 12
df["Patrimonio_Liquido"] = np.random.exponential(scale=df["Renda_Anual"]/5).astype(int)
df["Divida_Total"] = np.random.uniform(0.1, 5, size=n) * df["Renda_Anual"]
df["Parcelas_Mensais"] = np.random.uniform(0.05, 0.4, size=n) * df["Renda_Mensal"]
df["Limite_Credito"] = np.random.uniform(1, 12, size=n) * df["Renda_Mensal"]
df["Utilizacao_Credito"] = np.random.uniform(0, 1, size=n).round(2)
df["Endividamento_%"] = (df["Parcelas_Mensais"] / df["Renda_Mensal"] * 100).round(1)
df["Valor_vs_Renda"] = (df["Valor_Solicitado"] / df["Renda_Mensal"]).round(2)

# Criar target (Aprovado ou Não)
conditions = (
    (df["Score_Credito"] >= 600) &
    (df["Endividamento_%"] <= 40) &
    (df["Tempo_Emprego_Meses"] >= 6) &
    (df["Historico_Inadimplencia"] == 0) &
    (df["Valor_vs_Renda"] <= 10)
)
df["Aprovado"] = np.where(conditions, 1, 0)

# Salvar como CSV
df.to_csv("dados_credito_1000amostras_20atributos.csv", index=False)
print("✅ Arquivo 'dados_credito_1000amostras_20atributos.csv' gerado com sucesso!")


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

✅ Arquivo 'dados_credito_1000amostras_20atributos.csv' gerado com sucesso!
