## Prompt utilizado pelo DeepSeek gerar a massa de Dados:

> Objetivo: Gerar uma base de dados sintética de 5000 registros no formato CSV para predição de risco de crédito, evitando overfitting em modelos de Machine Learning. Os dados devem ser coerentes com o risco de crédito associado e estar em um formato diretamente utilizável por modelos, sem necessidade de codificação prévia.

### Instruções:

> Você é uma IA generativa especializada na criação de dados sintéticos para Machine Learning. Seu objetivo é gerar um dataset de 5000 linhas, representando clientes de uma agência bancária local em João Pessoa, Brasil. Cada linha deve conter as seguintes colunas, com os tipos de dados e faixas de valores especificados:

- idade: Número inteiro entre 19 e 90 anos.

- renda_mensal: Número decimal (float) representando a renda mensal do cliente.

- tempo_emprego: Número decimal (float) representando o tempo de emprego em anos.

- dividas_total: Número inteiro representando o valor total das dívidas do cliente.

- limite_cartao: Número decimal (float) representando o limite total dos cartões de crédito do cliente.
- historico_credito: Número inteiro representando o histórico de crédito em anos.

- num_cartoes_credito: Número inteiro representando o número de cartões de crédito ativos do cliente.
- num_emprestimos: Número inteiro representando o número de empréstimos ativos do cliente.

- atraso_pagamento: Número inteiro representando o número de dias de atraso no pagamento de contas (considerar 0 para pagamentos em dia).
- possui_imovel: Valor binário, onde 1 representa "Sim" e 0 representa "Não".

- possui_veiculo: Valor binário, onde 1 representa "Sim" e 0 representa "Não".

- risco_credito: Variável categórica com três possíveis valores: "Alto", "Médio" ou "Baixo".

### Diretrizes para evitar overfitting e garantir a coerência dos dados:

- Distribuições Realistas: Gere os valores para cada atributo de forma que reflitam padrões plausíveis para clientes bancários. Evite distribuições excessivamente uniformes ou com picos muito acentuados que possam levar modelos a memorizar exemplos específicos.
- Correlações Condizentes: Introduza correlações realistas entre os atributos e a variável alvo (risco_credito). Por exemplo:
- Alto Risco: Tendência a idades mais jovens ou mais avançadas, renda mensal mais baixa, menor tempo de emprego, dívidas totais elevadas em relação à renda, limites de cartão baixos, histórico de crédito curto ou negativo, maior número de cartões e empréstimos, histórico de atrasos de pagamento frequentes e/ou longos. A posse de imóveis e veículos pode ser menos frequente.
- Médio Risco: Valores intermediários para a maioria dos atributos. Pode haver uma combinação de fatores de risco e fatores de mitigação.
- Baixo Risco: Tendência a idades mais maduras, renda mensal mais alta, maior tempo de emprego, dívidas totais baixas em relação à renda, limites de cartão elevados, histórico de crédito longo e positivo, menor número de cartões e empréstimos, histórico de poucos ou nenhum atraso de pagamento. A posse de imóveis e veículos pode ser mais frequente.
- Variabilidade: Garanta uma variabilidade suficiente dentro de cada classe de risco para evitar que os modelos aprendam regras excessivamente simplistas. Não crie grupos de dados perfeitamente homogêneos dentro de cada categoria de risco.
- Equilíbrio (Relativo): Embora não seja estritamente necessário um equilíbrio perfeito entre as classes de risco, tente gerar uma distribuição razoável para que o modelo possa aprender as características de cada classe de forma adequada. Uma distribuição como 30% Alto, 40% Médio e 30% Baixo pode ser um bom ponto de partida.
- Formato Direto: Os dados gerados para as colunas possui_imovel e possui_veiculo já devem estar nos formatos numéricos (1 e 0) para serem diretamente utilizáveis por modelos de Machine Learning, sem necessidade de codificação adicional. A coluna risco_credito deve conter as strings "Alto", "Médio" e "Baixo", pois muitos modelos podem lidar diretamente com rótulos categóricos ou podem ser facilmente codificados posteriormente.

Arquivo CSV: O resultado final deve ser um arquivo no formato .csv com um cabeçalho contendo os nomes das colunas especificados.
Exemplo de algumas linhas (apenas para ilustrar a estrutura, a IA gerará 5000):

idade,renda_mensal,tempo_emprego,dividas_total,limite_cartao,historico_credito,num_cartoes_credito,num_emprestimos,atraso_pagamento,possui_imovel,possui_veiculo,risco_credito
- 25,1500.50,0.8,800,500.0,1,3,1,15,0,0,Alto
- 45,5200.75,12.3,1200,10000.0,8,2,0,0,1,1,Baixo
- 32,2800.00,3.5,2500,2000.0,3,4,2,5,0,0,Médio
- 60,8500.90,25.0,500,15000.0,15,1,0,0,1,1,Baixo
- 22,1200.20,0.3,300,300.0,0,2,1,30,0,0,Alto

In [1]:
import numpy as np
import pandas as pd
from random import choices, randint, uniform, random

# Configuração para gerar dados reproduzíveis (seed diferente da base de treino)
np.random.seed(123)  # Seed diferente para variabilidade

# Número de registros (30% da base original)
n_test = 2500

# Gerando dados sintéticos para teste
dados_teste = {
    'idade': np.random.randint(18, 76, n_test),
    'renda_mensal': np.round(np.random.uniform(2000, 60000, n_test), 2),  # Intervalo ampliado
    'tempo_emprego': np.round(np.abs(np.random.normal(5, 5, n_test)), 1),  # Distribuição normal
    'dividas_total': np.round(np.random.uniform(0, 120000, n_test), 2),  # Dívidas podem ser maiores
    'limite_cartao': np.round(np.random.uniform(1000, 60000, n_test), 2),
    'historico_credito': np.random.randint(0, 11, n_test),
    'num_cartoes_credito': np.random.randint(0, 7, n_test),
    'num_emprestimos': np.random.randint(0, 6, n_test),
    'atraso_pagamento': np.random.poisson(lam=1.5, size=n_test),  # Poisson para simular raros atrasos extremos
    'possui_imovel': np.random.choice([0, 1], n_test, p=[0.5, 0.5]),  # Probabilidade ajustada
    'possui_veiculo': np.random.choice([0, 1], n_test, p=[0.4, 0.6]),  # Mais veículos nesta base
}

# Criando DataFrame de teste
df_teste = pd.DataFrame(dados_teste)

# Aplicando a mesma função de risco (garantindo consistência com a base de treino)
def determinar_risco(row):
    score = 0
    score += (row['historico_credito'] * 2)
    score += (row['renda_mensal'] / 5000)
    score += (row['tempo_emprego'] * 1.5)
    score += (row['possui_imovel'] * 3)
    score += (row['possui_veiculo'] * 2)
    score -= (row['dividas_total'] / 10000)
    score -= (row['atraso_pagamento'] * 3)
    score -= (row['num_emprestimos'] * 2)

    if score < 10:
        return 'Alto'
    elif 10 <= score < 25:
        return 'Médio'
    else:
        return 'Baixo'

df_teste['risco_credito'] = df_teste.apply(determinar_risco, axis=1)

# Verificando a distribuição (deve ser similar à base de treino, mas não idêntica)
print(df_teste['risco_credito'].value_counts(normalize=True))

# Salvando em CSV
df_teste.to_csv('base_teste_risco_credito.csv', index=False)

risco_credito
Médio    0.4296
Alto     0.4268
Baixo    0.1436
Name: proportion, dtype: float64


In [2]:
import pandas as pd
import numpy as np

# Configuração para gerar dados reproduzíveis
np.random.seed(42)

# Número de registros
n = 1000

# Idade (distribuição normal com viés para adultos jovens e média)
idades = np.clip(np.random.normal(loc=35, scale=15, size=n), 19, 90).astype(int)

# Renda mensal (distribuição log-normal com outliers controlados)
rendas = np.round(np.random.lognormal(mean=7.5, sigma=0.65, size=n), 2)
rendas = np.clip(rendas, 1000, 20000)

# Tempo de emprego (correlacionado com idade, mas com variação)
tempo_emprego = np.round(np.clip(idades * np.random.normal(0.3, 0.15, n), 0, 50), 1)

# Dívidas totais (relacionado com renda e risco)
dividas = np.round(rendas * np.random.uniform(0.1, 2.5, n), 0).astype(int)

# Limite do cartão (relacionado com renda e histórico)
limite_cartao = np.round(rendas * np.random.uniform(0.5, 3.0, n), 2)

# Histórico de crédito (relacionado com idade)
historico = np.clip(np.round(idades * np.random.uniform(0.2, 0.8, n), 0), 0, 30).astype(int)

# Número de cartões (distribuição de Poisson modificada)
num_cartoes = np.random.poisson(1.5, n) + 1

# Número de empréstimos (relacionado com risco)
num_emprestimos = np.random.poisson(0.7, n)

# Atraso de pagamento (exponencial com maioria zero)
atrasos = np.round(np.random.exponential(5, n)).astype(int)
atrasos = np.where(np.random.rand(n) > 0.7, 0, atrasos)  # 70% sem atraso

# Possui imóvel (relacionado com idade e renda)
prob_imovel = 1 / (1 + np.exp(-(idades * 0.05 + rendas/5000 - 4)))
possui_imovel = (np.random.rand(n) < prob_imovel).astype(int)

# Possui veículo (relacionado com renda)
prob_veiculo = 1 / (1 + np.exp(-(rendas/3000 - 2)))
possui_veiculo = (np.random.rand(n) < prob_veiculo).astype(int)

# Definir risco de crédito baseado nos atributos
score_risco = (
    - idades * 0.1
    + rendas * 0.0003
    - tempo_emprego * 0.5
    + dividas * 0.0005
    - limite_cartao * 0.0001
    - historico * 0.2
    + num_cartoes * 0.3
    + num_emprestimos * 0.5
    + atrasos * 0.2
    - possui_imovel * 2
    - possui_veiculo * 1
    + np.random.normal(0, 1, n)  # Ruído aleatório
)

# Definir categorias de risco com os percentuais sugeridos
percentis = np.percentile(score_risco, [30, 70])
risco_credito = np.where(
    score_risco < percentis[0], "Alto",
    np.where(score_risco > percentis[1], "Baixo", "Médio")
)

# Criar DataFrame
df = pd.DataFrame({
    'idade': idades,
    'renda_mensal': rendas,
    'tempo_emprego': tempo_emprego,
    'dividas_total': dividas,
    'limite_cartao': limite_cartao,
    'historico_credito': historico,
    'num_cartoes_credito': num_cartoes,
    'num_emprestimos': num_emprestimos,
    'atraso_pagamento': atrasos,
    'possui_imovel': possui_imovel,
    'possui_veiculo': possui_veiculo,
    'risco_credito': risco_credito
})

# Corrigir alguns valores para garantir coerência
df.loc[df['idade'] - df['historico_credito'] < 18, 'historico_credito'] = \
    df['idade'] - 18  # Histórico não pode ser maior que idade-18

df.loc[df['tempo_emprego'] > df['idade'] - 18, 'tempo_emprego'] = \
    np.maximum(df['idade'] - 18 - np.random.randint(0, 5), 0)  # Tempo emprego não pode ser maior que idade-18

# Amostra dos dados
print(df.head(10))

# Salvar para CSV
df.to_csv('risco_credito_dataset_test.csv', index=False)

   idade  renda_mensal  tempo_emprego  dividas_total  limite_cartao  \
0     42       4489.88            8.3           9271       12453.01   
1     32       3297.80            8.9           8114        3216.42   
2     44       1879.50            8.0           1359        4798.60   
3     57       1187.36           14.5           2882        2210.36   
4     31       2846.50            0.5           3231        1977.30   
5     31       2335.00           10.3           2181        6744.93   
6     58       3235.30           17.4            714        3615.13   
7     46       2732.20            8.2            619        7237.91   
8     27       3576.75            8.0           6298        3297.85   
9     43       1276.78           18.9           1531        3364.13   

   historico_credito  num_cartoes_credito  num_emprestimos  atraso_pagamento  \
0                 15                    1                3                 8   
1                 14                    2                2