In [2]:
# Instalar o Faker (somente necessário no Google Colab ou se ainda não estiver instalado)
!pip install faker

# Imports
import pandas as pd
import numpy as np
import random
from faker import Faker
from datetime import datetime, timedelta

# Inicializar o gerador de dados falsos
fake = Faker('pt_BR')
np.random.seed(42)

# Parâmetros
num_registros = 1000
procedimentos = ['Consulta Geral', 'Exame de Sangue', 'Raio-X', 'Tomografia', 'Ultrassom', 'Fisioterapia', 'Cirurgia Simples']
cids = ['I10', 'E11', 'J45', 'M54', 'F32', 'Z00']
hospitais = ['Hospital Vida', 'Clínica BemEstar', 'Centro Médico Popular', 'Hospital São Lucas']
planos = ['Básico', 'Executivo', 'Premium']
empresas = ['Colgate', 'PicPay', 'Banco Z', 'Hospital Care', 'Startup X']
especialidades = ['Clínico Geral', 'Ortopedista', 'Psicólogo', 'Cardiologista', 'Endocrinologista']

# Função para gerar datas aleatórias
def random_date(start, end):
    return start + timedelta(days=random.randint(0, (end - start).days))

# Gerar dados simulados
dados = []
for i in range(num_registros):
    data = random_date(datetime(2024, 1, 1), datetime(2024, 6, 1))
    procedimento = random.choice(procedimentos)
    valor_base = np.random.uniform(100, 3000)
    cid = random.choice(cids)
    hospital = random.choice(hospitais)
    plano = random.choice(planos)
    empresa = random.choice(empresas)
    medico = fake.name()
    crm = f"{random.randint(10000, 99999)}/{random.choice(['SP', 'RJ', 'MG', 'PR'])}"
    duracao = np.random.randint(15, 180)
    especialidade = random.choice(especialidades)

    # Simular fraudes em 5% dos casos
    is_fraude = np.random.rand() < 0.05
    valor_final = valor_base * (1 + np.random.uniform(0.5, 2.0)) if is_fraude else valor_base

    dados.append([
        i+1,
        fake.uuid4(),
        fake.name(),
        data.strftime('%Y-%m-%d'),
        procedimento,
        round(valor_final, 2),
        cid,
        hospital,
        plano,
        empresa,
        medico,
        crm,
        duracao,
        especialidade,
        int(is_fraude)
    ])

# Criar DataFrame
colunas = [
    'ID_Registro', 'ID_Paciente', 'Nome_Paciente', 'Data_Atendimento', 'Procedimento',
    'Valor_Cobrado_R$', 'CID', 'Hospital', 'Plano', 'Empresa_Contratante',
    'Medico_Responsavel', 'CRM', 'Duracao_Minutos', 'Especialidade', 'Fraude_Suspeita'
]
df = pd.DataFrame(dados, columns=colunas)

# Salvar como CSV no ambiente do Colab
df.to_csv("/content/dataset_fraude_saude_corporativa.csv", index=False)
print("Arquivo CSV gerado com sucesso em /content/")


Collecting faker
  Downloading faker-37.4.0-py3-none-any.whl.metadata (15 kB)
Downloading faker-37.4.0-py3-none-any.whl (1.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.9/1.9 MB[0m [31m19.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-37.4.0
Arquivo CSV gerado com sucesso em /content/
