In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# Configurar seed para reprodutibilidade
np.random.seed(42)

# Parâmetros
n_pacientes = 1000  # Número de pacientes únicos
registros_por_paciente = 10  # Registros históricos por paciente
n_registros = n_pacientes * registros_por_paciente

# Funções auxiliares
def gerar_datas(n_registros_paciente, data_inicio=datetime(2022, 1, 1)):
    datas = []
    for _ in range(n_registros_paciente):
        delta = timedelta(days=np.random.randint(0, 365*2))  # 2 anos de histórico
        datas.append(data_inicio + delta)
    return sorted(datas)

# Gerar dados
dados = []
for id_paciente in range(1, n_pacientes + 1):
    # Dados fixos do paciente
    idade_base = np.random.randint(25, 75)
    peso_base = np.random.normal(75, 15)
    altura = np.random.normal(1.70, 0.1)
    
    # Gerar histórico
    datas = gerar_datas(registros_por_paciente)
    
    for data in datas:
        # Variações nos dados vitais
        peso = peso_base + np.random.normal(0, 2)
        imc = peso / (altura ** 2)
        
        registro = {
            'ID_Paciente': id_paciente,
            'Data_Exame': data.strftime('%Y-%m-%d'),
            'Idade': idade_base + (data - datetime(2022, 1, 1)).days // 365,
            'Sexo': np.random.choice(['F', 'M']),
            'Peso': round(peso, 1),
            'Altura': round(altura, 2),
            'IMC': round(imc, 1),
            'Pressao_Arterial_Sistolica': np.random.randint(110, 160),
            'Pressao_Arterial_Diastolica': np.random.randint(60, 100),
            'Glicose_Jejum': np.random.normal(130, 35),
            'Glicose_Pos_Prandial': np.random.normal(180, 50),
            'Insulina': np.random.normal(150, 50),
            'HbA1c': np.random.normal(7.5, 1.5),
            'Exercicio_Semanal_Minutos': np.random.choice([0, 60, 120, 180, 240]),
            'Medicacao': np.random.choice(['Metformina', 'Insulina', 'Ambos', 'Nenhum']),
            'Comorbidades': np.random.choice(['Hipertensão', 'Obesidade', 'Ambos', 'Nenhum']),
            'Dieta_Controlada': np.random.choice(['Sim', 'Não']),
            'Nivel_Stress': np.random.choice(['Baixo', 'Médio', 'Alto']),
            'Qualidade_Sono_Horas': np.random.normal(7, 1),
            'Risco': np.random.choice(['Baixo', 'Médio', 'Alto'], p=[0.3, 0.4, 0.3])
        }
        
        # Ajustes para manter dados realistas
        registro['Glicose_Jejum'] = max(70, round(registro['Glicose_Jejum'], 1))
        registro['Glicose_Pos_Prandial'] = max(100, round(registro['Glicose_Pos_Prandial'], 1))
        registro['Insulina'] = max(0, round(registro['Insulina'], 1))
        registro['HbA1c'] = max(4, min(14, round(registro['HbA1c'], 1)))
        registro['Qualidade_Sono_Horas'] = max(4, min(10, round(registro['Qualidade_Sono_Horas'], 1)))
        
        dados.append(registro)

# Criar DataFrame
df = pd.DataFrame(dados)

# Salvar como CSV
arquivo_saida = './historico_diabetes.csv'
df.to_csv(arquivo_saida, index=False)

print(f"Arquivo gerado: {arquivo_saida}")
print(f"Total de registros: {len(df)}")
print("\nPrimeiras linhas do arquivo:")
print(df.head())
print("\nDescrição estatística:")
print(df.describe())

Arquivo gerado: ./historico_diabetes.csv
Total de registros: 10000

Primeiras linhas do arquivo:
   ID_Paciente  Data_Exame  Idade Sexo  Peso  Altura   IMC  \
0            1  2022-01-21     63    F  65.0    1.75  21.2   
1            1  2022-03-13     63    M  65.9    1.75  21.5   
2            1  2022-03-29     63    F  67.3    1.75  21.9   
3            1  2022-05-02     63    M  62.4    1.75  20.3   
4            1  2022-08-03     63    F  67.9    1.75  22.1   

   Pressao_Arterial_Sistolica  Pressao_Arterial_Diastolica  Glicose_Jejum  \
0                         131                           61          115.6   
1                         124                           62          104.0   
2                         116                           67          107.8   
3                         123                           90           93.5   
4                         144                           92          161.1   

   Glicose_Pos_Prandial  Insulina  HbA1c  Exercicio_Semanal_Minutos