In [1]:
import pandas as pd
import numpy as np

# Tamanho do dataset
n = 100
np.random.seed(42)

# Gerar dados fictícios coerentes
data = {
    "idade": np.random.randint(20, 90, n),
    "sexo": np.random.choice(["M", "F"], n),
    "hipertensao": np.random.randint(0, 2, n),
    "pressao_sistolica": np.random.randint(90, 180, n),
    "pressao_diastolica": np.random.randint(60, 120, n),
    "diabetes": np.random.randint(0, 2, n),
    "glicose": np.round(np.random.uniform(70, 200, n), 1),
    "uso_de_medicamentos": np.random.randint(0, 2, n),
    "historico_familiar_renal": np.random.randint(0, 2, n),
    "tfge": np.round(np.random.uniform(30, 120, n), 1),
    "albuminuria": np.random.randint(0, 2, n),
    "creatinina": np.round(np.random.uniform(0.5, 5.0, n), 2),
    "ureia": np.round(np.random.uniform(10, 150, n), 1),
    "hemoglobina": np.round(np.random.uniform(8.0, 16.0, n), 1),
    "potassio": np.round(np.random.uniform(3.0, 6.0, n), 1),
    "proteinuria": np.random.randint(0, 2, n),  # agora binário (0 = não, 1 = sim)
}

# Função para determinar possível DRC
def determinar_drc(row):
    score = 0

    # Critérios clínicos
    if row['idade'] >= 60:
        score += 1
    if row['hipertensao'] == 1 or row['pressao_sistolica'] >= 140 or row['pressao_diastolica'] >= 90:
        score += 1
    if row['diabetes'] == 1 or row['glicose'] >= 126:
        score += 1
    if row['uso_de_medicamentos'] == 1:
        score += 1
    if row['historico_familiar_renal'] == 1:
        score += 1

    # Critérios laboratoriais
    if row['creatinina'] >= 1.3:
        score += 1
    if row['ureia'] >= 50:
        score += 1
    if row['hemoglobina'] < 12:
        score += 1
    if row['potassio'] > 5.0:
        score += 1
    if row['proteinuria'] == 1 or row['albuminuria'] == 1:
        score += 1
    if row['tfge'] < 60:
        score += 2  # Critério forte

    return 1 if score >= 4 else 0

# Criar DataFrame e aplicar a função
df = pd.DataFrame(data)
df["tem_drc"] = df.apply(determinar_drc, axis=1)

# Visualizar as primeiras linhas
print(df.head())

# Salvar se quiser
df.to_csv("dados/dados_drc.csv", index=False)


   idade sexo  hipertensao  pressao_sistolica  pressao_diastolica  diabetes  \
0     71    M            0                121                 114         0   
1     34    F            0                 98                  85         0   
2     80    M            0                108                  94         1   
3     40    M            0                137                 109         0   
4     43    F            1                169                  84         0   

   glicose  uso_de_medicamentos  historico_familiar_renal   tfge  albuminuria  \
0    155.2                    0                         0   92.8            0   
1    120.1                    0                         1  101.7            1   
2    158.6                    1                         0   71.3            1   
3    114.3                    0                         0  105.8            0   
4    103.9                    1                         0   99.2            1   

   creatinina  ureia  hemoglobina  pot