In [1]:
# ////////////////////////////////////////// DOENÇA CARDIOVASCULAR ///////////////////////////////////

import numpy as np
import pandas as pd

np.random.seed(42)  # Para reprodutibilidade

n = 100  # número de registros

cardio_data = {
    'idade': np.random.randint(30, 90, n),
    'sexo': np.random.randint(0, 2, n),  # 0 = feminino, 1 = masculino
    'fumante': np.random.randint(0, 2, n),
    'obeso': np.random.randint(0, 2, n),
    'colesterol_alto': np.random.randint(0, 2, n),
    'hipertensao': np.random.randint(0, 2, n),
    'diabetes': np.random.randint(0, 2, n),
    'atividade_fisica': np.random.randint(0, 2, n),
    'historico_familiar_cardiovascular': np.random.randint(0, 2, n),
    'pressao_sistolica': np.random.normal(130, 20, n).round(1),  # pressão sistólica média
    'colesterol_total': np.random.normal(200, 30, n).round(1),  # colesterol total médio
}

# Lógica simples para marcar presença de doença cardiovascular
def determinar_cardio(row):
    score = 0
    if row['idade'] >= 55:
        score += 1
    if row['fumante'] == 1:
        score += 1
    if row['obeso'] == 1:
        score += 1
    if row['colesterol_alto'] == 1 or row['colesterol_total'] > 240:
        score += 1
    if row['hipertensao'] == 1 or row['pressao_sistolica'] > 140:
        score += 1
    if row['diabetes'] == 1:
        score += 1
    if row['atividade_fisica'] == 0:
        score += 1
    if row['historico_familiar_cardiovascular'] == 1:
        score += 1

    # Considera doença cardiovascular se tiver 4 ou mais fatores
    return 1 if score >= 4 else 0

# Criar DataFrame e aplicar função
df = pd.DataFrame(cardio_data)
df["tem_doenca_cardiovascular"] = df.apply(determinar_cardio, axis=1)

# Visualizar os primeiros dados
print(df.head())

# Salvar se quiser
df.to_csv("../dados/dados_cardiovascular.csv", index=False)


   idade  sexo  fumante  obeso  colesterol_alto  hipertensao  diabetes  \
0     68     1        0      0                0            1         1   
1     81     0        0      0                0            1         1   
2     58     1        0      1                0            0         0   
3     44     0        1      0                0            1         0   
4     72     1        0      0                1            1         1   

   atividade_fisica  historico_familiar_cardiovascular  pressao_sistolica  \
0                 1                                  1              158.9   
1                 1                                  1               91.7   
2                 1                                  0              147.0   
3                 0                                  0              145.4   
4                 1                                  0              141.1   

   colesterol_total  tem_doenca_cardiovascular  
0             145.4                        