<a href="https://colab.research.google.com/github/d-acosta76/nube_analisis_palabras/blob/main/prueba_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [3]:
import pandas as pd
import numpy as np

In [4]:
import numpy as np

def generate_cardiovascular_risk_data(num_patients=100):
    """Genera un conjunto de datos sintéticos de pacientes con riesgo cardiovascular.

    Args:
        num_patients (int): Número de pacientes a generar.

    Returns:
        pandas.DataFrame: DataFrame con datos sintéticos de pacientes.
    """
    np.random.seed(42) # para reproducibilidad

    data = {
        'Edad': np.random.randint(30, 80, num_patients),
        'Género': np.random.choice(['Masculino', 'Femenino'], num_patients),
        'Colesterol_Total': np.random.normal(loc=200, scale=30, size=num_patients).round(1),
        'Presion_Arterial_Sistolica': np.random.normal(loc=120, scale=15, size=num_patients).round(1),
        'Presion_Arterial_Diastolica': np.random.normal(loc=80, scale=10, size=num_patients).round(1),
        'Glucosa_en_Ayunas': np.random.normal(loc=90, scale=15, size=num_patients).round(1),
        'IMC': np.random.normal(loc=25, scale=5, size=num_patients).round(1),
        'Fumador': np.random.choice([0, 1], num_patients, p=[0.7, 0.3]), # 0: No, 1: Sí
        'Historia_Familiar_Cardiaca': np.random.choice([0, 1], num_patients, p=[0.8, 0.2]), # 0: No, 1: Sí
        'Riesgo_Cardiovascular': np.random.choice([0, 1], num_patients, p=[0.6, 0.4]) # 0: Bajo, 1: Alto (esto es una simplificación)
    }

    df = pd.DataFrame(data)

    # Introducir algunas correlaciones simples (opcional)
    df['Colesterol_Total'] = df['Colesterol_Total'] + df['Edad'] * 0.5
    df['Presion_Arterial_Sistolica'] = df['Presion_Arterial_Sistolica'] + df['Edad'] * 0.3 + df['IMC'] * 0.5
    df['Glucosa_en_Ayunas'] = df['Glucosa_en_Ayunas'] + df['IMC'] * 0.4 + df['Historia_Familiar_Cardiaca'] * 10

    return df

# Ejemplo de uso:
# synthetic_data = generate_cardiovascular_risk_data(num_patients=500)
# display(synthetic_data.head())
# display(synthetic_data.info())

In [7]:
synthetic_data = generate_cardiovascular_risk_data(num_patients=100)
display(synthetic_data.head())
display(synthetic_data.info())

Unnamed: 0,Edad,Género,Colesterol_Total,Presion_Arterial_Sistolica,Presion_Arterial_Diastolica,Glucosa_en_Ayunas,IMC,Fumador,Historia_Familiar_Cardiaca,Riesgo_Cardiovascular
0,58,Femenino,186.4,153.15,84.8,119.16,18.9,0,0,1
1,71,Masculino,241.2,122.6,84.7,87.18,19.2,0,0,0
2,48,Femenino,228.1,180.9,91.4,97.82,24.8,1,0,1
3,34,Masculino,235.2,142.65,84.5,89.2,20.5,1,0,0
4,62,Femenino,252.1,159.5,68.6,95.64,25.6,0,0,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 10 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Edad                         100 non-null    int64  
 1   Género                       100 non-null    object 
 2   Colesterol_Total             100 non-null    float64
 3   Presion_Arterial_Sistolica   100 non-null    float64
 4   Presion_Arterial_Diastolica  100 non-null    float64
 5   Glucosa_en_Ayunas            100 non-null    float64
 6   IMC                          100 non-null    float64
 7   Fumador                      100 non-null    int64  
 8   Historia_Familiar_Cardiaca   100 non-null    int64  
 9   Riesgo_Cardiovascular        100 non-null    int64  
dtypes: float64(5), int64(4), object(1)
memory usage: 7.9+ KB


None

In [8]:
synthetic_data.columns

Index(['Edad', 'Género', 'Colesterol_Total', 'Presion_Arterial_Sistolica',
       'Presion_Arterial_Diastolica', 'Glucosa_en_Ayunas', 'IMC', 'Fumador',
       'Historia_Familiar_Cardiaca', 'Riesgo_Cardiovascular'],
      dtype='object')