# Modelo de clasificación de pacientes

Se me pide crear un modelo de bosque aleatorio para clasificar una base de datos de pacientes en "necesita hospitalización" o "no necesita hospitalización"

Debo crear yo los datos, pero además quiero después aplicarlo a una base de datos de análisis de la diabetes que me descargaré de Kaggle

Tendré que crear dos conjuntos de datos y mezclarlos de manera aleatoria o mediante "zip": uno de pacientes con buena salud y otro de mala salud.

In [270]:
import random
import numpy as np
import pandas as pd


In [271]:
sanos = []
enfermos = []
long = 10000
id = 1
pacientes = sanos +  enfermos

while len(pacientes) < long:
    paciente = {}


    # ID: simplemente el número de paciente
    paciente['id'] = id

    # Edad: rango entre 18 y 90
    # El centro de la distribución será 49 años
    edad = round(np.random.normal(49,12))
    paciente['edad'] = edad

    # Peso: habrá valores en kg y otros en lb
    # El centro de la distribución será 80 kg
    # 1 lb = 0.45359237 kg
    # 1 lb = 1/2.20462 kg
    peso_kg = str(round(np.random.normal(80, 20), 2)) + ' kg'
    peso_lb = str(round(np.random.normal(36.28, 9), 2)) + ' lb'
    paciente['peso'] = random.choice([peso_kg, peso_lb])

    # Altura: habrá valores en cm y pulgadas
    # El centro de la distribución será 170 cm
    # 1 inch = cm * 2.54
    # 1 cm = 0.3937 * inch
    altura_cm = str(round(np.random.normal(170, 20))) + ' cm'
    altura_inch = str(round(np.random.normal(67, 15))) + ' inch'
    paciente['altura'] = random.choice([altura_cm, altura_inch])

    # IMC: peso en kg / (altura en m)^2
    # No la introduciré en los datos, pero sí la usaré como criterio 
    # de hospitalización
    imc = 0

    # Presión arterial
    # Tiene 2 componentes: presión sistólica y presión diastólica
    # El centro de la distribución será 110/75
    presion_sis = round(np.random.normal(110, 25))
    presion_dias = round(presion_sis * 0.66)
    presion = str(presion_sis) + '/' + str(presion_dias)
    paciente['presion_arterial'] = presion

    # Glucosa: habrá algunos valores en mmol/l y otros en mg/dl
    # El centro de la distribución será 180 mg/dL
    # el estándar en España es mg/dl, así que es el que usaré
    # Fórmula: Y(mg/dl) = 17,5 * X(mmol/l) + 3,75
    glucosa_mg = str(round(np.random.normal(180, 90), 2)) + ' mg/dL'
    glucosa_mmol = str(round(np.random.normal(10, 2.8), 2)) + ' mmol/L'
    paciente['glucosa'] = random.choice([glucosa_mg, glucosa_mmol])

    # Hospitalización: en base a criterios médicos, cuando un paciente se sale
    # de ciertos rangos (por exceso o defecto), se considera en crisis
    # y debe ser hospitalizado.
    hospitalizacion = 0

    
    # Si la edad es baja o alta, cambian las condiciones de hospitalización:
    # <20 años: IMC<15 | IMC>40, GLUC<70 | GLUC>400, TEN>=180/110
    if paciente['edad'] < 20:
        # En base al peso: un peso muy bajo puede ser de riesgo
        if 'kg' in paciente['peso']: 
            peso = float(paciente['peso'].strip(' kg'))
            if 'cm' in paciente['altura']:
                altura_m = float(paciente['altura'].strip(' cm')) /100

            if 'inch' in paciente['altura']:
                altura_m = float(paciente['altura'].strip(' inch')) * 2.54 /100
    
            imc = peso / altura_m**2
            if imc < 15.0 or imc > 40.0:
                hospitalizacion += 1

        if 'lb' in paciente['peso']:
            peso = float(paciente['peso'].strip(' lb')) * 0.45359237
            if 'cm' in paciente['altura']:
                altura_m = float(paciente['altura'].strip(' cm')) /100

            if 'inch' in paciente['altura']:
                altura_m = float(paciente['altura'].strip(' inch')) * 2.54 /100
    
            imc = peso / altura_m**2
            if imc < 15.0 or imc > 40.0:
                hospitalizacion += 1
        
        # En base a la presión arterial: muy alta o muy baja indica una crisis
        if presion_sis < 90:
            hospitalizacion += 1
        elif presion_sis > 180:
            hospitalizacion += 1

        # En base a la glucosa en sangre: muy baja o muy alta requiere atención inmediata
        if 'mg/dL' in paciente['glucosa']:
            if float(paciente['glucosa'].strip(' mg/dL')) < 70:
                hospitalizacion += 1
            elif float(paciente['glucosa'].strip(' mg/dL')) > 400:
                hospitalizacion += 1

        if 'mmol/L' in paciente['glucosa']:
            if float(paciente['glucosa'].strip(' mmol/L')) < 3.79:
                hospitalizacion += 1
            elif float(paciente['glucosa'].strip(' mmol/L')) > 22.64:
                hospitalizacion += 1

    # 20< años <60: IMC<15 | IMC>40, GLUC<54 | GLUC>450, TEN>=180/110
    elif 20 < paciente['edad'] < 60:
        # En base al peso: un peso muy bajo puede ser de riesgo
        if 'kg' in paciente['peso']: 
            peso = float(paciente['peso'].strip(' kg'))
            if 'cm' in paciente['altura']:
                altura_m = float(paciente['altura'].strip(' cm')) /100

            if 'inch' in paciente['altura']:
                altura_m = float(paciente['altura'].strip(' inch')) * 2.54 /100
    
            imc = peso / altura_m**2
            if imc < 15.0 or imc > 40.0:
                hospitalizacion += 1

        if 'lb' in paciente['peso']:
            peso = float(paciente['peso'].strip(' lb')) * 0.45359237
            if 'cm' in paciente['altura']:
                altura_m = float(paciente['altura'].strip(' cm')) /100

            if 'inch' in paciente['altura']:
                altura_m = float(paciente['altura'].strip(' inch')) * 2.54 /100
    
            imc = peso / altura_m**2
            if imc < 15.0 or imc > 40.0:
                hospitalizacion += 1
        
        # En base a la presión arterial: muy alta o muy baja indica una crisis
        if presion_sis < 90:
            hospitalizacion += 1
        elif presion_sis > 180:
            hospitalizacion += 1

        # En base a la glucosa en sangre: muy baja o muy alta requiere atención inmediata
        if 'mg/dL' in paciente['glucosa']:
            if float(paciente['glucosa'].strip(' mg/dL')) < 54:
                hospitalizacion += 1
            elif float(paciente['glucosa'].strip(' mg/dL')) > 450:
                hospitalizacion += 1

        if 'mmol/L' in paciente['glucosa']:
            if float(paciente['glucosa'].strip(' mmol/L')) < 2.87:
                hospitalizacion += 1
            elif float(paciente['glucosa'].strip(' mmol/L')) > 25.5:
                hospitalizacion += 1

    # >60 años: IMC<15 | IMC>40, GLUC<70 | GLUC>300, TEN>=180/110
    else:
        # En base al peso: un peso muy bajo puede ser de riesgo
        if 'kg' in paciente['peso']: 
            peso = float(paciente['peso'].strip(' kg'))
            if 'cm' in paciente['altura']:
                altura_m = float(paciente['altura'].strip(' cm')) /100

            if 'inch' in paciente['altura']:
                altura_m = float(paciente['altura'].strip(' inch')) * 2.54 /100
    
            imc = peso / altura_m**2
            if imc < 15.0 or imc > 40.0:
                hospitalizacion += 1

        if 'lb' in paciente['peso']:
            peso = float(paciente['peso'].strip(' lb')) * 0.45359237
            if 'cm' in paciente['altura']:
                altura_m = float(paciente['altura'].strip(' cm')) /100

            if 'inch' in paciente['altura']:
                altura_m = float(paciente['altura'].strip(' inch')) * 2.54 /100
    
            imc = peso / altura_m**2
            if imc < 15.0 or imc > 40.0:
                hospitalizacion += 1
        
        # En base a la presión arterial: muy alta o muy baja indica una crisis
        if presion_sis < 90:
            hospitalizacion += 1
        elif presion_sis > 180:
            hospitalizacion += 1

        # En base a la glucosa en sangre: muy baja o muy alta requiere atención inmediata
        if 'mg/dL' in paciente['glucosa']:
            if float(paciente['glucosa'].strip(' mg/dL')) < 70:
                hospitalizacion += 1
            elif float(paciente['glucosa'].strip(' mg/dL')) > 300:
                hospitalizacion += 1

        if 'mmol/L' in paciente['glucosa']:
            if float(paciente['glucosa'].strip(' mmol/L')) < 3.79:
                hospitalizacion += 1
            elif float(paciente['glucosa'].strip(' mmol/L')) > 16.93:
                hospitalizacion += 1


    if hospitalizacion > 0:
        paciente['hospitalizacion'] = 'Sí'
        if len(enfermos) < long/2:
            enfermos.append(paciente)
    else:
        paciente['hospitalizacion'] = 'No'
        if len(sanos) < long/2:
            sanos.append(paciente)
    pacientes = sanos + enfermos
    id += 1

print(len(sanos))
print(len(enfermos))
pacientes.sort(key=lambda x: x['id'])
print(pacientes)



5000
5000
[{'id': 1, 'edad': 45, 'peso': '65.62 kg', 'altura': '189 cm', 'presion_arterial': '112/74', 'glucosa': '72.97 mg/dL', 'hospitalizacion': 'No'}, {'id': 2, 'edad': 35, 'peso': '40.36 lb', 'altura': '190 cm', 'presion_arterial': '92/61', 'glucosa': '7.26 mmol/L', 'hospitalizacion': 'Sí'}, {'id': 3, 'edad': 65, 'peso': '40.38 lb', 'altura': '148 cm', 'presion_arterial': '82/54', 'glucosa': '16.57 mmol/L', 'hospitalizacion': 'Sí'}, {'id': 4, 'edad': 53, 'peso': '99.64 kg', 'altura': '165 cm', 'presion_arterial': '131/86', 'glucosa': '177.46 mg/dL', 'hospitalizacion': 'No'}, {'id': 5, 'edad': 64, 'peso': '43.66 kg', 'altura': '51 inch', 'presion_arterial': '107/71', 'glucosa': '181.93 mg/dL', 'hospitalizacion': 'No'}, {'id': 6, 'edad': 66, 'peso': '25.19 lb', 'altura': '98 inch', 'presion_arterial': '135/89', 'glucosa': '9.41 mmol/L', 'hospitalizacion': 'Sí'}, {'id': 7, 'edad': 51, 'peso': '52.53 kg', 'altura': '162 cm', 'presion_arterial': '128/84', 'glucosa': '5.47 mmol/L', 'hos

In [272]:
df = pd.DataFrame(pacientes)
df

Unnamed: 0,id,edad,peso,altura,presion_arterial,glucosa,hospitalizacion
0,1,45,65.62 kg,189 cm,112/74,72.97 mg/dL,No
1,2,35,40.36 lb,190 cm,92/61,7.26 mmol/L,Sí
2,3,65,40.38 lb,148 cm,82/54,16.57 mmol/L,Sí
3,4,53,99.64 kg,165 cm,131/86,177.46 mg/dL,No
4,5,64,43.66 kg,51 inch,107/71,181.93 mg/dL,No
...,...,...,...,...,...,...,...
9995,17850,36,76.09 kg,160 cm,114/75,5.57 mmol/L,No
9996,17854,57,57.43 kg,180 cm,127/84,74.94 mg/dL,No
9997,17860,59,71.76 kg,154 cm,91/60,13.24 mmol/L,No
9998,17865,63,91.33 kg,161 cm,138/91,242.99 mg/dL,No


In [273]:
df['peso_kg'] = [float(peso.strip(' kg')) if 'kg' in peso else round(float(peso.strip(' lb')) * 0.45359237, 2) for peso in df['peso']]
df['altura_metros'] = [round(float(altura.strip(' cm')) / 100, 2) if 'cm' in altura else round(float(altura.strip(' inch')) * 2.54 / 100, 2) for altura in df['altura']]
df['glucosa_mg_dl'] = [float(glucosa.strip(' mg/dL')) if 'mg/dL' in glucosa else round((float(glucosa.strip(' mmol/L')) * 17.5 ) + 3.75, 2) for glucosa in df['glucosa']]
df['presion_sistolica'] = [presion.split('/')[0] for presion in df['presion_arterial']]
df

Unnamed: 0,id,edad,peso,altura,presion_arterial,glucosa,hospitalizacion,peso_kg,altura_metros,glucosa_mg_dl,presion_sistolica
0,1,45,65.62 kg,189 cm,112/74,72.97 mg/dL,No,65.62,1.89,72.97,112
1,2,35,40.36 lb,190 cm,92/61,7.26 mmol/L,Sí,18.31,1.90,130.80,92
2,3,65,40.38 lb,148 cm,82/54,16.57 mmol/L,Sí,18.32,1.48,293.73,82
3,4,53,99.64 kg,165 cm,131/86,177.46 mg/dL,No,99.64,1.65,177.46,131
4,5,64,43.66 kg,51 inch,107/71,181.93 mg/dL,No,43.66,1.30,181.93,107
...,...,...,...,...,...,...,...,...,...,...,...
9995,17850,36,76.09 kg,160 cm,114/75,5.57 mmol/L,No,76.09,1.60,101.23,114
9996,17854,57,57.43 kg,180 cm,127/84,74.94 mg/dL,No,57.43,1.80,74.94,127
9997,17860,59,71.76 kg,154 cm,91/60,13.24 mmol/L,No,71.76,1.54,235.45,91
9998,17865,63,91.33 kg,161 cm,138/91,242.99 mg/dL,No,91.33,1.61,242.99,138


In [274]:
df.describe()

Unnamed: 0,id,edad,peso_kg,altura_metros,glucosa_mg_dl
count,10000.0,10000.0,10000.0,10000.0,10000.0
mean,6252.0263,49.0749,57.029072,1.710636,182.388038
std,4808.090517,11.947165,33.915127,0.294512,69.438091
min,1.0,-3.0,2.38,0.38,-142.49
25%,2500.75,41.0,18.7575,1.55,138.68
50%,5000.5,49.0,64.7,1.71,180.67
75%,9306.5,57.0,85.0,1.89,224.0475
max,17866.0,90.0,156.12,2.92,464.7
