# **Diplomado en Ciencia de Datos con Python 2024**
Desarrolló: Adriana Muñoz, Tamara Osuna y Jessica Briseño

In [None]:
# Data manipulation libraries
import pandas as pd
import numpy as np
import joblib


# Establecer la cantidad de datos a generar
cantidad_datos = 10000


# Definir funciones para generar datos simulados
def generar_edad():
    return np.random.randint(18, 80, cantidad_datos)

def generar_peso(edad):
    # Para simular casos de obesidad en ciertas edades
    sobrepeso = np.random.choice([0, 1], cantidad_datos, p=[0.9, 0.1])  # 10% de casos de obesidad
    peso_base = np.random.normal(70, 15, cantidad_datos)  # Distribución normal con media de 70 kg y desviación estándar de 15 kg
    peso = peso_base + sobrepeso * 20  # Añadir 20 kg en caso de obesidad
    # Ajustar el peso basado en la edad
    peso = np.where((edad >= 40) & (edad <= 60), peso + 5, peso)  # Añadir 5 kg para edades entre 40 y 60
    return peso

def generar_altura():
    # Distribución normal con media de 170 cm y desviación estándar de 10 cm
    return np.random.normal(170, 10, cantidad_datos)

def calcular_imc(peso, altura):
    # Fórmula del Índice de Masa Corporal (IMC): peso (kg) / altura (m)^2
    return peso/((altura/100)**2)

def generar_circunferencia_cintura():
    # Distribución normal con media de 90 cm y desviación estándar de 10 cm
    return np.random.normal(90, 10, cantidad_datos)

def generar_circunferencia_cadera():
    # Distribución normal con media de 100 cm y desviación estándar de 10 cm
    return np.random.normal(100, 10, cantidad_datos)

def generar_porcentaje_grasa_corporal():
    # Distribución normal con media de 25% y desviación estándar de 5%
    return np.random.normal(25, 5, cantidad_datos)

def generar_historial_medico_familiar():
    # Simulación de historial médico familiar
    enfermedades = ['Diabetes', 'Hipertensión', 'Cáncer', 'Enfermedades cardiovasculares']
    return [', '.join(np.random.choice(enfermedades, np.random.randint(0, len(enfermedades)), replace=False)) for _ in range(cantidad_datos)]

def generar_nivel_actividad_fisica():
    return np.random.choice(['Sedentario', 'Ligero', 'Moderado', 'Intenso'], cantidad_datos)

def generar_habitos_alimenticios():
    habitos = ['Vegetariano', 'Omnívoro', 'Vegano', 'Pescetariano', 'Keto', 'Paleo']
    return np.random.choice(habitos, cantidad_datos)

def generar_horas_sueño_noche():
    # Distribución normal con media de 7 horas y desviación estándar de 2 hora
    return np.random.normal(17, 1, cantidad_datos)

def generar_nivel_estres_percibido():
    return np.random.randint(1, 11, cantidad_datos)

def generar_consumo_agua_diario():
    # Distribución normal con media de 2 litros y desviación estándar de 0.5 litros
    return np.random.normal(2, 0.5, cantidad_datos)

def generar_consumo_alcohol():
    # Distribución normal con media de 5 unidades por semana y desviación estándar de 3 unidades por semana
    return np.random.normal(5, 3, cantidad_datos)

def generar_consumo_tabaco():
    num_aleatorios = np.random.normal(loc=5, scale=3, size=cantidad_datos)
    CantCigarros=np.round(num_aleatorios).astype(int)
    CantCigarros[CantCigarros < 0] = 0
    return   CantCigarros

def generar_consumo_cafeina():
    # Distribución normal con media de 200 mg por día y desviación estándar de 100 mg por día
    return np.random.normal(200, 100, cantidad_datos)

def generar_enfermedades_cronicas():
    #enfermedades = ['Diabetes', 'Hipertensión', 'Cáncer', 'Enfermedades cardiovasculares', 'Enfermedad renal crónica', 'Enfermedad pulmonar crónica']

    enfermedades = ['Diabetes', 'Hipertensión', 'Cáncer']
    return [', '.join(np.random.choice(enfermedades, np.random.randint(0, len(enfermedades)), replace=False)) for _ in range(cantidad_datos)]

def generar_medicamentos_actuales():
    medicamentos = ['Aspirina', 'Insulina', 'Losartán', 'Atorvastatina', 'Metformina', 'Omeprazol', 'Salbutamol']
    dosis = ['10 mg', '50 mg', '100 mg', '20 mg', '200 UI', '500 mg', '1 tableta']
    return ['{}, {}'.format(np.random.choice(medicamentos), np.random.choice(dosis)) for _ in range(cantidad_datos)]

def generar_metas_perdida_peso():
    # Distribución normal con media de 5 kg y desviación estándar de 3 kg
    return np.random.normal(5, 3, cantidad_datos)

def generar_frecuencia_cardiaca_reposo():
    # Distribución normal con media de 70 latidos por minuto y desviación estándar de 10 latidos por minuto
    return np.random.normal(70, 10, cantidad_datos)

def generar_presion_arterial_sistolica():
    # Distribución normal con media de 120 mmHg y desviación estándar de 10 mmHg
    return np.random.normal(120, 10, cantidad_datos)

def generar_presion_arterial_diastolica():
    # Distribución normal con media de 80 mmHg y desviación estándar de 8 mmHg
    return np.random.normal(80, 8, cantidad_datos)

def generar_niveles_colesterol():
    ldl = np.random.normal(100, 20, cantidad_datos)  # LDL: media de 100 mg/dL, desviación estándar de 20 mg/dL
    hdl = np.random.normal(50, 10, cantidad_datos)  # HDL: media de 50 mg/dL, desviación estándar de 10 mg/dL
    trigliceridos = np.random.normal(150, 30, cantidad_datos)  # Triglicéridos: media de 150 mg/dL, desviación estándar de 30 mg/dL
    return ldl, hdl, trigliceridos

def generar_niveles_glucosa_sangre():
    ayunas = np.random.normal(90, 10, cantidad_datos)  # Niveles de glucosa en ayunas: media de 90 mg/dL, desviación estándar de 10 mg/dL
    postprandial = np.random.normal(120, 20, cantidad_datos)  # Niveles de glucosa postprandial: media de 120 mg/dL, desviación estándar de 20 mg/dL
    return ayunas, postprandial

def generar_sensibilidad_alimentos():
    alimentos = ['Lactosa', 'Gluten', 'Nueces', 'Mariscos', 'Huevo', 'Soja']
    return [', '.join(np.random.choice(alimentos, np.random.randint(0, len(alimentos)), replace=False)) for _ in range(cantidad_datos)]

def generar_nivel_satisfaccion_dieta_actual():
    return np.random.randint(1, 11, cantidad_datos)

def generar_cumplimiento_plan_nutricional():
    return np.random.randint(1, 11, cantidad_datos)

def generar_actividades_fisicas_realizadas():
    actividades = ['Caminar', 'Correr', 'Nadar', 'Bailar', 'Levantamiento de pesas', 'Yoga']
    return [', '.join(np.random.choice(actividades, np.random.randint(1, 4), replace=False)) for _ in range(cantidad_datos)]

def generar_consumo_frutas_verduras():
    # Distribución normal con media de 5 porciones por día y desviación estándar de 2 porciones por día
    return np.random.normal(5, 2, cantidad_datos)

def generar_nivel_conocimiento_nutricion():
    return np.random.choice(['Bajo', 'Medio', 'Alto'], cantidad_datos)

# Generar datos simulados
edades = generar_edad()
data = {
    'Edad': edades,
    'Peso (kg)': generar_peso(edades),
    'Altura (cm)': generar_altura(),
    'IMC': calcular_imc(generar_peso(edades), generar_altura()),
    'Circunferencia de cintura (cm)': generar_circunferencia_cintura(),
    'Circunferencia de cadera (cm)': generar_circunferencia_cadera(),
    'Porcentaje de grasa corporal (%)': generar_porcentaje_grasa_corporal(),
    'Historial médico familiar': generar_historial_medico_familiar(),
    'Nivel de actividad física': generar_nivel_actividad_fisica(),
    'Hábitos alimenticios': generar_habitos_alimenticios(),
    'Horas de sueño por noche': generar_horas_sueño_noche(),
    'Nivel de estrés percibido': generar_nivel_estres_percibido(),
    'Consumo de agua diario (litros)': generar_consumo_agua_diario(),
    'Consumo de alcohol semanal (unidades)': generar_consumo_alcohol(),
    'Consumo de tabaco diario (cigarrillos)': generar_consumo_tabaco(),
    'Consumo de cafeína diario (mg)': generar_consumo_cafeina(),
    'Enfermedades crónicas': generar_enfermedades_cronicas(),
    'Medicamentos actuales': generar_medicamentos_actuales(),
    'Metas de pérdida de peso (kg)': generar_metas_perdida_peso(),
    'Frecuencia cardíaca en reposo (latidos por minuto)': generar_frecuencia_cardiaca_reposo(),
    'Presión arterial sistólica (mmHg)': generar_presion_arterial_sistolica(),
    'Presión arterial diastólica (mmHg)': generar_presion_arterial_diastolica(),
    'Niveles de colesterol (LDL)': generar_niveles_colesterol()[0],
    'Niveles de colesterol (HDL)': generar_niveles_colesterol()[1],
    'Niveles de colesterol (Triglicéridos)': generar_niveles_colesterol()[2],
    'Niveles de glucosa en sangre (Ayunas)': generar_niveles_glucosa_sangre()[0],
    'Niveles de glucosa en sangre (Postprandial)': generar_niveles_glucosa_sangre()[1],
    'Sensibilidad a alimentos': generar_sensibilidad_alimentos(),
    'Nivel de satisfacción con la dieta actual': generar_nivel_satisfaccion_dieta_actual(),
    'Cumplimiento del plan nutricional': generar_cumplimiento_plan_nutricional(),
    'Actividades físicas realizadas': generar_actividades_fisicas_realizadas(),
    'Consumo de frutas y verduras diario (porciones)': generar_consumo_frutas_verduras(),
    'Nivel de conocimiento en nutrición': generar_nivel_conocimiento_nutricion()
}

# SE CREA UN DATAFRAME DE PANDAS
df = pd.DataFrame(data)   #Para el análisis de Random Forest

df.loc[df['Enfermedades crónicas'] == "", ['Enfermedades crónicas']] = "Ninguna enfermeda crónica"

## Columnas a analizar
#Columnas=Muestra_df.columns     ##Todas las columnas del dataframe
Columnas=['Edad',
       'Peso (kg)',
       'Altura (cm)',
       'Circunferencia de cintura (cm)',
       'Porcentaje de grasa corporal (%)',
       'Historial médico familiar',
       'Nivel de actividad física',
       'Nivel de estrés percibido',
       'Consumo de alcohol semanal (unidades)',
       'Consumo de tabaco diario (cigarrillos)',
       'Enfermedades crónicas',
       'Frecuencia cardíaca en reposo (latidos por minuto)'
          ]

df=df[Columnas]

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import OneHotEncoder

## MODELO: Definir los componentes del modelo

X = df.drop(columns=['Enfermedades crónicas'], axis=1).copy()    # Características (vars independientes)
y = df['Enfermedades crónicas'].copy()                   # Variable objetivo (dependiente)

## MODELO: Identificar columnas con variables categóricas
categorical_cols = X.select_dtypes(include=['object']).columns
#categorical_cols

## MODELO: Aplicar codificación one-hot a las variables categóricas
X_encoded = pd.get_dummies(X, columns=categorical_cols)
X_encoded

## MODELO: Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.3, random_state=10)

## MODELO:  Inicializar el clasificador Random Forest y entrenar el modelo
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)    #en este modelo sólo se puede meter en y a variables categóricas
rf_classifier.fit(X_train, y_train)                                          ##Ajuste del modelo

## MODELO: Hacer predicciones en el conjunto de prueba
y_pred = rf_classifier.predict(X_test)

## MODELO: Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

## Modelo:  Imprimir el reporte de clasificación y la matriz de confusión
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

#Crea el pkl para poder utilizar este modelo entrenado en streamlit
joblib.dump(rf_classifier, 'modelo_rf_entrenado.pkl')


Accuracy: 0.3383333333333333

Classification Report:


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


                           precision    recall  f1-score   support

                   Cáncer       0.08      0.01      0.01       337
         Cáncer, Diabetes       0.00      0.00      0.00       169
     Cáncer, Hipertensión       1.00      0.01      0.01       168
                 Diabetes       0.05      0.00      0.01       324
         Diabetes, Cáncer       0.00      0.00      0.00       150
   Diabetes, Hipertensión       0.00      0.00      0.00       152
             Hipertensión       0.05      0.00      0.01       313
     Hipertensión, Cáncer       1.00      0.01      0.01       183
   Hipertensión, Diabetes       0.00      0.00      0.00       172
Ninguna enfermeda crónica       0.34      0.98      0.51      1032

                 accuracy                           0.34      3000
                macro avg       0.25      0.10      0.06      3000
             weighted avg       0.26      0.34      0.18      3000



['modelo_rf_entrenado.pkl']