In [None]:
'''
Datos de enfermedades cardiacas
----------------------------------
Metadatos:
Datos de 303 individuos:
diagnostico: Diagnóstico de enfermedad cardíaca. Muestra si el individuo padece o no una enfermedad cardíaca:
    0 = ausencia
    1, 2, 3, 4 = presente.
edad: Edad del individuo.
sexo: Sexo del individuo, 1 = hombre, 0 = mujer
dolorpecho:Tipo de dolor de pecho experimentado por el individuo:
    1 = angina típica
    2 = angina atípica
    3 = dolor no anginoso
    4 = asintomático
presion: Valor de la presión arterial en reposo de un individuo en mmHg (unidad).
colesterol: Colesterol sérico en mg/dl (unidad).
azcuar: clucosa en sangre en ayunas, en mg/dl. Si la glucosa en sangre en ayunas > 120 mg/dl, entonces: 1 (verdadero)
De lo contrario: 0 (falso)
electrocardiograma: ECG en reposo
    0 = normal
    1 = con anormalidad de la onda ST-T
    2 = hipertrofia ventricular izquierda
ritmo_cardiaco: Frecuencia cardíaca máxima alcanzada: Muestra la frecuencia cardíaca máxima alcanzada por un individuo.
angina: Angina inducida por el ejercicio: 1 = sí, 0 = no
caidast: Depresión del ST inducida por el ejercicio en relación con el reposo. 
pendiente: Segmento ST en el pico del ejercicio: 1 = ascendente 2 = plano 3 = descendente
numerovasos: Número de vasos principales (0-3) coloreados por fluoroscopia.
Talasemia: 3 = normal, 6 = defecto fijo, 7 = defecto reversible

Edad: La edad es el factor de riesgo más importante en el desarrollo de enfermedades cardiovasculares o cardíacas, con aproximadamente un triple de riesgo con cada década de vida. Las estrías grasas coronarias pueden comenzar a formarse en la adolescencia. Se estima que el 82 por ciento de las personas que mueren de enfermedad coronaria tienen 65 años o más. Simultáneamente, el riesgo de accidente cerebrovascular se duplica cada década después de los 55 años.   
Sexo: Los hombres tienen un mayor riesgo de enfermedad cardíaca que las mujeres premenopáusicas. Una vez pasada la menopausia, se ha argumentado que el riesgo de una mujer es similar al de un hombre, aunque datos más recientes de la OMS y la ONU cuestionan esto. Si una mujer tiene diabetes, es más probable que desarrolle una enfermedad cardíaca que un hombre con diabetes.   
Angina (dolor de pecho): La angina es un dolor o malestar en el pecho causado cuando el músculo cardíaco no recibe suficiente sangre rica en oxígeno. Puede sentirse como presión o compresión en el pecho. La molestia también puede ocurrir en los hombros, brazos, cuello, mandíbula o espalda. El dolor de angina puede incluso sentirse como indigestión.
Presión arterial en reposo: Con el tiempo, la presión arterial alta puede dañar las arterias que alimentan el corazón. La presión arterial alta que ocurre con otras afecciones, como la obesidad, el colesterol alto o la diabetes, aumenta aún más su riesgo.
Colesterol sérico: Un nivel alto de colesterol de lipoproteínas de baja densidad (LDL) (el colesterol "malo") es más probable que estreche las arterias. Un nivel alto de triglicéridos, un tipo de grasa en la sangre relacionada con su dieta, también aumenta su riesgo de un ataque cardíaco. Sin embargo, un nivel alto de colesterol de lipoproteínas de alta densidad (HDL) (el colesterol "bueno") reduce su riesgo de un ataque cardíaco.   
Glucosa en sangre en ayunas: No producir suficiente de una hormona secretada por el páncreas (insulina) o no responder a la insulina adecuadamente hace que los niveles de azúcar en la sangre de su cuerpo aumenten, lo que aumenta su riesgo de un ataque cardíaco.
ECG en reposo: Para las personas con bajo riesgo de enfermedad cardiovascular, el USPSTF concluye con certeza moderada que los daños potenciales de la detección con ECG en reposo o en ejercicio igualan o exceden los beneficios potenciales. Para las personas con riesgo intermedio a alto, la evidencia actual es insuficiente para evaluar el equilibrio de beneficios y daños de la detección.
Frecuencia cardíaca máxima alcanzada: El aumento en el riesgo cardiovascular, asociado con la aceleración de la frecuencia cardíaca, fue comparable al aumento en el riesgo observado con la presión arterial alta. Se ha demostrado que un aumento en la frecuencia cardíaca de 10 latidos por minuto se asoció con un aumento en el riesgo de muerte cardíaca de al menos un 20%, y este aumento en el riesgo es similar al observado con un aumento en la presión arterial sistólica de 10 mm Hg.
Angina inducida por el ejercicio: El dolor o malestar asociado con la angina generalmente se siente apretado, opresivo o constrictivo, y puede variar de leve a severo. La angina generalmente se siente en el centro del pecho, pero puede extenderse a uno o ambos hombros, o a la espalda, el cuello, la mandíbula o el brazo. Incluso se puede sentir en las manos. o Tipos de angina a. Angina estable / Angina de pecho b. Angina inestable c. Angina variante (Prinzmetal) d. Angina microvascular.
Segmento ST en el pico del ejercicio: Una prueba de esfuerzo con ECG en cinta rodante se considera anormal 
cuando hay una depresión del segmento ST horizontal o descendente ≥ 1 mm a 60–80 ms después del punto J. 
Los ECG de ejercicio con depresiones del segmento ST ascendentes generalmente se informan como una prueba "equívoca". 
En general, la aparición de una depresión del segmento ST horizontal o descendente a una carga de trabajo más baja 
(calculada en MET) o frecuencia cardíaca indica un peor pronóstico y una mayor probabilidad de enfermedad de múltiples
vasos. La duración de la depresión del segmento ST también es importante, ya que una recuperación prolongada después del pico de estrés es consistente con una prueba de esfuerzo con ECG en cinta rodante positiva. Otro hallazgo que es altamente indicativo de una CAD significativa es la aparición de una elevación del segmento ST > 1 mm (que a menudo sugiere isquemia transmural); estos pacientes con frecuencia son remitidos urgentemente para una angiografía coronaria.
'''

In [None]:
# ==========================================================
# Maestría en Ciencia y Análisis de Datos
# Universidad Mayor de San Andrés
# ----------------------------------------------------------
#           Machine Learning y Deep Learning
# ----------------------------------------------------------
#        Rolando Gonzales Martinez, Agosto 2024
# ==========================================================
#        Arboles de decision y bosques aleatorios
# ==========================================================
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import ConfusionMatrixDisplay, confusion_matrix

In [None]:
# Cargar el conjunto de datos:
url = 'https://raw.githubusercontent.com/rogon666/UMSA/main/AIMLDL/Datos/enfermedades_cardiacas.csv'

# Cargar los datos en un DataFrame
df= pd.read_csv(url)

# Mostrar las primeras filas del DataFrame
print(df.head())

In [None]:
# Evaluando si existen valores missing
df.isnull().sum()

In [None]:
# Pre-procesamiento y preparacion:

# Imputar los valores faltantes
df['talasemia'] = df['talasemia'].fillna(df['talasemia'].mean())
df['numerovasos'] = df['numerovasos'].fillna(df['numerovasos'].mean())

# Preparar los datos para el modelo
X = df.drop('diagnostico', axis=1)
y = df['diagnostico'].map({0: 0, 1: 1, 2: 1, 3: 1, 4: 1})

# Calcular la frecuencia porcentual del target
frequencies = y.value_counts(normalize=True) * 

# Graficar el histograma de frecuencia porcentual
plt.figure(figsize=(4,4))
plt.bar(frequencies.index, frequencies, color='skyblue', edgecolor='black')
plt.title('Histograma del Diagnóstico de enfermedades cardiacas')
plt.xlabel('Diagnóstico (0 = Sin enfermedad, 1 = Con enfermedad)')
plt.ylabel('Porcentaje')
plt.ylim(0, 60)

# Añadir etiquetas de porcentaje en las barras
for index, value in enumerate(frequencies):
    plt.text(index, value + 1, f'{value:.1f}%', ha='center', va='bottom')

plt.xticks([0, 1], ['No Enfermedad', 'Enfermedad'])

plt.show()

In [None]:
# Arbol de decision simple
X_filtered = df[['colesterol','edad']]

# Re-estimar el árbol de decisión con las variables seleccionadas
clf_filtered = DecisionTreeClassifier(max_depth=,
                                      random_state=)
clf_filtered.fit(X_filtered, y)

# Graficar el árbol de decisión con las variables seleccionadas
plt.figure(figsize=(12,8))
plot_tree(clf_filtered, feature_names=['colesterol','edad'], class_names=['No enfermo', 'Enfermo'], filled=True)
plt.show()

In [None]:
# Arbol de decision mas profundo
X_filtered = df[['colesterol','edad', 'presion']]

# Re-estimar el árbol de decisión con las variables seleccionadas
clf_filtered = DecisionTreeClassifier(max_depth=,
                                      random_state=)
clf_filtered.fit(X_filtered, y)

# Graficar el árbol de decisión con las variables seleccionadas
plt.figure(figsize=(12,8))
plot_tree(clf_filtered, feature_names=[ 'colesterol','edad','presion'], class_names=['No enfermo', 'Enfermo'], filled=True)
plt.show()

In [None]:
# Dividir la muestra en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                    test_size=, random_state=)

In [None]:
# Ajustar un modelo de Bosques Aleatorios
rf_clf = RandomForestClassifier(random_state=)
rf_clf.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred = rf_clf.predict(X_test)

# Generar un reporte de clasificación
classification_report_result = classification_report(y_test, y_pred)

# Convertir el reporte de clasificación en un DataFrame para mejor visualización
report_dict = classification_report(y_test, y_pred, output_dict=True)
classification_df = pd.DataFrame(report_dict).transpose()

# Convertir el reporte de clasificación en un DataFrame con etiquetas descriptivas
classification_df_labeled = classification_df.copy()
classification_df_labeled.index = ['No Enfermedad (0)', 'Enfermedad (1)', 'Exactitud (accuracy)', 'Promedio Macro', 'Promedio Ponderado']

# Mostrar el DataFrame con etiquetas
classification_df_labeledS

In [None]:
# Matriz de confusion:
cm = confusion_matrix(y_test, y_pred)
labels = ["0: no enfermo", "1: enfermo"]
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=labels)
# Graficar la matriz de confusión
disp.plot(cmap=plt.cm.Blues)
plt.figure(figsize=(8, 6))
plt.show()

In [None]:
# Graficar la importancia de las características 
plt.figure(figsize=(5, 6))
plt.title("Importancia de las Características (features, X)")
plt.barh(range(X_train.shape[1]), importances[indices], align="center")
plt.yticks(range(X_train.shape[1]), feature_names[indices])
plt.gca().invert_yaxis()  # Para que la característica más importante aparezca arriba
for i in range(X_train.shape[1]):
    plt.text(importances[indices][i], i, f'{importances[indices][i]:.4f}', va='center')

plt.xlabel('Importancia')
plt.xlim(0, 0.15)
plt.show()
