# **Analisis DataSet - Heart Atack**

**Aim :** predecir el resultado de un ataque cardíaco

Features:

**Age :** Edad del paciente

**Sex :** Sexo del paciente.

**cp :** tipo de dolor en el pecho:

Valor 0: angina típica

Valor 1: angina atípica

Valor 2: dolor no anginoso

Valor 3: asintomático


**trtbps :** presión arterial en reposo (en mm Hg)

**chol :** colesterol en mg/dl obtenido mediante el sensor de IMC

**fbs :** (azúcar en sangre en ayunas > 120 mg/dl)

1 = verdadero

0 = falso

**rest_ecg :** resultados electrocardiográficos en reposo:

Valor 0: normal

Valor 1: tener anomalía de la onda ST-T (inversiones de la onda T y/o elevación o depresión del ST > 0,05 mV)

Valor 2: muestra hipertrofia ventricular izquierda probable o definitiva según los criterios de Estes

**thalach :** frecuencia cardíaca máxima alcanzada.

**exang :** angina inducida por el ejercicio:

1 = si

0 = no

**oldpeak :** depresión del ST inducida por el ejercicio en relación con el reposo.

Depresión del ST: un tipo de anomalía del segmento ST. El segmento ST es la parte plana e isoeléctrica del ECG y representa el intervalo entre la despolarización y la repolarización ventricular.


**slp :** la pendiente del segmento ST del ejercicio máximo

0 = sin pendiente

1 = plano

2 = descendente

**caa :** number of major vessels (0-3)
thall - Thalium Stress Test result ~ (0,3)
caa : número de vasos principales (0-3) thall - Resultado de la prueba de esfuerzo con talio ~ (0,3)

**thall :** Talasemia(es un trastorno sanguíneo genético que se caracteriza por una tasa de hemoglobina más baja de lo normal.)

0 = nulo

1 = defecto reparado

2 = normales

3 = defecto reversible

**output :** diagnóstico de enfermedad cardíaca (estado de enfermedad angiográfica)

0: < 50% de estrechamiento del diámetro. menos posibilidades de enfermedad cardíaca

1: > 50% de estrechamiento del diámetro. más posibilidades de sufrir enfermedades cardíacas

# Librerías

In [None]:
pip install ydata-profiling

Collecting ydata-profiling
  Downloading ydata_profiling-4.5.1-py2.py3-none-any.whl (357 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/357.3 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━[0m [32m163.8/357.3 kB[0m [31m4.9 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m357.3/357.3 kB[0m [31m6.2 MB/s[0m eta [36m0:00:00[0m
Collecting visions[type_image_path]==0.7.5 (from ydata-profiling)
  Downloading visions-0.7.5-py3-none-any.whl (102 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m102.7/102.7 kB[0m [31m9.8 MB/s[0m eta [36m0:00:00[0m
Collecting htmlmin==0.1.12 (from ydata-profiling)
  Downloading htmlmin-0.1.12.tar.gz (19 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting phik<0.13,>=0.11.1 (from ydata-profiling)
  Downloading phik-0.12.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (679 k

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import plotly.express as px


from ydata_profiling import ProfileReport


# Reporte

In [None]:
#https://github.com/monsegutier/Grupo4-PP1--Proyecto-ML/blob/main/heart.csv
github_url = 'https://raw.githubusercontent.com/monsegutier/Grupo4-PP1--Proyecto-ML/blob/main/heart.csv'

df = pd.read_csv(github_url)


HTTPError: ignored

HTTPError: ignored

# Nueva sección

In [None]:
# Reporte de Data Profiling
profile = ProfileReport(df,title="HeartAtack Profile Report")
profile.to_file("report.html")

In [None]:
# Reporte
profile

In [None]:
# Primeros 5 valores
df.head(5)

In [None]:
df.info()

In [None]:
df.rename(columns = {"cp":"ChestPainType",
                     "trtbps":"RestingBP",
                     "fbs":"FastingBS",
                     "restecg":"RestingECG",
                     "thalachh":"MaxHR",
                     "exng":"ExerciseAngina",
                     "slp":"Slope",
                     "caa":"MajorVessels",
                     "thall":"StressTest"}, inplace=True)

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.shape

# Limpieza de datos

In [None]:
df.isnull().sum() #(no contiene valores nulos)

Identificacion de valores duplicados

In [None]:
df.duplicated().sum()  #(contiene un valor duplicado)

In [None]:
df.drop_duplicates(inplace=True)

In [None]:
df.duplicated().sum()

Exportamos el dataframe filtrado

In [None]:
df.to_csv('heart_dataset.csv')

In [None]:
df.value_counts()

In [None]:
df.hist(figsize=(10,8))

In [None]:
matriz = df.corr()
print (matriz)

**Mapa de calor**

In [None]:
fig, ax = plt.subplots(figsize=(10, 8))

cax = ax.matshow(matriz, cmap="bwr", vmin=-1, vmax=1)

ax.set_xticks(np.arange(len(df.columns)))
ax.set_yticks(np.arange(len(df.columns)))
ax.set_xticklabels(df.columns, rotation=90)
ax.set_yticklabels(df.columns)


for i in range(len(df.columns)):
    for j in range(len(df.columns)):
        text = ax.text(j, i, round(matriz.iloc[i, j], 2),
                       ha="center", va="center", color="black", fontsize=10)

cbar = fig.colorbar(cax)

plt.tight_layout()

plt.show()

In [None]:
#Creacion copia del Dataset para usar en visualizacion
visual_data = df.copy()
visual_data.head(5)

In [None]:
#Creating bins and labels
bins = [17,30,45,100]
labels = ['Adultos_jovenes','Adultos_mediana_edad','Adultos_mayores']
df['age'] = pd.cut(df['age'],bins = bins, labels = labels)

In [None]:
plt.figure(figsize=(10,8))
sns.histplot(df['age'])

In [None]:
bins = [0, 120, 130, 140, 200]
labels = ['Presión sanguínea normal', 'Presión sanguínea elevada', 'Presión sanguínea muy elevada', 'Presión sanguínea límite']

# Restringimos los datos al rango de los bins
df['RestingBP'] = pd.cut(df['RestingBP'], bins=bins, labels=labels)


In [None]:

plt.figure(figsize=(10, 8))
ax = sns.histplot(df['RestingBP'])

# Rotamos las etiquetas del eje x en 45 grados para mejorar la legibilidad
ax.set_xticklabels(ax.get_xticklabels(), rotation=45, horizontalalignment='right')

plt.show()

In [None]:

bins = [126,200,240,564]
labels = ['Colesterol_optimo','Colesterol_intermedio','Colesterol_alto']
df['chol'] = pd.cut(df['chol'],bins = bins, labels = labels)

In [None]:
plt.figure(figsize=(10,8))
sns.histplot(df['chol'])

Graficos de torta

In [None]:
normal_chol = df.loc[df['chol']=='Colesterol_optimo']
elvate_chol = df.loc[df['chol']=='Colesterol_intermedio']
high_chol = df.loc[df['chol']=='Colesterol_alto']


normal_bp = df.loc[df['RestingBP']=='Presión sanguínea normal']
elvate_bp = df.loc[df['RestingBP']=='Presión sanguínea elevada']
high_bp = df.loc[df['RestingBP']=='Presión sanguínea muy elevada']
vhigh_bp = df.loc[df['RestingBP']=='Presión sanguínea límite']

In [None]:
value = [len(normal_bp),len(elvate_bp),len(high_bp),len(vhigh_bp)]
name = ['Presión sanguínea normal','Presión sanguínea elevada','Presión sanguínea muy elevada','Presión sanguínea límite']

value2 = [len(normal_chol),len(elvate_chol),len(high_chol)]
name2 = ['Colesterol_optimo','Colesterol_intermedio','Colesterol_alto']



In [None]:
px.pie(values = value,names=name,title= "Presion sanguinea de los pacientes")

In [None]:
px.pie(values = value2,names=name2,title= "Niveles de colesterol de los pacientes")

Análisis de datos explicativos
Algunas ideas útiles tanto para empresas como para empresas de investigación farmacéutica:
1. Según las lecturas del gráfico circular, el 32,1% de los pacientes tienen presión arterial normal, mientras que el 24,5% de los pacientes tienen presión arterial elevada y el 43,4% de los pacientes tienen presión arterial alta.

2. Según las lecturas del gráfico circular, el 16,3% de los pacientes tienen niveles de colesterol normales, mientras que el 33,6% de los pacientes tienen niveles de colesterol intermedios y el 50,2% de los pacientes tienen niveles de colesterol altos.

3. Según nuestro diagrama de caja, podemos inferir que el pico antiguo promedio para la pendiente del segmento ST del ejercicio máximo del tipo 1 es el más alto y el del tipo 3 el más bajo.

4. Según nuestros gráficos de barras, podemos estar seguros de que los adultos mayores tienen niveles de colesterol más altos que los adultos de mediana edad y los más jóvenes.

5. Según nuestros gráficos de barras, podemos estar seguros de que los adultos mayores tienen presión arterial muy alta en comparación con los adultos de mediana edad y los más jóvenes.

6. Según nuestros gráficos de barras, podemos estar seguros de que los adultos mayores tienen niveles altos de colesterol y, por lo tanto, niveles altos de presión arterial y es probable que sean más propensos a sufrir un ataque cardíaco en comparación con los adultos de mediana edad y más jóvenes.


# Regresión logística

In [None]:
df_dataset = pd.read_csv("heart_dataset.csv")

In [None]:
df_dataset.shape

In [None]:
df_dataset.head(2)

In [None]:
df_dataset = df_dataset.drop(['Unnamed: 0'], axis=1)

In [None]:
df_dataset.head(2)

In [None]:
#creamos la variable objetivo
df_dataset['output'].value_counts()

In [None]:
X = df_dataset.drop(['output'], axis=1)
y = df_dataset['output']

In [None]:
from sklearn.linear_model import LogisticRegression
logit = LogisticRegression(max_iter = 10000, verbose = 0)

In [None]:
print(logit.fit(X,y))
print(logit.score(X,y))

In [None]:
# dividir X e y en sets de entrenamiento y de prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 0)

In [None]:
# comprobar X_train y X_test
X_train.shape, X_test.shape

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
# entrenamos un modelo de regresión logística en el conjunto de entrenamiento
from sklearn.linear_model import LogisticRegression

# instanciamos el modelo
logreg = LogisticRegression(solver='liblinear', random_state=0)

# modelo
logreg.fit(X_train, y_train)

print(logreg.score(X_test, y_test))

In [None]:
y_pred_test = logreg.predict(X_test)

# Métricas

In [None]:
from sklearn.metrics import accuracy_score
print('Model accuracy score: {0:0.4f}'. format(accuracy_score(y_test, y_pred_test)))

Matriz de confusión


In [None]:
# Matriz de confusión
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred_test)
print('Confusion matrix\n\n', cm)


In [None]:
# visualizar confusion matrix with seaborn heatmap

cm_matrix = pd.DataFrame(data=cm, columns=['Actual Positive:1', 'Actual Negative:0'],
                                 index=['Predict Positive:1', 'Predict Negative:0'])

sns.heatmap(cm_matrix, annot=True, fmt='d', cmap='YlGnBu')

*Balanceamos *

In [None]:
from sklearn.utils import resample

In [None]:
df_dataset['output'].value_counts()

In [None]:
# Separamos las clases
df_majority = df_dataset[df_dataset.output==1]
df_minority = df_dataset[df_dataset.output==0]

# Upsample minority class
df_majority_upsampled = resample(df_majority,
                                 replace=True,     # sample with replacement
                                 n_samples=138,    # to match majority class
                                 random_state=0) # reproducible results

# Combinamos majority class con upsampled minority class
df_upsampled = pd.concat([df_minority, df_majority_upsampled])


In [None]:
df_upsampled.head(2)

In [None]:
df_upsampled.output.value_counts()

In [None]:
X = df_upsampled.drop(['output'], axis=1)
y = df_upsampled['output']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 0)

In [None]:
# chequeamos
X_train.shape, X_test.shape

In [None]:
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
# instanciamos con matriz balanceada
logreg = LogisticRegression(solver='liblinear', random_state=0)
# modelo
logreg.fit(X_train, y_train)

In [None]:
y_pred_test = logreg.predict(X_test)

In [None]:
from sklearn.metrics import accuracy_score
print('Model accuracy score: {0:0.4f}'. format(accuracy_score(y_test, y_pred_test)))

In [None]:
# Matriz de confusión
#from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred_test)
print('Confusion matrix\n\n', cm)

In [None]:
# visualize confusion matrix with seaborn heatmap
cm_matrix = pd.DataFrame(data=cm, columns=['Actual Positive:1', 'Actual Negative:0'],
                                 index=['Predict Positive:1', 'Predict Negative:0'])

sns.heatmap(cm_matrix, annot=True, fmt='d', cmap='YlGnBu')

In [None]:
#Informe de clasificación
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred_test))

In [None]:
#Precisión de la clasificación
TP = cm[0,0]
TN = cm[1,1]
FP = cm[0,1]
FN = cm[1,0]

In [None]:
classification_error = (FP + FN) / float(TP + TN + FP + FN)
print('Classification error : {0:0.4f}'.format(classification_error))
precision = TP / float(TP + FP)
print('Precision : {0:0.4f}'.format(precision))
recall = TP / float(TP + FN)
print('Recall or Sensitivity : {0:0.4f}'.format(recall))
false_positive_rate = FP / float(FP + TN)
print('False Positive Rate : {0:0.4f}'.format(false_positive_rate))
specificity = TN / (TN + FP)
print('Specificity : {0:0.4f}'.format(specificity))

false positive: se define como el ratio entre el número de falsos positivos y el número de negativos (reales).
Lógicamente, el clasificador ideal tendría un FPR de cero (pues no tendría falsos positivos),
y el peor clasificador posible tendría un FPR de uno (todos los negativos reales serían identificados erróneamente como positivos)

In [None]:
y_test.value_counts()

In [None]:
# comprobar la precisión nula
null_accuracy = (45/(45+46))
print('Null accuracy score: {0:0.4f}'. format(null_accuracy))

In [None]:
from sklearn.metrics import balanced_accuracy_score, f1_score

# Calcular la precisión balanceada
balanced_accuracy = balanced_accuracy_score(y_test, y_pred_test)
balanced_accuracy

In [None]:
# Calcular la medida F1
f1 = f1_score(y_test, y_pred_test)
f1

ROC

In [None]:
from sklearn.metrics import roc_curve, auc

# Calcular las probabilidades de la clase positiva
y_score = logreg.predict_proba(X_test)[:,1]

# Calcular los puntos para la curva ROC
fpr, tpr, _ = roc_curve(y_test, y_score)

# Calcular el área bajo la curva (AUC)
roc_auc = auc(fpr, tpr)

# Dibujar la curva ROC
plt.figure()
plt.plot(fpr, tpr, lw=2, label='Curva ROC (área = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Tasa de falsos positivos')
plt.ylabel('Tasa de verdaderos positivos')
plt.title('Curva ROC')
plt.legend(loc="lower right")
plt.show()

# Evaluación


In [None]:
# calculate cross-validated ROC AUC
from sklearn.model_selection import cross_val_score
Cross_validated_ROC_AUC = cross_val_score(logreg, X_train, y_train, cv=5, scoring='roc_auc').mean()
print('Cross validated ROC AUC : {:.4f}'.format(Cross_validated_ROC_AUC))

In [None]:
# Validación cruzada k-fold
# Aplicación de la validación cruzada por quintuplicado

scores = cross_val_score(logreg, X_train, y_train, cv = 5, scoring='accuracy')
print('Cross-validation scores:{}'.format(scores))

In [None]:
#Podemos resumir la precisión de la validación cruzada calculando su media.
print('Average cross-validation score: {:.4f}'.format(scores.mean()))

Chequeamos overfitting y underfitting

In [None]:
#Comparamos la precisión del conjunto de entrenamiento y del conjunto de prueba.
y_pred_train = logreg.predict(X_train)


In [None]:
# print the scores on training and test set
print('Training set score: {:.4f}'.format(logreg.score(X_train, y_train)))
print('Test set score: {:.4f}'.format(logreg.score(X_test, y_test)))

Best params

In [None]:
from sklearn.model_selection import GridSearchCV

parametros= {
    "penalty" : ['l1','l2'],
    'C':np.logspace(-3,3,7),
}

clf = GridSearchCV(logreg, parametros, scoring="accuracy",cv=25)
clf.fit(X_train, y_train)
print('Hiperparámetros: ', clf.best_params_)
print(clf.best_score_)
print('\n\nEstimador elegido:','\n\n', (clf.best_estimator_))
print('Puntuación del CV de GridSearch en test set: {0:0.4f}'.format(clf.score(X_test, y_test)))


La precisión de la prueba de nuestro modelo original es de 0,8434, mientras que la precisión de GridSearch CV es de 0,8434. Podemos ver que GridSearch CV no mejora el rendimiento de este modelo en particular.