

# EDEM MDA A 2023-2024 Data Project 3

# 1. El problema del negocio

**Clasificación de Enfermedad Cardíaca**

Este proyecto de datos tiene como objetivo la detección de enfermedad cardiaca mediante el análisis de un conjunto de datos que contiene información sobre múltiples pacientes con diferentes grados de enfermedad o ausencia de la misma.

Esta tarea parece sencilla, sin embargo, debemos ser conscientes de la importancia de proporcionar una solución a este tipo de problemas y el gran avance que supone en la práctica clínica. La detección temprana de enfermedades cardiovasculares en el momento del ingreso o la consulta médica puede salvar o mejorar la calidad de vida de los pacientes, por ello, desarrollar modelos precisos y eficientes puede ayudar a los profesionales médicos en la toma de decisiones clínicas y en la personalización de los tratamientos.

Este desafío consiste en entrenar un modelo de aprendizaje automático que pueda predecir la presencia de enfermedad en el corazón basándose en las características recogidas en diferentes pruebas médicas como variables clínicas.

#2. El set de datos

**Etiquetas**

El conjunto de datos se proporciona en formato CSV (train.csv) y contiene información sobre 732 pacientes con diferentes grados de enfermedad (1-4) o ausencia de la misma (0). Este dato puede obtenerse de la columna 'label'.

**Características**

Además, el conjunto de datos está compuesto por 13 características adicionales que describen las condiciones de salud de cada uno de los pacientes. Estas características se describen a continuación:


1. **age**: Edad del paciente
  - Rango de edades de la muestra 27-77 años. En formato XX.X
  Por ejemplo: 27.0
2. **sex**: Sexo del paciente
  - 1: Sexo masculino
  - 0: Sexo femenino
3. **cp**: Tipo de dolor de pecho
  - 1: Angina típica
  - 2: Angina atípica
  - 3: Dolor no-anginoso
  - 4: Asintomático
4. **trestbps**: Presión arterial en reposo (en mm Hg al ingreso en el hospital)
5. **chol**: Colesterol sérico en mg/dl
6. **fbs**: Dolor provocado por el esfuerzo (1 = sí; 0 = no)
7. **restecg**: Resultados electrocardiográficos en reposo
  - 0: Normal
  - 1: Presenta anormalidad de la onda ST-T
  - 2: Presenta probable o definida hipertrofia ventricular izquierda
8. **thalach**: Frecuencia cardíaca en reposo
9. **exang**: Angina inducida por el ejercicio (1 = sí; 0 = no)
10. **oldpeak**: Depresión del ST inducida por el ejercicio en relación con el reposo
11. **slope**: La pendiente del segmento ST en ejercicio máximo
  - 1: Pendiente ascendente
  - 2: Plano
  - 3: Pendiente descendente
12. **ca**: Número de vasos mayores (0-3) coloreados por fluoroscopia
13. **thal**:
  - 3: Normal
  - 6: Defecto fijo
  - 7: Defecto reversible

#3. Evaluación

**Evaluación**

El F1-score es una métrica de evaluación del rendimiento de un modelo de clasificación que combina las métricas de precisión y recall en una única medida de desempeño.

La precisión (precision) mide la proporción de verdaderos positivos (TP) sobre la suma de verdaderos positivos y falsos positivos (FP), es decir, mide la proporción de casos positivos identificados correctamente sobre el total de casos positivos identificados.

Por otro lado, el recall (sensibilidad) mide la proporción de verdaderos positivos (TP) sobre la suma de verdaderos positivos y falsos negativos (FN), es decir, mide la proporción de casos positivos identificados correctamente sobre el total de casos positivos presentes en la muestra.

El valor del F1-score oscila entre 0 y 1, siendo 1 el valor óptimo que indica una predicción perfecta del modelo. En general, cuanto mayor sea el valor del F1-score, mejor será el rendimiento del modelo para clasificar correctamente los casos positivos y negativos. El F1-score es particularmente útil cuando las clases están desequilibradas en la muestra, ya que combina la precisión y el recall para proporcionar una evaluación más equilibrada del rendimiento del modelo.

El F1-score es la media armónica (una medida estadística para combinar valores) de la precisión y el recall, y se calcula como:

**F1-score = 2 * (precision * recall) / (precision + recall)**

#4. Dataset

In [21]:
# Importar librerías
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [40]:
data_train = pd.read_csv('train.csv')

In [41]:
for columna in data_train.columns:
    count = (data_train[columna] == '?').sum()
    print(f"Número de '?' en la columna '{columna}': {count}")

Número de '?' en la columna 'age': 0
Número de '?' en la columna 'sex': 0
Número de '?' en la columna 'cp': 0
Número de '?' en la columna 'trestbps': 47
Número de '?' en la columna 'chol': 5
Número de '?' en la columna 'fbs': 58
Número de '?' en la columna 'restecg': 0
Número de '?' en la columna 'thalach': 44
Número de '?' en la columna 'exang': 44
Número de '?' en la columna 'oldpeak': 49
Número de '?' en la columna 'slope': 95
Número de '?' en la columna 'ca': 249
Número de '?' en la columna 'thal': 169
Número de '?' en la columna 'label': 0


In [42]:
# Rango de edades 27-77
data_train.describe()

Unnamed: 0,age,sex,cp,restecg,label
count,732.0,732.0,732.0,732.0,732.0
mean,53.364754,0.789617,3.25,0.602459,1.132514
std,9.306868,0.407859,0.923363,0.802966,1.257615
min,28.0,0.0,1.0,0.0,0.0
25%,47.0,1.0,3.0,0.0,0.0
50%,54.0,1.0,4.0,0.0,1.0
75%,60.0,1.0,4.0,1.0,2.0
max,76.0,1.0,4.0,2.0,4.0


In [46]:
columns = data_train.columns
for column in columns:
    data_train[column] = data_train[column].replace('?', None)
    data_train[column] = data_train[column].astype(float)
    data_train[column] = data_train[column].apply(lambda x: None if x < 0 else x)

data_train

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_train[column] = data_train[column].replace('?', None)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_train[column] = data_train[column].astype(float)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_train[column] = data_train[column].apply(lambda x: None if x < 0 else x)
A value is try

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,label
0,51.0,1.0,1.0,125.0,213.0,0.0,2.0,125.0,1.0,1.4,1.0,1.0,3.0,0.0
1,54.0,1.0,3.0,120.0,237.0,0.0,0.0,150.0,1.0,1.5,,,7.0,2.0
3,52.0,0.0,2.0,140.0,,0.0,0.0,140.0,0.0,0.0,,,,0.0
4,55.0,1.0,4.0,140.0,217.0,0.0,0.0,111.0,1.0,5.6,3.0,0.0,7.0,3.0
5,44.0,1.0,4.0,120.0,169.0,0.0,0.0,144.0,1.0,2.8,3.0,0.0,6.0,2.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
723,42.0,1.0,4.0,136.0,315.0,0.0,0.0,125.0,1.0,1.8,2.0,0.0,6.0,2.0
726,52.0,1.0,1.0,152.0,298.0,1.0,0.0,178.0,0.0,1.2,2.0,0.0,7.0,0.0
727,46.0,1.0,3.0,120.0,230.0,0.0,0.0,150.0,0.0,0.0,,,,0.0
729,43.0,0.0,3.0,122.0,213.0,0.0,0.0,165.0,0.0,0.2,2.0,0.0,3.0,0.0


In [47]:
data_train = data_train.dropna()
data_train

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,label
0,51.0,1.0,1.0,125.0,213.0,0.0,2.0,125.0,1.0,1.4,1.0,1.0,3.0,0.0
4,55.0,1.0,4.0,140.0,217.0,0.0,0.0,111.0,1.0,5.6,3.0,0.0,7.0,3.0
5,44.0,1.0,4.0,120.0,169.0,0.0,0.0,144.0,1.0,2.8,3.0,0.0,6.0,2.0
6,35.0,1.0,2.0,122.0,192.0,0.0,0.0,174.0,0.0,0.0,1.0,0.0,3.0,0.0
11,64.0,1.0,4.0,120.0,246.0,0.0,2.0,96.0,1.0,2.2,3.0,1.0,3.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
722,52.0,1.0,2.0,120.0,325.0,0.0,0.0,172.0,0.0,0.2,1.0,0.0,3.0,0.0
723,42.0,1.0,4.0,136.0,315.0,0.0,0.0,125.0,1.0,1.8,2.0,0.0,6.0,2.0
726,52.0,1.0,1.0,152.0,298.0,1.0,0.0,178.0,0.0,1.2,2.0,0.0,7.0,0.0
729,43.0,0.0,3.0,122.0,213.0,0.0,0.0,165.0,0.0,0.2,2.0,0.0,3.0,0.0


In [48]:
data_train.describe()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,label
count,246.0,246.0,246.0,246.0,246.0,246.0,246.0,246.0,246.0,246.0,246.0,246.0,246.0,246.0
mean,54.308943,0.686992,3.138211,131.345528,246.617886,0.162602,0.99187,149.739837,0.337398,1.063415,1.617886,0.691057,4.829268,0.930894
std,8.903684,0.464663,0.96743,17.871837,52.710301,0.369754,0.993825,23.221678,0.473786,1.17888,0.626234,0.948727,1.953364,1.19493
min,29.0,0.0,1.0,94.0,100.0,0.0,0.0,90.0,0.0,0.0,1.0,0.0,3.0,0.0
25%,48.0,0.0,2.25,120.0,211.25,0.0,0.0,132.25,0.0,0.0,1.0,0.0,3.0,0.0
50%,56.0,1.0,3.0,130.0,241.5,0.0,1.0,152.5,0.0,0.8,2.0,0.0,3.0,0.0
75%,60.0,1.0,4.0,140.0,277.0,0.0,2.0,168.0,1.0,1.8,2.0,1.0,7.0,2.0
max,76.0,1.0,4.0,200.0,564.0,1.0,2.0,202.0,1.0,6.2,3.0,3.0,7.0,4.0


In [49]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

X = data_train.drop('label', axis=1)  # Eliminamos la columna 'label' para obtener las características
y = data_train['label']  # Definimos 'label' como nuestra variable objetivo

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [50]:
# Inicializar el modelo de Bosques Aleatorios
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)

# Entrenar el modelo
rf_model.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred = rf_model.predict(X_test)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Mostrar el reporte de clasificación
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

# Mostrar la matriz de confusión
print("\nConfusion Matrix:")
print(confusion_matrix(y_test, y_pred))

Accuracy: 0.7

Classification Report:
              precision    recall  f1-score   support

         0.0       0.85      0.97      0.90        29
         1.0       0.25      0.14      0.18         7
         2.0       0.57      0.67      0.62         6
         3.0       0.33      0.29      0.31         7
         4.0       0.00      0.00      0.00         1

    accuracy                           0.70        50
   macro avg       0.40      0.41      0.40        50
weighted avg       0.64      0.70      0.67        50


Confusion Matrix:
[[28  1  0  0  0]
 [ 3  1  0  3  0]
 [ 1  0  4  1  0]
 [ 1  1  3  2  0]
 [ 0  1  0  0  0]]


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [51]:
y_pred

array([0., 0., 0., 0., 0., 2., 0., 0., 3., 2., 0., 3., 0., 1., 0., 1., 3.,
       1., 0., 0., 2., 2., 0., 0., 0., 0., 0., 0., 2., 0., 0., 0., 1., 0.,
       0., 0., 2., 3., 0., 0., 2., 0., 0., 0., 0., 3., 3., 0., 0., 0.])