# Regresión logística dataset `Heart Disease`

A continuación se muestra un diccionario de las variables en `Heart Disease`.

## Características

- age: Tipo de variable entero y su unidad de medida son años.
- sex: Tipo de variable categórica. Sus valores son:
  - 1: masculido.
  - 0: femenino.
- cp: Tipo de variable categórica que indica el tipo de dolor en el pecho. Sus valores son:
  - 1: angina típica.
  - 2: angina atípica.
  - 3: dolor no anginoso.
  - 4: asintomático.
- trestbps: Tipo de variable entero. Se refiere a la presión arterial en reposo (al ingresar al hospital) medidos en en $mm\ Hg$.
- chol: Tipo de variable entero. Se refiere a el colesterol sérico medido en $mg/dl$.
- fbs: Tipo de variable categórica. Se refiere a el azúcar en sangre en ayunas mayor a 120 $mg/dl$. Sus valores son:
  - 1: verdadero.
  - 0: falso.
- restecg: Tipo de variable categórica. Se refiere a los resultados electrocardiográficos en reposo. Sus valores son:
  - 0: normal.
  - 1: tener anomalía de la onda ST-T (inversiones de la onda T y/o elevación o depresión del ST > 0,05 $mV$).
  - 2: muestra probable o definitiva hipertrofia ventricular izquierda según los criterios de Estes.
- thalach: Tipo de variable entero. Se refiere a la frecuencia cardíaca máxima alcanzada.
- exang: Tipo de variable categórica. Se refiere a la angina inducida por el ejercicio. Sus valores son:
  - 1: si.
  - 0: no.
- oldpeak: Tipo de variable entero. Se refiere a la depresión del ST inducida por el ejercicio en relación con el reposo.
- slope: Tipo de variable categórica. Se refiere a la pendiente del segmento ST del ejercicio máximo. Sus valores son:
  - 1: pendiente ascendente.
  - 2: plano.
  - 3: pendiente descendente.
- ca: Tipo de variable entero: Se refiere a el número de vasos principales (0-3) coloreados por fluoroscopia.
- thal: Tipo de variable categórica. Sus valores son:
  - 3: normal.
  - 6: defecto arreglado.
  - 7: defecto reversible.

## Target

- num: Tipo de variable categórica. Se refiere al diagnóstico de enfermedad cardíaca (estado de enfermedad angiográfica). Sus valores son:
  - 0: menor que el 50% de estrechamiento del diámetro.
  - 1: mayor que el 50% de estrechamiento del diámetro.

## Limpieza de los datos.

Se comenzarán a reemplazar los valores faltantes con el valor de la moda en las variables categóricas.

In [21]:
data_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data"
columns = ["age",
           "sex",
           "cp",
           "trestbps",
           "chol",
           "fbs",
           "restecg",
           "thalach",
           "exang",
           "oldpeak",
           "slope",
           "ca",
           "thal",
           "target"]
heart_df = pd.read_csv(data_url, header=None, names=columns, na_values="?")

heart_df.head()


Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0


In [22]:
heart_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    float64
 1   sex       303 non-null    float64
 2   cp        303 non-null    float64
 3   trestbps  303 non-null    float64
 4   chol      303 non-null    float64
 5   fbs       303 non-null    float64
 6   restecg   303 non-null    float64
 7   thalach   303 non-null    float64
 8   exang     303 non-null    float64
 9   oldpeak   303 non-null    float64
 10  slope     303 non-null    float64
 11  ca        299 non-null    float64
 12  thal      301 non-null    float64
 13  target    303 non-null    int64  
dtypes: float64(13), int64(1)
memory usage: 33.3 KB


## Imputación de datos

Se imputan los datos categóricos nulos con su moda, se transforman las variables que correspondan a categorías y se harán las debidas variables dummy de ser necesario.


### `ca`


Aunque `ca` no es categórica, no se puede cambiar por su promedio los valores nulos, pues indica un entero, entonces se cambiarán los valores nulos por el valor que sea la moda y se cambiará el tipo de `float64`por `int64`.

In [23]:
heart_df.groupby('ca').agg(Frecuencia=('ca','count'))

Unnamed: 0_level_0,Frecuencia
ca,Unnamed: 1_level_1
0.0,176
1.0,65
2.0,38
3.0,20


El valor para imputaciones será el 0.

In [24]:
heart_df['ca'].fillna(0,inplace=True)
heart_df['ca'].unique()

array([0., 3., 2., 1.])

In [25]:
heart_df['ca'].isnull().sum()

0

Cambio a objeto.

In [26]:
heart_df['ca'] = heart_df['ca'].astype('int64')
heart_df['ca'].unique()

array([0, 3, 2, 1])

### `thal`

In [27]:
heart_df.groupby('thal').agg(Frecuencia=('thal','count'))

Unnamed: 0_level_0,Frecuencia
thal,Unnamed: 1_level_1
3.0,166
6.0,18
7.0,117


La moda será 3.

In [28]:
heart_df['thal'].fillna(3,inplace=True)
heart_df['thal'].isnull().sum()

0

Cambio a objeto.

In [29]:
heart_df['thal'] = heart_df['thal'].astype('int64').astype('object')
heart_df['thal'].unique()

array([6, 3, 7], dtype=object)

## Cambio a tipo `object` al resto de variables categóricas no binarias

In [30]:
heart_df[['cp','restecg','slope']] = heart_df[['cp','restecg','slope']].astype('object')
heart_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    float64
 1   sex       303 non-null    float64
 2   cp        303 non-null    object 
 3   trestbps  303 non-null    float64
 4   chol      303 non-null    float64
 5   fbs       303 non-null    float64
 6   restecg   303 non-null    object 
 7   thalach   303 non-null    float64
 8   exang     303 non-null    float64
 9   oldpeak   303 non-null    float64
 10  slope     303 non-null    object 
 11  ca        303 non-null    int64  
 12  thal      303 non-null    object 
 13  target    303 non-null    int64  
dtypes: float64(8), int64(2), object(4)
memory usage: 33.3+ KB


## Cambio de tipo `float64` a `int64` a las variables que correspondan.

In [31]:
heart_df[['age','trestbps','chol','thalach','oldpeak']] = heart_df[['age','trestbps','chol','thalach','oldpeak']].astype('int64')
heart_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    int64  
 1   sex       303 non-null    float64
 2   cp        303 non-null    object 
 3   trestbps  303 non-null    int64  
 4   chol      303 non-null    int64  
 5   fbs       303 non-null    float64
 6   restecg   303 non-null    object 
 7   thalach   303 non-null    int64  
 8   exang     303 non-null    float64
 9   oldpeak   303 non-null    int64  
 10  slope     303 non-null    object 
 11  ca        303 non-null    int64  
 12  thal      303 non-null    object 
 13  target    303 non-null    int64  
dtypes: float64(3), int64(7), object(4)
memory usage: 33.3+ KB


## Cambiar los valores y el tipo de variable a `target`

En este caso, la variable `target` es de tipo `int64`, pero esta variable es categórica y debe solo tomar valores 0 o 1. Por tanto, los valores que sean diferentes a 1 se cambiarán por la categoría 1.

In [32]:
heart_df['target'] = heart_df['target'].replace(range(1,5),1)
heart_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    int64  
 1   sex       303 non-null    float64
 2   cp        303 non-null    object 
 3   trestbps  303 non-null    int64  
 4   chol      303 non-null    int64  
 5   fbs       303 non-null    float64
 6   restecg   303 non-null    object 
 7   thalach   303 non-null    int64  
 8   exang     303 non-null    float64
 9   oldpeak   303 non-null    int64  
 10  slope     303 non-null    object 
 11  ca        303 non-null    int64  
 12  thal      303 non-null    object 
 13  target    303 non-null    int64  
dtypes: float64(3), int64(7), object(4)
memory usage: 33.3+ KB


## Cambiar a tipo `bool`a las variables categóricas binarias

In [33]:
heart_df[['sex','fbs','exang']] = heart_df[['sex','fbs','exang']].astype('bool')
heart_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   age       303 non-null    int64 
 1   sex       303 non-null    bool  
 2   cp        303 non-null    object
 3   trestbps  303 non-null    int64 
 4   chol      303 non-null    int64 
 5   fbs       303 non-null    bool  
 6   restecg   303 non-null    object
 7   thalach   303 non-null    int64 
 8   exang     303 non-null    bool  
 9   oldpeak   303 non-null    int64 
 10  slope     303 non-null    object
 11  ca        303 non-null    int64 
 12  thal      303 non-null    object
 13  target    303 non-null    int64 
dtypes: bool(3), int64(7), object(4)
memory usage: 27.1+ KB


## Generación de variables dummy

Se crean las variables dummy para las variables categóricas no binarias

In [34]:
heart_df = pd.get_dummies(heart_df, columns=['cp', 'restecg', 'slope', 'thal'], drop_first=True)
heart_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 19 columns):
 #   Column       Non-Null Count  Dtype
---  ------       --------------  -----
 0   age          303 non-null    int64
 1   sex          303 non-null    bool 
 2   trestbps     303 non-null    int64
 3   chol         303 non-null    int64
 4   fbs          303 non-null    bool 
 5   thalach      303 non-null    int64
 6   exang        303 non-null    bool 
 7   oldpeak      303 non-null    int64
 8   ca           303 non-null    int64
 9   target       303 non-null    int64
 10  cp_2.0       303 non-null    bool 
 11  cp_3.0       303 non-null    bool 
 12  cp_4.0       303 non-null    bool 
 13  restecg_1.0  303 non-null    bool 
 14  restecg_2.0  303 non-null    bool 
 15  slope_2.0    303 non-null    bool 
 16  slope_3.0    303 non-null    bool 
 17  thal_6       303 non-null    bool 
 18  thal_7       303 non-null    bool 
dtypes: bool(12), int64(7)
memory usage: 20.2 KB


## Creación conjunto etiqueta y características

In [35]:
X = heart_df[[col for col in heart_df.columns if col != 'target']]
y = heart_df['target']

## Creación de conjuntos de entrenamiento y prueba

In [36]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Entrenamiento del modelo de regresión logística

In [37]:
y_train

132    0
202    0
196    0
75     0
176    0
      ..
188    1
71     1
106    1
270    1
102    0
Name: target, Length: 242, dtype: int64

In [38]:
model = LogisticRegression().fit(X_train,y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


## Predicciones en prueba

In [39]:
y_pred = model.predict(X_test)

## Métricas del modelo



In [41]:
conf_matrix = confusion_matrix(y_test, y_pred)
print("Matriz de confusión:\n", conf_matrix)


Matriz de confusión:
 [[26  3]
 [ 4 28]]


Calculando las métricas por categoría y el modelo total tenemos:

In [42]:
class_report = classification_report(y_test, y_pred)
print("Informe de clasificación:\n", class_report)

Informe de clasificación:
               precision    recall  f1-score   support

           0       0.87      0.90      0.88        29
           1       0.90      0.88      0.89        32

    accuracy                           0.89        61
   macro avg       0.88      0.89      0.89        61
weighted avg       0.89      0.89      0.89        61



Por tanto, la precisión del modelo es del 89%, lo que indica que el modelo es adecuado para predecir con baja incertidumbre el diagnóstico de enfermedad cardíaca a partir de las características medidas al paciente.