## TAREA 1 A

# 1. Selección de Dataset

El dataset seleccionado se trata de Heart Disease Health Indicators Dataset: https://www.kaggle.com/datasets/alexteboul/heart-disease-health-indicators-dataset/discussion/284985

Este dataset contiene la información de 253680 sujetos de estudio, reflejando una serie de características que han sido observadas en pacientes con el fin de conocer su utilidad como predictores del riesgo de infarto de miocardio en el sujeto.

In [None]:
import pandas as pd

# Load the dataset
file_path = '/content/heart_disease_health_indicators.csv'
data = pd.read_csv(file_path)

# 2. Análisis Preliminar

Para cada paciente se estudian las siguientes características:

*   HeartDiseaseorAttack : indica si el paciente ha sufrido un infarto cardiaco (1) o si no lo ha padecido (0).
*   HighBP : indica si un profesional sanitario ha informado a la persona de que padece hipertensión.
*   HighChol : indica si un profesional sanitario ha informado a la persona de que tiene el colesterol alto.
*   CholCheck : Control del colesterol, si la persona se ha controlado los niveles de colesterol en los últimos 5 años.
*   IMC : indice de masa corporal, calculado dividiendo el peso de la persona (en kilogramos) por el cuadrado de su estatura (en metros).
*   Smoker : indica si la persona ha fumado al menos 100 cigarrillos.
*   Stroke: indica si la persona tiene antecedentes de accidente cerebrovascular.
*   Diabetes : indica si la persona tiene antecedentes de diabetes, si actualmente tiene prediabetes o si padece cualquiera de los dos tipos de diabetes.
*   PhysActivity : indica si la persona realiza algún tipo de actividad física en su rutina diaria.
*   Fruits : indica si la persona consume 1 o más fruta(s) al día.
*   Veggies : indica si la persona consume 1 o más verdura(s) diariamente.
*   HvyAlcoholConsump : indica si la persona consume más de 14 bebidas a la semana.
*   AnyHealthcare : indica si la persona tiene algún tipo de seguro médico.
*   NoDocbcCost : indica si la persona quiso visitar a un médico en el último año pero no pudo debido al coste.
*   GenHlth : indica la respuesta de la persona sobre su estado de salud general, de 1 (excelente) a 5 (mala).
*   Menthlth : indica el número de días, en los últimos 30 días, que la persona tuvo mala salud mental.
*   PhysHlth : indica el número de días, en los últimos 30 días, que la persona ha tenido mala salud física.
*   DiffWalk : indica si la persona tiene dificultades para caminar o subir escaleras.
*   Sex : indica el sexo de la persona, siendo 0 mujer y 1 hombre.
*   Age : indica la clase de edad de la persona, donde 1 es de 18 a 24 años hasta 13 que es de 80 años o más, cada intervalo tiene un incremento de 5 años.
*   Education : indica el año de estudios más alto completado, siendo 0 no haber asistido nunca o haber asistido sólo al jardín de infancia y 6 haber asistido a 4 años de universidad o más.
*   Income : indica los ingresos totales del hogar, desde 1 (al menos 10.000) hasta 6 (más de 75.000 $).

El caso de estudio al que nos enfrentamos es el de una aseguradora médica que pretende predecir si un cliente puede padecer riesgo de infarto cardíaco únicamente en base a los datos que da en la primera entrevista, por tanto la variable objetivo se trata de la posibilidad de sufrir dicho infarto.

Cabe destacar que se trata de un dataset desbalanceado dado que si comprobamos el número de ocurrencias de los valores de la variable HeartDiseaseorAttack podemos observar que se distribuyen del siguiente modo: (0.0 - 229787) & (1.0 - 23893)

In [None]:
# Displaying the DataFrame structure
print("DataFrame Structure:")
print(data.head())

# 1. Data types of each column
print("1. Data Types:")
print(data.dtypes)

# 2. Column labels
print("\n2. Columns:")
print(data.columns)

# 3. Dimensions of the DataFrame
print("\n3. Shape:")
print(data.shape)

# 4. Index (row labels) of the DataFrame
print("\n4. Index:")
print(data.index)

# 5. Number of elements in the DataFrame
print("\n5. Size:")
print(data.size)

# 6. Basic information about DataFrame structure
print("\n6. Basic Information about DataFrame:")
print(data.info())

# 7. Summary statistics for numerical columns
print("\n7. Summary Statistics for Numerical Columns:")
print(data.describe())

# 8. Imbalance in the target variable
print("\n8. Checking for imbalanced target variable:")
print(data['HeartDiseaseorAttack'].value_counts())

# 9. Missing values
print("\n9. Checking for Missing Values:")
print(data.isnull().sum())

DataFrame Structure:
   HeartDiseaseorAttack  HighBP  HighChol  CholCheck   BMI  Smoker  Stroke  \
0                   0.0     1.0       1.0        1.0  40.0     1.0     0.0   
1                   0.0     0.0       0.0        0.0  25.0     1.0     0.0   
2                   0.0     1.0       1.0        1.0  28.0     0.0     0.0   
3                   0.0     1.0       0.0        1.0  27.0     0.0     0.0   
4                   0.0     1.0       1.0        1.0  24.0     0.0     0.0   

   Diabetes  PhysActivity  Fruits  ...  AnyHealthcare  NoDocbcCost  GenHlth  \
0       0.0           0.0     0.0  ...            1.0          0.0      5.0   
1       0.0           1.0     0.0  ...            0.0          1.0      3.0   
2       0.0           0.0     1.0  ...            1.0          1.0      5.0   
3       0.0           1.0     1.0  ...            1.0          0.0      2.0   
4       0.0           1.0     1.0  ...            1.0          0.0      2.0   

   MentHlth  PhysHlth  DiffWalk  Se

# 3. Preparación del Dataset

En este caso las variables categóricas ya han sido codificadas y no encontramos valores nulos que imputar, por lo que directamente procederemos a separar la variable objetivo del resto de predictores.

In [None]:
# Separate features and target variable

x = data.drop(columns = ['HeartDiseaseorAttack'], axis=1)
y = data['HeartDiseaseorAttack']

# 4. Implementación de Cross-Validation
Mediante técnicas de cross-validation dividiremos el dataset en 5 subconjuntos, en cada iteración una porción distinta seran los datos que usaremos para test mientras que las demás se utilizarán para entrenamiento, de este modo tendremos para cada iteración un 80% de datos de entrenamiento y un 20% de datos para test.

En cuanto a la técnica de cross-validation seleccionada, debido a que se trata de un dataset con clases desbalanceadas he optado por utilizar Stratified k-fold pues permite dividir el dataset en conjuntos de test y entrenamiento respetando los ratios de las clases desbalanceadas.

In [None]:
from sklearn.model_selection import StratifiedKFold

# Create instance of StratifiedKFold technique for 5 subsets
skf = StratifiedKFold(n_splits=5)

# 5. Entrenamiento del Modelo
Dado que se trata de un problema de clasificación he probado con los algoritmos RandomForestClassifier, ExtraTreesClassifier, DecisionTreeClassifier, GradientBoostingClassifier y AdaBoostClassifier.

Pero el algoritmo con el que obtuve un mejor rendimiento fue LogisticRegression, este suceso puede tener una explicación en el hecho de que al tratarse de variables sanitarias generalmente suelen darse relaciones lineales, ej: si bebes alcohol y fumas tienes mayor riesgo de sufrir un infarto, mientras que si tienes un bajo nivel de colesterol y comes fruta se reduce.

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.pipeline import Pipeline

for train, test in skf.split(x, y):

  x_train, x_test = x.iloc[train], x.iloc[test]
  y_train, y_test = y.iloc[train], y.iloc[test]

  # Identify numerical columns
  numerical_cols = x_train.select_dtypes(include=['float64']).columns

  # Create transformer for numerical features
  numerical_transformer = StandardScaler()

  # Configure preprocessor to transform numerical variables
  preprocessor = ColumnTransformer(transformers=[('num', numerical_transformer, numerical_cols)])

  # Create pipeline to transform the data and train the model
  model = Pipeline(steps=[('preprocessor', preprocessor), ('classifier', LogisticRegression(random_state=42))])

  # Apply the model to the training data
  model.fit(x_train, y_train)

  # Evaluate the model with the testing data
  y_pred = model.predict(x_test)

  print("Model Evaluation:\n")
  print(classification_report(y_test, y_pred))


Model Evaluation:

              precision    recall  f1-score   support

         0.0       0.92      0.99      0.95     45958
         1.0       0.53      0.13      0.21      4778

    accuracy                           0.91     50736
   macro avg       0.73      0.56      0.58     50736
weighted avg       0.88      0.91      0.88     50736

Model Evaluation:

              precision    recall  f1-score   support

         0.0       0.92      0.99      0.95     45958
         1.0       0.55      0.13      0.20      4778

    accuracy                           0.91     50736
   macro avg       0.73      0.56      0.58     50736
weighted avg       0.88      0.91      0.88     50736

Model Evaluation:

              precision    recall  f1-score   support

         0.0       0.92      0.99      0.95     45957
         1.0       0.54      0.12      0.19      4779

    accuracy                           0.91     50736
   macro avg       0.73      0.55      0.57     50736
weighted avg     

# 6. Evaluación y Discusión:

Para evaluar el modelo se han estudiado una serie de métricas que registran su comportamiento a la hora de predecir si el paciente sufrirá un infarto o no.

En primer lugar explicaremos que representan estas métricas:

* Precision (Precisión): indica la proporción de predicciones positivas correctas entre todas las predicciones positivas.

* Recall (Exhaustividad o Sensibilidad): refleja la proporción de instancias positivas reales que el modelo ha logrado predecir correctamente.

* F1-Score: media entre la precisión y la exhaustividad.

* Accuracy (Exactitud): mide el porcentaje de predicciones correctas de todas las emitadas.

* Macro Avg: media no ponderada de las métricas por clase.

* Weighted Avg: media ponderada de las métricas por el número de instancias en cada clase.

El modelo tiene un buen rendimiento en la clase mayoritaria (0.0) con alta precisión y recall, pero su rendimiento en la clase minoritaria (1.0) es limitado, como se refleja en un bajo recall y F1-score para esa clase, esto se debe a que, al tratarse de un dataset desbalanceado, cuenta con una cantidad de datos mucho mayor para una clase que para la otra, provocando que pueda predecir una gran diferencia de acierto una respecto a la otra.

Gracias a la implementación de cross-validation podemos contar con un mayor número de métricas aplicadas a distintas combinaciones de subconjuntos dentro del dataset, lo cual nos aporta mayor seguridad a la hora de emitir juicios sobre sus valores, pues vemos que tienden a comportarse de un modo similar entre las distintas combinaciones.

Además en este caso es especialmente importante elegir correctamente la técnica de cross-validation adecuada, ya que al tratarse de un dataset desbalanceado podríamos entrenar al modelo con una proporción de las clases que no reflejase verídicamente la realidad. Por ejemplo podríamos entrenar el modelo solo con datos de la clase 0 y que en la evaluación se enfrentase únicamente a datos de la clase 1, provocando que no haya podido estudiar este tipo de casos en la fase de entrenamiento y por tanto que fracase a la hora de ser evaluado.