# **Predicción de enfermedad cardíaca: EDA📊 + FE⚙️ + RESAM🔄 + XGBOOST🚀**
**Ec. Octavio Berruti Nunes**

**🚀 Resumen Ejecutivo**

Este proyecto implica analizar un conjunto de datos de atención médica con el objetivo de predecir el pronóstico de varias enfermedades. 
El conjunto de datos incluye diversas características relacionadas con la salud y el estilo de vida de los pacientes, como la edad, el sexo, la salud general, la frecuencia de revisiones médicas, los hábitos de ejercicio, el historial de tabaquismo y la presencia de diversas enfermedades. 
Cada entrada representa un paciente único, y las características capturan varios factores asociados con el pronóstico de la enfermedad. 💊💡

![corazon.PNG](attachment:b81cf78e-5fd2-4ae0-8702-61960f92109d.PNG)

**📚 Conjunto de datos**
El conjunto de datos que utilizaremos incluye varias características relacionadas con la salud y el estilo de vida de los pacientes. Cada fila representa un paciente único e incluye atributos como la edad, el sexo, la salud general, la frecuencia de revisiones médicas, los hábitos de ejercicio y el historial de tabaquismo. El conjunto de datos también incluye variables objetivo que representan la presencia de diversas enfermedades. 📊💉

**🎯 Objetivo** 
Nuestro principal objetivo es desarrollar un modelo predictivo que pueda prever eficazmente el pronóstico de diversas enfermedades en función de las características proporcionadas. Al aprovechar el poder del aprendizaje automático, buscamos mejorar la precisión y el rendimiento predictivo del modelo. 📈📉

**📈 Flujo de trabajo**
Aquí tienes una breve descripción de nuestro flujo de trabajo para este proyecto:

**1) Carga y Preprocesamiento de Datos:** Cargar los datos y preprocesarlos para su análisis y modelado. Esto incluye manejar valores faltantes, convertir variables categóricas en variables indicadoras, y codificar variables ordinales. 📊🔍🧹

**2) Análisis Exploratorio de Datos (EDA):** Realizar un análisis exploratorio de datos para obtener información sobre el conjunto de datos, comprender las distribuciones de las características y explorar las posibles relaciones entre las características y los resultados de las enfermedades. 📊🔬📉

**3) Limpieza de Datos:** Realizar limpieza y transformación de datos para mejorar el rendimiento del modelo. Esto incluye la imputación de valores faltantes y la normalización de características numéricas. 💡🔬

**4) Ingeniería de Características:** Crear nuevas características aplicando conocimientos del modelo a las características existentes. 🧪🔬

**5) Entrenamiento y Validación del Modelo:** Entrenar el modelo utilizando una estrategia de división de datos de entrenamiento y prueba, y hacer predicciones en el conjunto de prueba. 🧪📚🔍

**6) Evaluación del Modelo:** Evaluar el rendimiento del modelo entrenado utilizando métricas de evaluación apropiadas como la matriz de confusión, la curva ROC y la curva de precisión-recuperación, y evaluar la capacidad del modelo para generalizar a datos no vistos utilizando el conjunto de prueba. 📊🔍✅

**Conocimiento del Dataset 📚**

**Age:** Esta es la edad del paciente. La edad es un factor crucial en el pronóstico de enfermedades, ya que el riesgo de condiciones crónicas como enfermedades cardíacas, cáncer, diabetes y artritis aumenta con la edad. Esto se debe a varios factores, incluido el efecto acumulativo de la exposición a factores de riesgo, el aumento del desgaste en el cuerpo y los cambios en las funciones fisiológicas del cuerpo. 🌡️👴

**Sex:** Esta característica representa el género del paciente. El género puede influir en el pronóstico de enfermedades debido a diferencias biológicas y patrones de estilo de vida específicos de cada género. Por ejemplo, las enfermedades cardíacas son más comunes en hombres, mientras que el cáncer de piel es más común en mujeres. Esto podría deberse a factores como una mayor esperanza de vida o diferentes exposiciones a factores de riesgo en cada género. ♀️♂️

**General_Health:** Este es el estado de salud autocalificado del paciente. Los pacientes que perciben su salud como "Mala" o "Regular" tienen más probabilidades de tener condiciones crónicas. Esto podría deberse a que los síntomas o el manejo de estas condiciones afectan su estado de salud percibido. 💓

**Checkup:** Esta característica representa la frecuencia de las revisiones médicas. Las revisiones médicas regulares pueden ayudar en la detección temprana y el manejo de enfermedades, mejorando así el pronóstico. 🏥

**Exercise:** Esta característica indica si el paciente hace ejercicio regularmente o no. El ejercicio regular puede ayudar a controlar el peso, reducir el riesgo de enfermedades cardíacas y controlar los niveles de azúcar en sangre e insulina, entre otros beneficios. Esto se alinea con la correlación negativa observada entre el ejercicio y enfermedades como enfermedades cardíacas, diabetes y artritis. 🏃‍♂️🏋️‍♀️

**Smoking_History:** Esta característica indica si el paciente tiene antecedentes de tabaquismo. Fumar puede aumentar el riesgo de enfermedad, ya que puede dañar los vasos sanguíneos, aumentar la presión arterial y reducir la cantidad de oxígeno que llega a los órganos. 🚬🚭

# **1. Introducción**

**📝 Resumen**

Este estudio presenta un examen detallado y modelado de un conjunto de datos de atención médica con el objetivo principal de predecir varios pronósticos de enfermedades a nivel de paciente 🎯. El conjunto de datos se caracteriza por un conjunto diverso de características 📊 que incluyen edad 📅, sexo 👥, salud general 💓, revisiones médicas 🏥, ejercicio 🏋️‍♀️, historial de tabaquismo 🚬 y la presencia de diversas enfermedades como enfermedades cardíacas, cáncer de piel, otros tipos de cáncer, diabetes y artritis 🦠.

Nuestro análisis exploratorio de datos resaltó diferencias significativas en la distribución de varios casos de enfermedades, ilustrando el impacto de varios factores de salud y estilo de vida en el riesgo de enfermedad. También encontramos datos faltantes en varias características, enfatizando la necesidad de métodos efectivos de imputación de datos faltantes 🕵️‍♀️ en tareas de predicción de atención médica.

Planeamos aprovechar el poder del aprendizaje automático, específicamente algoritmos de aumento de gradiente como XGBOOST 🚀, para predecir el pronóstico de enfermedades. El modelo será rigurosamente entrenado y validado utilizando una estrategia de división de datos de entrenamiento y prueba 🔄, con el objetivo de ofrecer resultados notables en varias métricas de rendimiento.

Las predicciones de enfermedades producidas por el modelo serán evaluadas utilizando una matriz de confusión, curva ROC y curva de precisión-recuperación, proporcionando una vista completa del rendimiento del modelo 📈. Este enfoque destaca la importancia de utilizar múltiples métricas de evaluación en tareas de clasificación desequilibradas ⏳.

Este proyecto subraya el potencial del aprendizaje automático 🧠 en tareas de predicción de atención médica, proporcionando conocimientos que podrían ayudar en la evaluación de riesgos de pacientes 🗂️, planificación de atención médica 📝 y formulación de estrategias en entornos clínicos 💼. 

El trabajo futuro podría centrarse en refinar el modelo de predicción 🔍, explorar diferentes estrategias para el equilibrio de clases 🧩 e integrar datos adicionales de pacientes 🔄 para mejorar la precisión y la integralidad de las predicciones de pronóstico de enfermedades 📈.

In [None]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

from mpl_toolkits.mplot3d import Axes3D
from sklearn.preprocessing import LabelEncoder

In [None]:
#Cargamos los el Dataset

data = pd.read_csv('/kaggle/input/cardiovascular-diseases-risk-prediction-dataset/CVD_cleaned.csv')

#Vemos las primeras 5 filas de nuestro conjunto de datos.
data.head()

# **2. Análisis Exploratorio de Datos**

***Sumergiéndonos en el Pronóstico de Enfermedades***

Este proyecto pone en foco el Conjunto de Datos de Atención Médica, con el objetivo de identificar patrones clave y factores asociados con diversas enfermedades. 
Con la aplicación de técnicas como análisis univariado, bivariado y multivariado, nos esforzamos por desentrañar relaciones complejas y determinantes significativos en el conjunto de datos.

Para el **análisis exploratorio de datos** (EDA, por sus siglas en inglés), procederemos con los siguientes pasos:

**Análisis Univariado:** Inspeccionaremos cada variable individualmente para
comprender su distribución y posibles valores atípicos. Esto proporcionará información sobre las características de cada variable y ayudará a identificar valores extremos o anomalías.

**Análisis Bivariado:** Exploraremos la relación entre cada variable y las variables objetivo (Enfermedad_Cardíaca, Cáncer_de_Piel, Otro_Cáncer, Diabetes). Este análisis nos permitirá entender cómo cada variable está asociada con la presencia o ausencia de estas enfermedades. Podemos utilizar técnicas como gráficos de barras para visualizar las distribuciones de las variables objetivo según diferentes categorías o niveles de otras variables.

**Análisis Multivariado:** Estudiaremos las interacciones entre diferentes variables y cómo se relacionan colectivamente con las variables objetivo. Este análisis nos ayudará a descubrir relaciones y patrones complejos que pueden no ser evidentes en los análisis univariados o bivariados. Se pueden utilizar técnicas como gráficos de dispersión, matrices de correlación y visualizaciones en 3D para obtener una comprensión más profunda de los datos.

Comenzaremos con las variables objetivo, y luego pasaremos a las otras variables. Dado que las variables objetivo son binarias, podemos utilizar gráficos de barras para visualizar sus distribuciones. 📊🔍

### **2.1 Análisis Univariado**

 **2.1.1 Variables Numéricas**

In [None]:
#Comenzamos viendo la distribucion de variables numéricas

numerical_features = ['Height_(cm)', 'Weight_(kg)', 'BMI', 'Alcohol_Consumption', 'Fruit_Consumption', 'Green_Vegetables_Consumption', 'FriedPotato_Consumption']

for feature in numerical_features:
    plt.figure(figsize=(10, 4))
    sns.histplot(data=data, x=feature, kde=True)
    plt.title('Distribution of ' + feature)
    plt.show()

**🔍 Interpretación de Resultados:**

**📏 Height_(cm):** La altura de los pacientes parece seguir una distribución normal, con la mayoría de los pacientes teniendo alturas alrededor de 160 a 180 cm.

**⚖️ Weight_(kg):** El peso de los pacientes también parece distribuirse normalmente, con la mayoría de los pacientes pesando entre aproximadamente 60 y 100 kg.

**📏⚖️ BMI:** La distribución del Índice de Masa Corporal es algo sesgada hacia la derecha. Un gran número de pacientes tienen un BMI entre 20 y 30, lo que cae dentro del rango normal a sobrepeso. Sin embargo, también hay un número significativo de pacientes con un BMI en el rango de obesidad (>30).

**🍺 Alcohol_Consumption:** Esta característica está muy sesgada hacia la derecha. La mayoría de los pacientes tienen un bajo consumo de alcohol, pero hay algunos pacientes con un consumo alto.

**🍎 Fruit_Consumption:** Esta característica también está sesgada hacia la derecha. Muchos pacientes consumen frutas regularmente, pero un número significativo las consume menos frecuentemente.

**🥦 Green_Vegetables_Consumption:** Esta característica parece distribuirse normalmente, con la mayoría de los pacientes consumiendo verduras verdes moderadamente.

**🍟 FriedPotato_Consumption:** Esta característica está sesgada hacia la derecha. Muchos pacientes consumen papas fritas menos frecuentemente, mientras que algunos las consumen más a menudo.

 **2.1.2 Variables Categóricas**

In [None]:
#Comenzamos viendo la distribucion de variables categóricas

categorical_features = ['General_Health', 'Checkup', 'Exercise', 'Heart_Disease', 'Skin_Cancer', 'Other_Cancer', 'Depression', 'Diabetes', 'Arthritis', 'Sex', 'Age_Category', 'Smoking_History']

for feature in categorical_features:
    plt.figure(figsize=(10, 4))
    sns.countplot(data=data, x=feature, palette='deep')
    plt.title('Count of ' + feature)
    plt.xticks(rotation=90)
    plt.show()

**🔍 Interpretación de Resultados:**

**😊 General_Health:** La mayoría de los pacientes describen su salud general como "Buena", siendo "Muy Buena" la segunda respuesta más común. Menos pacientes califican su salud como "Regular" o "Mala".

**🩺 Checkup:** La mayoría de los pacientes tuvieron un chequeo médico en el último año. Menos pacientes tuvieron su último chequeo hace 2 años o más de 5 años.

🏋️‍♀️ Exercise: **texto en negrita** Más pacientes informaron que hacen ejercicio en comparación con los que no lo hacen.

**❤️ Heart_Disease:** Una gran mayoría de pacientes no tienen enfermedad cardíaca. Solo una pequeña proporción de pacientes tienen enfermedad cardíaca.

🌞 Skin_Cancer: **texto en negrita** La gran mayoría de los pacientes no tienen cáncer de piel.

**🦀 Other_Cancer:** Similar al cáncer de piel, la mayoría de los pacientes no tienen otras formas de cáncer.

**😔 Depression:** La mayoría de los pacientes no sufren de depresión. Sin embargo, un número no despreciable de pacientes reportan tener depresión.

**🩸 Diabetes:** Similar a las características relacionadas con enfermedades anteriores, la mayoría de los pacientes no tienen diabetes. Sin embargo, una pequeña proporción sí la tiene.

**💪 Arthritis:** La mayoría de los pacientes no tienen artritis, pero un número significativo sí la tiene.

**♀️♂️ Sex:** Hay ligeramente más pacientes femeninos que pacientes masculinos en el conjunto de datos.

**🗓️ Age_Category:** El conjunto de datos incluye pacientes de una amplia gama de categorías de edad. La categoría de edad de 50-54 años tiene la mayoría de los pacientes, seguida por las categorías de 55-59 y 60-64 años.

**🚭 Smoking_History:** La mayoría de los pacientes no tienen antecedentes de tabaquismo.

### **2.2 Análisis Bivariado**

In [None]:
#Analizamos las relaciones entre las enfermedades principales y variables de comportamiento

selected_variables = ['General_Health', 'Exercise', 'Sex', 'Age_Category', 'Smoking_History']

disease_conditions = ['Heart_Disease', 'Skin_Cancer', 'Other_Cancer', 'Diabetes', 'Arthritis']

for disease in disease_conditions:
  for variable in selected_variables:
    plt.figure(figsize=(10,4))
    sns.countplot(data=data, x=variable, hue=disease)
    plt.title('Relationship between ' + variable + 'and ' + disease)
    plt.xticks(rotation=90)
    plt.show()


**Interpretation of Results:**
- **❤️ Heart Disease:**
  - Las enfermedades cardíacas son más prevalentes en pacientes que califican su salud general como "Pobre" o "Regular".
  - Es ligeramente más común en pacientes que no hacen ejercicio.
  - Los hombres tienen más probabilidades de tener enfermedades cardíacas que las mujeres.
  - La prevalencia de las enfermedades cardíacas aumenta con la edad, siendo más común en la categoría de 80 años o más.
  - Las enfermedades cardíacas también son más comunes en pacientes con antecedentes de tabaquismo.

- **🌞 Skin Cancer:**
  - El cáncer de piel es más prevalente en pacientes que califican su salud general como "Buena" o "Muy Buena".
  - No hay mucha diferencia en la prevalencia basada en hábitos de ejercicio.
  - Las mujeres tienen más probabilidades de tener cáncer de piel que los hombres.
  - La prevalencia del cáncer de piel aumenta con la edad, siendo más común en la categoría de 70-74 años.
  - No hay mucha diferencia en la prevalencia basada en antecedentes de tabaquismo.

- **🦀 Other Cancer:**
  - Otros cánceres son más prevalentes en pacientes que califican su salud general como "Pobre" o "Regular".
  - Son ligeramente más comunes en pacientes que no hacen ejercicio.
  - No hay mucha diferencia en la prevalencia basada en el sexo.
  - La prevalencia de otros cánceres aumenta con la edad, siendo más común en la categoría de 75-79 años.
  - Otros cánceres son más comunes en pacientes con antecedentes de tabaquismo.

- **🩸 Diabetes:**
  - La diabetes es más prevalente en pacientes que califican su salud general como "Regular" o "Pobre".
  - Es más común en pacientes que no hacen ejercicio.
  - No hay mucha diferencia en la prevalencia basada en el sexo.
  - La prevalencia de la diabetes aumenta con la edad, siendo más común en la categoría de 70-74 años.
  - La diabetes es más común en pacientes con antecedentes de tabaquismo.

- **💪 Arthritis:**
  - La artritis es más prevalente en pacientes que califican su salud general como "Regular" o "Pobre".
  - Es ligeramente más común en pacientes que no hacen ejercicio.
  - Las mujeres tienen más probabilidades de tener artritis que los hombres.
  - La prevalencia de la artritis aumenta con la edad, siendo más común en la categoría de 75-79 años.
  - La artritis es ligeramente más común en pacientes con antecedentes de tabaquismo.

### **2.3 Análisis Multivariado**

 **2.3.1 Variables Generales**

In [None]:
#Analizamos la relacion entre las condiciones de enfermedad, la salud general y la categoría de edad

plt.figure(figsize=(10,7))
sns.countplot(data=data, x='General_Health', hue='Age_Category')
plt.title('Distribution of General Health by Age Category')
plt.xticks(rotation=90)
plt.show()

for disease in disease_conditions:
  plt.figure(figsize=(10,7))
  sns.countplot(data=data, x='General_Health',hue=disease)
  plt.title('Distribution of ' + disease + ' by General Health')
  plt.show()

**🔍 Interpretación de Resultados:**

La distribución de **General Health** por **Age Category** muestra que a medida que aumenta la edad, la proporción de individuos que califican su salud como "Buena" o "Muy Buena" disminuye, mientras que la proporción que califica su salud como "Regular" o "Pobre" aumenta.

La relación entre **General Health** y las condiciones de enfermedad ***(Heart_Disease, Skin_Cancer, Other_Cancer, Diabetes, Arthritis)*** muestra algunos patrones interesantes:

1. Para **❤️ Heart_Disease, 🦀 Other_Cancer, 🩸 Diabetes y 💪 Arthritis**, la
prevalencia es mayor entre aquellos que califican su salud como "Regular" o "Pobre". Esto sugiere que estas condiciones pueden impactar significativamente la percepción de la salud general de los individuos.


2. Para **🌞 Skin_Cancer**, la prevalencia parece estar más distribuida de manera uniforme entre las diferentes calificaciones de salud. Esto podría sugerir que el cáncer de piel puede no impactar la percepción de la salud general de los individuos tanto como las otras condiciones.

 **2.3.2 Categoria de BMI**

In [None]:
#Analizamos la relacion entre las condiciones de enfermedades, BMI y si el paciente realiza ejercicio

#Creamos uan categoria sobre BMI
data['BMI_Category'] = pd.cut(data['BMI'], bins=[0,18.5,25,30,100], labels=['Underweight','Normal','Overweight','Obese'])

plt.figure(figsize=(10,7))
sns.countplot(data=data, x='BMI_Category', hue='Exercise')
plt.title('Distribution of BMI Category by Exercise')
plt.xticks(rotation = 90)
plt.show()

for disease in disease_conditions:
  plt.figure(figsize=(10,7))
  sns.countplot(data=data, x='BMI_Category',hue=disease)
  plt.title('Distribution of '+ disease + 'by BMI Category')
  plt.xticks(rotation = 90)
  plt.show()


**🔍 Interpretación de Resultados:**

La distribución de la Categoría de BMI por Ejercicio muestra que las personas que hacen ejercicio tienen una proporción más alta de BMI "Normal", mientras que aquellos que no hacen ejercicio tienen una proporción más alta de BMI "Sobrepeso" y "Obeso". Esto sugiere que el ejercicio está asociado con niveles de BMI más saludables. 🏋️‍♀️

La relación entre la Categoría de BMI y las condiciones de enfermedad **(Heart_Disease, Skin_Cancer, Other_Cancer, Diabetes, Arthritis)** muestra los siguientes patrones:

1. Para **❤️ Heart_Disease, 🩸 Diabetes y 💪 Arthritis**, la prevalencia es mayor entre aquellos con BMI "Sobrepeso" y "Obeso". Esto sugiere que estas condiciones pueden estar asociadas con niveles de BMI más altos.

2. Para **🌞 Skin_Cancer y 🦀 Other_Cancer**, la prevalencia parece estar más uniformemente distribuida entre las diferentes categorías de BMI. Esto podría sugerir que estos tipos de cáncer pueden no estar tan fuertemente asociados con el BMI como las otras condiciones.

 **2.3.3 Gráfico 3D: Age_Category, General_Health, BMI**

In [None]:
#Primero necesitamos realizar Encoding a las variables categoricas a valores numericos para el Gráfico 3D

Encoding = LabelEncoder()

#Seleccionamos las 3 variables

data_3D = data[['Age_Category', 'General_Health', 'BMI']].copy()

#Realizamos el Encoding

data_3D['Age_Category'] = Encoding.fit_transform(data_3D['Age_Category'])
data_3D['General_Health'] = Encoding.fit_transform(data_3D['General_Health'])

#Creamos el Gráfico 3D

fig = plt.figure(figsize=(10, 7))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(data_3D['Age_Category'], data_3D['General_Health'], data_3D['BMI'], c='blue', s=60)
ax.view_init(30, 185)
plt.xlabel("Age Category")
plt.ylabel("General Health")
ax.set_zlabel('BMI')
plt.title('3D plot of Age Category, General Health, and BMI')
plt.show()

**🔍 Interpretación de Resultados:**

📊 El gráfico en 3D visualiza la relación entre **Age_Category, General_Health e BMI**. El gráfico muestra una distribución amplia en las tres variables, lo que sugiere una interacción compleja entre ellas.

ℹ️ Ten en cuenta que las etiquetas para **Age_Category y General_Health** están codificadas con valores numéricos con el propósito de realizar el gráfico en 3D, por lo que las categorías exactas no son directamente visibles en los ejes.

# **3. Matriz de Correlación**

 **3.1 Procesamiento de datos**

In [None]:
#Volvemos a importar los datos

data = pd.read_csv('/kaggle/input/cardiovascular-diseases-risk-prediction-dataset/CVD_cleaned.csv')

#Realizamos el mapeado para la variable "Diabetes"

diabetes_mapping = {
    'No': 0,
    'No, pre-diabetes or borderline diabetes': 0,
    'Yes, but female told only during pregnancy': 1,
    'Yes': 1
}
data['Diabetes'] = data['Diabetes'].map(diabetes_mapping)

#Realizamos OneHot Encoding para la variable "Sex"

data = pd.get_dummies(data, columns=['Sex'])

#Convertimos las variables categoricas restantes ("Yes" or "No") a valores binarios para la realizacion de correlacion.

binary_columns = ['Heart_Disease', 'Skin_Cancer', 'Other_Cancer', 'Depression', 'Arthritis', 'Smoking_History','Exercise']

for column in binary_columns:
    data[column] = data[column].map({'Yes': 1, 'No': 0})

#Realizamos encoding para las variables "General_Health","Checkup","Age_Category"

general_health_mapping = {
    'Poor': 0,
    'Fair': 1,
    'Good': 2,
    'Very Good': 3,
    'Excellent': 4
}
data['General_Health'] = data['General_Health'].map(general_health_mapping)

checkup_mapping = {
    'Never': 0,
    '5 or more years ago': 0.2,
    'Within the past 5 years': 1,
    'Within the past 2 years': 2,
    'Within the past year': 4

}
data['Checkup'] = data['Checkup'].map(checkup_mapping)


age_category_mapping = {
    '18-24': 0,
    '25-29': 1,
    '30-34': 2,
    '35-39': 3,
    '40-44': 4,
    '45-49': 5,
    '50-54': 6,
    '55-59': 7,
    '60-64': 8,
    '65-69': 9,
    '70-74': 10,
    '75-79': 11,
    '80+': 12
}
data['Age_Category'] = data['Age_Category'].map(age_category_mapping)

#Vemos las 5 primera filas de nuestro nuevo dataset

data.head()


 **3.2 Matriz de Correlacion**

In [None]:
#Realizamos la matriz de correlacion

corr_matriz = data.corr()

#Generamos una mascara para la mitad superior del triangulo

mask = np.triu(np.ones_like(corr_matriz, dtype=bool))

#Creamos la figura con matplotlib

plt.figure(figsize=(15,12))

# Generar un mapa de colores personalizado

cmap = sns.diverging_palette(230, 20, as_cmap=True)

#Generamos el mapa de calor + mascara + ratio

sns.heatmap(corr_matriz, mask=mask, cmap=cmap, vmax=.3, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5}, annot=True)

plt.title('Correlation Heatmap')
plt.show()

**🔍 Interpretación de los Resultados:**

📊 El mapa de calor de correlación proporciona una representación visual de la correlación entre diferentes características en el conjunto de datos.

Cada cuadrado muestra la correlación entre las variables en cada eje. Los valores de correlación van de -1 a 1. Los valores más cercanos a 1 representan una correlación positiva fuerte, los valores más cercanos a -1 representan una correlación negativa fuerte y los valores alrededor de 0 representan ausencia de correlación.

**🔎 Aquí hay algunas observaciones del mapa de calor:**

**1.🩸 BMI, Weight_(kg) y Exercise** tienen una correlación positiva con
Diabetes. Esto sugiere que las personas con un IMC y peso más altos o que no hacen ejercicio tienen más probabilidades de tener diabetes.

**2.😔 General_Health** tiene una correlación negativa con **Diabetes, Heart_Disease, Arthritis y Depression.** Esto sugiere que las personas que califican su salud general como pobre tienen más probabilidades de tener estas condiciones.

**3.❤️ Age_Category tiene una correlación positiva con Heart_Disease, Skin_Cancer, Other_Cancer, Diabetes y Arthritis.** Esto sugiere que el riesgo de estas enfermedades aumenta con la edad.

**4.♂️ Sex_Male tiene una correlación positiva con Heart_Disease y una correlación negativa con Arthritis y Skin_Cancer.** Esto sugiere que los hombres tienen más probabilidades de tener enfermedad cardíaca pero menos probabilidades de tener artritis o cáncer de piel.

 **3.3 Correlacion de cada variable con las distintas enfermedades**

In [None]:
#Realizamos la correlacion de cada variable con las enfermedades

disease_variables = ['Heart_Disease','Skin_Cancer','Other_Cancer','Diabetes']

#Realizamos la matriz de correlacion

corr_matriz_disease = data.corr()

#Creamos un grafico para cada enfermedad.

fig, axs = plt.subplots(len(disease_variables), 1, figsize=(5, 25))

for ax, disease in zip(axs, disease_variables):
  #Realizamos la correlacion con cada enfermedad
  target_corr = corr_matriz_disease[disease].drop(disease)

  #Ordenamos los valores de correlacion en orden descendente
  target_corr_sorted = target_corr.sort_values(ascending=False)

  #Realizamos el mapa de calor con la correlacion con cada enfermedad
  sns.heatmap(target_corr_sorted.to_frame(), cmap= "coolwarm", annot=True, fmt='.2f', cbar=False, ax=ax)
  ax.set_title('Correlation with ' + disease)

plt.tight_layout()
plt.show()

**🔍 Interpretación de los Resultados:**

📊 Los mapas de calor de correlación muestran la correlación de cada característica con las cinco variables de enfermedades: **Heart_Disease, Skin_Cancer, Other_Cancer, Diabetes y Arthritis.**

🔎 A partir de los mapas de calor, podemos observar lo siguiente:

**1. ❤️ Heart_Disease:** Esta condición muestra una correlación positiva fuerte con **Age_Category y General_Health, y una correlación negativa con Exercise y Sex_Female.**

**2. 🌞 Skin_Cancer:** Esta condición está fuertemente correlacionada positivamente con **Age_Category y Sex_Male, y correlacionada negativamente con Sex_Female.**

**3. 🦀 Other_Cancer:** Esta condición muestra una correlación positiva fuerte con Age_Category y General_Health, y una correlación negativa con Sex_Female.

**4. 🩸 Diabetes:** Esta condición muestra una correlación positiva fuerte con **Age_Category, General_Health y BMI**, y una correlación negativa con Exercise.

## **3.4 Indicadores**

**1. Edad y Prevalencia de Enfermedades: 🧓👵🏥**

La correlación positiva entre Age_Category y las enfermedades estudiadas se alinea con el conocimiento médico establecido. Es bien sabido que el riesgo de enfermedades crónicas como la enfermedad cardíaca, el cáncer, la diabetes y la artritis aumenta con la edad. Esto se debe a varios factores, incluido el efecto acumulativo de la exposición a factores de riesgo, el aumento del desgaste del cuerpo y los cambios en las funciones fisiológicas del cuerpo. ⏳⚕️

**2. Percepción de la Salud y Prevalencia de Enfermedades: 💓💡**

La correlación negativa entre la autocalificación de General_Health y las condiciones de enfermedad subraya la importancia de la percepción de la propia salud de los pacientes. Los pacientes que perciben su salud como "Pobre" o "Regular" tienen más probabilidades de tener enfermedades crónicas. Esto podría deberse a que los síntomas o el manejo de estas condiciones afectan su estado de salud percibido. 🩺🔮

**3. Ejercicio y Salud: 🏃‍♂️🏋️‍♀️💪**

La correlación negativa entre el Ejercicio y enfermedades como la enfermedad cardíaca, la diabetes y la artritis reafirma la creencia bien establecida en los beneficios para la salud de la actividad física regular. El ejercicio regular puede ayudar a controlar el peso, reducir el riesgo de enfermedades cardíacas y controlar los niveles de azúcar en la sangre y de insulina, entre otros beneficios. 🚴‍♀️🏊‍♂️

**4. IMC y Diabetes: 🍎🍔🍬**

La correlación positiva entre el IMC y la diabetes se alinea con el conocimiento existente. Un IMC alto, especialmente la obesidad, es un factor de riesgo conocido para la diabetes tipo 2. El exceso de grasa, especialmente si se almacena alrededor del abdomen, puede aumentar la resistencia del cuerpo a la insulina, lo que conduce a un aumento del azúcar en la sangre. 🍩📈

**5. Género y Prevalencia de Enfermedades: 👨‍⚕️👩‍⚕️🧬**

Las correlaciones entre el Sexo y ciertas enfermedades revelan patrones interesantes. Por ejemplo, la enfermedad cardíaca es más común en hombres, lo que concuerda con muchos estudios que muestran que los hombres tienen un mayor riesgo de enfermedad cardíaca. Sin embargo, el cáncer de piel es más común en mujeres, lo que podría deberse a factores como una mayor esperanza de vida o diferentes exposiciones a factores de riesgo. 🚹🚺

Es importante tener en cuenta que la correlación no implica causalidad. Si bien estas correlaciones proporcionan información valiosa, no nos dicen si una variable causa o influye directamente en otra. Se necesitarían más estudios estadísticos o experimentales para determinar relaciones causales. 📚⚠️🔍

# **4. Resultados de Analisis exploratorio de datos (EDA)**



**1. Análisis Univariado: 📊🧪**

Las distribuciones de las variables numéricas, como Height_(cm), Weight_(kg) y BMI, fueron principalmente normales, con algunas características como Alcohol_Consumption, Fruit_Consumption y FriedPotato_Consumption mostrando una distribución sesgada hacia la derecha. Esto sugiere que una gran proporción de pacientes tienen niveles de consumo bajos a moderados. 🥦🥔🍷

Las variables categóricas mostraron distribuciones diversas. 
Por ejemplo, la mayoría de los pacientes calificaron su salud general como "Buena" o "Muy Buena" y tuvieron su último chequeo en el último año. 
Además, la mayoría de los pacientes informaron hacer ejercicio regularmente, y la mayoría no tenía antecedentes de tabaquismo. 🏥🚭💪

**2. Análisis Bivariado: 📈👥**

El análisis bivariado reveló relaciones entre las características seleccionadas y las condiciones de enfermedad. Enfermedades como ❤️ Heart_Disease, 🦀 Other_Cancer, 🩸 Diabetes y 💪 Arthritis fueron más prevalentes en pacientes que calificaron su salud general como "Pobre" o "Regular", no hacían ejercicio y tenían antecedentes de tabaquismo. 
🌞 Skin_Cancer mostró un patrón diferente, siendo más prevalente en pacientes con salud general "Buena" o "Muy Buena" y no mostrando una diferencia significativa basada en hábitos de ejercicio. 🚶‍♀️🚶‍♂️

**3. Análisis Multivariado: 📊🔢**

El análisis multivariado mostró la interacción entre múltiples variables. Por ejemplo, a medida que aumentaba la edad, la proporción de individuos que calificaban su salud como "Buena" o "Muy Buena" disminuía, mientras que la proporción que calificaba su salud como "Regular" o "Pobre" aumentaba. 

De manera similar, los individuos que hacían ejercicio tenían una mayor proporción de BMI "Normal", mientras que aquellos que no hacían ejercicio tenían una mayor proporción de BMI "Sobrepeso" y "Obeso". 👴👵🏋️‍♂️🏋️‍♀️

**4. Análisis de Correlación: 🧩🔍**

Finalmente, el análisis de correlación reveló la fuerza y la dirección de las relaciones entre las características y las condiciones de enfermedad. Age_Category mostró una correlación positiva fuerte con todas las enfermedades, lo que indica que el riesgo de estas enfermedades aumenta con la edad. 

El Ejercicio mostró una correlación negativa, lo que sugiere que el ejercicio regular puede ayudar a reducir el riesgo de estas enfermedades. 💪⏳

# **5. Limpieza de datos**

In [None]:
#Volvemos a importar el dataset

data = pd.read_csv('/kaggle/input/cardiovascular-diseases-risk-prediction-dataset/CVD_cleaned.csv')

 **5.1 Manejamos los valores faltantes**

In [None]:
#Veemos cuantos valores faltan de nuestro dataset
data.isnull().sum()

***El conjunto de datos no contiene ningún valor faltante, lo cual es excelente. El siguiente paso típicamente sería buscar cualquier inconsistencia o valor atípico en los datos. 🚀***

 **5.2 Manejamos los valores atipicos**

In [None]:
#Creamos una lista con las variables numericas

numerical_cols = ['Height_(cm)', 'Weight_(kg)', 'BMI', 'Alcohol_Consumption',
                  'Fruit_Consumption', 'Green_Vegetables_Consumption',
                  'FriedPotato_Consumption']

#Creamos diagramas de caja con las variables numericas

plt.figure(figsize=(16, 10))
for i, column in enumerate(numerical_cols, 1):
    plt.subplot(3, 3, i)
    sns.boxplot(y=data[column])

plt.tight_layout()

In [None]:
#Resumen de los estadisticos
summary_stats = data[numerical_cols].describe()
summary_stats

**🔍 Interpretación de los Resultados:**

Las estadísticas resumidas y los diagramas de caja indican que existen algunos valores atípicos potenciales en nuestros datos numéricos. Aquí hay algunas observaciones:

**1. Height_(cm):** El valor mínimo es 91 cm y el máximo es 241 cm. Estos podrían ser casos extremos, pero vale la pena investigarlos más a fondo. 📏

**2. Weight_(kg):** El peso máximo es 293.02 kg, lo cual parece bastante alto. Esto podría ser potencialmente un valor atípico o un valor extremo. ⚖️

**3. BMI:** El BMI máximo es 99.33, lo cual es muy alto, incluso para casos extremos de obesidad. Esto podría indicar errores en la entrada de datos. 🍔

**4. Alcohol_Consumption:** El valor máximo es 30, lo cual parece bastante alto. Necesitamos entender las unidades de medida para interpretar si esto es un valor atípico o no. 🍺

**5. Fruit_Consumption, Green_Vegetables_Consumption, FriedPotato_Consumption:**Los valores máximos parecen bastante altos, pero depende de las unidades de medida (por ejemplo, porciones por semana/mes). 🍎🥦🍟

Estos valores atípicos potenciales y valores extremos deben ser investigados más a fondo para determinar su validez y posible impacto en el análisis.

In [None]:
#Contamos los valores duplicados
duplicate_count = data.duplicated().sum()
print("Number of duplicates: ", duplicate_count)

In [None]:
#Removemos los valores duplicados
data = data.drop_duplicates()

# **6. Preparacion de los datos**

 **6.1 Ingeniería de Características**

In [None]:
#Categoria de BMI

data['BMI_Category'] = pd.cut(data['BMI'], bins=[0, 18.5, 24.9, 29.9, np.inf], labels=['Underweight', 'Normal weight', 'Overweight', 'Obesity'])

#Frecuencia de Health Checkup
checkup_mapping = {'Within the past year': 4, 'Within the past 2 years': 2, 'Within the past 5 years': 1, '5 or more years ago': 0.2, 'Never': 0}
data['Checkup_Frequency'] = data['Checkup'].replace(checkup_mapping)

#Generamos mapping de puntos para estilo de vida

exercise_mapping = {'Yes': 1, 'No': 0}
smoking_mapping = {'Yes': -1, 'No': 0}
data['Lifestyle_Score'] = data['Exercise'].replace(exercise_mapping) - data['Smoking_History'].replace(smoking_mapping) + data['Fruit_Consumption']/10 + data['Green_Vegetables_Consumption']/10 - data['Alcohol_Consumption']/10

#Generamos mapping de puntos para Comida saludable

data['Healthy_Diet_Score'] = data['Fruit_Consumption']/10 + data['Green_Vegetables_Consumption']/10 - data['FriedPotato_Consumption']/10

#Terminos de interaccion

data['Smoking_Alcohol'] = data['Smoking_History'].replace(smoking_mapping) * data['Alcohol_Consumption']
data['Checkup_Exercise'] = data['Checkup_Frequency'] * data['Exercise'].replace(exercise_mapping)

#Creamos ratio de altura a peso

data['Height_to_Weight'] = data['Height_(cm)']/data['Weight_(kg)']

#Interaccion entre consumo de frutas y verduras
data['Fruit_Vegetables'] = data['Fruit_Consumption'] * data['Green_Vegetables_Consumption']

#Interaccion entre Comida saludable y estilo de vida
data['HealthyDiet_Lifestyle'] = data['Healthy_Diet_Score'] * data['Lifestyle_Score']

#Interaccion entre consumo de alcohol y frituras
data['Alcohol_FriedPotato'] = data['Alcohol_Consumption'] * data['FriedPotato_Consumption']

### **Explicacion del proceso:**

**1. BMI_Category:**

🍏🍔🧮 Esta variable categoriza el IMC (Índice de Masa Corporal) de cada individuo en una de cuatro categorías: 'Bajo peso', 'Peso normal', 'Sobrepeso' y 'Obesidad'. Esto se basa en los siguientes rangos: bajo peso es un IMC menor a 18.5, peso normal es un IMC de 18.5 a 24.9, sobrepeso es un IMC de 25 a 29.9 y obesidad es un IMC de 30 o más.

**2. Checkup_Frequency:**

📅⚕️ Esta variable representa la frecuencia de los chequeos médicos para cada individuo. Asigna valores numéricos a las diferentes categorías de frecuencia, donde un valor más alto representa chequeos más frecuentes.

**3. Lifestyle_Score:**

💪🚬🥦🍷 Esta variable proporciona un puntaje compuesto basado en varios factores de estilo de vida, incluyendo ejercicio, tabaquismo, consumo de frutas, consumo de verduras verdes y consumo de alcohol. Cada factor de estilo de vida recibe un cierto peso, con actividades positivas como el ejercicio y la alimentación saludable contribuyendo positivamente al puntaje, y actividades negativas como fumar y el consumo de alcohol restando del puntaje.

**4. Healthy_Diet_Score:**

🍇🥬🍟 Esta variable calcula un puntaje basado en la dieta del individuo. Considera el consumo de frutas, verduras verdes y papas fritas. Un mayor consumo de frutas y verduras verdes suma positivamente al puntaje, mientras que el consumo de papas fritas resta al puntaje.

**5. Smoking_Alcohol:**

🚬🍺 Esta interacción representa la combinación de fumar y consumo de alcohol. Multiplica los valores asignados del historial de tabaquismo y el consumo de alcohol.

**6. Checkup_Exercise:**

🏋️‍♀️🩺 Esta interacción representa la combinación de la frecuencia de los chequeos médicos y los hábitos de ejercicio. Multiplica los valores asignados de la frecuencia de los chequeos médicos y los hábitos de ejercicio.

**7. Height_to_Weight:**

👫⚖️Esta variable calcula la proporción entre la altura de un individuo y su peso.

**8. Fruit_Vegetables:**

🍏🥦 Esta interacción representa el consumo combinado de frutas y verduras verdes. Multiplica los valores de consumo de frutas y consumo de verduras verdes.

**9. HealthyDiet_Lifestyle:**

🥗💃 Esta interacción representa la combinación del Puntaje de Dieta Saludable y el Puntaje de Estilo de Vida. Multiplica los valores de estos dos puntajes.

**10. Alcohol_FriedPotato:**

🍺🍟 Esta interacción representa el consumo combinado de alcohol y papas fritas. Multiplica los valores del consumo de alcohol y el consumo de papas fritas.

In [None]:
data.head()

 **6.2 Preprocesamiento de características**

In [None]:
#Realizamos mapping para "Diabetes"

diabetes_mapping = {
    'No': 0,
    'No, pre-diabetes or borderline diabetes': 0,
    'Yes, but female told only during pregnancy': 1,
    'Yes': 1
}

data['Diabetes'] = data['Diabetes'].map(diabetes_mapping)

#Realizamos OneHot Encoding para la variable "Sex"

data = pd.get_dummies(data, columns=['Sex'])

#Convertimos las variables categoricas restantes ("Yes" or "No") a valores binarios para la realizacion de correlacion.

binary_columns = ['Heart_Disease', 'Skin_Cancer', 'Other_Cancer', 'Depression', 'Arthritis', 'Smoking_History','Exercise']

for column in binary_columns:
    data[column] = data[column].map({'Yes': 1, 'No': 0})

#Realizamos encoding para "General_Health", "Age_Category", "BMI_Category"

general_health_mapping = {
    'Poor': 0,
    'Fair': 1,
    'Good': 2,
    'Very Good': 3,
    'Excellent': 4
}
data['General_Health'] = data['General_Health'].map(general_health_mapping)

bmi_mapping = {
    'Underweight': 0,
    'Normal weight': 1,
    'Overweight': 2,
    'Obesity': 3
}

data['BMI_Category'] = data['BMI_Category'].map(bmi_mapping).astype(int)

age_category_mapping = {
    '18-24': 0,
    '25-29': 1,
    '30-34': 2,
    '35-39': 3,
    '40-44': 4,
    '45-49': 5,
    '50-54': 6,
    '55-59': 7,
    '60-64': 8,
    '65-69': 9,
    '70-74': 10,
    '75-79': 11,
    '80+': 12
}
data['Age_Category'] = data['Age_Category'].map(age_category_mapping)

data = data.drop(["Checkup"], axis=1)

**Explicacion del proceso:**

**Diabetes: 💉🍬** Esta variable representa si un individuo tiene diabetes. Se mapea desde varias categorías a un formato binario, donde 'No' y 'No, pre-diabetes o diabetes límite' se representan como 0, y 'Sí' y 'Sí, pero solo informado durante el embarazo femenino' se representan como 1.

**Sex: 👫** Esta variable representa el sexo del individuo. Se codifica uno a uno, lo que significa que se divide en dos variables binarias separadas: Sex_Male y Sex_Female, donde un 1 indica la presencia de la categoría y un 0 indica la ausencia.

**Variables binarias: ✔️❌** Varias variables como Heart_Disease, Skin_Cancer, Other_Cancer, Depression, Arthritis, Smoking_History y Exercise se convierten en formato binario. Esto se hace mapeando 'Sí' a 1 y 'No' a 0, lo que facilita el uso de estas variables en cálculos matemáticos y modelos.

**General_Health: 👍👎** Esta variable representa la salud general autoinformada del individuo. Se mapea desde categorías descriptivas a un formato ordinal, donde 'Pobre' se representa como 0 y 'Excelente' se representa como 4, con números consecutivos asignados a las categorías intermedias.

**BMI_Category: 🍏🍔🧮** Esta variable representa la categoría de IMC del individuo. Se mapea desde categorías descriptivas a un formato ordinal, donde 'Bajo peso' se representa como 0 y 'Obesidad' se representa como 3, con números consecutivos asignados a las categorías intermedias.

**Age_Category: 🧒👵🎂** Esta variable representa la categoría de edad del individuo. Se mapea desde rangos de edad a un formato ordinal, donde '18-24' se representa como 0 y '80+' se representa como 12, con números consecutivos asignados a las categorías intermedias.

# **7. Prediccion: Algoritmo Gradient Boosting**

In [None]:
import warnings
warnings.filterwarnings('ignore')

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import TomekLinks
from imblearn.pipeline import Pipeline
from sklearn.metrics import classification_report, confusion_matrix, roc_curve, auc, precision_recall_curve
from xgboost import XGBClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer, roc_auc_score
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.model_selection import learning_curve
from sklearn.model_selection import GridSearchCV

 **7.1 Generamos la Pipeline para los datos**

In [None]:
#Definimos la variable objetivo y las variables para trabajar

X= data.drop('Heart_Disease', axis=1)
y= data['Heart_Disease']

#Separamos los datos en entrnamiento y prueba

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
#Creamos la Pipeline

resampling = SMOTE(sampling_strategy='minority') #Realizamos resampling con SMOTE para balancear la clase minoritaria

tomek = TomekLinks(sampling_strategy='majority') #Realizamos sampling con TomekLinks para balancear la clase mayoritaria

scaler = MinMaxScaler()

model = XGBClassifier(scale_pos_weight=sum(y==0)/sum(y==1), #Ajustamos las ponderaciones de las clases debido a las cantidades imbalanceadas
                      eval_metric='logloss', #Lo realizamos para evitar el mensaje "warning"
                      use_label_encoder=False #Lo realizamos para evitar el mensaje "warning"
)

pipeline = Pipeline([('MinMaxScale', scaler), ('SMOTE', resampling), ('Tomelinks', tomek), ('Model', model)])


**🚃🚃 Breve descripción de la Pipeline: 🚃🚃**

**📏 MinMaxScaler:** Escala cada característica a un rango entre 0 y 1.

**📈 SMOTE:** Sobremuestrea la clase minoritaria para abordar el desequilibrio de clases.

**📉 TomekLinks:** Submuestrea la clase mayoritaria para abordar el desequilibrio de clases.

**🤖 XGBClassifier:** El modelo de aprendizaje automático utilizado para la clasificación. Está configurado para manejar el desequilibrio de clases (scale_pos_weight) y utiliza logloss como la métrica de rendimiento (eval_metric).

El objeto Pipeline encadena estos pasos juntos, aplicándolos en secuencia a cualquier dato de entrada. Los datos se transforman mediante MinMaxScaler, luego se sobremuestrean mediante SMOTE y TomekLinks, y finalmente se utilizan para entrenar el XGBClassifier.

 **7.2 Realizamos la predicción**

In [None]:
#Definimos el modelo con los hiperparametros en "Default"

model = XGBClassifier(
    scale_pos_weight=sum(y_train==0)/sum(y_train==1), #Ajustamos las ponderaciones de clases debido al imbalanceado de clases
    eval_metric='logloss',
    use_label_encoder= False #Para evitar mensaje de "warning"
    )

#Entrenamos el modelo

model.fit(X_train, y_train)

#Realizamos las predicciones en los datos de prueba

y_pred = model.predict(X_test)
y_score = model.predict_proba(X_test)[:,1]

# **8. Evaluación del modelo**

**8.1 Reporte de clasificación**

In [None]:
#Veemos los resultado de la calificación
print(classification_report(y_test, y_pred))

**🔍 Interpretación de Resultados:**

**1. Precisión:** De todas las instancias que el modelo predijo como positivas, ¿cuántas son realmente positivas? Un puntaje de precisión de 0.97 para la clase 0 🚫 significa que el 97% de las instancias que el modelo predijo como clase 0 son realmente clase 0. De manera similar, un puntaje de precisión de 0.21 para la clase 1 ✅ significa que solo el 21% de las instancias que el modelo predijo como clase 1 son realmente clase 1.

**2. Recall:** De todas las instancias positivas reales, ¿cuántas identificó correctamente el modelo? Un puntaje de recall de 0.74 para la clase 0 🚫 significa que el modelo identificó correctamente el 74% de todas las instancias reales de clase 0. De manera similar, un puntaje de recall de 0.77 para la clase 1 ✅ significa que el modelo identificó correctamente el 77% de todas las instancias reales de clase 1.

**3. F1 Score:** La media armónica de precisión y recall. Una  F1 score alcanza su mejor valor en 1 (precisión y recall perfectas) y su peor valor en 0. Es una buena manera de resumir la evaluación del modelo con un solo número. 🎯

**4. Support:** El número de instancias reales para cada clase en los datos de prueba. 🔢

**5. Accuracy:** La proporción de predicciones correctas respecto al total de predicciones. Una exactitud de 0.74 significa que el modelo predijo correctamente la clase para el 74% de todas las instancias. ✔️

**6. Macro Avg:** El promedio de precisión, recall o  F1 score sin considerar la proporción para cada clase. 📊

**7. Weighted Avg:** El promedio de precisión, recall o  F1 score considerando la proporción para cada clase. ⚖️

**🔍 Observaciones:**

Del informe, podemos observar que el modelo tiene una alta precisión pero un recall más bajo para la clase 0 (probablemente la clase negativa), y una baja precisión pero un recall más alto para la clase 1 (probablemente la clase positiva). Esto significa que el modelo es más conservador al predecir la clase 1, pero cuando lo hace, es más probable que sea correcto. Por otro lado, predice la clase 0 con más frecuencia, pero un número significativo de ellas son falsos positivos.

La precisión general del modelo es de 0.74, lo que significa que hace la predicción correcta para el 74% de las instancias. Sin embargo, el puntaje F1 promedio macro es solo de 0.58, lo que indica que el rendimiento del modelo no es tan bueno cuando consideramos ambas clases por igual, independientemente de su desequilibrio.

**8.2 Matriz de Confusion**

In [None]:
#Realizamos las predicciones en el conjunto de prueba

y_pred = model.predict(X_test)

#Realizamos la matriz de confusión

Conf_Matriz = confusion_matrix(y_test, y_pred, labels=model.classes_)

#Creamos el objeto visual para la matriz de confusion

disp = ConfusionMatrixDisplay(confusion_matrix=Conf_Matriz, display_labels=model.classes_)

#Generamos el grafico de la matriz de confusion

disp.plot()
plt.show()

**🔍Interpretacion de resultados:**

**True negatives (TN):** 42110 - El modelo predijo correctamente la clase 0 🚫 para estas instancias.

**False positives (FP):** 14567 - El modelo predijo incorrectamente la clase 1 ✅ para estas instancias, que en realidad son de la clase 0 🚫.

**False negatives (FN):** 1219 - El modelo predijo incorrectamente la clase 0 🚫 para estas instancias, que en realidad son de la clase 1 ✅.

**True positives (TP):** 3859 - El modelo predijo correctamente la clase 1 ✅ para estas instancias.

***Esto nos indica que el modelo es razonablemente bueno identificando verdaderos negativos (clase 0), pero tiene bastantes falsos positivos, es decir, predice la clase 1 para muchas instancias que en realidad son clase 0. 
El modelo tiene un número relativamente pequeño de falsos negativos y un número menor de verdaderos positivos, lo que indica que es más conservador al predecir la clase 1.***

**8.3 Curva ROC y Area ROC**

In [None]:
# Generamos la Curva ROC y el Area ROC
fpr_optimized, tpr_optimized, _ = roc_curve(y_test, y_pred)
roc_auc_optimized = auc(fpr_optimized, tpr_optimized)

# Graficamos la Curva ROC
plt.figure()
plt.plot(fpr_optimized, tpr_optimized, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc_optimized)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()

**🔍 Interpretación de Resultados:**

**AUC (Área Under Curve ROC): 0.75** - Esto significa que el modelo tiene un 75% de probabilidad de clasificar correctamente una instancia positiva elegida al azar como más probable de ser positiva que una instancia negativa elegida al azar.

Un AUC de 1.0 representa un modelo perfecto que no comete errores, mientras que un AUC de 0.5 representa un modelo que no se desempeña mejor que el azar. Por lo tanto, un AUC de 0.75 es un valor razonablemente bueno.

**8.4 Curva Precision-Recall**

In [None]:
# Graficamos la curva de precision-recall

precision, recall, _ = precision_recall_curve(y_test, y_score)
plt.figure()
plt.plot(recall, precision, label='Precision-Recall curve')
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall curve')
plt.legend(loc="lower left")

plt.show()

**8.5 Curva de aprendizaje**

In [None]:
# Graficamos la curva de aprendizaje

train_sizes, train_scores, valid_scores = learning_curve(model, X, y, train_sizes=np.linspace(0.1, 1.0, 5), cv=5)
plt.figure()
plt.plot(train_sizes, train_scores.mean(axis=1), label='Training score')
plt.plot(train_sizes, valid_scores.mean(axis=1), label='Cross-validation score')
plt.xlabel('Training set size')
plt.ylabel('Score')
plt.title('Learning curve')
plt.legend(loc="lower right")
plt.show()

# **9. Análisis de resultados**

**9.1 Resultados**

El modelo entrenado fue evaluado utilizando varias métricas incluyendo precisión, recall, F1-score, y área bajo la curva ROC (AUC). Según el informe de clasificación, el modelo mostró una alta precisión para la clase 0 (0.97) 🎯 pero un recall más bajo (0.74) 🔄. Por el contrario, para la clase 1, la precisión fue baja (0.21) pero el recall fue relativamente alto (0.77). Los F1-scores para las clases 0 y 1 fueron 0.84 y 0.33 respectivamente, lo que indica un mejor rendimiento en predecir la clase 0 sobre la clase 1. La exactitud global del modelo fue de 0.74. 🎲

La matriz de confusión mostró que el modelo tenía un alto número de verdaderos negativos (42110) ✔️ pero también un alto número de falsos positivos (14567) ❌, lo que indica una tendencia a predecir incorrectamente la clase 1 para instancias que son realmente clase 0. El número de falsos negativos fue relativamente bajo (1219), mientras que el número de verdaderos positivos también fue bajo (2859).

El área bajo la curva ROC fue de 0.75, lo que indica un rendimiento razonable en distinguir entre clases positivas y negativas. 📈

La curva de Precisión-Recall mostró que el modelo comenzó con un recall perfecto pero una precisión muy baja, lo que indica una tendencia a sobre-predecir la clase positiva. ⚖️

**9.2 Discusion**

Los resultados muestran que aunque el modelo tiene una precisión global y un AUC razonables, su rendimiento difiere significativamente entre las dos clases. Se desempeña bien en la predicción de la clase 0, pero tiene dificultades con la clase 1, mostrando un alto recall pero una baja precisión. Esto indica que el modelo es conservador en la predicción de la clase 1, lo que conduce a un alto número de falsos positivos y un bajo número de verdaderos positivos. 📉

El desempeño desequilibrado entre las clases podría deberse al desequilibrio de clases en los datos de entrenamiento, ya que el modelo parece estar sesgado hacia la predicción de la clase mayoritaria 🏭. Las estrategias para abordar este problema podrían incluir el remuestreo de los datos de entrenamiento para equilibrar las clases, o ajustar los pesos de clase o el umbral en el modelo para aumentar su sensibilidad a la clase minoritaria. ↕️

Además, el rendimiento del modelo podría potencialmente mejorarse con más ingeniería de características o mediante el uso de un modelo más complejo o de un tipo diferente. Sin embargo, cualquier aumento en la complejidad del modelo debería validarse cuidadosamente para asegurar que no conduzca al sobreajuste. 🎛️🔬