# Naive Bayes

# Dataset: Heart Failure Prediction Dataset

## Descripción

Las enfermedades cardiovasculares (ECV) son la principal causa de muerte en todo el mundo y se cobran aproximadamente 17,9 millones de vidas cada año, lo que representa el 31 % de todas las muertes en todo el mundo. Cuatro de cada 5 muertes por ECV se deben a ataques cardíacos y accidentes cerebrovasculares, y un tercio de estas muertes ocurren prematuramente en personas menores de 70 años. La insuficiencia cardíaca es un evento común causado por ECV y este conjunto de datos contiene 11 características que pueden usarse para predecir una posible enfermedad cardíaca. Las personas con enfermedades cardiovasculares o que tienen un alto riesgo cardiovascular (por la presencia de uno o más factores de riesgo como hipertensión, diabetes, hiperlipidemia o enfermedad ya establecida) necesitan una detección y manejo temprano en el que un modelo de aprendizaje automático puede ser de gran ayuda.

# Cargar los datos

In [16]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, confusion_matrix, f1_score

In [17]:
# https://www.kaggle.com/datasets/iamhungundji/covid19-symptoms-checker
# Desarrollar el ejercicio propuesto implementando la regresión logística
datos = pd.read_csv('./Datos/Cleaned-Data.csv')

In [18]:
datos.head(10)

Unnamed: 0,Fever,Tiredness,Dry-Cough,Difficulty-in-Breathing,Sore-Throat,None_Sympton,Pains,Nasal-Congestion,Runny-Nose,Diarrhea,...,Gender_Male,Gender_Transgender,Severity_Mild,Severity_Moderate,Severity_None,Severity_Severe,Contact_Dont-Know,Contact_No,Contact_Yes,Country
0,1,1,1,1,1,0,1,1,1,1,...,1,0,1,0,0,0,0,0,1,China
1,1,1,1,1,1,0,1,1,1,1,...,1,0,1,0,0,0,0,1,0,China
2,1,1,1,1,1,0,1,1,1,1,...,1,0,1,0,0,0,1,0,0,China
3,1,1,1,1,1,0,1,1,1,1,...,1,0,0,1,0,0,0,0,1,China
4,1,1,1,1,1,0,1,1,1,1,...,1,0,0,1,0,0,0,1,0,China
5,1,1,1,1,1,0,1,1,1,1,...,1,0,0,1,0,0,1,0,0,China
6,1,1,1,1,1,0,1,1,1,1,...,1,0,0,0,0,1,0,0,1,China
7,1,1,1,1,1,0,1,1,1,1,...,1,0,0,0,0,1,0,1,0,China
8,1,1,1,1,1,0,1,1,1,1,...,1,0,0,0,0,1,1,0,0,China
9,1,1,1,1,1,0,1,1,1,1,...,1,0,0,0,1,0,0,0,1,China


In [25]:
datos = pd.get_dummies(datos, columns=["Country"])

Separar las variables independientes (X) de la variable dependiente o variable objetivo (y):

In [26]:
X = datos.drop('Difficulty-in-Breathing', axis=1)
y = datos['Fever']

Dividir los datos en conjuntos de entrenamiento y prueba

In [27]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Crear un objeto de la clase GaussianNB()

In [28]:
nb = GaussianNB()

Entrenar el modelo con los datos de entrenamiento

In [29]:
nb.fit(X_train, y_train)

GaussianNB()

Utilizar el modelo para predecir las etiquetas de los datos de prueba

In [30]:
y_pred = nb.predict(X_test)

Evaluar el rendimiento del modelo

In [31]:
print("Precisión:", accuracy_score(y_test, y_pred))
print("Matriz de confusión:", confusion_matrix(y_test, y_pred))
print("Puntaje F1:", f1_score(y_test, y_pred))

Precisión: 1.0
Matriz de confusión: [[65376     0]
 [    0 29664]]
Puntaje F1: 1.0
