In [1]:
# Primero necesitamos importar algunas bibliotecas y cargar el dataset.
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

In [2]:
# Cargar la base de datos
data = pd.read_csv("C:/Users/Felipe Galvis/Documents/Python/Raw-Data.csv")

In [3]:
# Ver las primeras filas de la base de datos
print(data.head())

              Country    Age       Gender  \
0               China    0-9         Male   
1               Italy  10-19       Female   
2                Iran  20-24  Transgender   
3  Republic of Korean  25-59          NaN   
4              France    60+          NaN   

                                            Symptoms  \
0  Fever,Tiredness,Dry-Cough,Difficulty-in-Breath...   
1  Fever,Tiredness,Dry-Cough,Difficulty-in-Breathing   
2                          Fever,Tiredness,Dry-Cough   
3                                    Fever,Tiredness   
4                                              Fever   

                        Experiencing_Symptoms  Severity    Contact  
0  Pains,Nasal-Congestion,Runny-Nose,Diarrhea      Mild        Yes  
1           Pains,Nasal-Congestion,Runny-Nose  Moderate         No  
2                      Pains,Nasal-Congestion    Severe  Dont-Know  
3                                       Pains      None        NaN  
4        Nasal-Congestion,Runny-Nose,Diarrhea  

In [4]:
print(data.columns)

Index(['Country', 'Age', 'Gender', 'Symptoms', 'Experiencing_Symptoms',
       'Severity', 'Contact'],
      dtype='object')


In [5]:
"""Una vez que hemos cargado el dataset, necesitamos dividirlo en conjuntos de entrenamiento y prueba"""


# Dividir el dataset en características (X) y etiquetas (y)
X = data.drop('Symptoms', axis=1)
y = data['Symptoms']

# Dividir los datos en conjuntos de entrenamiento y prueba
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [6]:
"""Debemos tener en cuenta que el clasificador Naive Bayes espera que las características de entrada sean numéricas,
tendremos que preprocesar los datos y convertir todas las características categóricas en numéricas, para convertir
se utiliza la técnica de codificación one-hot. La codificación one-hot crea nuevas columnas binarias"""

# Realizar la codificación one-hot en las características categóricas
X_encoded = pd.get_dummies(X)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

In [7]:
"""podemos entrenar el clasificador Naive Bayes y realizar predicciones"""

# Crear y entrenar el clasificador Naive Bayes
gnb = GaussianNB()
gnb.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = gnb.predict(X_test)

In [9]:
"""podemos evaluar la precisión de nuestro clasificador"""
# Calcular la precisión del clasificador
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del clasificador Naive Bayes:", accuracy)

Precisión del clasificador Naive Bayes: 0.0


In [10]:
"""para obtener la probabilidad posterior para cada clase, puedes hacerlo utilizando el método predict_proba"""

# Obtener la probabilidad posterior para cada clase
y_prob = gnb.predict_proba(X_test)

# Imprimir las primeras 10 probabilidades posteriores
print(y_prob[:10])

[[0.25000071 0.25000071 0.25000071 0.         0.         0.
  0.         0.         0.25000071 0.         0.         0.        ]
 [0.25000071 0.25000071 0.25000071 0.         0.         0.
  0.         0.         0.25000071 0.         0.         0.        ]
 [0.25000024 0.25000024 0.25000024 0.         0.         0.
  0.         0.         0.25000024 0.         0.         0.        ]
 [0.25       0.25       0.25       0.         0.         0.
  0.         0.         0.25       0.         0.         0.        ]]
