<a href="https://colab.research.google.com/github/TuMyXx93/Analisis_de_datos_etapa4/blob/main/NaiveBayes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Naive Bayes

- **Calcular la probabilidad posterior:** para clasificar un nuevo paciente como infectado o no infectado, podemos utilizar la fórmula de Bayes:

`P(infectado | síntomas) = P(síntomas | infectado) * P(infectado) / P(síntomas)`

`P(no infectado | síntomas) = P(síntomas | no infectado) * P(no infectado) / P(síntomas)`

# COVID-19 Verificador de síntomas
## ¿Predecir si alguien tiene coronavirus o no?

Para este ejercicio estaré utilizando el dataset de Kaggle, en el cuál se presentan datos de [COVID-19](https://www.kaggle.com/datasets/iamhungundji/covid19-symptoms-checker).

In [26]:
# Primero necesitamos importar algunas bibliotecas y cargar el dataset.
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

In [34]:
# Cargar el dataset
data = pd.read_csv('Raw-Data.csv')

In [35]:
# Ver las primeras filas del dataset
print(data.head())

              Country    Age       Gender  \
0               China    0-9         Male   
1               Italy  10-19       Female   
2                Iran  20-24  Transgender   
3  Republic of Korean  25-59          NaN   
4              France    60+          NaN   

                                            Symptoms  \
0  Fever,Tiredness,Dry-Cough,Difficulty-in-Breath...   
1  Fever,Tiredness,Dry-Cough,Difficulty-in-Breathing   
2                          Fever,Tiredness,Dry-Cough   
3                                    Fever,Tiredness   
4                                              Fever   

                        Experiencing_Symptoms  Severity    Contact  
0  Pains,Nasal-Congestion,Runny-Nose,Diarrhea      Mild        Yes  
1           Pains,Nasal-Congestion,Runny-Nose  Moderate         No  
2                      Pains,Nasal-Congestion    Severe  Dont-Know  
3                                       Pains      None        NaN  
4        Nasal-Congestion,Runny-Nose,Diarrhea  

In [36]:
print(data.columns)

Index(['Country', 'Age', 'Gender', 'Symptoms', 'Experiencing_Symptoms',
       'Severity', 'Contact'],
      dtype='object')


### Una vez que hemos cargado el dataset, necesitamos dividirlo en conjuntos de entrenamiento y prueba.

In [52]:
# Dividir el dataset en características (X) y etiquetas (y)
X = data.drop('Symptoms', axis=1)
y = data['Symptoms']

# Dividir los datos en conjuntos de entrenamiento y prueba
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


- Debemos tener en cuenta que el clasificador **Naive Bayes** de scikit-learn **espera que las características de entrada sean numéricas**, ya que en el caso **de haber datos no numéricos** `(por ejemplo, ‘Dry-Cough’ es una cadena de caracteres)` tendremos que preprocesar los datos y convertir todas las características categóricas en numéricas.

- Un enfoque común para convertir características categóricas en numéricas es utilizar la técnica de `codificación one-hot`. La codificación one-hot crea nuevas columnas binarias `(0 o 1)` para cada valor único en la característica categórica. Podemos utilizar la función `pd.get_dummies()` **de pandas** para realizar la codificación one-hot en tu conjunto de datos. A continuación se realiza la técnica de codificación:


In [53]:
# Realizar la codificación one-hot en las características categóricas
X_encoded = pd.get_dummies(X)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)


### Ahora, podemos entrenar el clasificador Naive Bayes y realizar predicciones.

In [54]:
# Crear y entrenar el clasificador Naive Bayes
gnb = GaussianNB()
gnb.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = gnb.predict(X_test)

### Finalmente, podemos evaluar la precisión de nuestro clasificador.

In [55]:
# Calcular la precisión del clasificador
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del clasificador Naive Bayes:", accuracy)

Precisión del clasificador Naive Bayes: 0.0


Este código muestra cómo cargar el dataset, dividirlo en conjuntos de entrenamiento y prueba, entrenar un clasificador **Naive Bayes** utilizando la biblioteca scikit-learn y evaluar la precisión del clasificador en función de las predicciones realizadas. Si deseas obtener la probabilidad posterior para cada clase, puedes hacerlo utilizando el método `predict_proba`:

In [57]:
# Obtener la probabilidad posterior para cada clase
y_prob = gnb.predict_proba(X_test)

# Imprimir las primeras 10 probabilidades posteriores
print(y_prob[:10])

[[0.25000071 0.25000071 0.25000071 0.         0.         0.
  0.         0.         0.25000071 0.         0.         0.        ]
 [0.25000071 0.25000071 0.25000071 0.         0.         0.
  0.         0.         0.25000071 0.         0.         0.        ]
 [0.25000024 0.25000024 0.25000024 0.         0.         0.
  0.         0.         0.25000024 0.         0.         0.        ]
 [0.25       0.25       0.25       0.         0.         0.
  0.         0.         0.25       0.         0.         0.        ]]


---
Finalmente esto te dará la probabilidad posterior para cada paciente en el conjunto de prueba, que puedes usar para analizar más a fondo el rendimiento del clasificador.
---

# Autor: Wilson Tumiña Tumiña
### Curso: Análisis de Datos
### Fecha: Mayo del 2023
### Contactos:

**GitHub** - [TuMyXx93](https://github.com/TuMyXx93)

**Twitter** - [Tumix19](https://twitter.com/Tumix19)

**LinkedIn** - [Wilson Tumi](https://www.linkedin.com/in/wilson-tumi-9982011a9/)

**Platzi** - [Wilson Tumi](https://platzi.com/p/wtumi/)