# Naive Bayes

Es un algoritmo de clasificación probabilística basado en el teorema de Bayes, que asume independencia condicional entre las características dadas las clases.

Este algoritmo es adecuado cuando:

- **Suposición de independencia es razonable**; Naive Bayes asume que las características de los datos son independientes entre sí. Esta suposición puede no ser realista en algunos casos, pero puede simplificar la aplicación del algoritmo.
- **Cuando los datos son multidimensionales**.
- **Conjuntos de datos de tamaño moderado a grande**.

![Naive Bayes](https://miro.medium.com/v2/resize:fit:1400/0*9Yio7Jry0iJ8EIPb.png)

#### Ventajas y desventajas

**Ventajas**

1. **Simple y eficiente**.
2. **Buen rendimiento en conjuntos de datos textuales**. Funciona especialmente bien en conjuntos de datos textuales y problemas de clasificación de texto.

**Desventajas**

1. **Suposición de independencia**: La suposición de independencia condicional puede ser demasiado simplista y no siempre reflejar la realidad de las relaciones entre las características.
2. **Problemas con atributos correlacionados**: Puede tener dificultades cuando hay atributos altamente correlacionados, ya que la suposición de independencia condicional se ve comprometida.
3. **Sensible a datos de entrenamiento pequeños**: Puede ser sensible a datos de entrenamiento pequeños y puede tener problemas de estimación si una clase no está bien representada en los datos de entrenamiento.

In [None]:
data = pd.read_csv('/content/sample_data/Social_Network_Ads.csv')
X = data.iloc[:, [2, 3]]
y = data.iloc[:, -1].values
gender = data[['Gender']]

from sklearn.preprocessing import OneHotEncoder
cat_encoder = OneHotEncoder()
data_cat_1hot = cat_encoder.fit_transform(gender)
encoded_df = pd.DataFrame(data_cat_1hot.toarray(), columns = cat_encoder.get_feature_names_out())
data1 = pd.concat([X, encoded_df], axis = 1)

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

from sklearn.naive_bayes import GaussianNB
cls = GaussianNB()
cls.fit(X_train, y_train)

y_pred = cls.predict(X_test)

from sklearn.metrics import confusion_matrix
print(confusion_matrix(y_test, y_pred))

from sklearn.metrics import precision_score, recall_score
print('Precision:',precision_score(y_test, y_pred))
print('Recall:',recall_score(y_test, y_pred))

from sklearn.metrics import f1_score
print('F1:',f1_score(y_test, y_pred))

[[65  3]
 [ 7 25]]
Precision: 0.8928571428571429
Recall: 0.78125
F1: 0.8333333333333334
