# **Naive Bayes Classifier in Python** <a class="anchor" id="0"></a>

El clasificador Naïve Bayes es un algoritmo sencillo y potente para la tarea de clasificación. 

Usaremos las herramietas de Scikit-Learn para implementar el algoritmo de clasificación Naive Bayes.

**Objetivo**: Construir un clasificador Naive Bayes para predecir si una persona gana más de 50K USD al año.

<a class="anchor" id="0.1"></a>
# **Tabla de Contenido**

1.	[Introduction to Naive Bayes algorithm](#1)
2.	[Naive Bayes algorithm intuition](#2)
3.	[Types of Naive Bayes algorithm](#3)
4.	[Applications of Naive Bayes algorithm](#4)
5.	[Import libraries](#5)
6.	[Import dataset](#6)
7.	[Exploratory data analysis](#7)
8.	[Declare feature vector and target variable](#8)
9.	[Split data into separate training and test set](#9)
10.	[Feature engineering](#10)
11.	[Feature scaling](#11)
12.	[Model training](#12)
13.	[Predict the results](#13)
14.	[Check accuracy score](#14)
15.	[Confusion matrix](#15)
16.	[Classification metrices](#16)
17.	[Calculate class probabilities](#17)

# **1. Introduction to Naive Bayes algorithm** <a class="anchor" id="1"></a>

[Table of Contents](#0.1)

En el aprendizaje automático, el clasificador de Naive Bayes es un algoritmo sencillo y potente para la tarea de clasificación. 

El clasificador de Naive Bayes  se basa en la aplicación del teorema de Bayes con un fuerte supuesto de independencia entre las características. 

**El clasificador de Naive Bayes  produce buenos resultados cuando la usamos para análisis de datos textuales como el procesamiento del lenguaje natural.**

Los modelos Naive Bayes también se conocen como "Bayes simple" o "Bayes independiente". Todos estos nombres hacen referencia a la aplicación del teorema de Bayes en la regla de decisión del clasificador. El clasificador Naive Bayes aplica el teorema de Bayes en la práctica. Este clasificador aporta el poder del teorema de Bayes al aprendizaje automático.

# **2. Naive Bayes algorithm intuition** <a class="anchor" id="2"></a>

[Table of Contents](#0.1)

El clasificador Naïve Bayes utiliza el teorema de Bayes para predecir las probabilidades de membresía de cada clase, como la probabilidad de que un registro o punto de datos determinado pertenezca a una clase particular. 

La clase con mayor probabilidad se considera la clase más probable. Esto también se conoce como **Máximo A Posteriori (MAP)**.

El Máximo A Posteriori con 2 eventos A y B es:

$$MAP = max (P (A | B ) ) = max \frac{P (B | A) * P (A)}{P (B)} = max (P (B | A) * P (A)) $$

Aquí, $P(B)$ es la probabilidad de evidencia. Se utiliza para normalizar el resultado. Sigue siendo el mismo, por lo que eliminarlo no afectaría el resultado.

El clasificador Naive Bayes supone que todas las características no están relacionadas entre sí. La presencia o ausencia de una característica no influye en la presencia o ausencia de cualquier otra característica.

En conjuntos de datos del mundo real, probamos una hipótesis dada múltiples evidencias sobre las características. Entonces, los cálculos se vuelven bastante complicados. Para simplificar el trabajo, se utiliza el enfoque de independencia de características para desacoplar múltiples pruebas y tratar cada una como independiente.

# **3. Types of Naive Bayes algorithm** <a class="anchor" id="3"></a>

[Table of Contents](#0.1)


Hay 3 tipos de algoritmo Naïve Bayes. Los 3 tipos se enumeran a continuación: -

  1. Gaussian Naïve Bayes

  2. Multinomial Naïve Bayes

  3. Bernoulli Naïve Bayes


## **Gaussian Naïve Bayes algorithm**

Cuando tenemos valores de atributos continuos, asumimos que los valores asociados con cada clase se distribuyen según una distribución gaussiana o normal. Por ejemplo, supongamos que los datos de entrenamiento contienen un atributo continuo $x$. Primero segmentamos los datos por clase y luego calculamos la media y la varianza de x en cada clase. Sea µi la media de los valores y sea $σ_i$ la varianza de los valores asociados con la iésima clase. Supongamos que tenemos algún valor de observación xi. Entonces, la distribución de probabilidad de $x_i$ dada una clase se puede calcular mediante la siguiente ecuación:

![Gaussian Naive Bayes algorithm](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQEWCcq1XtC1Yw20KWSHn2axYa7eY-a0T1TGtdVn5PvOpv9wW3FeA&s)

## **Multinomial Naïve Bayes algorithm**

Con un modelo Multinomial Naïve Bayes, las muestras (vectores de características) representan las frecuencias con las que ciertos eventos han sido generados por un multinomial ($p_1, . . . ,p_n$) donde $p_i$ es la probabilidad de que ocurra el evento $i$. 

Se prefiere utilizar el algoritmo multinomial Naïve Bayes en datos con distribución multinomial. 

Es uno de los algoritmos estándar que se utiliza en la clasificación de categorización de texto.

## **Bernoulli Naïve Bayes algorithm**

En el modelo de eventos multivariado de Bernoulli, las características son variables booleanas independientes (variables binarias) que describen las entradas. 

Al igual que el modelo multinomial, este modelo también es popular para tareas de clasificación de documentos donde se utilizan características de aparición de términos binarios en lugar de frecuencias de términos.

# **4. Applications of Naive Bayes algorithm** <a class="anchor" id="4"></a>

[Table of Contents](#0.1)

Naïve Bayes es uno de los algoritmos de clasificación más sencillos y rápidos. Es muy adecuado para grandes volúmenes de datos. 

Se utiliza con éxito en diversas aplicaciones como:
1. Filtrado de spam
2. Clasificación de textos
3. Análisis de sentimiento
4. Sistemas de recomendación

Utiliza el teorema de probabilidad de Bayes para la predicción de clases desconocidas.

# **5. Import libraries** <a class="anchor" id="5"></a>

[Table of Contents](#0.1)

In [None]:
# Dependencies

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 
from sklearn.model_selection import train_test_split
import category_encoders as ce
from sklearn.preprocessing import RobustScaler
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

#
import warnings
warnings.filterwarnings('ignore')

In [None]:
#!pip install category_encoders

# **6. Import dataset** <a class="anchor" id="6"></a>

[Table of Contents](#0.1)

In [None]:
#

df = pd.read_csv( 'adult.csv', header = None )

df.head()

# **7. Exploratory data analysis** <a class="anchor" id="7"></a>

[Table of Contents](#0.1)


In [None]:
# view dimensions of dataset

df.shape

In [None]:
# Rename column names

col_names = ['age', 'workclass', 'fnlwgt', 'education', 'education_num', 'marital_status', 'occupation', 'relationship',
             'race', 'sex', 'capital_gain', 'capital_loss', 'hours_per_week', 'native_country', 'income']

df.columns = col_names

df.columns

In [None]:
df

In [None]:
# let's again preview the dataset

df.head()

In [None]:
# view summary of dataset

df.info()

### Resumen de las variables categoricas

- Hay 9 variables categoricas.


- Estas son: `workclass`, `education`, `marital_status`, `occupation`, `relationship`, `race`, `sex`, `native_country`, `income`.


- `income` es nuestra variable objetivo.

In [None]:
# check missing values in categorical variables

categorical = [ 'workclass', 'education', 'marital_status', 'occupation', 'relationship', 'race', 
                 'sex', 'native_country', 'income']

df[categorical].isnull().sum()

In [None]:
# view frequency counts of values in categorical variables

for var in categorical: 
    print( df[var].value_counts() )

In [None]:
# view frequency distribution of categorical variables

for var in categorical: 
    
    print(df[var].value_counts(normalize = True))

Notemos que hay variables `workclass`, `occupation` y `native_country` que contienen missing values (denominados como `?`). 

Generalmente, los missing values se codifican como `NaN` y es sencillo detectarlos con Python (`df.isnull().sum()`).

Reemplazaremos `?` con `NaN`.

In [None]:
# check labels in workclass variable

df.workclass.unique()

In [None]:
# check frequency distribution of values in workclass variable

df.workclass.value_counts()

In [None]:
# replace '?' values in workclass variable with `NaN`


df['workclass'].replace(' ?', np.NaN, inplace = True)

In [None]:
# again check the frequency distribution of values in workclass variable

df.workclass.value_counts()

In [None]:
# check labels in occupation variable

df.occupation.unique()

In [None]:
# check frequency distribution of values in occupation variable

df.occupation.value_counts()

In [None]:
# replace '?' values in occupation variable with `NaN`

df['occupation'].replace(' ?', np.NaN, inplace=True)


In [None]:
# again check the frequency distribution of values in occupation variable

df.occupation.value_counts()

In [None]:
# check labels in native_country variable

df.native_country.unique()

In [None]:
# check frequency distribution of values in native_country variable

df.native_country.value_counts()


In [None]:
# replace '?' values in native_country variable with `NaN`

df['native_country'].replace(' ?', np.NaN, inplace=True)

In [None]:
# again check the frequency distribution of values in native_country variable

df.native_country.value_counts()

In [None]:
# Check missing values in categorical variables again

df[categorical].isnull().sum()

In [None]:
# check for cardinality in categorical variables

for var in categorical:
    
    print(var, ' contains ', len(df[var].unique()), ' labels')

In [None]:
# view the numerical variables

numerical = [ 'age', 'fnlwgt', 'education_num', 'capital_gain', 'capital_loss', 'hours_per_week' ]

df[numerical].head()

In [None]:
# check missing values in numerical variables

df[numerical].isnull().sum()

# **8. Declare feature vector and target variable** <a class="anchor" id="8"></a>

[Table of Contents](#0.1)

In [None]:
#

X = df.drop( ['income'], axis = 1 )

y = df['income']

# **9. Split data into separate training and test set** <a class="anchor" id="9"></a>

[Table of Contents](#0.1)

In [None]:
# split X and y into training and testing sets

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 0)


In [None]:
# check the shape of X_train and X_test

X_train.shape, X_test.shape

# **10. Feature Engineering** <a class="anchor" id="10"></a>

[Table of Contents](#0.1)

**Feature Engineering** es el proceso de transformar datos sin procesar en funciones útiles que nos ayudan a comprender mejor nuestro modelo y aumentar su poder predictivo. 

In [None]:
# check data types in X_train

X_train.dtypes

In [None]:
# print percentage of missing values in the categorical variables in training set

categorical = [ 'workclass', 'education', 'marital_status', 'occupation', 'relationship', 'race', 
                 'sex', 'native_country' ]

X_train[categorical].isnull().mean()

In [None]:
# print categorical variables with missing data

for col in categorical:
    if X_train[col].isnull().mean()>0:
        print(col, (X_train[col].isnull().mean()))

In [None]:
# impute missing categorical variables with most frequent value

for df2 in [X_train, X_test]:
    df2['workclass'].fillna(X_train['workclass'].mode()[0], inplace=True)
    df2['occupation'].fillna(X_train['occupation'].mode()[0], inplace=True)
    df2['native_country'].fillna(X_train['native_country'].mode()[0], inplace=True)    

In [None]:
# check missing values in categorical variables in X_train

X_train[categorical].isnull().sum()

In [None]:
# check missing values in categorical variables in X_test

X_test[categorical].isnull().sum()

In [None]:
# check missing values in X_train

X_train.isnull().sum()

In [None]:
# check missing values in X_test

X_test.isnull().sum()

In [None]:
#

X_train[categorical].head()

In [None]:
# Encode categorical variables
# encode remaining variables with one-hot encoding

encoder = ce.OneHotEncoder( cols = [ 'workclass', 'education', 'marital_status', 'occupation', 
                                     'relationship', 'race', 'sex', 'native_country' ] )

X_train = encoder.fit_transform(X_train)

X_test = encoder.transform(X_test)

In [None]:
X_train.head()

In [None]:
X_train.shape

In [None]:
X_test.head()

In [None]:
X_test.shape

# **11. Feature Scaling** <a class="anchor" id="11"></a>

[Table of Contents](#0.1)

In [None]:
#

cols = X_train.columns

cols

1. ¿Qué es RobustScaler()?
RobustScaler es una clase de la biblioteca scikit-learn (sklearn), que se utiliza para escalar o normalizar datos numéricos.
La normalización o escalado es una etapa clave en machine learning porque muchos algoritmos funcionan mejor (o directamente requieren) que los datos numéricos estén en una escala similar.
RobustScaler escala los datos usando la mediana y el rango intercuartílico (IQR: el rango entre el percentil 25 y el 75).
Ventaja: Es robusto ante outliers (valores atípicos/extremos), porque la mediana y los cuartiles no se ven tan afectados por ellos como la media y la desviación estándar (que usa StandardScaler).

2. ¿Qué hace .fit_transform(X_train)?
scaler.fit_transform(X_train):
fit: Calcula la mediana y los cuartiles de cada columna de X_train (tu conjunto de entrenamiento).
transform: Usando esos valores calculados, transforma todos los valores de X_train para que estén en la nueva escala.
El resultado es que X_train queda escalado, es decir, transformado para que los outliers tengan mucho menos efecto.

3. ¿Qué hace .transform(X_test)?
scaler.transform(X_test):
Toma los parámetros (mediana y cuartiles) que aprendió usando X_train y transforma el conjunto de prueba (X_test) usando esos mismos valores.
Importante:
**Nunca debes “aprender” los parámetros del test, sólo del entrenamiento, para evitar fugas de información (data leakage).**

4. ¿Por qué hacerlo así?
Porque así garantizas que ambos conjuntos están en la misma escala, pero el test nunca influye en el cálculo del escalado (lo cual sería un error).
Esto hace que tus modelos sean más robustos y se generalicen mejor.

In [None]:
#

scaler = RobustScaler()

X_train = scaler.fit_transform(X_train)

X_test = scaler.transform(X_test)

In [None]:
#
X_train

In [None]:
#
X_test

In [None]:
#
cols

In [None]:
#
X_train = pd.DataFrame(X_train, columns=[cols])

In [None]:
#
X_test = pd.DataFrame(X_test, columns=[cols])

In [None]:
#
X_train.head()

In [None]:
X_train.shape

# **12. Model training** <a class="anchor" id="12"></a>

[Table of Contents](#0.1)

In [None]:
# train a Gaussian Naive Bayes classifier on the training set

# instantiate the model
gnb = GaussianNB()

# fit the model
gnb.fit(X_train, y_train)

# **13. Predict the results** <a class="anchor" id="13"></a>

[Table of Contents](#0.1)

In [None]:
#
y_pred = gnb.predict(X_test)

y_pred

# **14. Check accuracy score** <a class="anchor" id="14"></a>

[Table of Contents](#0.1)

In [None]:
#

print('Test-set accuracy score: {0:0.4f}'. format(accuracy_score(y_test, y_pred)))

In [None]:
#
y_pred_train = gnb.predict(X_train)

y_pred_train

In [None]:
print('Training-set accuracy score: {0:0.4f}'. format(accuracy_score(y_train, y_pred_train)))

### Check for overfitting and underfitting

In [None]:
# print the scores on training and test set

print('Training set score: {:.4f}'.format(gnb.score(X_train, y_train)))

print('Test set score: {:.4f}'.format(gnb.score(X_test, y_test)))

**La precisión del conjunto de entrenamiento es 0,8067, mientras que la precisión del conjunto de prueba es 0,8083.**

**Estos dos valores son bastante comparables. Por tanto, no hay signos de sobreajuste.**

# **15. Confusion matrix** <a class="anchor" id="15"></a>

[Table of Contents](#0.1)

Una **matriz de confusión** es una herramienta para resumir el desempeño de un algoritmo de clasificación. Una matriz de confusión nos dará una imagen clara del rendimiento del modelo de clasificación y los tipos de errores producidos por el modelo. Nos da un resumen de predicciones correctas e incorrectas desglosadas por cada categoría. 

El resumen se presenta en forma de tabla. Son posibles cuatro tipos de resultados. Estos cuatro resultados se describen a continuación:

**Verdaderos positivos (TP)**: los verdaderos positivos ocurren cuando predecimos que una observación pertenece a una determinada clase y la observación en realidad pertenece a esa clase.

**Verdaderos Negativos (TN)** – Los Verdaderos Negativos ocurren cuando predecimos que una observación no pertenece a una determinada clase y la observación en realidad no pertenece a esa clase.

**Falsos positivos (FP)**: los falsos positivos ocurren cuando predecimos que una observación pertenece a una determinada clase, pero la observación en realidad no pertenece a esa clase. Este tipo de error se llama **Error tipo I.**

**Falsos negativos (FN)**: los falsos negativos ocurren cuando predecimos que una observación no pertenece a una determinada clase, pero la observación en realidad pertenece a esa clase. Este es un error muy grave y se llama **Error de tipo II.**

In [None]:
# Print the Confusion Matrix and slice it into four pieces


cm = confusion_matrix(y_test, y_pred)

print('Confusion matrix\n\n', cm)
TP = cm[0,0]
print('\nTrue Positives(TP) = ', cm[0,0])
TN = cm[1,1]
print('\nTrue Negatives(TN) = ', cm[1,1])
FP = cm[0,1]
print('\nFalse Positives(FP) = ', cm[0,1])
FN = cm[1,0]
print('\nFalse Negatives(FN) = ', cm[1,0])

In [None]:
# visualize confusion matrix with seaborn heatmap

cm_matrix = pd.DataFrame( data = cm, 
                          columns = [ 'Actual Positive: 1', 'Actual Negative: 0' ],
                          index = [ 'Predict Positive: 1', 'Predict Negative: 0' ])

sns.heatmap( cm_matrix, annot = True, fmt = 'd', cmap = 'YlGnBu')

plt.show()

# **16. Classification metrices** <a class="anchor" id="16"></a>

[Table of Contents](#0.1)

**Informe de clasificación** es otra forma de evaluar el rendimiento del modelo de clasificación. Muestra las puntuaciones de **precisión (precision)**, **recuperación (recall)**, **f1** y **soporte (support)** para el modelo.

In [None]:
#

print(classification_report(y_test, y_pred))

In [None]:
# print precision score

precision = TP / float(TP + FP)


print('Precision : {0:0.4f}'.format(precision))


In [None]:
#

recall = TP / float(TP + FN)

print('Recall or Sensitivity : {0:0.4f}'.format(recall))

In [None]:
#

false_positive_rate = FP / float(FP + TN)


print('False Positive Rate : {0:0.4f}'.format(false_positive_rate))

In [None]:
#

specificity = TN / (TN + FP)

print('Specificity : {0:0.4f}'.format(specificity))

###  f1 Score

**f1-score** es la media armónica ponderada de precisión y recuperación. El mejor **f1-score** posible sería 1.0 y el peor sería 0.0. 

$$f1-Score = \frac{2 \times precision \times recall}{precision + recall}$$


# **17. Calculate class probabilities** <a class="anchor" id="17"></a>

[Table of Contents](#0.1)

In [None]:
# print the first 10 predicted probabilities of two classes- 0 and 1

y_pred_prob = gnb.predict_proba(X_test)[0:10]

y_pred_prob

In [None]:
# store the probabilities in dataframe

y_pred_prob_df = pd.DataFrame(data=y_pred_prob, columns=['Prob of - <=50K', 'Prob of - >50K'])

y_pred_prob_df

In [None]:
# store the predicted probabilities for class 1 - Probability of >50K

y_pred1 = gnb.predict_proba(X_test)[:, 1]

In [None]:
# plot histogram of predicted probabilities


# adjust the font size 
plt.rcParams['font.size'] = 12


# plot histogram with 10 bins
plt.hist(y_pred1, bins = 10)


# set the title of predicted probabilities
plt.title('Histogram of predicted probabilities of salaries >50K')


# set the x-axis limit
plt.xlim(0,1)


# set the title
plt.xlabel('Predicted probabilities of salaries >50K')
plt.ylabel('Frequency')
plt.show()

[Go to Top](#0)