# Naive Bayes

- Es una aprendizaje supervisado

- Deriva del Teorema de Bayes

- El teorema de Bayes describe la probabilidad condicional de un evento, basado en el conocimiento previo de las condiciones que podrían estar relacionadas con el mismo

- En problemas de clasificación, nos permite determinar la probabilidad condicional de que un determinado ejemplo pertenezca a una clase particular dadas sus caracteristicas

- Siguiendo el teorema de Bayes, se debería calcular las relaciones de probabilidad entre todas las características del conjunto de datos, lo que provoca un elevado costo computacional

- El teorema de Naive Bayes simplifica este proceso suponiendo independencia condicional entre las características


## Teorema de Bayes

**Probabilidad Posterior** $\mathbb{P}(C_k|x)$: Probabilidad de que un ejemplo pertenezca a una determinada clase $C_k$ dadas sus características $(x_1,x_2,\ldots,x_n)$
$$
\mathbb{P}(C_k|x)=\dfrac{\mathbb{P}(x|C_k)\mathbb{P}(c)}{\mathbb{P}(x)}
$$

**Probabilidad de la clase** $\mathbb{P}(C_k)$: Prevalencia de la clase $C_k$ en el conjunto de datos
$$
\mathbb{P}(C_k)=\frac{\text{# de muestras de la clase }C_k}{\text{Total de muestras}}
$$

**Probabilidad de predicción** $\mathbb{P}(x)$: se refiere a la prevalencia de una característica $x$ con un valor determinado en el conjunto de datos
$$
\mathbb{P}(x)=\mathbb{P}(x_1)\mathbb{P}(x_2)\cdots\mathbb{P}(x_n)
$$


## Algoritmo Naive Bayes

Si $x=(x_1,x_2,\ldots,x_n)$ entonces
$$
\mathbb{P}(C_k|x_1,x_2,\ldots,x_n)=\dfrac{\mathbb{P}(x_1,x_2,\ldots,x_n|C_k)\mathbb{P}(C_k)}{\mathbb{P}(x_1,x_2,\ldots,x_n)}
$$

Aplicando independencia condicional, es decir $\mathbb{P}(x_i|C_k,x_j)=\mathbb{P}(x_i|C_k)$, se tiene que

$$
\mathbb{P}(x_1,x_2,\ldots,x_n|C_k)=\mathbb{P}(x_1|C_k)\mathbb{P}(x_2|C_k)\cdots\mathbb{P}(x_n|C_k)
$$

Por lo tanto
$$
\mathbb{P}(C_k|x_1,x_2,\ldots,x_n)=\dfrac{\mathbb{P}(x_1|C_k)\mathbb{P}(x_2|C_k)\cdots\mathbb{P}(x_n|C_k)\mathbb{P}(C_k)}{\mathbb{P}(x_1)\mathbb{P}(x_2)\cdots\mathbb{P}(x_n)}
$$

Debido a que para todas las entradas en el conjunto de datos, el denominador no cambia, permanece estático, se puede eliminar el denominador, introduciendo una proporcionalidad ($\propto$)
$$
\mathbb{P}(C_k|x_1,x_2,\ldots,x_n)\propto\mathbb{P}(C_k)\prod_{i=1}^n\mathbb{P}(x_i|C_k)
$$

Esto significa que bajo los supuestos de independencia, la distribución condicional sobre la clase $C_k$ es:
$$
\mathbb{P}(C_k|x_1,x_2,\ldots,x_n)=\frac{1}{Z}\mathbb{P}(C_k)\prod_{i=1}^n\mathbb{P}(x_i|C_k)
$$
donde $Z=\mathbb{P}(x)$ es un factor de escala que depende sólo de $x_1,x_2,\ldots,x_n$, es decir, es una constante si se conocen los valores de las variables de características

Por lo tanto, necesitamos encontrar la clase $C_k$ con la máxima probabilidad.
$$
C_k=\max_{C_k}\mathbb{P}(C_k)\prod_{i=1}^n\mathbb{P}(x_i|C_k)
$$

esto se conoce como regla de decisión *máxima a posteriori* o *MAP*. Usando la función anterior, podemos obtener la clase, dados los predictores.

Si una clase dada y un valor de característica nunca ocurren juntos en los datos de entrenamiento, entonces la estimación de probabilidad basada en la frecuencia será cero, porque la estimación de probabilidad es directamente proporcional al número de ocurrencias del valor de una característica. Esto es problemático porque eliminará toda la información en las otras probabilidades cuando se multipliquen. Por lo tanto, a menudo es deseable incorporar una corrección de muestra pequeña, llamada *pseudoconteo* , en todas las estimaciones de probabilidad, de modo que ninguna probabilidad se establezca nunca en exactamente cero. Esta forma de regularizar el Naive Bayes se denomina *suavizado de Laplace* cuando la pseudocuenta es uno, y *suavizado de Lidstone* en el caso general.

## Tipos de algoritmos Naive Bayes

- **Multinomial Naive Bayes**: El clasificador Naive Bayes multinomial es **adecuado para la clasificación con características discretas** (por ejemplo, recuentos de palabras para la clasificación de texto). La probabilidad de observar $x$ dado $C_k$, viene dada por
$$
\mathbb{P}(x|C_k)=\dfrac{\left(\sum_{i=1}^nx_i\right)!}{\prod_{i=1}^nx_i!}\prod_{i=1}^n\mathbb{P}(x_i|C_k)^{x_i}
$$
El clasificador multinomialNB se convierte en un *clasificador lineal* cuando se expresa en espacio logaritmico
\begin{eqnarray*}
\log\mathbb{P}(C_k|x)&\propto &\log\left(\mathbb{P}(C_k)\prod_{i=1}^n\mathbb{P}(x_i|C_k)^{x_i}\right)\\
&=&\log\mathbb{P}(C_k)+\sum_{i=1}^nx_i\cdot\log\mathbb{P}(x_i|C_k)^{x_i}\\
&=&b+\theta_k^Tx
\end{eqnarray*}
donde $b=\log\mathbb{P}(C_k)$ y $\theta_{ki}=\log\mathbb{P}(x_i|C_k)^{x_i}$

- **Bernoulli Naive Bayes**: Al igual que MultinomialNB, este clasificador es adecuado para datos discretos. La diferencia es que mientras MultinomialNB funciona con recuentos de ocurrencia, BernoulliNB está diseñado para funciones binarias/booleanas. La función de verosimilitud de $x$ dada $C_k$ está dada por
$$
\mathbb{P}(x|C_k)=\prod_{i=1}^n\mathbb{P}(x_i|C_k)^{x_i}\left[1-\mathbb{P}(x_i|C_k)\right]^{(1-x_i)}
$$

- **Gaussian Naive Bayes**: Es apropiada para datos continuos que se distribuyen conforme a una distribución normal o Gaussiana. Entonces, la densidad de $x$ dada $C_k$, está dada por
$$
\mathbb{P}(x|C_k)=\frac{1}{\sqrt{2\pi\sigma_k^2}}e^{-\frac{1}{2}\frac{(x-\mu_k)^2}{\sigma_k^2}}
$$

## Ejemplo de clasificación 

El conjunto de datos contienen transacciones realizadas con tarjetas de crédito en septiembre de 2013 por titulares de tarjetas europeos.

Contiene solo variables de entrada numéricas que son el resultado de una transformación PCA. Desafortunadamente, debido a problemas de confidencialidad, no podemos proporcionar las características originales ni más información general sobre los datos. Las características V1, V2, … V28 son los principales componentes obtenidos con PCA, las únicas características que no han sido transformadas con PCA son 'Tiempo' y 'Cantidad'. La característica 'Tiempo' contiene los segundos transcurridos entre cada transacción y la primera transacción en el conjunto de datos. La función 'Cantidad' es la cantidad de la transacción, esta función se puede utilizar para el aprendizaje sensible a los costos dependiente del ejemplo. Feature 'Class' es la variable de respuesta y toma valor 1 en caso de fraude y 0 en caso contrario.

## Importar librerias

In [14]:
import numpy as np
import pandas as pd
import seaborn as sns
import copy

from matplotlib import pyplot
from pandas import read_csv, set_option
from pandas.plotting import scatter_matrix
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import BernoulliNB
from sklearn.preprocessing import RobustScaler
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.base import BaseEstimator, TransformerMixin
#Metricas
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.metrics import mean_squared_error
# Configuración warnings
# ==============================================================================
import warnings
warnings.filterwarnings('ignore')

## Funciones auxiliares

In [2]:
# Construcción de un pipeline para los atributos numéricos
num_pipeline = Pipeline([
        ('imputer', SimpleImputer(strategy="median")),
        ('rbst_scaler', RobustScaler()),
    ])

In [3]:
# Transormador para codificar únicamente las columnas categoricas y devolver un df
class CustomOneHotEncoder(BaseEstimator, TransformerMixin):
    def __init__(self):
        self._oh = OneHotEncoder(sparse=False)
        self._columns = None
    def fit(self, X, y=None):
        X_cat = X.select_dtypes(include=['object'])
        self._columns = pd.get_dummies(X_cat).columns
        self._oh.fit(X_cat)
        return self
    def transform(self, X, y=None):
        X_copy = X.copy()
        X_cat = X_copy.select_dtypes(include=['object'])
        X_num = X_copy.select_dtypes(exclude=['object'])
        X_cat_oh = self._oh.transform(X_cat)
        X_cat_oh = pd.DataFrame(X_cat_oh, 
                                columns=self._columns, 
                                index=X_copy.index)
        X_copy.drop(list(X_cat), axis=1, inplace=True)
        return X_copy.join(X_cat_oh)

In [4]:
# Transformador que prepara todo el conjunto de datos llamando pipelines y transformadores personalizados
class DataFramePreparer(BaseEstimator, TransformerMixin):
    def __init__(self):
        self._full_pipeline = None
        self._columns = None
    def fit(self, X, y=None):
        num_attribs = list(X.select_dtypes(exclude=['object']))
        cat_attribs = list(X.select_dtypes(include=['object']))
        self._full_pipeline = ColumnTransformer([
                ("num", num_pipeline, num_attribs),
                ("cat", CustomOneHotEncoder(), cat_attribs),
        ])
        self._full_pipeline.fit(X)
        self._columns = pd.get_dummies(X).columns
        return self
    def transform(self, X, y=None):
        X_copy = X.copy()
        X_prep = self._full_pipeline.transform(X_copy)
        return pd.DataFrame(X_prep, 
                            columns=self._columns, 
                            index=X_copy.index)

# Cargar datos

In [5]:
dataset = pd.read_csv("creditcard.csv")

## División del conjunto de datos

In [6]:
Y= dataset["Class"]
X = dataset.loc[:, dataset.columns != 'Class']
validation_size = 0.2
seed = 7
X_train, X_test, Y_train, Y_test =train_test_split(X, Y, test_size=validation_size, 
                                                   stratify=dataset["Class"],
                                                   random_state=seed)

## Preparación del conjunto de datos¶

In [7]:
# Instanciamos nuestro transformador personalizado
data_preparer = DataFramePreparer()

In [8]:
# Hacemos el fit con el conjunto de datos general para que adquiera todos los valores posibles
data_preparer.fit(X)

## Escalado del conjunto de datos

In [9]:
# Transformamos el subconjunto de datos de entrenamiento
X_train_prep = data_preparer.transform(X_train)

In [10]:
# Transformamos el subconjunto de datos de validacion
X_test_prep = data_preparer.transform(X_test)

## Modelo Naive Bayes para la clasificación

In [15]:
model_NB = BernoulliNB()
model_NB.fit(X_train_prep, Y_train)

In [16]:
# Accuracy de test del modelo 

Y_pred = model_NB.predict(X=X_test_prep)
print(accuracy_score(Y_test, Y_pred))

0.9991397773954567
