In [None]:
# initial setup
try:
    # settings colab:
    import google.colab
        
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>

<a id="section_toc"></a> 
## Tabla de Contenidos

[Intro](#section_intro)

[Modelo](#section_modelo)

[Ejemplo](#section_ejemplo)

[Ejemplo](#section_ejemplo_2)

[¿Cuándo utilizar Naive Bayes?](#section_cuando_utilizar_naive_bayes)

[Naive Bayes como baseline](#section_naive_bayes_baseline)

[Referencias](#section_referencias)


<a id="section_intro"></a> 
## Intro

[volver a TOC](#section_toc)


Supongamos que estás caminando y ves algún objeto rojo. Este objeto rojo puede ser un murciélago, un gato o una pelota. 

Definitivamente asumirás que será una pelota. ¿Pero por qué?

Pensemos que estás haciendo una máquina y que te han asignado la tarea anterior: clasificar un objeto entre un murciélago, una pelota y un gato. 

Podemos pensar en crear una máquina que identifique las características del objeto y luego las mapee con sus objetos de clasificación de modo que si un objeto es un círculo, entonces será una pelota o si el objeto es un ser vivo, entonces posiblemente será un gato o si el objeto es rojo, lo más probable es que sea una pelota.

¿Por qué? Porque desde nuestra infancia hemos visto una bola roja, pero no un gato rojo o un murciélago rojo.

Entonces, podemos clasificar un objeto mapeando sus características individualmente con nuestro clasificador. 

En nuestro caso, la característica color rojo se mapeó con un murciélago, un gato y una pelota, pero el máximo valor de probabilidad lo obtuvimos mapeándola a una pelota roja, por lo tanto clasificamos ese objeto como pelota.



<a id="section_modelo"></a> 
## Modelo

[volver a TOC](#section_toc)


Naive Bayes es una familia de clasificadores simples basados en la aplicación del Teorema de Bayes.

Podemos ver un problema de clasificación de la siguiente forma, donde L son las labels y features es la matriz de features (características):

$$P(L|features) = \frac{P(features|L) P(L)}{P(features)}$$


Este algoritmo supone que todas las features en el conjunto de datos **no están correlacionadas entre sí**, de ahí el término "naive".

Naive Bayes es el algoritmo más simple que podemos aplicar a nuestros datos, y se utiliza principalmente para obtener la **precisión base** del dataset.


$$P(y|x_1 ... x_n) = \frac{P(x_1 ... x_n|y) P(y)}{P(x_1 ... x_n)}$$

Usando que **las features son independientes dentro de cada clase** tenemos:

$$P(x_1 ... x_n|y) = \prod_{i=1}^{n}P(x_i|y)$$

Entonces reemplazamos

$$P(y|x_1 ... x_n) = \frac{\prod_{i=1}^{n}P(x_i|y) P(y)}{P(x_1 ... x_n)}$$

Como el denominador $P(x_1 ... x_n)$ es igual para todas las clases, para realizar una predicción es suficiente con maximizar el numerador.

Entonces $P(y|x_1 ... x_n)$ es proporcional a $P(y)\prod_{i=1}^{n}P(x_i|y)$

$$P(y|x_1 ... x_n) \; \alpha \; P(y)\prod_{i=1}^{n}P(x_i|y) $$

La etiqueta $\hat y$ asignada será el valor de $y$ que maximice el valor de $P(y|x_1 ... x_n)$ :

$$\hat y = \underset y argmax \; P(y)\prod_{i=1}^{n}P(x_i|y)$$


Los distintos algoritmos de Naive Bayes difieren en la distribución que suponen para $P(x_i|y)$



![Image](img/naive_bayes.PNG)

* Gaussian Naive Bayes: Supone distribución Gaussiana multidimensional

* Naive Bayes Multinomial: Supone distribución multinomial. 

* Naive Bayes Bernoulli: Supone distribución bernoulli multivariada (puede haber múltiples features, pero se supone que cada una es una variable de valor binario (Bernoulli, booleana)).


### Naive Bayes Gaussiano

En este clasificador, la suposición es que los datos de cada etiqueta se extraen de una distribución gaussiana multivariada donde las features son independientes entre sí

![Image](img/gaussian-NB.png)

### Naive Bayes Multinomial

En este clasificador se supone que las features tienen distribución multinomial simple. La distribución multinomial describe la probabilidad de observar recuentos entre varias categorías y, por lo tanto, naive bayes multinomial es más apropiado para las features que representan recuentos o tasas de recuento.

La idea es exactamente la misma que antes, excepto que en lugar de modelar la distribución de datos con la distribución gaussiana de mejor ajuste, modelamos la distribución de datos con una distribución multinomial de mejor ajuste.

### Naive Bayes Bernoulli

Las features son booleanos independientes (variables binarias) que describen los datos de entrada.



<a id="section_ejemplo"></a> 
## Ejemplo 

[volver a TOC](#section_toc)


Supongamos que tenemos datos de 1000 frutas, y conocemos tres variables numéricas que las describen (features), longitud, azucar, amarillo como en la tabla que vemos a continuación

![Image](img/frutas.png)

¿Qué sabemos a partir de esa tabla?

* 50% de las frutas son bananas
* 30% de las frutas son naranjas
* 20% son otras frutas

Basados en el conjunto de entrenamiento también podemos decir que:

* De 500 bananas, 400 (0.8) son largas, 350 (0.7) son dulces y 450 (0.9) son amarillas

* De 300 naranjas 0 son largas, 150 (0.5) son dulces y 300 (1) son amarillas

* De las restantes 200 frutas, 100 (0.5) son largas, 150 (0.75) son dulces y 50 (0.25) son amarillas

Nos presentan ahora las características de una fruta (larga, dulce y amarilla) y queremos predecir su clase.

Para ello calculamos las probabilidades para banana, naranja y otras, dados esos valores de features, y vamos a asignar esa fruta a la clase  de mayor probabilidad entres las tres.

$$P(y|x_1 ... x_n) \; \alpha \; P(y)\prod_{i=1}^{n}P(x_i|y) $$

Banana

$P(banana|largo, amarillo, dulce) \; \alpha \; P(banana)P(largo|banana)P(dulce|banana)P(amarillo|banana) $

$P(banana|largo, amarillo, dulce) \; \alpha \; (0.5)(0.8)(0.7)(0.9) $

$P(banana|largo, amarillo, dulce) \; \alpha \; 0.252 $

Naranja

$P(naranja|largo, amarillo, dulce) \; \alpha \; P(naranja)P(largo|naranja)P(dulce|naranja)P(amarillo|naranja) $

$P(naranja|largo, amarillo, dulce) \; \alpha \; (0.4)(0)(0.5)(1) $

$P(naranja|largo, amarillo, dulce) \; \alpha \; 0 $

Otras

$P(otro|largo, amarillo, dulce) \; \alpha \; P(otro)P(largo|otro)P(dulce|otro)P(amarillo|otro) $

$P(otro|largo, amarillo, dulce) \; \alpha \; (0.2)(0.5)(0.75)(0.25) $

$P(otro|largo, amarillo, dulce) \; \alpha \; 0.019 $


Como la probabilidad de banana es la máxima, vamos a clasificar la nueva fruta como banana.

<a id="section_ejemplo_2"></a> 
## Ejemplo

[volver a TOC](#section_toc)


Vamos a usar un dataset de vinos que descargamos de https://archive.ics.uci.edu/ml/datasets/Wine para intentar predecir de qué categoria es (campo quality).

Estos datos son el resultado de un análisis químico de vinos cultivados en la misma región en Italia pero derivados de tres variedades diferentes. El análisis determinó las cantidades de 13 componentes encontrados en cada uno de los tres tipos de vinos.

Las categorías están codificadas como 1, 2 y 3 corresponden a calidad alta, media, o baja. 


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
import seaborn as sns

In [None]:
data_columns = ['quality', 'alcohol', 'malic_acid', 'ash', 
                'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids',
                'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 
                'hue', 'OD280_OD315_of_diluted_wines', 'proline']

data = pd.read_csv("../Data/wine.data", header = None)

data.columns = data_columns

data.info()

Veamos los valores que toma el campo quality:

In [None]:
data.quality.unique()

Separemos el datase en la matriz de features X y el vector target Y:

In [None]:
X = data.drop(['quality'], axis=1)
Y = data['quality']

Armemos los conjuntos de entrenamiento y test para nuestro clasificador, con una proporción 70-30:

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 1237)

print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

En este ejemplo no vamos a hacer feature engineering de los datos, porque (como vamos a ver) la perfomance que obtenemos es buena aun sin escalar los features.

Construimos una instancia de clasificador naive bayes gaussiano, y entrenamos el modelo:

In [None]:
gnb = GaussianNB()

gnb.fit(X_train, Y_train)

Con el modelo entrenado, vamos a predecir las etiquetas del conjunto de test:

In [None]:
Y_pred = gnb.predict(X_test)

Y_pred

Calculemos accuracy sobre el conjunto de test:

In [None]:
round(accuracy_score(Y_test, Y_pred), 2)

Calculemos la matriz de confusión para el conjunto de test:

In [None]:

conf_mat = confusion_matrix(Y_test, Y_pred)

print('Confusion matrix\n\n', conf_mat)


Vemos que sólo se equivocó en 3 casos.

<a id="section_cuando_utilizar_naive_bayes"></a> 
## ¿Cuándo utilizar Naive Bayes?

[volver a TOC](#section_toc)

Los clasificadores basados en Naive Bayes hacen fuertes supuestos sobre los datos, así que no van a tener tan buena performance si el verdadero proceso generador de los datos no cumple con los supuestos de Naive Bayes. 

Dicho esto, tienen las siguientes ventajas:
* Son algoritmos muy rápidos tanto para entrenar como para predecir
* Brindan una predicción probabilística (tenemos probabilidades para cada clase)
* Son sencillos de interpretar
* No requieren "tunear" ningún hiperparámetro


<a id="section_naive_bayes_baseline"></a> 
## Naive Bayes como baseline

[volver a TOC](#section_toc)

Dado que Naive Bayes es tan fácil de optimizar y tan rápido desde el punto de vista computacional, es un buen "baseline" para un problema de clasificación. 

Si performa bien, podemos quedarnos con este modelo y si necesitamos mejorar la precisión, tenemos una línea de base sobre la cual mejorar.

Naive Bayes tiende a funcionar bien en las siguientes situaciones:
* Cuando se cumplen los supuestos (cosa que rara vez pasa en casos reales)
* Cuando las clases están muy bien separadas y no es necesaria tanta complejidad en el modelo. 
* Cuando tenemos datos con muy alta dimensionalidad (por ejemplo text mining) donde la complejidad del modelo también es menos importante porque hay mucha información para cada observación. 


<a id="section_referencias"></a> 
## Referencias

[volver a TOC](#section_toc)

All about Naive Bayes

https://towardsdatascience.com/all-about-naive-bayes-8e13cef044cf

Wines type and quality classification exercises

https://www.kaggle.com/mgmarques/wines-type-and-quality-classification-exercises

Naive Bayes Classifier Explained

https://towardsdatascience.com/naive-bayes-classifier-explained-54593abe6e18  

Python Data Science Handbook. Jake VanderPlas. Cap 5.

https://jakevdp.github.io/PythonDataScienceHandbook/05.05-naive-bayes.html

https://github.com/jakevdp/PythonDataScienceHandbook/tree/master/notebooks

https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/05.05-Naive-Bayes.ipynb

StatQuest

https://www.youtube.com/watch?v=O2L2Uv9pdDA

https://www.youtube.com/watch?v=pYxNSUDSFH4

https://www.youtube.com/watch?v=H3EjCKtlVog