# Lección 4. Clasificador Bayesiano

Ejecuta la primera celda de código si no está visible la presentación y sigue la presentación en Genially. 

In [1]:
import IPython
IPython.display.IFrame('https://view.genial.ly/62bb63db13e30f00172e1882',900,500)

# Datos

Disponemos de una serie de ejemplos de entrenamiento (instancias) definidos en base a unos atributos y una clase asignada. Pretendemos construir un modelo que nos sirva para clasificar nuevas instancias. 

En este ejemplo disponemos de 6 instancias relacionadas con compras por internet. Los atributos son:
+ A1: Sitio de acceso. Atributo discreto, valores posibles: Web, App
+ A2: Cantidad gastada. 

Las clases posibles dividirán a los compradores en dos grupos:
+ Bueno
+ Malo

# Clasificador Naive Bayes
Gracias al teorema de Bayes, dado un conjunto de ejemplos, podemos crear un clasificador, de manera que podamos clasificar nuevas instancias en la clase más probable. Vamos a ejecutar el algoritmo de clasificación NaiveBayes de forma manual. Primero definimos cuáles son las entradas y salidas del algoritmo. 

### Entradas
+ A: conjunto de atributos
+ V: conjunto de posibles valores de los atributos
+ C: conjunto de clases
+ E: conjunto de instancias de entrenamiento

### Salidas
+ $M_C$: matriz de probabilidades a priori de clases.
+ $M_{AD}$: matriz de probabilidades condicionales de atributos discretos
+ $M_{AC}$: matriz de probabilidades condicionales de atributos continuos

### Uso del clasificador
Una vez obtenidas las matrices de salida, podemos clasificar nuevas instancias gracias al teorema de Bayes.

$ p(C_k | X_i) = \frac { p(X_i | C_k)  p(C_k) } {p(X_i)} $

Siendo:
+ $p(C_k | X_i)$ la probabilidad de que un ejemplo $X_i$ pertenezca a la clase $C_k$
+ $p(X_i | C_k)$ la probabilidad de que un ejemplo cualquiera de una clase $C_k$ sea $X_i$
+ $p(C_k)$ la probabilidad de que un ejemplo sea de la clase $C_k$
+ $p(X_i)$ la probabilidad de que exista el ejemplo $X_i$

La clase de la nueva instancia corresponde a la clase que maximiza la probabilidad según el teorema de Bayes. Dado que el denominador es común para todas las clases, no es necesario ejecutar la división. Así, la clase "c" será aquella $C_k$ que maximice

$c = \arg \max p(X_i | C_k)  p(C_k)$

# Ejemplo manual de aplicación Naive Bayes

El algoritmo es más simple de entender mediante un ejemplo, así que vamos a ejecutar el algoritmo de manera manual, de manera que procederemos a calcular las matrices haciendo uso de sentencias simples de Python. 

### Probabilidades de clase a priori, matriz $M_c$

La probabilidad a priori de que un ejemplo sea de clase j, p(clase_j) = número de instancias clase_j / número total instancias

In [3]:
# Cálculo de matriz de probabilidades a priori de clases Mc

# Las instancias totales del conjunto de entrenamiento son 6
total_instancias = 6

# El número de instancias de la clase bueno son 4
instancias_bueno = 4
# El número de instancias d ela clase malo son 2
instancias_malo = 2

# Calculamos las probabilidades a priori 
p_bueno = instancias_bueno / total_instancias
p_malo = instancias_malo / total_instancias 

print("Probabilidad a priori de que un ejemplo sea de clase bueno = ", p_bueno)
print("Probabilidad a priori de que un ejemplo sea de clase malo = ", p_malo)

Probabilidad a priori de que un ejemplo sea de clase bueno =  0.6666666666666666
Probabilidad a priori de que un ejemplo sea de clase malo =  0.3333333333333333


### Probabilidades condicionales de atributos discretos, matriz $M_{AD}$

### $p(SitioAcceso | Clase)$

In [24]:
from tabulate import tabulate

# Cálculo de matriz de probabilidades condicionales de atributo discreto Sitio Acceso

# p(Sitio_acceso=0 | C=bueno) = Ejemplos Sitio_acceso=0 y Clase=bueno / Ejemplos clase=bueno
p_SAW_Cbueno = 1 / instancias_bueno
p_SAA_Cbueno = 3 / instancias_bueno



# p(Sitio_acceso=0 | C=bueno) = Ejemplos Sitio_acceso=0 y Clase=bueno / Ejemplos clase=bueno
p_SAW_Cmalo = 1 / instancias_malo 
p_SAA_Cmalo = 1 / instancias_malo 


# Aquí simplemente guardamos los datos en una matriz para mostrarla con la función "tabulate" de forma más elegante
discreto = [["Web", p_SAW_Cbueno, p_SAW_Cmalo], 
     ["App", p_SAA_Cbueno, p_SAA_Cmalo]]
print("p(Sitio_acceso | clase)")
print(tabulate(discreto, headers=["Sitio acceso", "Bueno", "Malo"]))

p(Sitio_acceso | clase)
Sitio acceso      Bueno    Malo
--------------  -------  ------
Web                0.25     0.5
App                0.75     0.5


### Probabilidades condicionales de atributos continuos
Para atributos continuos, vamos a calcular la media y la varianza del atributo por cada clase

In [7]:
import numpy as np
cantidades_bueno = [120, 200, 30, 250]
media_bueno = np.mean(cantidades_bueno)
varianza_bueno = np.var(cantidades_bueno)



cantidades_malo = [100, 50]
media_malo = np.mean(cantidades_malo)
varianza_malo = np.var(cantidades_malo)


# Aquí simplemente guardamos los datos en una matriz para mostrarla con la función "tabulate" de forma más elegante
continuo = [["media", media_bueno, media_malo], 
     ["varianza", varianza_bueno, varianza_malo]]
print("Atributo continuo Cantidad")
print(tabulate(continuo, headers=["", "Bueno", "Malo"]))

Atributo continuo Cantidad
            Bueno    Malo
--------  -------  ------
media         150      75
varianza     6950     625


## Uso del conocimiento 

Ya tenemos calculados los 3 elementos basados en los datos de entrenamiento, que son:
+ Probabilidades a priori de cada clase
+ Probabilidades condicionales de los atributos discretos
+ Medias y varianzas de atributos continuos

Estamos preparados para clasificar nuevas instancias en la clase más probable. Para ello, aplicamos la formula al nuevo ejemplo, para cada clase k:

$c = \arg \max p(X_i | C_k)  p(C_k)$. Siendo :
+ $p(C_k)$ : La probabilidad a priori de que el ejemplo sea de clase k. 

+ $p(X_i | C_k)$:  la multiplicación de las probabilidades condicionales de cada atributo. 
    + Si el atributo es discreto: La probabilidad la tenemos calculada en la matriz $M_{AD}$
    + Si el atributo es continuo, se asume una distribución normal. En base a la media y varianza calculadas anteriormente. 
    $p(x)= \frac {1}{\sqrt{2\pi\sigma^2}} e ^ -\frac {1}{2} \frac {(x-\mu)^2}{\sigma^2}  $


Debemos calcular la probabilidad del nuevo ejemplo para cada clase, siendo la clase resultante la que mayor probabilidad tenga.

El  nuevo ejemplo a clasificar tiene los siguientes valores en los atributos estudiados:
+ Cantidad: 300
+ Sitio: App


#### Probabilidad de que el nuevo ejemplo sea de clase Bueno

In [18]:
# ATRIBUTO DISCRETO
# p(SiticioAcceso = Web | Clase = Bueno ), ya tenemos calculadas las probabilidades
p_SAA_CB = 0.75

# ATRIBUTO CONTINUO
# Para atributos continuos, calculamos la probabilidad asumiendo distribución normal
media_bueno = 150
varianza_bueno = 6950
x = 300

# Calculamos la raiz cuadrada de (2 * pi * varianza) utilizando NumPy.sqrt() y NumPy.pi 
raiz = np.sqrt(2* np.pi *varianza_bueno)

# Calculamos el exponente 
exponente = -(1/2) * ((x-media_bueno) / varianza_bueno)

# Calculamos la probabilidad. Con la función NumPy.exp(número) para calcular la potencia con base número e
p_x_CB = (1 / raiz) * np.exp(exponente)

# Multiplicamos las probabilidades condicionadas de cada atributo y la probabilidad a priori
p_ejemplo_CB = p_SAA_CB * p_x_CB * p_bueno

print(p_ejemplo_CB)

0.0023670151452974287


#### Probabilidad de que el nuevo ejemplo sea de clase Malo

In [20]:
# ATRIBUTO DISCRETO
# p(SiticioAcceso = Web | Clase = Bueno ), ya tenemos calculadas las probabilidades
p_SAA_CM = 0.5

# ATRIBUTO CONTINUO
# Para atributos continuos, calculamos la probabilidad asumiendo distribución normal
media_malo = 75
varianza_malo = 625
x = 300

# Calculamos la raiz cuadrada de (2 * pi * varianza) utilizando NumPy.sqrt() y NumPy.pi 
raiz = np.sqrt(2* np.pi *varianza_malo)

# Calculamos el exponente 
exponente = -(1/2) * ((x-media_malo) / varianza_malo)

# Calculamos la probabilidad. Con la función NumPy.exp(número) para calcular la potencia con base número e
p_x_CM = (1 / raiz) * np.exp(exponente)

# Multiplicamos las probabilidades condicionadas de cada atributo y la probabilidad a priori
p_ejemplo_CM = p_SAA_CM * p_x_CM * p_malo

print(p_ejemplo_CM)

0.002221497352611997


#### Una vez hechos los cálculos, comprobamos el máximo

In [21]:
if (p_ejemplo_CB > p_ejemplo_CM):
    print("El nuevo ejemplo queda clasificado en la clase Bueno")
else:
    print("El nuevo ejemplo queda clasificado en la clase malo")

El nuevo ejemplo queda clasificado en la clase Bueno


#### Conclusiones

Hemos demostrado como a través del cálculo de probabilidades, medidas estadísticas y Teorema de Bayes, podemos entrenar un modelo para clasificar nuevas instancias. Este ejemplo ha sido lo más sencillo posible para demostrar los fundamentos del modelo. Gracias a las bibliotecas de Python podemos realizar problemas más complejos.

# Naive Bayes con Scikit-Learn

Scikit Learn es una biblioteca con funciones predefinidas orientadas a la creación de modelos de aprendizaje automático. Uno de estos modelos es "GaussianNB", con el mismo fundamento como el que acabamos de hacer manualmente, pero siendo todos los atributos de tipo numérico. 

Para esta ocasión, usaremos un dataset más práctico y muy conocido en aprendizaje automático, clasificación de flores por tipo.


In [31]:
# Importamos el dataset, que pertenece a la biblioteca Scikit-Learn
from sklearn.datasets import load_iris
dataset = load_iris()

# INFORMACIÓN DEL DATASET
# Los nombres de las clases están almacenadas en target_names
print("Clases: ", dataset.target_names) 

# Los nombres de los atributos están almacenados en feature_names
print("Atributos:", dataset.feature_names) 

# Podemos mostrar una descripción completa del conjunto de datos
print("\nDescripción del dataset:")
print(dataset.DESCR)

Clases:  ['setosa' 'versicolor' 'virginica']
Atributos: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

Descripción del dataset:
.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Att

### División del dataset, necesidad de valdidar el modelo.

Si entrenamos a nuestro modelo con todos los datos disponibles resultaría difícil saber cómo de eficaz es a la hora de clasificar nuevas instancias. En este tipo de modelos podemos dividir el dataset en dos conjuntos, una parte de los datos servirá para entrenar al modelo, mientras que el segundo conjunto servirá para validarlo. Dado que ya conocemos de antemano a qué clase pertenecen las instancias del conjunto de validación, podemos comparar la clase predicha por el modelo con la real y calcular cuantos errores ha cometido en su tarea de clasificación. 

Scikit-Learn dispone de funciones para dividir el dataset.


In [38]:
# Para dividir el dataset usamos funciones predefinidas de la biblioteca Scikit-Learn

from sklearn.model_selection import train_test_split

# Almacenamos el dataset en dos variables. 
X, y = load_iris(return_X_y=True)

# En la Matriz X el conjunto de atributos. Tamaño 4x150, 4 características y 150 instancias. 
print(X)

# Vector y, tamaño 150, almacena a qué clase pertenece cada instancia (numeradas de 0 a 2)
print(y)

# Dividimos los datos en 2 conjuntos del mismo tamaño, al 50%, datos de entrenamiento y datos de test. 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

### Entrenamiento y validación del modelo.

Con la biblioteca, todos los cálculos realizados manualmente al inicio de la lección pasan a convertirse en una línea de código. 

Además de entrenar al modelo, vamos a validarlo con el conjunto de test y a comparar los resultados predichos con la clase real y ver el número de fallos cometidos.

In [41]:
# Importamos el modelo GaussianNB, perteneciente al paquete naive bayes de Scikit-Learn
from sklearn.naive_bayes import GaussianNB

modeloNB = GaussianNB()

# Entrenamos el modelo pasándole los datos de entrenamiento como parámetros
modeloNB.fit(X_train, y_train)

# Para validar el modelo, vamos a predecir la clase de los datos del conjunto de test
y_pred = modeloNB.predict(X_test)

# Comparamos la clase predicha con la real y mostramos el número de errores
print("Instancias clasificadas %d, número de errores: %d"% (X_test.shape[0], (y_test != y_pred).sum()))

Instancias clasificadas 75, número de errores: 4


### Matriz de confusión

La matriz de confusión es una herramienta para visualizar cómo de válido es el modelo, mostrando en forma de matriz el número de instancias con los aciertos y fallos correspondientes.

En nuestro conjunto de test, disponíamos de 75 instancias:
+ 21 instancias de clase 0, clasificadas correctamente.
+ 30 instancias de clase 1, clasificadas correctamente.
+ 24 instancias de clase 2, de ellas, 20 clasificadas correctamente y 4 clasificadas como clase 1. 

In [2]:
from sklearn.metrics import confusion_matrix

#Mostramos por pantalla la matriz de confusión
#Pasamos como parámetros los valores reales del conjunto de test y la predicción del modelo
print(confusion_matrix(y_test, y_pred))

[[21  0  0]
 [ 0 30  0]
 [ 0  4 20]]


# Para practicar y evaluar lo aprendido

Visualiza la presentación (ejecuta la celda si no está visible) y responde al Quiz ayudándote de la programación en Python

In [1]:
import IPython
IPython.display.IFrame('https://view.genial.ly/62bb640713e30f00172e18a5',900,500)

In [None]:
# Importamos el dataset, que pertenece a la biblioteca Scikit-Learn
from sklearn.datasets import load_breast_cancer
dataset = load_breast_cancer()

# Almacenamos el dataset en dos variables. 
X, y = load_breast_cancer(return_X_y=True)

# Sigue el programa para responder a las preguntas formuladas