Probabilidad condicional, Naive Bayes y Clasificadores de Texto --- 42:12 min
===

* 40:12 min | Ultima modificación: Abril 5, 2021 | [YouTube](https://youtu.be/T4x6KNfOQek)

Los [clasificadores bayesianos ingenuos](https://es.wikipedia.org/wiki/Clasificador_bayesiano_ingenuo) son un tipo de clasificador probabilistico en el que se considera que cada característica de una instancia contribuye independientemente de las demás a que un objeto pertenezca a una clase determinada. Mientras que en la inducción de reglas de asociación (algoritmo 1R) solamente se considera una sola característica para determinar a que clase pertence una instancia, en un clasificador ingenuo se consideran simultáneamente todas las características. En este tutorial se describen los fundamentos matemáticos en que se soporta este tipo de clasificadores y como se aplican a casos reales. 

## Definición del problema 

En este tutorial se aborda el problema de determinar si un mensaje de texto es válido o spam. Este es un problema típico de minería de texto. Desde el punto de vista del negocio, la recepción de publicidad no deseada y mensajes fraudulentos es un problema que afecta a muchos usuarios; y es por ello, que las compañias prestadoras de servicios desean filtrar este tipo de mensajes con el fin de evitar el consumo de espacio en su infraestructura y la molestia para el usuario.

Se tiene una muestra conformada por los siguientes mensajes:


     #  Tipo    Mensaje
    ---------------------------------------
     1  spam    w1 w3 
     2  spam    w1 w2 w1 w3
     3  ham     w2 w4 
     4  ham     w4 w5 w2
     5  ham     w2 w4 w2


El problema en términos de los datos consiste en clasificar si un mensaje SMS es legítimo o spam, a partir del análisis de las palabras que contiente; se supone que ciertas palabras que son más frecuentes dependiendo del tipo de mensaje.

## Conceptos y Definiciones Básicas

### Probabilidad

De los tutoriales anteriores, se sabe que si las variables $x_i$ representan los eventos posibles, entonces:

* Todas las probabilidades deben estar entre $0$ y $1$: 


$$0 \le \text{Pr}(x_i) \le 1$$


* Las probabilidades de eventos mutuamente exclusivos (no pueden ocurrir simultáneamente) y colectivamente exhaustivos (cubren todo el universo de casos posibles) deben sumar la unidad:

$$\sum_{i=1}^n \text{Pr}(x_i) = 1$$

En las siguientes figuras, los eventos F1, F2 y F3, y V1 y V2 están definidos sobre el mismo universo; y son mutuamente exclusivos y colectivamente exhaustivos, tal que se cumplen las dos propiedades anteriores

![assets/eventos-conjuntos-2.jpg](assets/eventos-conjuntos-2.jpg)


$$\text{Pr}(F1) + \text{Pr}(F2) + \text{Pr}(F3) = 1, \quad \qquad \text{Pr}(V1) + \text{Pr}(V2) = 1$$ 



### Probabilidad conjunta

Los eventos considerados ocurren simultáneamente. En la siguiente figura, los eventos F1 y V2 ocurren simultáneamente (área sombreada de la figura), tal que su probabilidad conjunta es:

$$\text{Pr}(F1~\text{and}~V2)$$

![assets/probabilidad-conjunta-3.jpg](assets/probabilidad-conjunta-3.jpg)


### Probabilidad condicional

Es la probabilidad de que ocurra un evento sabiendo que el otro ya ocurrio. En la siguiente figura el evento V2 es condicionar a la ocurrencia F1. Noté que en la siguiente figura, el universo no es el rectángulo anterior que cubre todos los eventos, si no el evento F1. De esta forma, la probabilidad condicional es sólo la proporción de V2 que se intercepta con F1, la cual corresponde a la porción sombreada de la figura de abajo. La siguiente expresión matemática permite calcular la probabilidad condicional en términos de la probabilidad conjunta.

$$\text{Pr}(V2 \; | \; F1) = \text{Pr}(F1 \; \text{and} \; V2) \; / \; \text{Pr}(F1)$$

En otras palabras, 

$$\text{Pr}(A \; | \; B) * \text{Pr}(B) = \text{Pr}(A \; \text{and} \; B)$$

para dos eventos A y B.

![assets/probabilidad-condicional.jpg](assets/probabilidad-condicional.jpg)


### Independencia

Si los eventos $A$ y $B$ son independientes, la probabilidad condicional del evento A dado que ocurrio el evento B es igual a la probabilidad del evento A:

$$\text{Pr}(A \; |  \; B) = \text{Pr}(A)$$

De la definición de probabilidad condicional:

$$\text{Pr}(A  \; |  \; B) = \text{Pr}(A) = \frac{\text{Pr}(A\text{ and }B)}{\text{Pr}(B)}$$

Entonces:

$$\text{Pr}(A\text{ and } B) \; =  \; \text{Pr}(A) \; * \; \text{Pr}(B)$$ 

### Probabilidad marginal 

Sea $X_1$ con $i = 1, ... , n$ , un conjunto de eventos mutuamente exclusivos y colectivamente exhaustivos. La probabilidad de un evento $A$ es:

$$\text{Pr}(A) = \sum_{i=1}^n \text{Pr}(A\text{ and }X_i)$$

En la siguiente figura se puede observar que para cualquiera de los tres eventos $F_j$ (para $j=1,2,3$)

$$\text{Pr}(F_j) = \text{Pr}(F_j\text{ and }V_1) + \text{Pr}(F_j\text{ and }V_2)$$

y que para los dos eventos $V_i$ ($i=1,2$):

$$\text{Pr}(V_i) = \text{Pr}(V_i\text{ and }F_1) + \text{Pr}(V_i\text{ and }F_2) + \text{Pr}(V_i\text{ and }F_3)$$

![assets/eventos-conjuntos.jpg](assets/eventos-conjuntos.jpg)

### Unión (OR)

Para dos eventos $A$ y $B$:

$$\text{Pr}(A \text{ or } B) = \text{Pr}(A) + \text{Pr}(B) - \text{Pr}(A\text{ and }B)$$

En la figura de abajo se observa que al unir las regiones de los eventos F1 y V2, las áreas se traslapan y por tanto hay que restar la intersección.

![assets/probabilidad-conjunta.jpg](assets/probabilidad-conjunta-3.jpg)


### Complemento o negación

$$\text{Pr}(\text{not } A) = 1 - \text{Pr}(A)$$

### Probabilidad total

La probabilidad total indica que la probabilidad de un evento A puede calcularse como la probabilidad de que ocurran los eventos A y B simultáneamente más la probabilidad de que ocurran los evento A y *not* B (el complemento de B:

$$\text{Pr}(A) = \text{Pr}(A\text{ and } B) + \text{Pr}(A\text{ and } \text{not }B) $$ 

Para la siguiente figura: 

$$
\begin{split}
\text{Pr}(V_2) 
    & = \text{Pr}(V_2 \text{ and } F_1) + \text{Pr}(V_2 \text{ and not } F_1) \\ \\
    & = \text{Pr}(V_2 \text{ and } F_1) + \text{Pr}(V_2 \text{ and } (F_2 \cup F_3)) \\ \\
\end{split}
$$

![assets/eventos-conjuntos.jpg](assets/eventos-conjuntos.jpg)

La ecuación anterior puede expresarse en términos de probabilidades condicionales, tal que:

$$\text{Pr}(A) = \text{Pr}(A \; | \; B) \; \text{Pr}(B)  \; + \;  \text{Pr}(A \; | \; \text{not }B)\text{ Pr}(\text{not }B)$$

### Teorema de Bayes

A partir de 

$$\text{Pr}(A  \; |  \; B) = \frac{\text{Pr}(A\text{ and }B)}{\text{Pr}(B)},  
\quad 
\text{Pr}(B  \; |  \; A) = \frac{\text{Pr}(A\text{ and }B)}{\text{Pr}(A)} $$

Se obtiene que:

$$\text{Pr}(A \; | \; B)\text{ Pr}({B}) =  \text{Pr}(B \; | \; A) \; \text{Pr}({A})$$

Despejando $\text{Pr}(B \; | \; A)$,

$$\text{Pr}(B \; | \; A) = 
    \frac{\text{Pr}(A \; | \; B) \; \text{Pr}(B)}{\text{Pr}(A)} = 
    \frac{\text{Pr}(A \; | \; B)~\text{Pr}(B)} {\text{Pr}(A \; | \; B) \; \text{Pr}(B)  \; + \;  \text{Pr}(A \; | \; \text{not }B) \; \text{Pr}(\text{not }B)}$$
    
En la última ecuación, se aplica el teorema de probabilidad total para el evento A.

**Actividad.---** Complete las siguientes tablas de probabilidades:


*Probabilidades totales*:


               F1    F2    F3  Prob(V)
     ----------------------------------
         V1   0.10     ?  0.03       ?
         V2      ?  0.26  0.14    0.62
     ----------------------------------
      Prob(F)    ?     ?     ?        
    
    
*Probabilidades condicionales*:

    Prob(F|V)                 Prob(V|F)

            F1    F2    F3            F1    F2    F3  
    ----------------------    ----------------------
      V1 10/38     ?     ?      V1     ? 25/51     ?        
      V2     ?     ? 14/62      V2     ?     ?     ?  
      

**Actividad.---** Verifique las dos tablas de probabilidades condicionales calculadas en el ejercicio anterior usando el teorema de Bayes (es decir, calcule `Prob(V|F)` a partir de `Prob(F|V)` y viceversa).

## Aplicación al problema propuesto

En términos del problema de filtrado de mensajes de texto, V1 se interpreta como "Es spam" y V2 como NOT "Es spam", ya que son eventos mutuamente exclusivos y colectivamente exhaustivos. Si F es la ocurrencia de una determinada palabra en el texto, como por ejemplo "Viagra", entonces F1 sería "Viagra"("viagra" aparece en el mensaje) y F2 sería NOT "Viagra" ("viagra" no aparece en el mensaje).   

De acuerdo con el teorema de Bayes:

$$\text{Pr}(\text{spam} \; | \; \text{viagra}) = \frac{\text{Pr}(\text{viagra} \, | \, 
\text{spam})*\text{Pr}(\text{spam})}{\text{Pr}(\text{viagra})}$$

* $\text{Pr}(\text{spam} \, | \, \text{viagra})$ es la probabilidad posterior.


* $\text{Pr}(\text{viagra} \, | \, \text{spam})$ es la verosimilitud.


* $\text{Pr}(\text{spam})$ es la probabilidad prior, es decir, la probabilidad de que un mensaje sea spam sin conocer el texto que contiene.


* $\text{Pr}(\text{viagra})$ es la verosimilitud marginal.

El cálculo de cada una de las probabilidades se realiza tal como se hizo en el ejercicio anterior.

Para el caso analizado, se tiene una muestra de ejemplos de mensajes que han sido catalogados como spam y válidos (no spam): 

     #  Tipo    Mensaje
    ---------------------------------------
     1  spam    w1 w3 
     2  spam    w1 w2 w1 w3
     3  ham     w2 w4 
     4  ham     w4 w5 w2
     5  ham     w2 w4 w2

Para realizar la clasificación se tienen cuatro palabras $w_1$, $w_2$, $w_3$, $w_4$ y $w_5$ que pueden estar o no en cada uno de los mensajes de texto. La probabilidad de que la palabra $w_1$ este en el mensaje se nota como $\text{Pr}(w_1)$, y de que no este como $\text{Pr}(\text{not }w_1)$.

**Actividad.---** Calcule las tablas de probabilidades:

**Probabilidad individual** $\text{Pr}(w_i)$:


     Evento          w1    w2    w3    w4    w5
    ------------------------------------------------
     Ocurre       3/14     ?     ?     ?   1/14
     No ocurre       ?     ?   12/14   ?     ?

**Probabilidad conjunta** $\text{Pr}(w_i, \text{Tipo})$:


     Tipo     w1    w2    w3    w4    w5  Pr(tipo)
    ----------------------------------------------     
     spam   3/14     ?     ?     ?     ?     6/14 
     ham       ?     ?  0/14     ?     ?        ?
     

     
**Probabilidad condicional** $\text{Pr}(w_i \, | \, \text{Tipo})$:


      Tipo     w1    w2    w3    w4    w5 
      ---------------------------------------------     
      spam    3/6     ?     ?     ?     ?   
      ham       ?     ?     ?   3/8     ?  

**Probabilidad condicional** $\text{Pr}(\text{not } w_i \, |  \, \text{Tipo})$:


      Tipo     w1    w2    w3    w4    w5 
      ---------------------------------------------     
      spam      ?   5/6     ?     ?     ?   
      ham       ?     ?     ?     ?   7/8      

A continuación se usará el teorema de Bayes para determine si el mensaje $w_1 w_4$ es spam. Ya que este mensaje contiene las palabras $w_1$ y $w_4$ y no contiene las palabras $w_2$, $w_3$ y $w_5$, la probabilidad de que sea spam es:

$$\text{Pr}(\text{spam}~|~w_1~\text{and}~\text{not}~w_2~\text{and}~\text{not}~w_3~\text{and}~w_4~\text{and}~\text{not}~w_5)$$

Por el teorema de Bayes, la ecuación anterior se transforma en:

$$\frac{\text{Pr}(w_1~\text{and}~\text{not}~w_2~\text{and}~\text{not}~w_3~\text{and}~w_4~\text{and}~\text{not}~w_5 |~\text{spam}) * \text{Pr}(\text{spam})}
{\text{Pr}(~w_1~\text{and}~\text{not}~w_2~\text{and}~\text{not}~w_3~\text{and}~w_4~\text{and}~\text{not}~w_5)}
$$

Si se tiene en cuenta que la ocurrencia de la palabras $w_1$, $w_2$, $w_3$, $w_4$ y $w_5$ son eventos independientes, es decir, que la ocurrencia de una palabra es independiente de la ocurrencia de las otras, entonces, el término $\text{Pr}(w_1~\text{and}~\text{not}~w_2~\text{and}~\text{not}~w_3~\text{and}~w_4 ~\text{and}~\text{not}~w_5|~\text{spam})$ puede aproximarse como:

$$
\text{Pr}(w_1~|~\text{spam})*
\text{Pr}(\text{not}~w_2~|~\text{spam})*
\text{Pr}(\text{not}~w_3|~\text{spam})*
\text{Pr}(w_4~|~\text{spam})*
\text{Pr}(\text{not}~w_5|~\text{spam})
$$

Estas cantidades ya fueron computadas en la actividad anterior.

**Actividad.---** Calcule la probabilidad de que el mensaje $w_1 w_4$ sea spam, es decir, calcule la siguiente probabilidad:

$$\text{Pr}(\text{spam}~|~w_1~\text{and}~\text{not}~w_2~\text{and}~\text{not}~w_3~\text{and}~w_4~\text{and}~\text{not}~w_5)$$


**Actividad.---** Calcule la probabilidad de que el mensaje $w_1 w_4$ sea ham, es decir, calcule la siguiente probabilidad:

$$\text{Pr}(\text{ham}~|~w_1~\text{and}~\text{not}~w_2~\text{and}~\text{not}~w_3~\text{and}~w_4~\text{and}~\text{not}~w_5)$$

 

**Actividad.---** Con base en los resultados anteriores, ¿El mensaje es ham o spam?

La ecuación 

$$
\text{Pr}(w_1~|~\text{spam})*
\text{Pr}(\text{not}~w_2~|~\text{spam})*
\text{Pr}(\text{not}~w_3|~\text{spam})*
\text{Pr}(w_4~|~\text{spam})*
\text{Pr}(\text{not}~w_5|~\text{spam})
$$



es la usada en la implementación computacional del algoritmo Naive Bayes para el cómputo de las probabilidades posteriores. En general, la ecuación anterior se puede escribir como:

$$\text{Pr}(C_L~|~F_1, ...,F_n) = \frac{1}{Z}\text{Pr}(C_L)\prod_{i=1}^n \text{Pr}(F_i~|~C_L)$$

donde:

* $F_i$ son las características (las $x_i$).


* $1/Z$ es un factor de escala.


* $C_L$ representa el nivel $L$ de la clase $C$.

**Estimador de Laplace**

Al construir la tabla de probabilidades de las ocurrencias de las palabras, es posible que una palabra $w_k$ aparezca únicamente en los mensajes válidos y no aparezca en los mensajes spam. De esta forma si se calcula la probabilidad posterior de un nuevo mensaje que no la contiene, el resultado es cero para spam y uno para válido. Para prevernir esta situación, se hace que el conteo inicial no arranque en cero con el fin de que la probabilidad de ocurrencia sea siempre mayor que cero. Esto equivale a tener un mensaje para cada clase conformado por todas las palabras posibles.

**Actividad.---** Realice nuevamente el ejercicio anterior usando el estimador de Laplace.

Probabilidad individual $\text{Pr}(w_i)$:


                      w1    w2    w3    w4    w5
      ----------------------------------------------
      Ocurre        5/24     ?     ?     ?   3/24
      No ocurre        ?     ?   20/24   ?     ?

Complete la tabla de probabilidad conjunta:


      Tipo     w1    w2    w3    w4    w5  Pr(tipo)
      ----------------------------------------------     
      spam   4/24     ?     ?     ?     ?    11/24 
      ham       ?     ?  1/24     ?     ?        ?

Complete la tabla de probabilidad condicional $\text{Pr}(w_i \, | \, \text{Tipo})$:


      Tipo     w1    w2    w3    w4    w5   
      ----------------------------------------------    
      spam   4/11     ?     ?     ?   1/11    
      ham       ?     ?   1/13     ?    ?      

Complete la tabla de probabilidad condicional $\text{Pr}(\text{not } w_i \, |  \, \text{Tipo})$:


      Tipo     w1    w2    w3    w4    w5   
      ----------------------------------------------     
      spam      ?  9/11     ?     ?     ?         
      ham       ?     ?     ?     ?  11/13          

Calcule la probabilidad de que el mensaje $w_1w_4$ sea spam:

$$\text{Pr}(\text{spam}~|~w_1~\text{and}~\text{not}~w_2~\text{and}~\text{not}~w_3~\text{and}~w_4~\text{and}~\text{not}~w_5)$$
 
R/ 36.56% 

Calcule la probabilidad de que el mensaje sea $w_1w_4$ válido:

$$\text{Pr}(\text{ham}~|~w_1~\text{and}~\text{not}~w_2~\text{and}~\text{not}~w_3~\text{and}~w_4~\text{and}~\text{not}~w_5)$$

R/ 27.49%

## Implementación de la solución en Python

A continuación se presenta la solución usando el lenguaje Python.

### Creación del archivo

In [1]:
%%writefile data.csv
texto,tipo
ww1 ww3,spam
ww1 ww2 ww1 ww3,spam
ww2 ww4,ham
ww4 ww5 ww2,ham
ww2 ww4 ww2,ham

Writing data.csv


### Lectura de datos

In [2]:
import pandas as pd

df = pd.read_csv(
    "data.csv",
    sep=",",         # separador de campos
    thousands=None,  # separador de miles para números
    decimal=".",     # separador de los decimales para números
)  

df

Unnamed: 0,texto,tipo
0,ww1 ww3,spam
1,ww1 ww2 ww1 ww3,spam
2,ww2 ww4,ham
3,ww4 ww5 ww2,ham
4,ww2 ww4 ww2,ham


In [3]:
#
# Se preparan los datos. El conjunto de
# datos es una lista de strings donde cada
# string es un mensaje
#
df.texto

0            ww1 ww3
1    ww1 ww2 ww1 ww3
2            ww2 ww4
3        ww4 ww5 ww2
4        ww2 ww4 ww2
Name: texto, dtype: object

In [4]:
#
# La clase a la que pertenece cada mensaje
# también se representa como una lista de strings
#
df.tipo

0    spam
1    spam
2     ham
3     ham
4     ham
Name: tipo, dtype: object

### Transformación

In [5]:
#
# Se importa la librería
#
from sklearn.feature_extraction.text import CountVectorizer

#
# La representación DocumentTermMatrix corresponde a 
# a una matriz en la que cada fila corresponde
# a un mensaje y cada columna es una palabra.
#
#        | ww1 ww2 ww3 ww4 ww5
#  -----------------------------
#  msg 0 |   1   0   1   0   0
#      1 |   2   1   1   0   0
#      2 |   0   1   0   1   0
#      3 |   0   1   0   1   1
#      4 |   0   2   0   1   0
#     
#
# A continuación se crea un transformador
#
vectorizer = CountVectorizer(input="content")

#
# Se aplica el transformador al texto para convertirlo
# a DTM.
#
X = vectorizer.fit_transform(df.texto)

#
# También se genera una variable para el tipo
#
y = df.tipo

In [6]:
##
## Se imprimen los nombres de las columnas
##
vectorizer.get_feature_names()

['ww1', 'ww2', 'ww3', 'ww4', 'ww5']

In [7]:
#
# Se imprime la matriz de términos y documentos
#
print(X.toarray())

[[1 0 1 0 0]
 [2 1 1 0 0]
 [0 1 0 1 0]
 [0 1 0 1 1]
 [0 2 0 1 0]]


In [8]:
#
# Ya que lo que interesa es la presencia o no de la palabra
# y no interesa la cantidad de veces que aparece, entonces
# se aplica una transformación a la matriz
#
X = [[1 if element > 1 else element for element in row] for row in X.toarray()]
X

[[1, 0, 1, 0, 0],
 [1, 1, 1, 0, 0],
 [0, 1, 0, 1, 0],
 [0, 1, 0, 1, 1],
 [0, 1, 0, 1, 0]]

### Especificación del modelo

In [9]:
#
# Se importa la libreria
#
from sklearn.naive_bayes import BernoulliNB

#
# Se crea un clasificador Gaussiano ingenuo
#
gnb = BernoulliNB(
    alpha=1.0,        # Laplace parameter
    binarize=0.0,
    fit_prior=True,
    class_prior=None,
)

### Entrenamiento

In [10]:
#
# Se entrena el clasificador
#
gnb.fit(X, y)

BernoulliNB(alpha=1.0, binarize=0.0, class_prior=None, fit_prior=True)

### Pronóstico

In [11]:
#
# Se pronostica la clasificación de los
# mensajes para los datos de entrada
#
df["predicted"] = gnb.predict(X)

In [12]:
df

Unnamed: 0,texto,tipo,predicted
0,ww1 ww3,spam,spam
1,ww1 ww2 ww1 ww3,spam,spam
2,ww2 ww4,ham,ham
3,ww4 ww5 ww2,ham,ham
4,ww2 ww4 ww2,ham,ham


---

In [13]:
!rm data.csv