# 07 - Clasificación de textos con Naive Bayes: Introducción

* Uno de los temas interesantes del ***Procesamiento del Lenguaje Natural*** es el de la clasificación de textos.


* Los problemas de clasificación se encuentran dentro del ***aprendizaje supervisado***, lo que significa que para la clasificación de texto previamente se tiene que disponer de una serie de texto etiquetados (o clasificados).


* Por tanto para la clasificación de textos se necesita un ***array de características del texto*** (Bolsa de Palabras) y una ***etiqueta asociada*** a ese texto.


* Uno de los clasificadores más sencillos de entender es el clasificador ***Naive Bayes***, que es un clasificador probabilístico que se basa en el ***teorema de Bayes***

<hr>

* Veamos a continuación como clasificar textos utilizando un clasificador ***Naive Bayes***:

### 1.- Probabilidad de que una palabra pertenezca a una etiqueta:

* Definimos la probabilidad de que una **palabra** pertenezca a una **etiqueta** de la siguiente manera:


$$P(etiqueta|palabra) = \frac{P(etiqueta) \cdot P(palabra|etiqueta)}{P(palabra)}$$

* Veamos paso por paso como calcular la probabilidad que dada una palabra, esta pertenezca a una etiqueta:

    1. **Probabilidad de la Palabra** - *P(palabra)*:
<br>       
       $$P(palabra) = \frac{Nº \: apariciones \: palabra}{Nº \: palabras \: totales \: corpus}$$
<br>
    2. **Probabilidad de la Etiqueta** - *P(etiqueta)*:
<br>   
       $$P(etiqueta) = \frac{Nº \: apariciones \: de \: palabras \: con \: esa \: etiqueta}{Nº \: palabras \: totales \: corpus}$$
<br>       
    3. **Probabilidad de que una etiqueta pertenezca a una palabra** - *P(palabra|etiqueta)*:
<br>   
       $$P(palabra|etiqueta) = \frac{Nº \: veces \: que \: aparece \: la \: palabra \: con \: esa \: etiqueta}{Nº \: apariciones \: de \: palabras \: con \: esa \: etiqueta}$$
<br> 

### 2.- Probabilidad de que un texto pertenezca a una etiqueta:

* El clasificador ***Naive Bayes*** elige en primer lugar la ***etiqueta más probable*** para un texto, asumiendo que los textos los clasificamos "de primeras" sin tener información sobre el contenido del texto.


* En segundo lugar mira las características individuales del texto (las palabras) asumiendo que todas las características son independientes entre sí. Esta suposición es la que hace "ingenuo" (Naive en ingles) al clasificador de Bayes ya que las características (las palabras) no son independientes entre sí.


* Por tanto se define la probabilidad de que un documento pertenezca a una etiqueta como el producto de la probabilidad de la etiqueta junto al productos de las probabilidades particulares de cada palabra:


$$P(etiqueta_j|documento) = P(etiqueta_j)  \cdot \prod_{etiqueta_j\in Etiquetas} P(palabra_i | etiqueta_j)$$

<hr>

## Ejemplo:

* Veamos a continuación como clasificar textos utilizando un clasificador ***Naive Bayes***, suponiendo que tenemos 5 textos clasificados cada unos de ellos por la temática "Real Madrid" o "Barça". Los textos serian los siguientes:

    - **T1 (Real Madrid)**: Ronaldo Ronaldo Ronaldo Ronaldo Futbol
    - **T2 (Real Madrid)**: Ronaldo Ramos Ramos Messi
    - **T3 (Real Madrid)**: Ramos Ramos Ramos Ronaldo Messi Iniesta Futbol
    - **T4 (Barça)**: Messi Messi Messi Iniesta Futbol Ronaldo
    - **T5 (Barça)**: Messi Messi Iniesta Iniesta Iniesta Ramos Futbol
    
    
#### Datos:

* ***Documentos***:
    - Número total de documentos = 5
    - Número de documentos etiquetados como "Real Madrid" = 3
    - Número de documentos etiquetados como "Barça" = 2
    - P(Real Madrid) = 3/5
    - P(Barça) = 2/5
    

* ***Palabras***:
    - Número total de palabras = 29
    - Número total de palabras etiquetadas como Real Madrid = 16
    - Número total de palabras etiquetadas como Barça = 13
    
|Palabra|Apariciones|Apariciones(Real Madrid)|Apariciones(Barça)|P(palabra)|P(palabra/Real Madrid)|P(palabra/Barça)|
|---|---|---|---|---|---|---|
|Ronaldo|7|6|1|7/29|6/16|1/13|
|Ramos|6|5|1|6/29|5/16|1/13|
|Messi|7|2|5|7/29|2/16|5/13|
|Iniesta|5|1|4|5/29|1/16|4/13|
|Futbol|4|2|2|4/29|2/16|2/13|

#### Clasificación:
* Supongamos que tenemos el siguiente texto a clasificar:
    - **Tt1**: Ronaldo Ronaldo Messi Futbol
    
    
* ***Clasificación del texto Tt1***:

$$P(Real Madrid|Tt1) = P(Real Madrid) \cdot P(Ronaldo|Real Madrid) \cdot P(Ronaldo|Real Madrid) \cdot P(Messi|Real Madrid) \cdot P(Futbol|Real Madrid)$$ $$ = 3/5 \cdot 6/16 \cdot 6/16 \cdot 2/16 \cdot 2/16 = 1.32\cdot10^{-3}$$

<br>

$$P(Barça|Tt1) = P(Barça) \cdot P(Ronaldo|Barça) \cdot P(Ronaldo|Barça) \cdot P(Messi|Barça) \cdot P(Fútbol|Barça)$$ $$= 2/5 \cdot 1/13 \cdot 1/13 \cdot 5/13 \cdot 2/13 = 1.4\cdot10^{-4}$$

* ***Resultado***: P(Real Madrid| Tt1) = 1.32·10<sup>-3</sup> > P(Barça| Tt1) = 1.4·10<sup>-4</sup> -> ***Clasificado como "Real Madrid"***

In [1]:
textos = [('Ronaldo Ronaldo Ronaldo Ronaldo Futbol', 'Real Madrid'),
          ('Ronaldo Ramos Ramos Messi', 'Real Madrid'),
          ('Ramos Ramos Ramos Ronaldo Messi Iniesta Futbol', 'Real Madrid'),
          ('Messi Messi Messi Iniesta Futbol Ronaldo', 'Barça'),
          ('Messi Messi Iniesta Iniesta Iniesta Ramos Futbol', 'Barça')]


def to_bow(textos, label='all'):
    """Función que dada una lista de textos etiquetados, devuelve una bolsa de palabras por frecuencia"""
    bow = dict()
    for text in textos:
        if text[1] == label or label == 'all':
            for word in text[0].split(' '):
                if word in bow:
                    bow[word] += 1
                else:
                    bow[word] = 1
    return bow

bow = to_bow(textos)
bow_madrid = to_bow(textos, 'Real Madrid')
bow_barsa = to_bow(textos, 'Barça')

In [2]:
print(bow)
print(bow_madrid)
print(bow_barsa)

{'Ronaldo': 7, 'Futbol': 4, 'Ramos': 6, 'Messi': 7, 'Iniesta': 5}
{'Ronaldo': 6, 'Futbol': 2, 'Ramos': 5, 'Messi': 2, 'Iniesta': 1}
{'Messi': 5, 'Iniesta': 4, 'Futbol': 2, 'Ronaldo': 1, 'Ramos': 1}
