#Clasificación de libros haciendo uso del algoritmo de clasificación Naïve Bayes

<div align=justify> Los modelos de clasificación son usados extensamente en la actualidad para resolver problemas donde se requiere separar clases de elementos en un conjunto. El ejemplo clásico suele ser cuando se recibe un correo electrónico y mediante un algoritmo, se decide si el correo recibido pertenece a la categoría de <b>spam</b> o <b>no spam</b>. Cuando el conjunto que se requiere separar consta de palabras (como el ejemplo anterior), se le conoce como clasificación de textos. Dentro de las técnicas de clasificación en el aprendizaje supervisado que se aplican en la clasificación de textos, se encuentra el Clasificador Bayesiano Ingenuo o *Naïve Bayes*, esta técnica se fundamenta en teoría de probabilidad, especialmente en el Teorema de Bayes.
</div>


<div align=justify> El objetivo de este trabajo es obtener una base de datos conformada por libros en formato  <b>.txt</b> de distintas categorías. Una vez obtenida la base de datos, aplicar el algoritmo del Clasificador Bayesiano Ingenuo para entrenar un modelo que sea capaz de clasificar un libro a partir de la frecuencia de las palabras que se encuentran en el libro. Para finalizar, ver los resultados obtenidos al introducir un libro en el modelo, lo que va a devolver una clase que identifique a qué categoría pertenece el libro. Cabe remarcar que toda la implementación del algoritmo, se desarrolla en el lenguaje de programación Python.
</div>

## Base teórica
### Teorema de Bayes

Supongamos que $E_1, E_2, \dots, E_n$ son eventos mutuamente excluyentes en el espacio muestral $\Omega$ tales que $\cup_{i=1}^n E_i = \Omega$. Entonces
\begin{equation}\label{principal}
Pr(E_j | B) = \frac{Pr(E_j \cap B)}{Pr(B)} = \frac{Pr(B | E_j)Pr(E_j)}{\sum_{i=1}^n Pr(B | E_i) Pr(E_i)} \ \ \ \ \ \ \ \ \ (1)
\end{equation}

**Demostración:**

    Tomemos 
\begin{equation}
Pr(E_j | B) = \frac{Pr(E_j \cap B)}{Pr(B)},
\end{equation}
con esto, vemos que por la regla de multiplicación
\begin{equation}\label{arg1}
Pr(E_j \cap B) = Pr(B | E_j){Pr(B)}, \ \ \ \ \ \ \ \ \ (2)
\end{equation}
y por la Regla de Probabilidad Total, se obtiene
\begin{equation}\label{arg2}
Pr(B) = Pr(B|E_1)Pr(E_1) + \cdots + Pr(B|E_n)Pr(E_n) = \displaystyle\sum_{i=1}^n Pr(B|E_i)Pr(E_i). \ \ \ \ \ \ \ \ \ (3)
\end{equation}


Por las Ecuaciones $(2)$ y $(3)$, podemos obtener $(1)$

$$\blacksquare$$

### Algoritmo de Clasificación Bayesiano Ingenuo

Este algoritmo sirve para entrenar un modelo que sea capaz de clasificar textos. Se tomó del libro *Probability and Computing: Randomization and Probabilistic Techniques in Algorithms and Data Analysis*, escrito por Michael Mitzenmacher y Eli Upfal en su segunda edición.

**Entrada:** Conjunto $C$ de las clasificaciones posibles, conjunto de características $F_1,\dots,F_m$ con sus respectivos valores y un conjunto de entrenamiento que contiene libros y su respectiva clasificación. 

**Fase de entrenamiento:**

1. Para cada categoría $c \in  C$, característica $k = 1,\dots, m$ y valor de la característica $x_k \in F_k$, calcule

\begin{equation*}
\hat{Pr}(x_k^* = x_k 1 c(D^*) = c) = \frac{|\{ i: x_k^i = x_k, c(D_i) = c \}|}{\{ i | c(D_i) = c \}}.
\end{equation*} 

2. Para cada categoría $c \in C$, calcular 
\begin{equation*}
\hat{Pr}(c(D^*)=c)=\frac{\{ i | c(D_i) = c \}}{|D|}.
\end{equation*}

**Clasificación de un nuevo item $D^*$.**

1. Para alcular la mayor probabilidad de clasificación para $x^* = x = (x_1,\dots,x_m)$.
\begin{equation}\label{perro}
c(D^*) = arg\ \max_{c_j \in C} \left( \prod_{k=1}^m \hat{Pr} (x_k^* = x_k | c(D^*) = c_j) \right) \hat{Pr}(c(D^*)=c_j). \ \ \ \ \ \ \ \ \ (4)
\end{equation}

2. Para calcular una distribución de clasificación
\begin{equation*}
\hat{Pr}(c(D^*)=c_j) = \frac{\left( \prod_{k=1}^m \hat{Pr} (x_k^* = x_k | c(D^*) = c_j) \right)\hat{Pr}(c(D^*)=c_j)}{\hat{Pr}(x^* = x)}
\end{equation*}

### Log probabilidades para Naïve Bayes
<div align=justify>Para el caso de la clasificación de textos nos encontramos con una limitación computacional cuando implementamos el algoritmo anterior. Esto sucede cuando la cantidad de características (en el caso de clasificación de textos las características son palabras) es muy grande, lo que lleva a obtener números extremadamente pequeños al calcular las probabilidades que no son representables en Python. Esto se puede resolver aplicando el logaritmo al cálculo de las probabilidades. Esto es posible por dos propiedades de los logaritmos que se muestran a continuación. </div>


- Dados dos números $a$ y $b$, tales que $a<b$, aplicando los logaritmos obtenemos que ln $a<$ln $b$.
- El logaritmo de un producto es la suma de los logaritmos. ln $ab$ = ln $a$ $+$ ln $b$.

	
Aplicando estas propiedades de los logaritmos a la Ecuación $(4)$, vemos que queda de la siguiente forma.
\begin{equation}
c(D^*) = arg\ \max_{c_j \in C} \left( \sum_{k=1}^m ln\ \hat{Pr} (x_k^* = x_k | c(D^*) = c_j) \right) + ln\ \hat{Pr}(c(D^*)=c_j).
\end{equation}

## Metodología

<div align=justify>Para aplicar el Algoritmo de Clasificación Bayesiano Ingenuo primero requerimos de crear nuestra base de datos, para esto se descargaron libros en formato de texto simple (o <b>txt</b>) de la página https://www.gutenberg.org/ que pertenece a un proyecto de biblioteca virtual llamado Proyecto Gutenberg, aquí se encuentran libros electrónicos en distintos formatos y de carácter gratuito.</div>

La base de datos conformada por los libros que recolectamos contaba con las siguientes categorías:
- Astronomy: 16 libros.
- Biology: 16 libros.
- Cook: 16 libros.
- Love: 8 libros.
- Math: 10 libros.
- Scifi: 15 libros.


<div align=justify>
La primer parte se encarga de definir funciones. La primer función elimina símbolos, tales como los signos de puntuación. La segunda función se encarga de abrir los archivos de texto simple como una cadena de caracteres para después separar la cadena en un arreglo que contiene todas las palabras detectadas en la cadena. Luego de obtener el arreglo, cuenta la ocurrencia de cada palabra.</div>

In [1]:
from math import log
from numpy import argmax, log
import os
from random import shuffle


In [2]:
def elimina_simbolos(palabra):
    palabra = "".join(k for k in palabra if k.isalpha())
    return palabra.lower()

def obtener_frequencias(archivo, clase, clases, frecuencias= dict(), frecuencias_clases= dict()):
    print("abriendo archivos ", archivo)
    f=open(archivo)
    print("cargando texto")
    libro=f.read()
    print("generando lista palabras")
    palabras = libro.split() # este paso puede ser caro en archivos grandes

    print("contando palabras")
    for i in palabras:
        i = "".join(k for k in i if k.isalpha())
        i = i.lower()
        try:
            frecuencias[i][clase] += 1 
        except:
            frecuencias[i] = dict((c, 0) for c in clases)
            frecuencias[i][clase] += 1 
            
        try:
            frecuencias_clases[clase] += 1
        except:
            frecuencias_clases[clase] = 1

    return frecuencias, frecuencias_clases



A continuación escribimos las clases a las que puede pertenecer el libro e introducimos todos los nombres de los libros que pertenecen a cada categoría para poder hacer una división de cada clase en un 80% de los libros para entrenar el modelo y el 20% para probarlo.


In [4]:
clases = ["scifi", "love", "math", "biology", "astronomy", "cook"]


todos_los_libros = dict( (c, []) for c in clases )
libros_train = dict( (c, []) for c in clases )
libros_test = dict( (c, []) for c in clases )

for clase in clases:
    i = 1
    while True:
        archivo_txt = "books/"+clase+str(i)+".txt"
        #
        
        if not os.path.exists(archivo_txt):
            break
        
        todos_los_libros[clase].append( archivo_txt)
        i += 1
    
    idx = list(range(1, 1+len(todos_los_libros[clase])))
    shuffle(idx)
    n = int(len(idx)*0.8)
    libros_train[clase] = idx[:n]
    libros_test[clase] = idx[n:]

        

In [17]:
libros_train,libros_test

({'astronomy': [11, 3, 5, 1, 12, 16, 4, 10, 2, 13, 15, 7],
  'biology': [1, 3, 16, 2, 13, 10, 5, 11, 15, 8, 6, 12],
  'cook': [2, 8, 9, 14, 16, 7, 13, 11, 10, 6, 3, 12],
  'love': [5, 2, 8, 1, 4, 7],
  'math': [1, 6, 5, 9, 8, 2, 10, 3],
  'scifi': [7, 12, 1, 15, 3, 10, 2, 13, 6, 4, 8, 11]},
 {'astronomy': [8, 9, 14, 6],
  'biology': [14, 9, 7, 4],
  'cook': [15, 5, 1, 4],
  'love': [3, 6],
  'math': [7, 4],
  'scifi': [5, 14, 9]})

Lo siguiente es leer los libros del conjunto de entrenamiento y ver las frecuencias de las palabras aplicando la función definida anteriormente.

In [6]:
frecuencias = dict()
frecuencas_clases = dict()

for clase in clases:
    for i in libros_train[clase]:
        archivo_txt = todos_los_libros[clase][i-1]
        print(archivo_txt)
        frecuencias, frecuencas_clases = obtener_frequencias(archivo_txt, clase,clases, frecuencias, frecuencas_clases)

books/scifi7.txt
abriendo archivos  books/scifi7.txt
cargando texto
generando lista palabras
contando palabras
books/scifi12.txt
abriendo archivos  books/scifi12.txt
cargando texto
generando lista palabras
contando palabras
books/scifi1.txt
abriendo archivos  books/scifi1.txt
cargando texto
generando lista palabras
contando palabras
books/scifi15.txt
abriendo archivos  books/scifi15.txt
cargando texto
generando lista palabras
contando palabras
books/scifi3.txt
abriendo archivos  books/scifi3.txt
cargando texto
generando lista palabras
contando palabras
books/scifi10.txt
abriendo archivos  books/scifi10.txt
cargando texto
generando lista palabras
contando palabras
books/scifi2.txt
abriendo archivos  books/scifi2.txt
cargando texto
generando lista palabras
contando palabras
books/scifi13.txt
abriendo archivos  books/scifi13.txt
cargando texto
generando lista palabras
contando palabras
books/scifi6.txt
abriendo archivos  books/scifi6.txt
cargando texto
generando lista palabras
contando pa

Continuamos definiendo dos funciones, la primera calcula la probabilidad de la clase dada la palabra y la segunda calcula la log verosimilitud.

|Objeto|rojo | amarillo | suma|
| :------- | :------: | :------: | -----: |
| bola | 5 | 6| 11 |
|  estrella | 7 | 8| 15 |
| suma | 13 | 14 | 39|

$P(x = estrella | y = amarillo) = ?$

In [9]:
def probabilidad(palabra, clase, frecuencias, frecuencias_clases):
    try:
        a = frecuencias[palabra][clase]
    except:
        a = 1.0
    
    b = frecuencias_clases[clase] # frecuencias de la clase
    a = a if a>0 else 1
    
    return a/b



In [18]:
def clasifica(libro, frecuencias, frecuencias_clases, clases):

    verosimilutudes = []

    for clase in clases:
        log_verosimilitud = 0.0

        for palabra in libro:
            palabra = elimina_simbolos(palabra)
            p = probabilidad(palabra, clase, frecuencias, frecuencias_clases)
            log_verosimilitud += log(p) #* 1 / len(clases)
            
        verosimilutudes.append(log_verosimilitud)

    return clases[argmax(verosimilutudes)], (verosimilutudes)

## Clasificación de una frase o palabra

Al entrenar nuestro algoritmo se realiza una prueba con una palabra o frase.

In [28]:
clasifica_esta_frase = "positive definite matrices are stated and proved".split()
clase_pred = clasifica(clasificame_esta_frase, frecuencias, frecuencas_clases, clases)

In [29]:
clasifica_esta_frase

['positive', 'definite', 'matrices', 'are', 'stated', 'and', 'proved']

In [30]:
frecuencias

{'the': {'astronomy': 94904,
  'biology': 111815,
  'cook': 33429,
  'love': 26835,
  'math': 31435,
  'scifi': 63892},
 'project': {'astronomy': 1060,
  'biology': 1070,
  'cook': 1050,
  'love': 535,
  'math': 9,
  'scifi': 1084},
 'gutenberg': {'astronomy': 413,
  'biology': 358,
  'cook': 360,
  'love': 179,
  'math': 0,
  'scifi': 359},
 'ebook': {'astronomy': 137,
  'biology': 128,
  'cook': 141,
  'love': 65,
  'math': 0,
  'scifi': 131},
 'of': {'astronomy': 58857,
  'biology': 73111,
  'cook': 22348,
  'love': 18868,
  'math': 19996,
  'scifi': 35403},
 'a': {'astronomy': 19855,
  'biology': 26811,
  'cook': 16435,
  'love': 13025,
  'math': 12643,
  'scifi': 18676},
 'trip': {'astronomy': 2,
  'biology': 9,
  'cook': 1,
  'love': 7,
  'math': 0,
  'scifi': 42},
 'to': {'astronomy': 24243,
  'biology': 29596,
  'cook': 10965,
  'love': 20872,
  'math': 7105,
  'scifi': 24380},
 'venus': {'astronomy': 296,
  'biology': 18,
  'cook': 0,
  'love': 1,
  'math': 4,
  'scifi': 94},


In [31]:
print(clase_pred)

('math', [-64.01658229151884, -65.45760138576652, -52.13111845030627, -60.098117007459976, -60.35521506762848, -65.00624834656617])


## Predicciones

In [32]:
libros_test

{'astronomy': [8, 9, 14, 6],
 'biology': [14, 9, 7, 4],
 'cook': [15, 5, 1, 4],
 'love': [3, 6],
 'math': [7, 4],
 'scifi': [5, 14, 9]}

### Predicción de una sola clase del conjunto de prueba

In [11]:
predicciones = []
clase ='cook'
for i in libros_test[clase]:
    archivo_txt = todos_los_libros[clase][i-1]
    libro_prueba = open(archivo_txt).read().split()
    clase_pred,lv = clasifica(libro_prueba, frecuencias, frecuencas_clases, clases)
    predicciones.append((clase, clase_pred))
    print(archivo_txt,"\t",clase, clase_pred, max(lv))

books/cook15.txt 	 cook cook -1518898.995940336
books/cook5.txt 	 cook cook -90135.59417074463
books/cook1.txt 	 cook cook -226433.52709767333
books/cook4.txt 	 cook cook -411598.76262885705


### Predicción con el conjunto de prueba total

In [12]:
predicciones = []
for clase in clases:
    for i in libros_test[clase]:
        archivo_txt = todos_los_libros[clase][i-1]
        libro_prueba = open(archivo_txt).read().split()
        clase_pred,lv = clasifica(libro_prueba, frecuencias, frecuencas_clases, clases)
        predicciones.append((clase, clase_pred))
        print(archivo_txt,"\t",clase, clase_pred, max(lv))


books/scifi5.txt 	 scifi scifi -679710.8783578923
books/scifi14.txt 	 scifi scifi -679872.2727311624
books/scifi9.txt 	 scifi scifi -245092.78916056195
books/love3.txt 	 love love -816604.4531492734
books/love6.txt 	 love love -577709.8707934468
books/math7.txt 	 math math -1025115.2625764803
books/math4.txt 	 math math -344699.2802793393
books/biology14.txt 	 biology biology -1314832.8301602185
books/biology9.txt 	 biology biology -1084579.0949648353
books/biology7.txt 	 biology biology -688104.3427273345
books/biology4.txt 	 biology biology -444444.2243203145
books/astronomy8.txt 	 astronomy astronomy -750421.3085850711
books/astronomy9.txt 	 astronomy astronomy -614177.874480448
books/astronomy14.txt 	 astronomy astronomy -815908.1568948702
books/astronomy6.txt 	 astronomy astronomy -185593.69778855477
books/cook15.txt 	 cook cook -1518898.995940336
books/cook5.txt 	 cook cook -90135.59417074463
books/cook1.txt 	 cook cook -226433.52709767333
books/cook4.txt 	 cook cook -411598.7626

In [34]:
porcentaje_clasificación = sum( [ p[0] == p[1] for p in predicciones] ) / len(predicciones)
print("porcentaje_clasificación =", porcentaje_clasificación, "=", '{:f}'.format(porcentaje_clasificación*100),"%")

porcentaje_clasificación = 1.0 = 100.000000 %


### Matriz de Confusión

In [36]:
matriz_confusion = [[ 0 for c in clases] for c in clases]

for cc in predicciones:
    real, prediccion = cc
    j = clases.index(prediccion)
    i = clases.index(real)
    matriz_confusion[i][j] += 1
    
print("Matriz de confusion")
for i in range(len(matriz_confusion)):
    clase = clases[i]
    print(clase[:4], matriz_confusion[i])
print("porcentaje_clasificación =", porcentaje_clasificación, "=", '{:f}'.format(porcentaje_clasificación*100),"%")

Matriz de confusion
scif [3, 0, 0, 0, 0, 0]
love [0, 2, 0, 0, 0, 0]
math [0, 0, 2, 0, 0, 0]
biol [0, 0, 0, 4, 0, 0]
astr [0, 0, 0, 0, 4, 0]
cook [0, 0, 0, 0, 0, 4]
porcentaje_clasificación = 1.0 = 100.000000 %
