<img src="imgs/logo-spegc.svg" width=30%>

# Naïve Bayes Classification

En el clasificador bayesiano se utiliza el teorema de Bayes y ciertas asunciones de independencia para llevar a cabo una separación de las muestras basadas en sus probabilidades de aparición.

El teorema de Bayes indica lo siguiente:

$$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $$

Traslademos el teorema a una aplicación:

$$ P(c_i|o) = \frac{P(o|c_i)P(c_i)}{P(o)} $$


- $P(c_i)$: Probabilidad *a priori* de que una nueva observación $o$ pertenezca a la clase $c_i$.
- $P(c_i|o)$: Verosimilitud o probabilidad de que dada una observación $o$ esta pertenezca a la clase $c_i$
- $P(o|c_i)$: Probabilidad *a posteri*, es decir, qué probabilidad hay de tener la observación $o$ si ya sabemos que pertenece a la clase $c_i$.
- $P(o)$: Evidencia, o probabilidad de nuestra observación.

Lo que nos interesa es, dada una observación, determinar cuál es la probabiliad de que pertenezca a cada clase posible. Supongamos que tuviéramos tres clases $(c_1, c_2, c_3)$.

$$ P(c_1|o) = \frac{P(o|c_1)P(c_1)}{P(o)} $$
$$ P(c_2|o) = \frac{P(o|c_2)P(c_2)}{P(o)} $$
$$ P(c_3|o) = \frac{P(o|c_3)P(c_3)}{P(o)} $$

Nuestro clasificador se basaría simplemente en escoger la clase de verosimilitud más alta. Pero, si nos fijamos bien, vemos que $P(o)$ es un denominador que se repite para las tres clases con lo que podemos prescindir de él y hacer más fácil el cálculo.

$$ c_1 \leftarrow P(o|c_1)P(c_1) $$
$$ c_2 \leftarrow P(o|c_2)P(c_2) $$
$$ c_3 \leftarrow P(o|c_3)P(c_3) $$

Ahora solo tenemos que elegir el $c_i$ más alto.

### Independencia probabilística

Decimos que la probabilidad de $A$ es independiente de $B$ si: 

$$ P(A|B) = P(A)$$

Es decir, da igual que ocurra $B$ o no para que se dé $A$. Por lo tanto, tenemos que:

$$ P(A|B) = \frac{P(A \cap B)}{P(B)} \rightarrow {P(A \cap B)} = P(B)P(A|B) \rightarrow {P(A) \cap P(B)} = P(B)P(A) $$


## Clasificador de textos

Nuestro dataset es un conjunto de textos (correos electrónicos, críticas, comentarios, artículos...) clasificados en algunas categorías. Por ejemplo, comentarios sobre películas clasificados como *positivos* o *negativos*. Cada muestra es un comentario y cada comentario está compuesto por palabras. Al conjunto de todas las palabras que aparecen en todos los comentarios lo llamamos *diccionario*.

Por tanto, un comentario $W$ estará formado por un conjunto de n palabras $(w_1, w_2,\dots, w_n)$. De esta forma, nos interesaría saber cual es la verosimilitud de pertenencia del comentario a una clase.

$$ P(c_1|w_1,w_2,\dots,w_n) = \frac{P(w_1,w_2,\dots,w_n|c_1)P(c_1)}{P(w_1,w_2,\dots,w_n)} $$
$$ P(c_2|w_1,w_2,\dots,w_n) = \frac{P(w_1,w_2,\dots,w_n|c_2)P(c_2)}{P(w_1,w_2,\dots,w_n)} $$

Si asumimos la independencia de aparición de las palabras en un comentario tenemos que:

$$ P(w_1,w_2,\dots,w_n|c) = P(w_1|c)P(w_1|c) \dots P(w_n|c) $$

Este hecho es el que otorga el nombre de *naïve* o *ingenuo* al método, ya que asumimos que no hay una relación directa entre las palabras. Esto, obviamiente, no es cierto pero sí nos facilita enormemente la labor, ya que ahora podemos limitarnos a calcular la probabilidad de aparición de cada palabra en las clases *positivo* y *negativo*.


### Bag of words

Transformamos cada oración en un vector de logitud fija. Esta longitud corresponderá al número de palabras de nuestro vocabulario. En nuestro ejemplo clasificaremos frases como ofensivas o no ofensivas.

In [3]:
def loadDataSet():
    postingList=[['mi', 'perro', 'tiene', 'tos', 'necesito', 'ayuda'],
        ['no', 'deberías', 'llevarlo', 'al', 'parque', 'estúpido'],
        ['me', 'encanta', 'mi', 'dálmata', 'es', 'adorable'],
        ['para', 'de', 'postear', 'tonterías', 'estúpido'],
        ['mi', 'gato', 'se', 'comió', 'mi', 'comida'],
        ['no', 'compres', 'tonterías', 'a', 'tu', 'estúpido', 'gato']]

    classVec = [0,1,0,1,0,1] #1 is abusive, 0 not
    return postingList, classVec


def createVocabList(dataSet):
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)


def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)  # We create a list of 0's of lenght 'vocabList'
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else: 
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec


Imprimimos un ejemplo de frase.

In [4]:
p, c = loadDataSet()
for i, e in zip(p, c):
    print(i, e)

listOPosts, listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)

print("\nSentence codification:")
print(listOPosts[0])
print(setOfWords2Vec(myVocabList, listOPosts[0]))

['mi', 'perro', 'tiene', 'tos', 'necesito', 'ayuda'] 0
['no', 'deberías', 'llevarlo', 'al', 'parque', 'estúpido'] 1
['me', 'encanta', 'mi', 'dálmata', 'es', 'adorable'] 0
['para', 'de', 'postear', 'tonterías', 'estúpido'] 1
['mi', 'gato', 'se', 'comió', 'mi', 'comida'] 0
['no', 'compres', 'tonterías', 'a', 'tu', 'estúpido', 'gato'] 1

Sentence codification:
['mi', 'perro', 'tiene', 'tos', 'necesito', 'ayuda']
[0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0]


## Clasificador Naíf Bayesiano

In [5]:
import numpy as np

def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    
    p0Num = np.ones(numWords) # p0Num = 0
    p1Num = np.ones(numWords)  # p1Num = 0
    p0Denom = len(p0Num) # p0Denom = 0
    p1Denom = len(p0Num) # p1Denom = 0

    for tm, tc in zip(trainMatrix, trainCategory):
        if tc:
            p1Num += tm # Number of instances of each word
            p1Denom += sum(tm) # Number of words in class 1
        else:
            p0Num += tm
            p0Denom += sum(tm) # Number of words in class 0

    p1Vect = np.log(p1Num/p1Denom)  # p1Vect = p1Num/p1Denom
    p0Vect = np.log(p0Num/p0Denom)  # p0Vect = p0Num/p0Denom
    return p0Vect, p1Vect, pAbusive


def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)
    
    #p1 = np.prod(vec2Classify * p1Vec) * pClass1
    #p0 = np.prod(vec2Classify * p0Vec) * (1.0 - pClass1)
    
    print(p1, p0)
    
    if p1 > p0:
        return 1
    else:
        return 0

In [8]:
trainMat=[]
for postinDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    
p0V, p1V, pAb = trainNB0(trainMat,listClasses)

s = ['para','de', 'tonterías', 'estúpido']
sw = setOfWords2Vec(myVocabList, s)
print(classifyNB(sw,p0V,p1V,pAb))

s = ['mi', 'perro', 'es', 'adorable']
sw = setOfWords2Vec(myVocabList, s)
print(classifyNB(sw,p0V,p1V,pAb))

-12.136511755608435 -15.919797139641224
1
-16.007712766516324 -12.454061236841497
0


## IMDB Sentiment Analisys

En este ejercicio realizaremos una clasificación de análisis de opinión (sentiment analisys) de un dataset de 25.000 comentarios etiquetados de películas extraído de la base de datos cinematográfica IMDB. Para llevarlo a cabo utilizaremos un clasificador bayesiano, y mediremos su rendimiento mediante otro dataset de test con otros 25.000 comentarios.

In [9]:
def createVocab(dataSet):
    vocab = {}
    index = 0
    for document in dataSet:
        for word in document:
            if word not in vocab:
                vocab[word] = index
                index += 1
    return vocab


def setOfWords2Vec(vocab, inputSet):
    words = {}
    for word in inputSet:
        if word in vocab:
            if word not in words:
                words[word] = 1
            else:
                words[word] += 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return words


def load_data(path_to_dir):
    """
    Loads the train and test set into four different lists.
    """
    train_pos = []
    train_neg = []
    test_pos = []
    test_neg = []

    print("Reading positive train samples...")
    with open(path_to_dir + "train-pos.txt", "r") as f:
        for line in f:
            words = [w.lower() for w in line.strip().split() if len(w) >= 3]
            train_pos.append(words)

    print("Reading negative train samples...")
    with open(path_to_dir + "train-neg.txt", "r") as f:
        for line in f:
            words = [w.lower() for w in line.strip().split() if len(w) >= 3]
            train_neg.append(words)

    print("Reading positive test samples...")
    with open(path_to_dir + "test-pos.txt", "r") as f:
        for line in f:
            words = [w.lower() for w in line.strip().split() if len(w) >= 3]
            test_pos.append(words)

    print("Reading negative test samples...")
    with open(path_to_dir + "test-neg.txt", "r") as f:
        for line in f:
            words = [w.lower() for w in line.strip().split() if len(w) >= 3]
            test_neg.append(words)

    return train_pos, train_neg, test_pos, test_neg

In [12]:
train_pos, train_neg, test_pos, test_neg = load_data("./data/imdb/")

Reading positive train samples...
Reading negative train samples...
Reading positive test samples...
Reading negative test samples...


In [16]:
print(len(train_pos))
print(len(train_neg))


12500
12500
