# 08 - NLTK: Clasificación de textos con Naive Bayes

* En este notebook vamos a ver como crear un modelo que clasifique las frases según su polaridad (Positiva o Negativa).


* Para ello tenemos 3 conjuntos de frases que son:
    1. **Positivas**: Conjunto de frases clasificadas con polaridad positiva
    2. **Negativas**: Conjunto de frases clasificadas con polaridad negativa
    3. **Test**: Conjunto de frases de test a predecir.
    

* El framework para la clasificación de texto (y para la clasificación en general) es el siguiente:

    - ***Entrenamiento***:
    
        1. Limpieza y ***normalización*** del texto
        2. ***Extracción de características***: esto consiste en crear la estructura de datos necesaria para que la utilice el algoritmo de aprendizaje a usar
        3. ***Algoritmo de Aprendizaje***: Dado el conjunto de características de los texto y la etiqueta (label) de los textos, el algoritmo de aprendizaje dará como resultado un **modelo**.
<br><br>     
    - ***Predicción***:
    
        1. Limpieza y ***normalización*** del texto a clasificar.
        2. ***Extracción de características*** del texto a clasificar. Tanto este punto 2 como el anterior (1) deben de realizarse de la misma manera que en la fase de entrenamiento.
        3. ***Predicción***: Dado el conjunto de características de los ***texto a predecir*** y el **modelo**, este devolverá la ***clasificación*** (o predicción) del texto.
        
        
* Este framework lo podemos ver en la siguiente imagen:

<img src="./imgs/009_Clasificacion_framework.png" style="width: 500px;"/>


<hr>


## Ejemplo con NLTK:


In [1]:
import re
import nltk
import nltk.classify
from nltk.corpus import stopwords

positive = [('I love this car', 'positive'),
            ('This view is amazing', 'positive'),
            ('I feel great this morning', 'positive'),
            ('I am so excited about the concert', 'positive'),
            ('He is my best friend', 'positive'),
            ('Going well', 'positive'),
            ('Thank you', 'positive'),
            ('Hope you are doing well', 'positive'),
            ('I am very happy', 'positive'),
            ('Good for you', 'positive'),
            ('It is all good. I know about it and I accept it.', 'positive'),
            ('This is really good!', 'positive'),
            ('Tomorrow is going to be fun.', 'positive'),
            ('These are great apples today.', 'positive'),
            ('How about them apples? Thomas is a happy boy.', 'positive'),
            ('I love this sandwich.', 'positive'),
            ('This is an amazing place!', 'positive'),
            ('I feel very good about these beers.', 'positive'),
            ('This is my best work.', 'positive'),
            ('What an awesome view', 'positive')]

negative = [('I do not like this car', 'negative'),
            ('This view is horrible', 'negative'),
            ('I feel tired this morning', 'negative'),
            ('I am not looking forward to the concert', 'negative'),
            ('He is my enemy', 'negative'),
            ('I am a bad boy', 'negative'),
            ('This is not good', 'negative'),
            ('I am bothered by this', 'negative'),
            ('I am not connected with this', 'negative'),
            ('Sadistic creep you ass. Die.', 'negative'),
            ('All sorts of crazy and scary as hell.', 'negative'),
            ('Not his emails, no.', 'negative'),
            ('His father is dead. Returned obviously.', 'negative'),
            ('He has a bomb.', 'negative'),
            ('Too fast to be on foot. We cannot catch them.', 'negative'),
            ('I do not like this restaurant', 'negative'),
            ('I am tired of this stuff.', 'negative'),
            ("I can't deal with this", 'negative'),
            ('He is my sworn enemy!', 'negative'),
            ('My boss is horrible.', 'negative')]

test = [('I feel happy this morning', 'positive'),
        ('Larry is my friend', 'positive'),
        ('I do not like that man', 'negative'),
        ('My house is not great', 'negative'),
        ('Your song is annoying', 'negative'),
        ('The beer was good.', 'positive'),
        ('I do not enjoy my job', 'negative'),
        ("I feel amazing!", 'positive'),
        ('Gary is a friend of mine.', 'positive'),
        ("I can't believe I'm doing this.", 'negative')]

<hr>


## Normalización

* En primer lugar vamos a pasar a normalizar las frases. Para ello realizaremos lo siguiente:

    - Eliminamos los signos de puntuación
    - Eliminamos las Stop-Words
    - Pasamos el texto a minúsculas
    
* Nos creamos una función que realice este procesamiento para las frases dadas.


***NOTA***: *Para este ejemplo en particular se hace una normalización muy básica pero suficiente para realizar este ejemplo con caracter didáctico*.

In [2]:
def normalize(sentenses):
    """normalizamos la lista de frases"""
    sen = []
    for (words, sentiment) in sentenses:
        words_filtered = []
        for word in words.split():
            word = re.sub(r'[^\w\s]', '', word).lower() # Eliminamos signos de puntuación y lo pasamos a minúsculas
            if len(word) > 2 and word not in stopwords.words(): # Filtramos stop words y las palabras con menos de 3 caracteres
                words_filtered.append(word)
        sen.append((words_filtered, sentiment))
    return sen

<hr>


## Extracción de características

* El algoritmo de aprendizaje (Naive Bayes) necesita una determina estructura de datos de entrada para generar el modelo. Para ello necesitamos crear:

    - Un Diccionario (CUIDADO no es un diccionario python) con todas las palabras del corpus.
    
    - Una tupla que contenga en la primera posición un Booleano si por cada palabra del diccionario aparece o no la palabra de la frase. El segundo elemento de la tupla es la etiqueta de la frase. 
    

* Para ello creamos las siguientes 2 funciones:

In [3]:
def get_unique_words(sentenses):
    """Función que devuelve una lista con todas las palabras únicas que aparecen en las frases"""
    all_words = []
    for (words, sentiment) in sentenses:
        all_words.extend(words)
    return list(set(all_words))

def extract_features(document):
    """Función que crea el conjunto de entrenamiento del clasificador
       1: Toma todos los documentos del corpus
       2: Toma todas las palabras del corpus
       3: Escribre (True|False) si aparece cada palabra del corpus en la frase
    """
    document_words = set(document)
    features = {}
    for word in unique_words:
        features['contains(%s)' % word] = (word in document_words)
    return features

* A continuación pasamos a crear el conjunto de entrenamiento:

In [4]:
# Normalizamos las frases
sentenses = normalize(positive+negative)

# Obtenemos las palabras del corpus (diccionario del corpus)
unique_words = get_unique_words(sentenses)

# Construimos el conjunto de entrenamiento
training_set = nltk.classify.apply_features(extract_features, sentenses)

print(training_set[0])
sentenses[0]

({'contains(bomb)': False, 'contains(well)': False, 'contains(hell)': False, 'contains(beers)': False, 'contains(bothered)': False, 'contains(amazing)': False, 'contains(work)': False, 'contains(horrible)': False, 'contains(today)': False, 'contains(morning)': False, 'contains(good)': False, 'contains(best)': False, 'contains(happy)': False, 'contains(car)': True, 'contains(crazy)': False, 'contains(thomas)': False, 'contains(love)': True, 'contains(apples)': False, 'contains(fast)': False, 'contains(fun)': False, 'contains(really)': False, 'contains(cannot)': False, 'contains(boy)': False, 'contains(like)': False, 'contains(sadistic)': False, 'contains(feel)': False, 'contains(dead)': False, 'contains(thank)': False, 'contains(enemy)': False, 'contains(restaurant)': False, 'contains(sworn)': False, 'contains(great)': False, 'contains(forward)': False, 'contains(tomorrow)': False, 'contains(cant)': False, 'contains(view)': False, 'contains(know)': False, 'contains(tired)': False, 'cont

(['love', 'car'], 'positive')

<hr>


## Algoritmo de Aprendizaje

* Creamos un objeto de la clase NaiveBayesClassifier y llamamos al método train pasándole los datos de entrenamiento.


* De esta manera ya tenemos el modelo creado para su uso asi como información relativa al modelo.

In [5]:
classifier = nltk.NaiveBayesClassifier.train(training_set)

<hr>


## Predicción

* Para la predicción vamos a utilizar el modelo creado para ello vamos a:
    1. Normalizar las frases
    2. Extracción de características de la frase
    3. Predicción

* Veamos a continuación como hacerlo y como clasificamos:

In [6]:
test = normalize(test)   # Normalizamos
for sen in test:
    sentense_features = extract_features(sen[0])   # Extracción de características
    polarity = classifier.classify(sentense_features)   # Clasificación
    print('Frase: ' + str(sen[0]))
    print('\tPolaridad: ' + sen[1] + ' - Predicción: ' + polarity + ' -> ' + ('BIEN' if polarity==sen[1] else 'MAL'))

Frase: ['feel', 'happy', 'morning']
	Polaridad: positive - Predicción: positive -> BIEN
Frase: ['larry', 'friend']
	Polaridad: positive - Predicción: positive -> BIEN
Frase: ['like']
	Polaridad: negative - Predicción: negative -> BIEN
Frase: ['house', 'great']
	Polaridad: negative - Predicción: positive -> MAL
Frase: ['song', 'annoying']
	Polaridad: negative - Predicción: negative -> BIEN
Frase: ['beer', 'good']
	Polaridad: positive - Predicción: positive -> BIEN
Frase: ['enjoy', 'job']
	Polaridad: negative - Predicción: negative -> BIEN
Frase: ['feel', 'amazing']
	Polaridad: positive - Predicción: positive -> BIEN
Frase: ['gary', 'friend']
	Polaridad: positive - Predicción: positive -> BIEN
Frase: ['cant', 'believe']
	Polaridad: negative - Predicción: negative -> BIEN


<hr>


# Modelo

* Veamos a continuación algunas características del modelo:


* Podemo ver por ejemplo la probabilidad de que una frase pertenezca a una etiqueta (label):

In [7]:
prob_positive = classifier._label_probdist.prob('positive')
prob_negative =  classifier._label_probdist.prob('negative')
print ('-> P(positivo) = ' + str(prob_positive))
print ('-> P(negativo) = ' + str(prob_negative))

-> P(positivo) = 0.5
-> P(negativo) = 0.5


* Otra cosa que podemos ver es como de relevante son las palabras que se han utilizado para construir el modelo en función de la etiqueta.


* Vemos por ejemplo que si la palabra "good" aparece en una frase (*contains(good) = True*), esta frase tiene 3 veces más probabilidades de clasificarse como positiva que como negativa. Esta cálculo (según el código) lo hacen de la siguiente manera:


$$positi : negati = \frac{P(good|positivo)}{P(good|negativo)}$$

$$negati : positi = \frac{P(good|negativo)}{P(good|positivo)}$$

In [8]:
classifier.show_most_informative_features(5)

Most Informative Features
          contains(good) = True           positi : negati =      3.0 : 1.0
          contains(view) = True           positi : negati =      1.7 : 1.0
          contains(feel) = True           positi : negati =      1.7 : 1.0
          contains(good) = False          negati : positi =      1.2 : 1.0
         contains(tired) = False          positi : negati =      1.1 : 1.0


* Podemos ver tambien como calcula el peso para determinar si una frase es positiva o negativa:

In [9]:
# Ejemplo POSITIVO
t = "I feel happy this morning"
print ('Predicción: ' + classifier.classify(extract_features(t.split())))
print (classifier.prob_classify(extract_features(t.split()))._prob_dict)

Predicción: positive
{'positive': -0.1526530828020789, 'negative': -3.316091331221191}


In [10]:
# Ejemplo NEGATIVO
t = "I do not like that man"
print ('Predicción: ' + classifier.classify(extract_features(t.split())))
print (classifier.prob_classify(extract_features(t.split()))._prob_dict)

Predicción: negative
{'positive': -2.811270520321113, 'negative': -0.22174085358772722}


* Por último podemos ver la probabilidad de que una frase se clasifique como positiva o negativa en función de que aparezca o no una determinada palabra:

In [11]:
print("Probabilidad de que la frase sea NEGATIVA si APARECE la palabra 'good':")
print (classifier._feature_probdist[('negative', 'contains(good)')].prob(True))

print("\nProbabilidad de que la frase sea POSITIVA si APARECE la palabra 'good':")
print (classifier._feature_probdist[('positive', 'contains(good)')].prob(True))

print("\nProbabilidad de que la frase sea NEGATIVA si NO APARECE la palabra 'good':")
print (classifier._feature_probdist[('negative', 'contains(good)')].prob(False))

print("\nProbabilidad de que la frase sea POSITIVA si NO APARECE la palabra 'good':")
print (classifier._feature_probdist[('positive', 'contains(good)')].prob(False))

Probabilidad de que la frase sea NEGATIVA si APARECE la palabra 'good':
0.07142857142857142

Probabilidad de que la frase sea POSITIVA si APARECE la palabra 'good':
0.21428571428571427

Probabilidad de que la frase sea NEGATIVA si NO APARECE la palabra 'good':
0.9285714285714286

Probabilidad de que la frase sea POSITIVA si NO APARECE la palabra 'good':
0.7857142857142857
