# Python para Lingüistas

Notebook 10: Análisis de sentimiento

Alejandro Ariza

Universitat de Barcelona 2022

En este notebook, veremos como hacer analizar el sentimiento de los textos de forma sencilla utilizando Naïve Bayes.

En concreto, los objetivos de esta práctica serán los siguientes:
* Entrenar un modelo Naive Bayes en una tarea de sentiment analysis
* Evaluar vuestro modelo
* Calcular ratios de palabras positivas a palabras negativas
* Hacer un análisis de error
* Predecir en vuestros propios tweets

In [None]:
import numpy as np
import pandas as pd
import nltk
import re
from nltk.corpus import stopwords, twitter_samples
from nltk.tokenize import TweetTokenizer
from nltk.stem import PorterStemmer

Es posible que necesiteis descargar los siguientes paquetes de NLTK si todavía no los teneis.

In [None]:
nltk.download('twitter_samples')

In [None]:
# Cargamos los tweets positivos y negativos que vamos a usar
all_positive_tweets = twitter_samples.strings('positive_tweets.json')
all_negative_tweets = twitter_samples.strings('negative_tweets.json')

print(f'Tenemos {len(all_positive_tweets)} tweets positivos y {len(all_negative_tweets)} tweets negativos')
print(f'Ejemplo de tweet con sentimiento positivo: {all_positive_tweets[0]}')
print(f'Ejemplo de tweet con sentimiento negativo: {all_negative_tweets[0]}')

In [None]:
# Dividir los datos en training y testing. Utilizaremos 80% de los datos para training y 20% para testing.
# Evitamos asumir que sabemos que el número de muestras positivas y negativases el mismo
n_pos_train = int(len(all_positive_tweets) * 0.8)
n_neg_train = int(len(all_negative_tweets) * 0.8)

test_pos = all_positive_tweets[n_pos_train:]
train_pos = all_positive_tweets[:n_pos_train]
test_neg = all_negative_tweets[n_neg_train:]
train_neg = all_negative_tweets[:n_neg_train]

# Juntamos las muestras positivas y negativas tanto del train set como del test set
train_x = train_pos + train_neg
test_x = test_pos + test_neg

# Obtenemos el target a clasificar -- el sentimiento del tweet será 0 (negativo) o 1 (positivo)
train_y = np.append(np.ones(len(train_pos)), np.zeros(len(train_neg)))
test_y = np.append(np.ones(len(test_pos)), np.zeros(len(test_neg)))

# Parte 1: Procesado de los datos

Como ya sabemos, para un modelo de Machine Learning es necesario transformar los datos incluyendo pasos como:
- **Borrar el ruido**: Palabras que no añaden mucha información a la hora de predecir el sentimiento.
- Borrar peculiaridades de los tweets como símbolos de RTs, hyperlinks, hashtags, etc que no aportan mucho a la hora de predecir el sentimiento (positivo o negativo) del tweet.
- Tokenización por palabras.
- Borrar los signos de puntuación del tweet.
- Pasar a minúsculas.
- Finalmente, utilizaremos stemming para evitar tratar con diferentes variaciones de cada palabra. De esta forma, trataremos términos como "motivation", "motivated", y "motivate" de forma similar usando el stem "motiv-".

Lo primero que haremos será implementar la función `process_tweet()`.

In [None]:
def process_tweet(tweet):
    # Lo primero que vamos a hacer es borrar las URL con la librería "re" que hemos importado al principio
    # Debéis utilizar el método re.sub() con el tweet (Rellenad los argumentos de entrada)
    url_regex = '([…\-—]\s)?(http|ftp|https)://([\w_-]+(?:(?:\.[\w_-]+)+))' \
                '([\w.,@?^=%&:/~+#-]*[\w@?^=%&/~+#-])?'
    tweet = re.sub(None, None, None)
    
    # Borramos las menciones a otros usuarios
    user_regex = '@[\w]+'
    tweet = re.sub(None, None, None)
    
    # Borramos los símbolos de hashtag y RT
    symbol_regex = '(RT |#)'
    tweet = re.sub(None, None, None)
    
    # Transformamos a minúsculas el tweet
    tweet = None
    
    # Para tokenizar el tweet vamos a utilizar la clase TweetTokenizer en vez de la función word_tokenize()
    tt = TweetTokenizer()
    tweet = None
    
    # Borramos símbolos de puntuación sueltos que queden en la tokenización
    invalid_symbols = '@?^=%&/~+#-[]()...!\\:;,_*’…><'
    tweet = None
    
    # Borramos las stopwords
    tweet = None
    
    # Realizamos el stemming utilizando la clase que hemos importado al principio PorterStemmer
    ps = PorterStemmer()
    tweet = None
    
    return tweet

In [None]:
custom_tweet = "RT @Twitter @chapagain Hello There! Have a great day. :) #good #morning http://chapagain.com.np"

# print cleaned tweet
print(process_tweet(custom_tweet))

**Resultado esperado:** ['hello', 'great', 'day', ':)', 'good', 'morn']

## Part 1.1 Implementar vuestras funciones auxiliares

Para ayudar a vuestro modelo Naive Bayes, necesitaréis construir un diccionario donde las claves serán tuplas (palabra, etiqueta) y los valores su frecuencia correspondiente en el corpus. Las etiquetas recordad que serán 0 (sentimiento negativo) o 1 (sentimiento positivo). Esta función se llamará count_tweets().

También implementaréis una función auxiliar llamada lookup() que tomará el diccionario de frecuencias, una palabra y una etiqueta y devolverá el número de veces que esa palabra aparece con esa etiqueta en el corpus de tweets.

- Cuando construyáis el diccionario de frecuencias, se les asignará a todas las palabras de un tweet la misma etiqueta, es decir, la etiqueta del tweet al que pertenecen.
- Recordad procesar el tweet antes de añadir los tokens al diccionario.
- La función count_tweets() recibirá una lista de tweets, una lista de etiquetas correspondiente a esos tweets y el diccionario que contendrá las frecuencias resultantes.

In [None]:
def count_tweets(result, tweets, ys):
    '''
    Input:
        result: diccionario donde guardaremos las tuplas (palabra, etiqueta) y sus frecuencias
        tweets: una lista de tweets
        ys: una lista de etiquetas correspondientes a los tweets (contiene 0s y 1s)
    Output:
        result: el diccionario que hemos rellenado
    '''

    ### Reemplaza donde pone None con vuestro código ###
    for y, tweet in None:
        for word in None:
            # Define la clave actual en forma de tupla (palabra, etiqueta)
            pair = None

            # si la clave existe, incrementa la frecuencia
            if pair in result:
                result[pair] += None

            # sino, la clave es nueva, anádela al diccionario y ponle frecuencia 1
            else:
                result[pair] = None

    return result

In [None]:
# Evalúa tu función


result = {}
tweets = ['i am happy', 'i am tricked', 'i am sad', 'i am tired', 'i am tired']
ys = [1, 0, 0, 0, 0]
count_tweets(result, tweets, ys)

**Resultado esperado**: {('happi', 1): 1, ('trick', 0): 1, ('sad', 0): 1, ('tire', 0): 2}

# Parte 2: Entrenar el modelo usando Naive Bayes

Naive bayes es un algoritmo que puede ser usado para realizar análisis de sentimiento. Requiere de poco tiempo para entrenar al igual que predecir nuevas muestras.

#### Los pasos para entrenar un clasificador Naive Bayes:
- Identificar el número de clases que tenemos.
- Darle una probabilidad a cada clase.

$P(D_{pos})$ es la probabilidad de que el documento es positivo.
$P(D_{neg})$ es la probabilidad de que el documento es negativo.

$$P(D_{pos}) = \frac{D_{pos}}{D}\tag{1}$$

$$P(D_{neg}) = \frac{D_{neg}}{D}\tag{2}$$

Donde $D$ es el número total de documentos (tweets en nuestro caso), $D_{pos}$ es el número total de tweets positivos y $D_{neg}$ es el número total de tweets negativos.

#### Probabilidades a priori (Prior)

La probabilidad a priori representa la probabilidad subyacente en la población objetivo de que un tuit sea positivo frente a negativo. En otras palabras, si no tuviéramos información específica y seleccionamos a ciegas un tweet del conjunto de población, ¿cuál es la probabilidad de que sea positivo frente a que sea negativo?

Matemáticamente, este ratio sería: $\frac{P(D_{pos})}{P(D_{neg})}$.
A veces, para evitar perder precisión con las probabilidades, nos interesa más trabajar con los logaritmos de las probabilidades.

$$\text{logprior} = log \left( \frac{P(D_{pos})}{P(D_{neg})} \right) = log \left( \frac{D_{pos}}{D_{neg}} \right)$$.

Recordad que $log(\frac{A}{B})$ es lo mismo que $log(A) - log(B)$, por lo que la primera ecuación puede ser reformulada de la siguiente forma:

$$\text{logprior} = \log (P(D_{pos})) - \log (P(D_{neg})) = \log (D_{pos}) - \log (D_{neg})\tag{3}$$

#### Probabilidad de que una palabra sea positiva o negativa
Para calcular la probabilidad positiva y la probabilidad negativa de una palabra específica en el vocabulario, usaremos las siguientes entradas:

- $freq_{pos}$ y $freq_{neg}$ son las frecuencias de esa palabra específica en la clase positiva o negativa. En otras palabras, la frecuencia positiva de una palabra es el número de veces que la palabra aparece con la etiqueta de 1.
- $N_{pos}$ y $N_{neg}$ son el número total de palabras positivas y negativas para todos los documentos (para todos los tweets), respectivamente.
- $V$ es el número de palabras únicas en todo el conjunto de documentos, para todas las clases, ya sean positivas o negativas.

Usaremos estos valores para calcular la probabilidad positiva y negativa de una palabra específica usando esta fórmula:

$$ P(W_{pos}) = \frac{freq_{pos} + 1}{N_{pos} + V}\tag{4} $$
$$ P(W_{neg}) = \frac{freq_{neg} + 1}{N_{neg} + V}\tag{5} $$

Observad que agregamos el "+1" en el numerador para el suavizado aditivo.  Este [artículo de la Wikipedia](https://en.wikipedia.org/wiki/Additive_smoothing) explica en qué consiste el suavizado aditivo.

#### Log likelihood
Para calcular el loglikelihood de la misma palabra, podemos implementar la siguiente ecuación:

$$\text{loglikelihood} = \log \left(\frac{P(W_{pos})}{P(W_{neg})} \right)\tag{6}$$

##### Crear el diccionario `freqs`
- Dada vuestra función `count_tweets()`, podéis generar un diccionario llamado `freqs` que contenga todas las frecuencias.
- En este diccionario `freqs`, cada clave es una tupla (palabra, etiqueta)
- El valor es el número de veces que ha aparecido.

Usaremos este diccionario en varias partes de lo que queda de práctica.

In [None]:
# Construye el diccionario de frecuencias para su futuro uso

freqs = count_tweets({}, train_x, train_y)

#### Instrucciones
Dado un diccionario de frecuencias, `train_x` (una lista de tweets) y `train_y` (una lista de etiquetas para cada tweet), implementad un clasificador naive bayes.

##### Calculad $V$
- Número de palabras únicas que aparece en el diccionario de frecuencias.

##### Calculad $freq_{pos}$ y $freq_{neg}$
- Usando `freqs`, calculad la frecuencia positiva y negativa de cada palabra.

##### Calculad $N_{pos}$ y $N_{neg}$
- Usando `freqs`, calculad el número total de palabras positivas y negativas.

##### Calculad $D$, $D_{pos}$, $D_{neg}$
- Usando `train_y`, calculad el número de documentos (tweets) $D$, así como documentos positivo $D_{pos}$ y negativos $D_{neg}$.
- Calculad la probabilidad de que un documento sea positivo $P(D_{pos})$, y negativo $P(D_{neg})$

##### Calculad el logprior de ambos conjuntos, positivos y negativos
- $logprior = log(D_{pos}) - log(D_{neg})$

##### Calculad el log likelihood
- Iterad por cada palabra del vocabulario, usad vuestra función `lookup` para conseguir las frecuencias positivas, $freq_{pos}$, y negativas, $freq_{neg}$, para la palabra especificada.
- Calcular la probabiliad positiva de cada palabra $P(W_{pos})$, y la negativa $P(W_{neg})$ usando las ecuaciones 4 & 5.

$$ P(W_{pos}) = \frac{freq_{pos} + 1}{N_{pos} + V}\tag{4} $$
$$ P(W_{neg}) = \frac{freq_{neg} + 1}{N_{neg} + V}\tag{5} $$

**Nota:** Usaremos un diccionario para almacenar las probabilidades logarítmicas de cada palabra. La clave es la palabra, el valor es la probabilidad logarítmica de esa palabra).

- Entonces, podéis calcular el loglikelihood: $log \left( \frac{P(W_{pos})}{P(W_{neg})} \right)\tag{6}$.

In [None]:
def train_naive_bayes(freqs, train_x, train_y):
    '''
    Input:
        freqs: diccionario con claves (word, label) y valores - frecuencias
        train_x: lista de tweets
        train_y: lista de etiquetas (0,1)
    Output:
        logprior: priori. (ecuación 3)
        loglikelihood: log likelihood (equación 6)
    '''
    loglikelihood = {}
    logprior = 0

    ### Reemplaza donde pone None con vuestro código ###

    # calcula V, número de palabras únicas en el vocabulario
    vocab = None
    V = None

    # calcula N_pos y N_neg
    N_pos = N_neg = 0
    for pair in freqs.keys():
        # si la etiqueta es positiva (mayor que cero)
        if None > 0:

            # Incrementa la frecuencia positiva para este par (palabra, etiqueta)
            N_pos += None

        # sino, la etiqueta es negativa
        else:

            # incrementa la frecuancia negativa
            N_neg += None

    # Calcula D, el número de documentos
    D = None

    # Calcula D_pos, el número de documentos positivos (puedes utilizar la función sum())
    D_pos = None

    # Calcula D_neg, el número de documentos negativos (a partir de D y D_pos)
    D_neg = None

    # Calcula el logprior
    logprior = None

    # Para cada palabra del vocabulario...
    for word in vocab:
        # recupera la frecuencia positiva y negativa de la palabra
        freq_pos = None
        freq_neg = None

        # calcula la probabilidad de que sea positiva, y negativa
        p_w_pos = None
        p_w_neg = None

        # calcula el log likelihood de la palabra
        loglikelihood[word] = None

    return logprior, loglikelihood


In [None]:
logprior, loglikelihood = train_naive_bayes(freqs, train_x, train_y)
print(logprior)
print(len(loglikelihood))

**Resultado esperado**:

0.0

9218

# Parte 3: Evalúa tu clasificador

Ahora puedes evaluar tu clasificador Naive Bayes prediciendo el sentimiento de muestras nuevas.

#### Implementa `naive_bayes_predict`
**Instrucciones**:
Implementa la función `naive_bayes_predict` para hacer predicciones de tweets.
* La función recibe como argumentos `tweet`, `logprior`, `loglikelihood`.
* Devuelve la probabilidad de que el tweet pertenezca a la clase positiva o negativa.
* Para cada tweet, suma los loglikelihoods de cada palabra que aparece en el tweet.
* También añade el logprior a la suma para conseguir la predicción de sentimiento del tweet.

$$ p = logprior + \sum_i^N (loglikelihood_i)$$

#### Nota
El prior lo obtenemos de los datos de training que hemos obtenido con una partición equilibrada de tweets positivos y negativos (4000 de cada). Esto significa que el ratio de positivo a negativo es 1 y, por tanto, el logprior es 0.

De todas formas, aunque su valor sea 0.0, acordaros de añadir el logprior, porque cuando los datos no estén perfectamente balanceados, su valor cambiará y afectará a los resultados.

In [None]:
def naive_bayes_predict(tweet, logprior, loglikelihood):
    '''
    Input:
        tweet: un string
        logprior: un número
        loglikelihood: un diccionario de words y probabilidades
    Output:
        p: suma de loglikelihoods de cada palabra en el tweet (si se encuentra en el diccionario) + logprior

    '''
    ### Reemplaza donde pone None con vuestro código ###
    # procesad el tweet para obtener una lista de tokens
    word_l = None

    # inicializad la probabilidad a cero
    p = None

    # añadid el logprior
    p += None

    for word in word_l:

        # comprobad si la palabra existe en el diccionario de loglikelihoods
        if word in None:
            # añadid el log likelihood de la palabra a la probabilidad total
            p += None

    return p


In [None]:
# Experimenta con tu propio tweet.
my_tweet = 'She smiled.'
p = naive_bayes_predict(my_tweet, logprior, loglikelihood)
print('The expected output is', p)

**Resultado esperado**:
- The expected output is around 1.56
- The sentiment is positive.

#### Implementa test_naive_bayes
**Instrucciones**:
* Implementa `test_naive_bayes` para comprobar la precisión de vuestras predicciones.
* La función recibe `test_x`, `test_y`, log_prior, y loglikelihood
* Devuelve la precisión de vuestro modelo.
* Primero, usa la función `naive_bayes_predict` para hacer la predicción de cada tweet en text_x.

In [None]:
def test_naive_bayes(test_x, test_y, logprior, loglikelihood):
    """
    Input:
        test_x: una lista de tweets
        test_y: las etiquetas correspondientes a los tweets
        logprior: el logprior
        loglikelihood: un diccionario con las loglikelihoods de cada word
    Output:
        accuracy: (# de tweets clasificados correctamente)/(# total de tweets)
    """
    accuracy = 0

    ### Reemplaza donde pone None con vuestro código ###
    y_hats = []
    for tweet in test_x:
        # si la predicción es > 0
        if None > 0:
            # la predicción será 1
            y_hat_i = 1
        else:
            # sino la predicción será 0
            y_hat_i = 0

        # añade la clase predicha a la lista y_hats
        y_hats.append(y_hat_i)

    # el error es la media de los valores absolutos de las diferencias entre y_hats y test_y
    error = None

    # la precisión es 1 menos el error
    accuracy = None

    return accuracy


In [None]:
print("Naive Bayes accuracy = %0.4f" %
      (test_naive_bayes(test_x, test_y, logprior, loglikelihood)))

**Expected Accuracy**:

0.9955

In [None]:
# Ejecuta este código para evaluar vuestra función
example_tweets = ['I am happy', 'I am bad', 'this movie should have been great.', 'great', 'great great',
                  'great great great', 'great great great great']
for tweet in example_tweets:
    p = naive_bayes_predict(tweet, logprior, loglikelihood)
    print(f'{tweet} -> {p:.2f}')

**Expected Output**:
- I am happy -> 2.14
- I am bad -> -1.31
- this movie should have been great. -> 2.11
- great -> 2.13
- great great -> 4.25
- great great great -> 6.38
- great great great great -> 8.51

In [None]:
# Feel free to check the sentiment of your own tweet below
my_tweet = 'you are bad :('
naive_bayes_predict(my_tweet, logprior, loglikelihood)

# Parte 4: Análisis de error

En esta parte veréis algunos tweets en los que vuestro modelo se ha equivocado. ¿Por qué pensáis que se ha equivocado? ¿El modelo naive bayes ha asumido algo que no debería?

In [None]:
# Some error analysis done for you
print('Truth Predicted Tweet')
for x, y in zip(test_x, test_y):
    y_hat = naive_bayes_predict(x, logprior, loglikelihood)
    if y != (np.sign(y_hat) > 0):
        print('%d\t%0.2f\t%s' % (y, np.sign(y_hat) > 0, ' '.join(
            process_tweet(x)).encode('ascii', 'ignore')))

# Parte 5: Predecir el sentimiento de vuestro propio tweet

In [None]:
# Reemplaza el texto del tweet por lo que tú quieras
my_tweet = 'I am happy because I am learning :)'

p = naive_bayes_predict(my_tweet, logprior, loglikelihood)
print(p)