Text Mining - 6. Clasificacion textos

AFI - Máster en Data Science y Big Data

Juan de Dios Romero Palop

Abril 2024

Source: Andrew Task, Udacity


### 1. Carga de datos

In [None]:
## Críticas de películas
g = open('/content/drive/My Drive/Colab Notebooks/AFI/Text Mining/reviews.txt','r')
reviews = g.read().splitlines()
g.close()

## Sentimiento asociado
g = open('/content/drive/My Drive/Colab Notebooks/AFI/Text Mining/labels.txt','r') # What we WANT to know!
labels = g.read().upper().splitlines()
g.close()

In [None]:
len(reviews)

In [None]:
reviews[1]

In [None]:
len(labels)

In [None]:
labels[1]

In [None]:
def pretty_print_review_and_label(i):
    print(labels[i] + "\t:\t" + reviews[i][:80] + "...")

In [None]:
print("labels.txt \t : \t reviews.txt\n")
pretty_print_review_and_label(2137)
pretty_print_review_and_label(12816)
pretty_print_review_and_label(6267)
pretty_print_review_and_label(21934)
pretty_print_review_and_label(5297)
pretty_print_review_and_label(4998)

### 2. Análisis cuantitativo términos: ¿Qué términos aparecen en los comentarios positivos, cuales en los negativos y cuales aparecen en ambos?

In [None]:
from collections import Counter
import numpy as np

Vamos a utilizar la estructura Counter de python para ver cuantas veces aparece cada palabra en las críticas. Debajo tienes un ejemplo de como utilizar un contador.

https://docs.python.org/2/library/collections.html#collections.Counter

In [None]:
ex_count = Counter()
ex_count['palabra1'] = 3
ex_count['palabra2'] = 5
ex_count.most_common()

In [None]:
# Un contandor para cada tipo de review y uno total
positive_counts = Counter()
negative_counts = Counter()
total_counts = Counter()

In [None]:
# Crea un bucle que, para cada crítica, recorra sus palabras una a una e incremente en 1 el número de aparaciones.
# Aumenta el contador siempre en total_counts y en positive_counts O en negative_counts dependiendo de si es una crítica
# positiva o negativa

In [None]:
positive_counts.most_common(10)

In [None]:
negative_counts.most_common(10)

In [None]:
total_counts.most_common(10)

El resultado del conteo muestra que las stopwords están presentes tanto en críticas positivas como en críticas negativas y pueden añadir ruido a la hora crear un modelo de clasificación. ¿Cómo podemos sacar aquellas palabras que son un indicador claro de que se trata de una crítica positiva o negativa?

### 3. Análisis cuantitativo términos: Ratios

Vamos a calcular los ratios de aparición de los términos de la siguiente manera: ratio = positive_counts/float(negative_counts + 1).

**Nota**: vamos a trabajar unicamente con aquellos términos que **en total** aparecen 101 o más veces.

*   ¿Por qué ese +1 en el denominador?
*   A bote pronto, ¿cómo interpretaríamos los resultados? ¿En qué rango se van a mover los ratios?



In [None]:
pos_neg_ratios = Counter()

# Calcula el ratio para los término más comunes

In [None]:
pos_neg_ratios.most_common(15)

In [None]:
## Algunos ejemplos que nos ayudan a interpretar los resultados
print("Pos-to-neg ratio for 'the' = {}".format(pos_neg_ratios["the"]))
print("Pos-to-neg ratio for 'amazing' = {}".format(pos_neg_ratios["amazing"]))
print("Pos-to-neg ratio for 'terrible' = {}".format(pos_neg_ratios["terrible"]))

¿Qué problema tiene esta definición de ratio? ¿Cómo lo solucionamos?

### 4. Análisis cuantitativo términos: Logaritmos

Al aplicar logaritmos a los valores calculados en el apartado anterior hacemos que los valores por debajo de 1 pasen a ser negativos (y con valor absoluto más alto cuanto más cercanos a 0 sean) y además conseguimos que dos términos con frecuencias relativas parecidas pero en críticas de signo distinto tomen valores con valor absoluto parecido y signo contrario.

In [None]:
# Calcula el logaritmo de los ratios para todos los términos

In [None]:
pos_neg_ratios.most_common(15)

In [None]:
## Algunos ejemplos que nos ayudan a interpretar los resultados
print("Pos-to-neg ratio for 'the' = {}".format(pos_neg_ratios["the"]))
print("Pos-to-neg ratio for 'amazing' = {}".format(pos_neg_ratios["amazing"]))
print("Pos-to-neg ratio for 'terrible' = {}".format(pos_neg_ratios["terrible"]))

In [None]:
pos_neg_ratios.most_common()[:-31:-1]

### 5. Modelo de clasificación basado en bag of words

Vamos a aplicar la técnica de bag of words paso a paso a cada una de las críticas con el objetivo de convertirlas en vectores numéricos que sirvan de features de un nuestro modelo.

#### Primer paso: construir el conjunto de palabras de nuestros vocabulario.

In [None]:
vocab = set(total_counts.keys())

In [None]:
vocab_size = len(vocab)
vocab_size

#### Segundo paso: construímos un vector del tamaño de nuestro vocabulario. Para ganar tiempo lo creamos como un vector entero de 0s usando la función de numpy zeros()

In [None]:
import numpy as np
zeros = np.zeros(vocab_size)

In [None]:
zeros

#### Tercer paso: asignar a cada palabra un índice del vector y crear una tabla maestra que guarde esta relación y nos permita crear fácilmente nuestros vectores.

In [None]:
# Creamos un diccionario que tiene como key la palabra y como valor el índice asociado
word2index = {}
for i,word in enumerate(vocab):
    word2index[word] = i

word2index

#### Cuarto paso: crear la función que dada una crítica devuelve un vector contando la frecuencia de las palabras utilizadas.

In [None]:
## Rellena la función que para crítica devuelve el vector asociado aplicando bag of words
def bag_of_words(review):
  v = np.zeros(vocab_size)

## Inserta código aquí


In [None]:
reviews[0]

In [None]:
word2index['']

In [None]:
word2index["bromwell"]

In [None]:
bag_of_words(reviews[0])[42347]

In [None]:
bag_of_words(reviews[0]).shape

#### Quinto paso: el target de nuestro modelo serán 1s y 0s. Vamos a crear una función que convierta los cadenas POSITIVE y NEGATIVE a 1 y 0.

In [None]:
## Rellena la función para que dada la etiqueta en forma de cadena devuelve el entero asociado
def target_numerico(label):

In [None]:
target_numerico(labels[0])

#### Sexto paso: dividimos los datos que tenemos en train y test (esta vez lo hacemos a ojo).

In [None]:
training_size = 5000
test_size = 10000
training_rev = reviews[:training_size]
training_lab = labels[:training_size]
test_rev = reviews[-test_size:]
test_lab = labels[-test_size:]
print(len(training_lab))
print(len(test_lab))

In [None]:
print(training_rev[training_size-1])
print(reviews[training_size-1])

In [None]:
print(test_rev[0])
print(reviews[-test_size])

#### Séptimo paso: calculamos las matrices de entrenamiento y de test.

In [None]:
X = np.empty((len(training_rev), vocab_size))
print(X.shape)
### Rellena X aquí

In [None]:
X_test = np.empty((len(test_rev), vocab_size))
print(X_test.shape)
# Rellena X_test aquí

In [None]:
training_rev = reviews[:training_size]
training_lab = labels[:training_size]
test_rev = reviews[-test_size:]
test_lab

In [None]:
y = np.empty((len(training_lab),))
print(y.shape)
# Rellena y aquí

In [None]:
y_test = np.empty((len(test_lab),))
print(y_test.shape)
# Rellena y_test aquí

#### Octavo paso: entrenamos el modelo

In [None]:
from sklearn import linear_model
from sklearn import model_selection
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

In [None]:
model = linear_model.LogisticRegression()
model.fit(X,y)

#### Noveno paso: aplicamos el predict sobre el conjunto de test y vemos qué tal funciona.

In [None]:
predictions = model.predict(X_test)

In [None]:
model.score(X,y)

In [None]:
model.score(X_test,y_test)

In [None]:
print(confusion_matrix(y_test, predictions))

In [None]:
print(classification_report(y_test, predictions))

#### Decimo paso: preparamos el código para probar el modelo con cadenas nuevas.

In [None]:
# Rellena la función para, dada una crítica, aplicar el modelo que hemos entrenado
# e imprimir POSITIVE/NEGATIVE
def sentiment_analysis(review):

In [None]:
sentiment_analysis('movie bad')

In [None]:
sentiment_analysis('great movie i loved it')

In [None]:
sentiment_analysis('españa is very good')

¿Qué hacemos con el error que se obtiene al meter una palabra que no está en el vocabulario? Solucionar este error es parte de la práctica de la asignatura.

In [None]:
sentiment_analysis('Cool movie')

Pero si Cool si es una palabra inglesa. ¿Qué ocurre? ¿Cómo lo solucionamos? Esto también es parte de la práctica de la asignatura.