# Procesamiento de datos para análisis de opinión

## Planteamiento

El proceso de limpieza de datos en texto es un proceso complejo que se debe llevar con cuidado y orden, desde que se cargan los datos hasta que quedan listos para el modelado. Vamos a buscar cumplir las siguientes tareas:
- Limpiar datos como eliminar puntuación y palabras que no se usen.
- Desarrollar un vocabulario, adaptarlo y guardarlo en un archivo.
- Preparar un problema real utilizando la limpieza y vocabulario definido.

Vamos a tener las siguientes divisiones:
1. Conjunto de datos de reseñas de películas
2. Limpiar datos de texto
3. Desarrollar el vocabulario
4. Guardar datos preparados

# 1. Conjunto de datos de reseñas de películas

El conjunto de datos *The Movie Review Data*, se compone de 1000 reseñas positivas de películas y otras 1000 reseñas negativas extraídas de un archivo del grupo de noticias *rec.arts.movies.reviews* alojado en IMDB.

Los datos tienen una limpieza previa, como:
- Se compone únicamente de reseñas en inglés.
- Todo el texto se ha convertido a minúsculas.
- Hay espacios en blanco alrededor de la puntuación como puntos, comas y corchetes.
- El texto se ha divido en una oración por línea.

Resultados del artículo original:

"... dependiendo de la elección del clasificador de polaridad, podemos lograr una mejora estadísticamente significativa (del 82,8% al 86,4%)" ,

        — A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts, 2004.,

- Tenemos un directorio, en Data, llamado review polarity.
- Dos subdirectorios, neg y pos, que contienen las reseñas negativas y positivas, respectivamente.
- Las reviews se almacenan una por archivo con una convención de nomenclatura de cv000 a cv999 para ambos subdirectorios.

Creamos una función `load_doc()` que recibe un fichero y devuelve el texto que contiene.

In [1]:
from os import listdir

def load_doc(filename):
    file = open(filename, 'r')
    text = file.read()
    file.close()
    
    return text

También podemos convertir el procesamiento de los documentos en una función y utilizarlo como plantilla para desarrollar una función para limpiar todos los documentos en una carpeta.

In [2]:
def process_docs(directory):
    for filename in listdir(directory):
        if not filename.endswith('.txt'):
            continue
    
        path = directory + filename
        doc = load_doc(path)
        print(filename, 'loaded')

In [3]:
directory = 'Data/review polarity/neg/'

process_docs(directory)

cv000_29416.txt loaded
cv001_19502.txt loaded
cv002_17424.txt loaded
cv003_12683.txt loaded
cv004_12641.txt loaded
cv005_29357.txt loaded
cv006_17022.txt loaded
cv007_4992.txt loaded
cv008_29326.txt loaded
cv009_29417.txt loaded
cv010_29063.txt loaded
cv011_13044.txt loaded
cv012_29411.txt loaded
cv013_10494.txt loaded
cv014_15600.txt loaded
cv015_29356.txt loaded
cv016_4348.txt loaded
cv017_23487.txt loaded
cv018_21672.txt loaded
cv019_16117.txt loaded
cv020_9234.txt loaded
cv021_17313.txt loaded
cv022_14227.txt loaded
cv023_13847.txt loaded
cv024_7033.txt loaded
cv025_29825.txt loaded
cv026_29229.txt loaded
cv027_26270.txt loaded
cv028_26964.txt loaded
cv029_19943.txt loaded
cv030_22893.txt loaded
cv031_19540.txt loaded
cv032_23718.txt loaded
cv033_25680.txt loaded
cv034_29446.txt loaded
cv035_3343.txt loaded
cv036_18385.txt loaded
cv037_19798.txt loaded
cv038_9781.txt loaded
cv039_5963.txt loaded
cv040_8829.txt loaded
cv041_22364.txt loaded
cv042_11927.txt loaded
cv043_16808.txt loa

# 2. Limpieza del texto

## 2.1 Dividir en tokens

Vamos a:
- Cargar un documento a través de load_doc()
- Verificar los tokens sin procesar divididos por espacios en blancos con la función `split()`

In [4]:
filename = 'Data/review polarity/neg/cv000_29416.txt'
text = load_doc(filename)
tokens = text.split()
print(tokens)

['plot', ':', 'two', 'teen', 'couples', 'go', 'to', 'a', 'church', 'party', ',', 'drink', 'and', 'then', 'drive', '.', 'they', 'get', 'into', 'an', 'accident', '.', 'one', 'of', 'the', 'guys', 'dies', ',', 'but', 'his', 'girlfriend', 'continues', 'to', 'see', 'him', 'in', 'her', 'life', ',', 'and', 'has', 'nightmares', '.', "what's", 'the', 'deal', '?', 'watch', 'the', 'movie', 'and', '"', 'sorta', '"', 'find', 'out', '.', '.', '.', 'critique', ':', 'a', 'mind-fuck', 'movie', 'for', 'the', 'teen', 'generation', 'that', 'touches', 'on', 'a', 'very', 'cool', 'idea', ',', 'but', 'presents', 'it', 'in', 'a', 'very', 'bad', 'package', '.', 'which', 'is', 'what', 'makes', 'this', 'review', 'an', 'even', 'harder', 'one', 'to', 'write', ',', 'since', 'i', 'generally', 'applaud', 'films', 'which', 'attempt', 'to', 'break', 'the', 'mold', ',', 'mess', 'with', 'your', 'head', 'and', 'such', '(', 'lost', 'highway', '&', 'memento', ')', ',', 'but', 'there', 'are', 'good', 'and', 'bad', 'ways', 'of'

Viendo los tokens, podemos eliminar:
- La puntuación de las palabras (*what's*)
- Tokens que solo son signos de puntuación.
- Tokens que contienen números (*7/10*)
- Tokens que no tengan mucho significado (*and*)
- Tokens que tengan un carácter (*a*)

Posibles aproximaciones para tratarlo:
- Filtrar la puntuación de los tokens mediante expresiones regulares.
- Eliminar tokens que solo son signos o contienen números con la función `isalpha()`.
- Eliminar palabras vacías en inglés con `NLTK`.
- Filtrar tokens cortos comprobando su longitud

### Importamos las librerías necesarios

In [5]:
from nltk.corpus import stopwords
import string
import re

In [6]:
filename = 'Data/review polarity/neg/cv000_29416.txt'
text = load_doc(filename)
tokens = text.split()

re_punc = re.compile('[%s]' % re.escape(string.punctuation))
re_punc = [re_punc.sub('', w) for w in tokens]

tokens = [word for word in tokens if word.isalpha()]

stop_words = set(stopwords.words('English'))
tokens = [w for w in tokens if not w in stop_words]

print(tokens)

['plot', 'two', 'teen', 'couples', 'go', 'church', 'party', 'drink', 'drive', 'get', 'accident', 'one', 'guys', 'dies', 'girlfriend', 'continues', 'see', 'life', 'nightmares', 'deal', 'watch', 'movie', 'sorta', 'find', 'critique', 'movie', 'teen', 'generation', 'touches', 'cool', 'idea', 'presents', 'bad', 'package', 'makes', 'review', 'even', 'harder', 'one', 'write', 'since', 'generally', 'applaud', 'films', 'attempt', 'break', 'mold', 'mess', 'head', 'lost', 'highway', 'memento', 'good', 'bad', 'ways', 'making', 'types', 'films', 'folks', 'snag', 'one', 'correctly', 'seem', 'taken', 'pretty', 'neat', 'concept', 'executed', 'terribly', 'problems', 'movie', 'well', 'main', 'problem', 'simply', 'jumbled', 'starts', 'normal', 'downshifts', 'fantasy', 'world', 'audience', 'member', 'idea', 'going', 'dreams', 'characters', 'coming', 'back', 'dead', 'others', 'look', 'like', 'dead', 'strange', 'apparitions', 'disappearances', 'looooot', 'chase', 'scenes', 'tons', 'weird', 'things', 'happen

Una vez comprobado que funciona correctamente, para aplicarlo a cualquier documento que introduzcamos vamos a crear una función que reciba el texto y devuelva los tokens.

In [7]:
def clean_doc(text):
    tokens = text.split()
    
    # Eliminamos puntuación
    re_punc = re.compile('[%s]' % re.escape(string.punctuation))
    re_punc = [re_punc.sub('', w) for w in tokens]
    
    # Eliminamos números
    tokens = [word for word in tokens if word.isalpha()]
    
    # Eliminamos las stop words
    stop_words = set(stopwords.words('English'))
    tokens = [w for w in tokens if not w in stop_words]
    
    tokens = [w for w in tokens if len(w) > 1]
    
    return tokens

# 3. Desarrollar vocabulario

Es importante definir un vocabulario de palabras conocidas cuando se utiliza un modelo de bolsa de palabras.
   - Cuantas más palabras, mayor será la representación de los documentos, por lo que  es importante limitarlo a las palabras que se cree que son predictivas.
   
Tras limpiar los documentos, repetimos el proceso para todos y creamos un conjunto con las palabras conocidas.

Podemos desarrollar un vocabulario a modo de `Counter`, que es un diccionario de mapeo de palabras y su conteo que nos permite actualizar y consultar fácilmente.

Cada documento se puede agregar al contador, `add_doc_to_vocab()`, y podemos pasar todas las reviews en ambos directorios.

In [8]:
def add_doc_to_vocab(filename, vocab):
    doc = load_doc(filename)
    tokens = clean_doc(doc)
    vocab.update(tokens)

Vamos a modificar la función para procesar todos los ficheros de un directorio para adaptarlo al nuevo elemento que es el vocabulario.

In [9]:
def process_docs(directory, vocab):
    for filename in listdir(directory):
        if not filename.endswith('.txt'):
            continue
    
        path = directory + filename
        add_doc_to_vocab(path, 
                         vocab)

In [10]:
from collections import Counter

vocab = Counter()

process_docs('Data/review polarity/pos/', vocab)
process_docs('Data/review polarity/neg/', vocab)

print(len(vocab))

print(vocab.most_common(50))

threshold = 5
tokens = [k for k,c in vocab.items() if c >= threshold]
print(len(tokens))

37589
[('film', 8849), ('one', 5514), ('movie', 5429), ('like', 3543), ('even', 2554), ('good', 2313), ('time', 2280), ('story', 2110), ('would', 2041), ('much', 2022), ('also', 1965), ('get', 1920), ('character', 1902), ('two', 1824), ('characters', 1813), ('first', 1766), ('see', 1726), ('way', 1668), ('well', 1654), ('make', 1590), ('really', 1556), ('films', 1513), ('little', 1487), ('life', 1467), ('plot', 1448), ('people', 1418), ('could', 1395), ('bad', 1372), ('scene', 1372), ('never', 1360), ('best', 1298), ('new', 1275), ('many', 1267), ('scenes', 1262), ('man', 1255), ('know', 1207), ('movies', 1180), ('great', 1138), ('another', 1111), ('love', 1087), ('go', 1073), ('action', 1073), ('us', 1065), ('director', 1054), ('something', 1047), ('end', 1044), ('still', 1037), ('seems', 1032), ('back', 1031), ('made', 1025)]
13864


Podemos decir:
- Tenemos alrededor de 38.000 palabras
- Las palabras más repetidas son: *film*, *one* y *movie*
- Quizás las menos comunes aparecen solo una vez en las reviews por lo que no son predictivas
- Puede que algunas de las palabras más repetidas tampoco sean útiles


Para esto, podemos repasar las palabras y sus conteos y manteniendo las que superen cierto umbral. Por ejemplo, vamos a utilizar 5 ocurrencias, y pasamos a tener casi 14.000 palabras.

Finalmente, vamos a guardar nuestro vocabulario.

In [11]:
def save_list(lines, filename):
    data = '\n'.join(lines)
    file = open(filename,
                'w')
    file.write(data)
    file.close()

In [12]:
save_list(tokens, 'vocab.txt')

## 4. Guardar datos preparados