# Entrega 1 - Introducción al Procesamiento del Lenguaje Natural 2018 


Verifique que su entorno de Python 3 contiene todas las bibliotecas necesarias. Importe las bibliotecas nltk y sklearn y verifique que se importan sin errores.

In [1]:
import nltk
nltk.download('punkt')
import sklearn
import json
import os
import re
from pprint import pprint
from random import shuffle, seed

[nltk_data] Downloading package punkt to /home/acabrera/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## Lectura de datos

Observe el corpus contenido en el directorio *restaurante-review-dataset* extraído de [1]. Cargue el contenido del corpus en una variable de nombre *corpus*. Utilice como estructura de datos una lista de pares (comentario, valor), donde comentario es una string con el comentario y valor corresponde a la string "POS" o "NEG" si el comentario es positivo o negativo, respectivamente. Despliegue la cantidad de comentarios positivos y negativos.
 
[1] Dubiau, L., & Ale, J. M. (2013). Análisis de Sentimientos sobre un Corpus en Español: Experimentación con un Caso de Estudio. In Proceedings of the 14th Argentine Symposium on Artificial Intelligence, ASAI (pp. 36-47).


In [2]:
path = "../dataset/restaurante-review-dataset/"
posPath = path + "pos/"
negPath = path + "neg/"
posFiles = os.listdir(posPath)
negFiles = os.listdir(negPath)
posJsons = [json.load(open(posPath + file)) for file in posFiles]
negJsons = [json.load(open(negPath + file)) for file in negFiles]
posCorpus = [(comentario,"POS") for lista in posJsons for comentario in lista]
negCorpus = [(comentario,"NEG") for lista in negJsons for comentario in lista]
corpus = posCorpus + negCorpus
print(str(len(posCorpus)) + " comentarios positivos y " + str(len(negCorpus)) + " comentarios negativos.")

34808 comentarios positivos y 17633 comentarios negativos.


Guarde los comentarios (sin importar el valor que tenga asignado) en una lista llamada *comentarios*. Reordene esta lista aleatoriamente. Utilice una semilla para el generador aleatorio para que sus resultados sean reproducibles. Despliegue los 3 primeros elementos de la lista *comentarios*.

In [3]:
comentarios = [comentario for (comentario,_) in corpus]
seed(3)
shuffle(comentarios)
pprint(comentarios[0:3])

['Exquisita la empanada de carne cortada a cuchillo ,el bife gustoso y a punto '
 ',el postre un manjar .\r\n'
 'Atencion esmerada ,un lugar calido ,limpio y elegante .',
 'La verdad, es una pizzeria con onda cancha. Si bien el lugar es muy '
 'sencillo, la comida es bárbara y uno se siente como en familia.\r\n'
 'La paso genial.',
 'Hacía bastante que no iba porque en las últimas ocasiones no me había '
 'convencido del todo, y además, siempre había demasiada espera. El 1/5, como '
 'salí un tanto tarde y no ví tanto aglutinamiento, decidí recalar ahí.Craso '
 'error...  El salad bar sigue siendo pobretón. La provoleta zafaba. Pedí '
 'asado($59) y entraña($48) jugosos, y me los trajeron MUY cocidos, además de '
 'que la carne era dura y desabrida. También pedí bondiola de cerdo ,a punto, '
 'y vino CRUDA en el centro...la mandé de vuelta y luego la trajeron recocida. '
 'Servicio regular, ambiente ídem. Está a años luz de la sucursal de Pilar...']


## Tokenización

Transforme cada elemento de *comentarios* en una lista de palabras utilizando las funciones de tokenización de oraciones de nltk. Almacene el resultado en una variable llamada *corpus_tokens*. Note que *corpus_tokens* es una lista donde cada elemento es a su vez una lista con los *tokens* del comentario correspondiente.

In [4]:
#Usamos primero sent_tokenize para partir los comentarios en oraciones y luego word_tokenize para partir esas oraciones en palabras

corpus_tokens = [[word for sent in nltk.tokenize.sent_tokenize(comment, language='spanish') for word in nltk.tokenize.word_tokenize(sent)] for comment in comentarios]

Muestre los dos últimos elementos de *corpus_tokens*.

In [5]:
pprint(corpus_tokens[:2])

[['Exquisita',
  'la',
  'empanada',
  'de',
  'carne',
  'cortada',
  'a',
  'cuchillo',
  ',',
  'el',
  'bife',
  'gustoso',
  'y',
  'a',
  'punto',
  ',',
  'el',
  'postre',
  'un',
  'manjar',
  '.',
  'Atencion',
  'esmerada',
  ',',
  'un',
  'lugar',
  'calido',
  ',',
  'limpio',
  'y',
  'elegante',
  '.'],
 ['La',
  'verdad',
  ',',
  'es',
  'una',
  'pizzeria',
  'con',
  'onda',
  'cancha',
  '.',
  'Si',
  'bien',
  'el',
  'lugar',
  'es',
  'muy',
  'sencillo',
  ',',
  'la',
  'comida',
  'es',
  'bárbara',
  'y',
  'uno',
  'se',
  'siente',
  'como',
  'en',
  'familia',
  '.',
  'La',
  'paso',
  'genial',
  '.']]


Realice otra tokenización de los *comentarios* utilizando expresiones regulares y el módulo re de Python. En esta oportunidad cumpla con las siguientes restricciones:

- Reconocer tokens de por lo menos 3 caracteres de largo.
- No reconocer símbolos de puntuación.
- No reconocer tokens únicamente numéricos.

Almacene el resultado en una variable llamada *corpus_tokens2*.

In [6]:
corpus_tokens2 = [re.findall(r'\b(\d*[^\W\d]+\d*[^\W\d]*\d*)\b', comment) for comment in comentarios]

Despliegue los dos últimos elementos de *corpus_tokens2*.

In [7]:
pprint(corpus_tokens2[-2:])

[['La',
  'atención',
  'es',
  'buena',
  'pero',
  'como',
  'se',
  'trata',
  'de',
  'ir',
  'a',
  'comer',
  'y',
  'calificar',
  'la',
  'comida',
  'no',
  'alcanza',
  'para',
  'volver',
  'a',
  'este',
  'proyecto',
  'de',
  'restaurante',
  'alternativo',
  'La',
  'vajilla',
  'tampoco',
  'ayuda',
  'En',
  'cuanto',
  'a',
  'la',
  'comida',
  'deja',
  'que',
  'desear',
  'su',
  'preparación',
  'No',
  'volveré'],
 ['Realmente',
  'una',
  'calidad',
  'poco',
  'comun',
  'en',
  'carnes',
  'La',
  'relacion',
  'costo',
  'beneficio',
  'es',
  'excelente',
  'Sumamente',
  'recomendable']]


# Bag of Words

Utilice la clase CountVectorizer del módulo sklearn.feature_extraction.text para instanciar un objeto que transforme el corpus en un diccionario de las palabras más representativas de las oraciones del corpus. Investigue cada uno de los parámetros que acepta su constructor y configurelos de forma que considere adecuada. Justifique sus decisiones.

In [8]:
tokenRegex = '[a-záéíóúñ]{3,}'
transf = sklearn.feature_extraction.text.CountVectorizer(max_df=0.5, min_df=100, ngram_range=(1,1), analyzer='word', 
                                                         lowercase=True, token_pattern=tokenRegex, stop_words=None)



- Se configura el parámetro max_df en 0.5 para no tener en cuenta palabras que aparezcan en más de la mitad de los comentarios, debido a que estas difícilmente sean representativas del mismo.

- El parámetro min_df por su parte se configura en 100 para no tener en cuenta palabras que ocurran en menos de 100 comentarios. Sabiendo que hay más de 50 mil comentarios, si una palabra aparece en menos de 100, probablemente esté mal escrita o sea un término muy específico, por lo cual no ayuda a caracterizar el comentario.

- Para tener en cuenta únicamente palabras (y no caracteres o conjuntos de palabras) se setea el parámetro analyzer en 'word' y ngram_range en (1,1).

- El parámetro lowercase se setea en True para que las mayúsculas y minúsculas sean indiferentes.

- En token_pattern se configura una expresión regular que reconoce palabras de 3 o más letras, incluyendo tildes, pero que evita reconocer por ejemplo números o caracteres especiales.

- Debido al uso de max_df se vuelve innecesario el uso de stop_words. En vez de indicar una lista de palabras a ignorar, se ignoran las palabras que aparecen con demasiada frecuencia.

Entrene la transformación e imprima las palabras resultantes en el diccionario. Imprima además la cantidad de palabras obtenidas en el diccionario.

In [9]:
transf.fit(comentarios)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=0.5, max_features=None, min_df=100,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='[a-záéíóúñ]{3,}',
        tokenizer=None, vocabulary=None)

In [10]:
diccionario = transf.get_feature_names()
print(diccionario)
print("El diccionario tiene " + str(len(diccionario)) + " palabras.")

['abajo', 'abierto', 'absolutamente', 'absoluto', 'abuela', 'abundante', 'abundantes', 'aca', 'accesible', 'accesibles', 'aceite', 'aceitosas', 'aceitunas', 'aceptable', 'acerca', 'achuras', 'acogedor', 'acompaña', 'acompañada', 'acompañado', 'acompañamiento', 'acompañar', 'acondicionado', 'acorde', 'acordes', 'acotada', 'acuerdo', 'acá', 'adecuada', 'adecuado', 'ademas', 'además', 'adentro', 'afuera', 'agradable', 'agradables', 'agua', 'aguas', 'ahi', 'ahora', 'ahumado', 'ahí', 'aire', 'aires', 'ajo', 'alcohol', 'algo', 'alguien', 'algun', 'alguna', 'algunas', 'algunos', 'algún', 'alla', 'alli', 'allá', 'allí', 'almorzar', 'almuerzo', 'alrededor', 'alta', 'altamente', 'alternativa', 'alto', 'altos', 'altura', 'amabilidad', 'amable', 'amables', 'amantes', 'ambas', 'ambientacion', 'ambientación', 'ambientado', 'ambiente', 'ambos', 'amena', 'ameno', 'amiga', 'amigas', 'amigo', 'amigos', 'amor', 'amplia', 'ampliamente', 'amplio', 'and', 'aniversario', 'anoche', 'ante', 'anterior', 'anteri

Transforme todos los *comentarios* en vectores utilizando la transformación creada. Guarde las transformaciones en una lista llamada 'vectores':

In [11]:
vectores = transf.transform(comentarios)

## Similitud

Escriba una función calcular_similitud(vect1, vect2) que dados dos vectores, devuelva un número en el rango [0, 1] donde 1 significa que los vectores son idénticos y 0 que son completamente diferentes. Puede utilizar medidas como la implementada en la función cosine del módulo scipy.spatial.distance u otra que considere adecuada.

In [12]:
import numpy as np
from scipy.spatial.distance import cosine as dist

def __calcular_similitud(vect1, vect2):
  if np.linalg.norm(vect1) == 0 or np.linalg.norm(vect2) == 0:
    return 0
  return (dist(vect1, vect2) - 1)*(-1) 

Según la documentación, la función `cosine` devuelve `1 - distancia(v1, v2)`, por lo que restamos 1 y multiplicamos por -1 para obtener el valor actual.

Vamos a definir los siguientes dos diccionarios:

In [13]:
similar = {}
similitud = {}

El primer diccionario guardará para cada oración, el índice de la oración más similar a ella. Esto es, similar[i] = j indica que la j-esima oración, es la oración más similar a la i-esima oración.
El segundo diccionario guardará el valor de similitud correspondiente. Si similiar[i] = j, entonces similitud[i] = calcular_similitud(oracion[i], oracion[j]).
Implemente una fución llamada calcular_similitudes(vectores, similar, similitud) que dada la lista de vectores, construya los diccionarios similar y similitud:

In [14]:
def calcular_similitudes(vectores, similar, similitud):
  for i in range(len(vectores)):
    similitud[i] = -1
    similar[i] = i
    for j in range(len(vectores)):
      if i != j: # Para no calcular la similitud consigo mismo
        dist = __calcular_similitud(vectores[i], vectores[j])
        if dist > similitud[i]:
          similar[i] = j
          similitud[i] = dist

Implemente una función llamada *imprimir_similares* que imprima los primeros N pares de comentarios más similares del corpus. Utilice un valor que considere adecuado para N (ej. N=50).

In [15]:
def imprimir_similares(comentarios, similar, similitud, cantComentarios=50):
  simlitudesEnumeradas = list(zip(similar.keys(), similitud.values()))
  # Para conservar a que comentario corresponde cada valor
  similitudesOrdenadas = sorted(simlitudesEnumeradas, key=lambda x: x[1]) 
  # Se ordenan las similitudes
  comentariosImpresos = 0
  i = len(similitud) - 1
  while comentariosImpresos < cantComentarios and i < len(comentarios):
    ultimoComentario = posComentario = similitudesOrdenadas[i][0]
    posComentarioSimilar = similar[posComentario]
    print("*************************************\n") 
    print("El comentario:\n\n{}\n".format(comentarios[posComentario])) 
    print("Es similar a:\n\n{}\n".format(comentarios[posComentarioSimilar]))
    comentariosImpresos += 1
    if ultimoComentario == similar[posComentarioSimilar]:
      i -= 2
    else:
      i -= 1 

Ejecute las funciones calcular_similitudes e imprimir_similares. Utilice una porción del corpus que considere adecuada para que ejecute en un tiempo razonable (ej. los primeros 1000 comentarios). Despliegue los resultados y el tiempo transcurrido. Si lo desea puede incluir resultados en un bloque de texto al considerar una porción mayor. De ser así incluya la cantidad de elementos considerados y el tiempo transcurrido. 

In [16]:
testingCorpus = corpus[:1000]

calcular_similitudes(vectores[:100].toarray(), similar, similitud)
imprimir_similares(comentarios, similar, similitud)

*************************************

El comentario:

Muy lindo el lugar, la decoracion y muy buena atencon. La comida buena.

Es similar a:

Excelente, buena ubicación, buena comida, todo muy bien ambientado.

*************************************

El comentario:

Excelente menú y muy buena atención.

Es similar a:

Excelente, buena ubicación, buena comida, todo muy bien ambientado.

*************************************

El comentario:

Me parecio una opcion excelente. Donato estaba en el salon y hay que reconocer que es el alma del negocio. Está en todos los detalles. Interactua con los clientes y hace de su local un lugar especial. La comida muy buena. Probamos los spaghetti con frutti di mare. El "tiramissunico" de postre estuvo excelente. El lugar es pequeño pero para mi eso es parte de su encanto. La oferta de productos italianos para llevar le agrega un plus al lugar. Lo recomiendo.

Es similar a:

Excelente lugar muy tranquilo para ir en pareja, buena música (había un show en

Analice los resultados obtenidos. ¿Que observa? ¿En qué opina que se podría mejorar?

## Bag of Words (con stemming)

Utilice el parámetro 'tokenizer' de la clase CountVectorizer y conjuntamente la clase SpanishStemmer del módulo nltk.stem.snowball. Repita los experimentos realizados en la parte anterior utilizando el stemmer. Realice las comparaciones que considere pertinentes.

In [17]:
from nltk.stem.snowball import SpanishStemmer

spanish_stemmer = SpanishStemmer()

# Se define una nueva función que servira como nuevo parametro tokenizer del constructor CountVectorizer
def stem_tokenizer(text):
    tokenizer = transf.build_tokenizer()
    return [spanish_stemmer.stem(word) for word in tokenizer(text)]

In [18]:
from copy import copy

# Se realiza una copia limpia de la instancia original de manera de 
# tener los mismos parametros iniciales de la seccion Bag of Word, 
# y a esta nueva instancia poder setearle el nuevo tokenizador utilizando el SpanishStemmer 
transf_with_stem = copy(transf).set_params(tokenizer=stem_tokenizer)
transf_with_stem.fit(comentarios)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=0.5, max_features=None, min_df=100,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='[a-záéíóúñ]{3,}',
        tokenizer=<function stem_tokenizer at 0x7f1fa0726c80>,
        vocabulary=None)

In [19]:
# Al igual que en las secciones anteriores imprimimos el diccionario y su tamaño

diccionario_with_stem = transf_with_stem.get_feature_names()
print(diccionario_with_stem)
print("El diccionario con stemmming tiene " + str(len(diccionario_with_stem)) + " palabras.")

['abaj', 'abiert', 'abri', 'absolut', 'abuel', 'abund', 'aca', 'acab', 'acces', 'aceit', 'aceitun', 'acept', 'acerc', 'acert', 'achur', 'acid', 'aclar', 'acogedor', 'acomod', 'acompañ', 'acondicion', 'aconsej', 'acord', 'acostumbr', 'acot', 'acuerd', 'acust', 'adecu', 'adem', 'ademas', 'adentr', 'afuer', 'agrad', 'agreg', 'agridulc', 'agu', 'ahi', 'ahor', 'ahum', 'air', 'ajo', 'alcanz', 'alcohol', 'alegr', 'aleman', 'algo', 'algui', 'algun', 'alla', 'alli', 'almendr', 'almorz', 'almuerz', 'alrededor', 'alt', 'alta', 'altern', 'altisim', 'alto', 'altos', 'altur', 'amabil', 'amabl', 'amant', 'ambas', 'ambient', 'ambientacion', 'ambos', 'amen', 'american', 'amig', 'amor', 'ampli', 'and', 'anfitrion', 'anim', 'aniversari', 'anoch', 'ante', 'anterior', 'antes', 'antigu', 'aparec', 'apart', 'apen', 'aperit', 'apreci', 'aprovech', 'aprox', 'apur', 'aqu', 'aquell', 'aqui', 'arab', 'argentin', 'armad', 'armeni', 'arom', 'arrepent', 'arrib', 'arroz', 'arruin', 'arte', 'artesanal', 'asad', 'asado

In [20]:
vectores_with_stem = transf.transform(comentarios)

Al igual que en la parte anterior muestre los resultados para una porción del corpus y si lo desea incluya los resultados para una porción mayor. Despliegue el tiempo transcurrido.

In [21]:
import timeit

portion_size = 1000

start = timeit.default_timer()

similar = {}
similitud = {}

calcular_similitudes(vectores_with_stem[:portion_size].toarray(), similar, similitud)
imprimir_similares(comentarios, similar, similitud)

end = timeit.default_timer()

print('Tiempo total: ', end - start)

*************************************

El comentario:

Excelente

Es similar a:

Excelente.

*************************************

El comentario:

Recomendable!

Es similar a:

100% recomendable!!!!

*************************************

El comentario:

Excelente.

Es similar a:

Excelente.

*************************************

El comentario:

Outstanding food & Martinis just like the ones i had in NY. Ive been there many times & Ive never been so happy with the service in palermo.  Everything was just perfect. my waiter was very good looking. I love that the owner came and explain in details about what the food was.

Es similar a:

Great place. The setting resembles something of a holiday resort dinning area, but do not be put off. The food is excellent, they have humous, kebabs and much more. The dishes are big enough to share and delicious. Book a table.

*************************************

El comentario:

The food is ok, but nothing terribly special.  I feel like it deserves

Justifique las decisiones tomadas y realice los comentarios que considere adecuados. Analice los resultados obtenidos. Compare los resultados con los obtenidos anteriormente. Comente los problemas que detecte en este enfoque.