# Tarea 1 - Amazon food review





En primer lugar se carga el corpus, quitando todo el código HTML existente con BeautifulSoup, así solo se mantendrá el contenido que exista en dentro de los tag. Las reseñas se almacenan en la lista **corpus**, la cual tiene una estructura de lista de listas *corpus[[documento1],[documento2],...]*. A su vez, se tiene una lista **score** con la evaluación de los usuarios en cada reseña (esta información será utilizada más adelante).

In [1]:
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup

reviews = open("amazon-fine-foods/Reviews.csv", "r")
corpus = []
score = []

reviews.readline() # sacar header

for line in reviews:
    review = line.strip().split(",")
    text = BeautifulSoup(review[-1], 'html.parser')
    corpus.append([text.get_text()])
    score.append(review[6])

reviews.close()

Una vez cargada la información del corpus se procede a tokenizar cada documento. La tokenización corresponde a romper una secuencia de strings en piezas, en ese caso será en palabras. Mediante expresión regular se quita todo número y signo de puentuación existente, quedando así, solo letras.
Esta información se guarda en la lista **tokens_doc** (lista de listas de tokens). 


En este proceso también se aplica *lower case a las palabras*.

In [4]:
from nltk.tokenize import RegexpTokenizer, regexp_tokenize

tokens_doc = [] #tokens por documento/sentencia
#tokenizer = RegexpTokenizer(r'((?<=[^\w\s])\w(?=[^\w\s])|(\W))+', gaps=True)

for text in corpus:
    t = regexp_tokenize(text[0].lower(), pattern='[a-zA-Z]+')
    tokens_doc.append(t)
print tokens_doc[:2]

[[u'i', u'have', u'bought', u'several', u'of', u'the', u'vitality', u'canned', u'dog', u'food', u'products', u'and', u'have', u'found', u'them', u'all', u'to', u'be', u'of', u'good', u'quality', u'the', u'product', u'looks', u'more', u'like', u'a', u'stew', u'than', u'a', u'processed', u'meat', u'and', u'it', u'smells', u'better', u'my', u'labrador', u'is', u'finicky', u'and', u'she', u'appreciates', u'this', u'product', u'better', u'than', u'most'], [u'product', u'arrived', u'labeled', u'as', u'jumbo', u'salted', u'peanuts', u'the', u'peanuts', u'were', u'actually', u'small', u'sized', u'unsalted', u'not', u'sure', u'if', u'this', u'was', u'an', u'error', u'or', u'if', u'the', u'vendor', u'intended', u'to', u'represent', u'the', u'product', u'as', u'jumbo']]


Una vez que tenemos los tokens para cada documento, se carga la lista de stopwords desde la librería de nltk. Las stopwords son aquellas palabras que no son descriptivas para el corpus.
Una vez que se realizó el filtrado de las stopwords de nltk se vió que aún existian palabras que no permitían un buen analisis, que no entregaban información relevante, por lo que se creo un archivo con aquellas stopwords que nosotros observamos, *'stopwrds.txt*. Este archivo lo juntamos con las anteriorores y se procede a filtrar las palabras de cada documento. Los criterios para que no sean eliminados son:

* No estar en la stoplist
* Largo mayor o igual a 3
* Frecuencia de la palabra en el corpus completo sea mayor o igual a 4

Los tokens son guardados en la lista **tokens**, lista de lista de tokens.

In [7]:
import nltk
from nltk.corpus import stopwords

# making stoplist with custom stopwords and library stopwords
stoplist = []
f = open("stopwords.txt","r")
for sw in f:
    stoplist.append(sw.strip())
f.close()
stoplist += stopwords.words('english') # stopwords


all_tokens = [token for doc in tokens_doc for token in doc]

frec_dist = nltk.FreqDist(all_tokens) # frec distribution of tokens

# create list of list without stopwords
tokens = []
for doc in tokens_doc: 
    t = []
    
    for token in doc:
        if token not in stoplist and len(token) >= 3 and frec_dist[token] >= 4:
            t.append(token)
    tokens.append(t)
            
print tokens[:2]

['gag', 'b001kt61p8', 'fri', 'fro', 'frm', 'fre', 'fru', 'hah', 'hae', 'hay', 'har', 'hav', 'haw', 'yummmmm', 'booo', 'taj', '_too_', 'cfl', 'cfh', 'a__', '1tbsp', 'scwt', '$...', '000', '090costco', u'i', u'me', u'my', u'myself', u'we', u'our', u'ours', u'ourselves', u'you', u'your', u'yours', u'yourself', u'yourselves', u'he', u'him', u'his', u'himself', u'she', u'her', u'hers', u'herself', u'it', u'its', u'itself', u'they', u'them', u'their', u'theirs', u'themselves', u'what', u'which', u'who', u'whom', u'this', u'that', u'these', u'those', u'am', u'is', u'are', u'was', u'were', u'be', u'been', u'being', u'have', u'has', u'had', u'having', u'do', u'does', u'did', u'doing', u'a', u'an', u'the', u'and', u'but', u'if', u'or', u'because', u'as', u'until', u'while', u'of', u'at', u'by', u'for', u'with', u'about', u'against', u'between', u'into', u'through', u'during', u'before', u'after', u'above', u'below', u'to', u'from', u'up', u'down', u'in', u'out', u'on', u'off', u'over', u'under',

Collocations


Luego de tener l

In [16]:
from nltk.collocations import *
bigram_measures = nltk.collocations.BigramAssocMeasures()

all_tokens = [token for doc in tokens for token in doc]

finder = BigramCollocationFinder.from_words(all_tokens)

top_collocations = finder.nbest(bigram_measures.likelihood_ratio, 30) #top 30 bigramas
print top_collocations[:30]

scored = finder.score_ngrams(bigram_measures.raw_freq)
print scored[:30]

scored = finder.score_ngrams(bigram_measures.pmi)
print scored[:30]

scored = finder.score_ngrams(bigram_measures.chi_sq)
print scored[:30]

[(u'highly', u'recommend'), (u'gluten', u'free'), (u'peanut', u'butter'), (u'subscribe', u'save'), (u'grocery', u'store'), (u'highly', u'recommended'), (u'much', u'better'), (u'would', u'recommend'), (u'year', u'old'), (u'amazon', u'com'), (u'green', u'mountain'), (u'green', u'tea'), (u'cup', u'coffee'), (u'hard', u'find'), (u'waste', u'money'), (u'free', u'shipping'), (u'dog', u'food'), (u'expiration', u'date'), (u'earl', u'grey'), (u'recommend', u'anyone'), (u'long', u'time'), (u'tastes', u'like'), (u'olive', u'oil'), (u'customer', u'service'), (u'dark', u'chocolate'), (u'ice', u'cream'), (u'years', u'ago'), (u'every', u'day'), (u'make', u'sure'), (u'give', u'try')]
[((u'antioxdent', u'ithelps'), 7067100.0), ((u'aura', u'electromagnetic'), 7067100.0), ((u'ballgreat', u'trainingconveniently'), 7067100.0), ((u'baltasar', u'gracian'), 7067100.0), ((u'baskin', u'robbins'), 7067100.0), ((u'behren', u'reneofc'), 7067100.0), ((u'bicardi', u'oakheart'), 7067100.0), ((u'blum', u'jablum'), 706

In [None]:
print top_collocations[-3:]

In [None]:
from nltk.tag import StanfordPOSTagger

jar = 'pos-tagger/stanford-postagger.jar'
model = 'pos-tagger/english-bidirectional-distsim.tagger'


st = StanfordPOSTagger(model,jar)
print tokens[0]
print st.tag(tokens[0])

pos = [st.tag(doc) for doc in tokens[:5000]]

print "pos"
print pos[:2]

ner

In [None]:
from nltk.tag import StanfordNERTagger

jar = 'ner-tagger/stanford-ner.jar'
model = 'ner-tagger/english.all.3class.distsim.crf.ser.gz'


st = StanfordNERTagger(model, jar) 
ner = [st.tag(doc) for doc in tokens]

sentiment analysis

In [None]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

sid = SentimentIntensityAnalyzer()
sid.polarity_scores(tokens[0][0]) #probar