# Analisis de Sentimientos

Carlos Xavier Gallardo Rosas<br>
Mauricio Santiago Valdovinos Morales

## Importando las paqueterias NLTK

Esta libreria cuenta con una gran cantidad de herramientas para el procesado de lenguaje natural. <br>

Las utilizadas: <br>
 - Clasificador Naive Bayes <br>
 - Corpus de nltk que contiene el data set con reviews en ingles
 - StopWords. Una lista de las stop words en ingles
 - La funcion de word tokenize para separar los textos en palabras

In [2]:
import nltk.classify.util
from nltk.classify import NaiveBayesClassifier
from nltk.corpus import movie_reviews
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

## Prueba de los datos

Probando como acomodar los datos de entrada del clasificador Naive Bayes con la función create_word_features
donde se hace el filtrado de las stop_words

In [3]:
#Asi es como el Naive Bayes clasifica los aspectos de la entrada
def create_word_features(words):
    useful_words = [word for word in words if word not in stopwords.words("english")]
    my_dict = dict([(word, True) for word in useful_words])
    return my_dict
#este es el formato que NaiveBayes entiende
create_word_features(["the", "quick", "Santy", "quick", "a", "Carlongos"])

{'Carlongos': True, 'Santy': True, 'quick': True}

## Recolectando reviews negativas

Se extrae las reviews negativas de unos archivos de texto en la carpeta neg <br>
Una vez extraidos se preparan para poder ser clasificados:
 - Separando las reviews en palabras que por ser reviews del corpora de nltk no hay necesidad de usar el word_tokenize
 - Filtrando las stop words con el create_word_features Creando el diccionario con las palabras que conoce la IA

In [4]:
neg_reviews = []
for fileid in movie_reviews.fileids('neg'):
    words = movie_reviews.words(fileid)
    neg_reviews.append((create_word_features(words), "negative"))

In [10]:
print(neg_reviews[0])

({'plot': True, ':': True, 'two': True, 'teen': True, 'couples': True, 'go': True, 'church': True, 'party': True, ',': True, 'drink': True, 'drive': True, '.': True, 'get': True, 'accident': True, 'one': True, 'guys': True, 'dies': True, 'girlfriend': True, 'continues': True, 'see': True, 'life': True, 'nightmares': True, "'": True, 'deal': True, '?': True, 'watch': True, 'movie': True, '"': True, 'sorta': True, 'find': True, 'critique': True, 'mind': True, '-': True, 'fuck': True, 'generation': True, 'touches': True, 'cool': True, 'idea': True, 'presents': True, 'bad': True, 'package': True, 'makes': True, 'review': True, 'even': True, 'harder': True, 'write': True, 'since': True, 'generally': True, 'applaud': True, 'films': True, 'attempt': True, 'break': True, 'mold': True, 'mess': True, 'head': True, '(': True, 'lost': True, 'highway': True, '&': True, 'memento': True, ')': True, 'good': True, 'ways': True, 'making': True, 'types': True, 'folks': True, 'snag': True, 'correctly': Tr

In [11]:
pos_reviews = []
for fileid in movie_reviews.fileids('pos'):
    words = movie_reviews.words(fileid)
    pos_reviews.append((create_word_features(words), "positive"))

## Definiendo las listas de entrenamiento y testeo

El entrenamiento tiene 1500 reviews y 500 reviews de testeo

In [12]:
#Entrenamiento
train_set = neg_reviews[:750] + pos_reviews[:750]
test_set = neg_reviews[750:] + pos_reviews[750:]
print("Entrenamiento: ",len(train_set),"Testeo: ", len(test_set))

Entrenamiento:  1500 Testeo:  500


## Entrenamiento

Entrenando el clasificador con la lista train_set

In [14]:
classifier = NaiveBayesClassifier.train(train_set)

## Testeando el clasificador

In [15]:
accuracy = nltk.classify.accuracy(classifier, test_set)
print(accuracy * 100)

72.39999999999999


## Probando con una review nueva

Pruebas con reviews en ingles 
 - La review se tokeniza con el word_tokenize
 - Se crea el diccionario y se filtran las stop_words
 - Se clasifica la review

In [8]:
review = '''
This movie could have been much more but lacks quality on all levels. The plot is predictable to some extend and just doesnt feel complete. The acting, except Tom Hardy, is bad mainly because of the manuscript and the cheesy, soap-opera, reality-show vibes. Animation was fine, some funny jokes here and there but overall just a movie that leaves you with no good impressions
'''
print(review)


This movie could have been much more but lacks quality on all levels. The plot is predictable to some extend and just doesnt feel complete. The acting, except Tom Hardy, is bad mainly because of the manuscript and the cheesy, soap-opera, reality-show vibes. Animation was fine, some funny jokes here and there but overall just a movie that leaves you with no good impressions



In [9]:
words = word_tokenize(review)
words = create_word_features(words)
classifier.classify(words)

'negative'