# Análisis de sentimiento

<div style="text-align: right"> <sub>Referencia: Igual L. & Seguí, S. (2017). *Introduction to Data Science*. Springer. Código fuente: https://github.com/DataScienceUB/introduction-datascience-python-book </sub> </div>

Primero, importemos algunas librerías útiles

In [1]:
import matplotlib.pylab as plt
#matplotlib inline 
#plt.style.use('seaborn-whitegrid')
plt.rc('text', usetex=True)
plt.rc('font', family='times')
plt.rc('xtick', labelsize=10) 
plt.rc('ytick', labelsize=10) 
plt.rc('font', size=12) 

Requerimientos de instalación:

In [3]:
!pip install unidecode

Collecting unidecode
  Downloading https://files.pythonhosted.org/packages/59/ef/67085e30e8bbcdd76e2f0a4ad8151c13a2c5bce77c85f8cad6e1f16fb141/Unidecode-1.0.22-py2.py3-none-any.whl (235kB)
[K    100% |████████████████████████████████| 235kB 1.1MB/s ta 0:00:01
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.0.22
[33mYou are using pip version 9.0.1, however version 18.0 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


Antes de comenzar, es importante descargar los nltk corpora. Puede descargar paquetes de datos individuales o puede descargar la colección completa (usando "all"). Los corpus útiles para este cuaderno incluyen wordnet, movie_reviews y stopwords.

In [2]:
import nltk
#nltk.download()
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/hjrosasq/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

Ejemplo 1:
Ejemplo de Stemmer / Lemmatizer usando NLTK

In [7]:
raw_docs = ["Here are some very simple basic sentences.", "They won't be very interesting, I'm afraid.", "The point of these examples is to _learn how basic text cleaning works_ on *very simple* data."]
            
from nltk.tokenize import word_tokenize
tokenized_docs = [word_tokenize(doc) for doc in raw_docs]

import re
import string
regex = re.compile('[%s]' % re.escape(string.punctuation))
tokenized_docs_no_punctuation = []
for review in tokenized_docs:
    new_review = []
    for token in review:
        new_token = regex.sub(u'', token)
        if not new_token == u'':
            new_review.append(new_token)
    tokenized_docs_no_punctuation.append(new_review)

from nltk.stem.porter import PorterStemmer
from nltk.stem.snowball import SnowballStemmer
from nltk.stem.wordnet import WordNetLemmatizer
porter = PorterStemmer()
snowball = SnowballStemmer('english')
wordnet = WordNetLemmatizer()

#snowball.stem(porter)
#snowball.stem(snoball)
#wordnet.lemmatize(wordnet)

preprocessed_docs = []
for doc in tokenized_docs_no_punctuation:
    final_doc = []
    for word in doc:
        final_doc.append(porter.stem(word))
        # final_doc.append(snowball.stem(word))
        # requires 'corpora/wordnet' -> nltk.download()
        # final_doc.append(wordnet.lemmatize(word))
        # requires 'corpora/wordnet' -> nltk.download()
    preprocessed_docs.append(final_doc)

print(tokenized_docs_no_punctuation)
print(preprocessed_docs)

[['Here', 'are', 'some', 'very', 'simple', 'basic', 'sentences'], ['They', 'wo', 'nt', 'be', 'very', 'interesting', 'I', 'm', 'afraid'], ['The', 'point', 'of', 'these', 'examples', 'is', 'to', 'learn', 'how', 'basic', 'text', 'cleaning', 'works', 'on', 'very', 'simple', 'data']]
[['here', 'are', 'some', 'veri', 'simpl', 'basic', 'sentenc'], ['they', 'wo', 'nt', 'be', 'veri', 'interest', 'I', 'm', 'afraid'], ['the', 'point', 'of', 'these', 'exampl', 'is', 'to', 'learn', 'how', 'basic', 'text', 'clean', 'work', 'on', 'veri', 'simpl', 'data']]


Estos ejemplos usan funciones de los módulos "PorterStemmer", "SnowballStemmer" y "WordNetLemmatizer". Los resultados de los tres enfoques son casi equivalentes. Tenga en cuenta que el script busca todos los elementos (palabras) en la lista "tokenized \ _docs \ _no \ _punctuation", y para cada uno de ellos se puede considerar uno de los diferentes enfoques. Tenga en cuenta que los dos últimos enfoques de "SnowballStemmer" y "WordNetLemmatizer" requieren la instalación de corpus adicionales de NLTK, que se pueden descargar ejecutando "nltk.download ()". En este ejemplo, estamos ejecutando el primer enfoque "porter.stem (word)" añadiendo los nuevos resultados de stemmer o lemmatizer de "word" en la nueva lista "final \ _doc" que finalmente se incluye en
"\ docs preprocesados".

Example 2: Vector de características de frecuencias de palabras.

In [11]:
mydoclist = ['Mireia loves me more than Hector loves me', 'Sergio likes me more than Mireia loves me', 'He likes basketball more than footbal']
from collections import Counter
for doc in mydoclist:
    tf = Counter()
    for word in doc.split():
        tf[word] +=1
    print(tf.items())
    
def build_lexicon(corpus):  # define a set with all possible words included
                            # in all the sentences or "corpus"
    lexicon = set()
    for doc in corpus:
        lexicon.update([word for word in doc.split()])
    return lexicon
def tf(term, document):
    return freq(term, document)
def freq(term, document):
    return document.split().count(term)
vocabulary = build_lexicon(mydoclist)
doc_term_matrix = []
print('Our vocabulary vector is [' + ', '.join(list(vocabulary)) + ']')
for doc in mydoclist:
    print('The doc is "' + doc + '"')
    tf_vector = [tf(word, doc) for word in vocabulary]
    tf_vector_string = ', '.join(format(freq, 'd') for freq in tf_vector)
    print('The tf vector for Document %d is [%s]' % ((mydoclist.index(doc)+1), tf_vector_string))
    doc_term_matrix.append(tf_vector)
    
print('All combined, here is our master document term matrix: ')
print(doc_term_matrix)

dict_items([('Mireia', 1), ('loves', 2), ('me', 2), ('more', 1), ('than', 1), ('Hector', 1)])
dict_items([('Sergio', 1), ('likes', 1), ('me', 2), ('more', 1), ('than', 1), ('Mireia', 1), ('loves', 1)])
dict_items([('He', 1), ('likes', 1), ('basketball', 1), ('more', 1), ('than', 1), ('footbal', 1)])
Our vocabulary vector is [He, Hector, basketball, than, more, likes, footbal, Sergio, me, Mireia, loves]
The doc is "Mireia loves me more than Hector loves me"
The tf vector for Document 1 is [0, 1, 0, 1, 1, 0, 0, 0, 2, 1, 2]
The doc is "Sergio likes me more than Mireia loves me"
The tf vector for Document 2 is [0, 0, 0, 1, 1, 1, 0, 1, 2, 1, 1]
The doc is "He likes basketball more than footbal"
The tf vector for Document 3 is [1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0]
All combined, here is our master document term matrix: 
[[0, 1, 0, 1, 1, 0, 0, 0, 2, 1, 2], [0, 0, 0, 1, 1, 1, 0, 1, 2, 1, 1], [1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0]]


Según el script anterior, cada documento está en el mismo espacio de características, lo que significa que
puede representar todo el corpus en el mismo espacio dimensional
sin haber perdido demasiada información. Una vez que tenemos los datos en
el mismo espacio de características, podemos comenzar a aplicar alguna máquina
métodos de aprendizaje: clasificación, agrupamiento, etc. Pero
de hecho, tenemos algunos problemas. Las palabras no son todas igualmente
informativo. Si las palabras aparecen con demasiada frecuencia en un solo documento,
van a arruinar nuestro análisis. Queremos realizar algunos
escala de cada uno de estos vectores de frecuencia de término en algo una
un poco más representativo. En otras palabras, tenemos que hacer algo
vectorización. Una posibilidad es asegurar que la norma L2
de cada vector es igual a 1.

Example 3: Normalización L2

In [12]:
import math
import numpy as np
def l2_normalizer(vec):
    denom = np.sum([el**2 for el in vec])
    return [(el / math.sqrt(denom)) for el in vec]
doc_term_matrix_l2 = []
for vec in doc_term_matrix:
    doc_term_matrix_l2.append(l2_normalizer(vec))
print('A regular old document term matrix: ')
print(np.matrix(doc_term_matrix))
print('\nA document term matrix with row-wise L2 norms of 1:')
print(np.matrix(doc_term_matrix_l2))

A regular old document term matrix: 
[[0 1 0 1 1 0 0 0 2 1 2]
 [0 0 0 1 1 1 0 1 2 1 1]
 [1 0 1 1 1 1 1 0 0 0 0]]

A document term matrix with row-wise L2 norms of 1:
[[0.         0.28867513 0.         0.28867513 0.28867513 0.
  0.         0.         0.57735027 0.28867513 0.57735027]
 [0.         0.         0.         0.31622777 0.31622777 0.31622777
  0.         0.31622777 0.63245553 0.31622777 0.31622777]
 [0.40824829 0.         0.40824829 0.40824829 0.40824829 0.40824829
  0.40824829 0.         0.         0.         0.        ]]


Puedes ver que hemos reducido los vectores para que cada elemento esté entre [0, 1], sin perder demasiado
Información valiosa.

Finalmente, tenemos una tarea restante por realizar. Así como no todas las palabras
son igualmente valiosos dentro de un documento, no todas las palabras son
valioso en todos los documentos. Podemos intentar reponderar cada palabra
por su frecuencia de documento inversa.

Example 4: Peso de características.

In [13]:
def numDocsContaining(word, doclist):
    doccount = 0
    for doc in doclist:
        if freq(word, doc) > 0:
            doccount +=1
    return doccount
def idf(word, doclist):
    n_samples = len(doclist)
    df = numDocsContaining(word, doclist)
    return np.log(n_samples / (float(df)) )
my_idf_vector = [idf(word, mydoclist) for word in vocabulary]
print('Our vocabulary vector is [' + ', '.join(list(vocabulary)) + ']')
print('The inverse document frequency vector is [' + ', '.join(format(freq, 'f') for freq in my_idf_vector) + ']')

Our vocabulary vector is [He, Hector, basketball, than, more, likes, footbal, Sergio, me, Mireia, loves]
The inverse document frequency vector is [1.098612, 1.098612, 1.098612, 0.000000, 0.000000, 0.405465, 1.098612, 1.098612, 0.405465, 0.405465, 0.405465]


Ejemplo 5: Código de reconocimiento de análisis de sentimiento binario de críticos de películas

En este ejemplo, aplicamos todo el proceso de análisis de sentimiento a la película grande.
conjunto de datos (http://www.aclweb.org/anthology/P11-1015). éste es uno de
los conjuntos de datos disponibles públicos más grandes para el análisis de sentimiento, que
incluye más de 50,000 textos de reseñas de películas, incluida la
anotación de verdad de suelo relacionada con película positiva y negativa
revisión. Como prueba de concepto para este ejemplo, usamos un subconjunto de
el conjunto de datos que consiste en aproximadamente el 10% de los datos.

Puede usar los siguientes comandos en un sistema operativo Linux para descargar los datos requeridos:

In [14]:
!wget http://ai.stanford.edu/~amaas//data/sentiment/aclImdb_v1.tar.gz 

--2018-09-19 20:59:52--  http://ai.stanford.edu/~amaas//data/sentiment/aclImdb_v1.tar.gz
Resolving ai.stanford.edu (ai.stanford.edu)... 171.64.68.10
Connecting to ai.stanford.edu (ai.stanford.edu)|171.64.68.10|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 84125825 (80M) [application/x-gzip]
Saving to: ‘aclImdb_v1.tar.gz’


2018-09-19 21:00:58 (1,22 MB/s) - ‘aclImdb_v1.tar.gz’ saved [84125825/84125825]



In [16]:
!tar -xf aclImdb_v1.tar.gz

mkdir: cannot create directory ‘train’: File exists
mkdir: cannot create directory ‘train/pos2’: File exists
mkdir: cannot create directory ‘train/neg2’: File exists
mkdir: cannot create directory ‘test’: File exists
mkdir: cannot create directory ‘test/pos2’: File exists
mkdir: cannot create directory ‘test/neg2’: File exists


Para sistemas de Windows, puede descargar los datos aquí: http://ai.stanford.edu/~amaas/data/sentiment/
Dentro del archivo comprimido encontrarás varios críticos de cine.

Las siguientes líneas de código seleccionarán un subconjunto de las críticas del conjunto de datos para ejecutar el siguiente ejemplo de reconocimiento de análisis de sentimiento binario.

In [18]:
import os
import shutil
files=5
count=0
for file in os.listdir("aclImdb/train/pos/"):
    if count > files:
        break
    if file.endswith(".txt"):
        os.rename('aclImdb/train/pos/' + file, 'train/pos2/' + file)
    count=count+1
count=0
for file in os.listdir("aclImdb/train/neg/"):
    if count > files:
        break
    if file.endswith(".txt"):
        os.rename('aclImdb/train/neg/' + file, 'train/neg2/' + file)
    count=count+1
count=0
for file in os.listdir("aclImdb/test/pos/"):
    if count > files:
        break
    if file.endswith(".txt"):
        os.rename('aclImdb/test/pos/' + file, 'test/pos2/' + file)
    count=count+1
count=0
for file in os.listdir("aclImdb/test/neg/"):
    if count > files:
        break
    if file.endswith(".txt"):
        os.rename('aclImdb/test/neg/' + file, 'test/neg2/' + file)
    count=count+1


Y el próximo script realizará todo el entrenamiento y el procedimiento de prueba en el subconjunto seleccionado del conjunto de datos.

In [24]:
import os
from nltk.tokenize import word_tokenize
from nltk.stem.porter import PorterStemmer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.classify import NaiveBayesClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn import svm
from unidecode import unidecode
import time

def BoW():
    # Tokenizing text
    text_tokenized = [word_tokenize(doc) for doc in text]
    # Removing punctuation
    regex = re.compile('[%s]' % re.escape(string.punctuation))
    tokenized_docs_no_punctuation = []
    for review in text_tokenized:
        new_review = []
        for token in review:
            new_token = regex.sub(u'', token)
            if not new_token == u'':
                new_review.append(new_token)
        tokenized_docs_no_punctuation.append(new_review)
    # Stemming and Lemmatizing
    porter = PorterStemmer()
    preprocessed_docs = []
    for doc in tokenized_docs_no_punctuation:
        final_doc = ''
        for word in doc:
            final_doc = final_doc + ' ' + porter.stem(word)
        preprocessed_docs.append(final_doc)
    return preprocessed_docs

print('Reading the training data positive')
text = []
for file in os.listdir("train/pos2/"):
    if file.endswith(".txt"):
        infile = open('train/pos2/' + file, 'r')
        text.append(unidecode(infile.read()))
        infile.close()
num_posTrain=len(text)

print('Reading the training data negative')

for file in os.listdir("train/neg2/"):
    if file.endswith(".txt"):
        infile = open('train/neg2/' + file, 'r')
        text.append(unidecode(infile.read()))
        infile.close()
num_Train=len(text)

print('Defining dictionaries')

preprocessed_docs=BoW()
# Computing TIDF word space
tfidf_vectorizer = TfidfVectorizer(min_df = 1)
trainData = tfidf_vectorizer.fit_transform(preprocessed_docs)

# Reading the test data

print('Reading the test data positive')

text = []
for file in os.listdir("test/pos2/"):
    if file.endswith(".txt"):
        infile = open('test/pos2/' + file, 'r')
        text.append(unidecode(infile.read()))
        infile.close()
num_posTest=len(text)

print('Reading the test data negative')

for file in os.listdir("test/neg2/"):
    if file.endswith(".txt"):
        infile = open('test/neg2/' + file, 'r')
        text.append(unidecode(infile.read()))
        infile.close()
num_Test=len(text)

print('Computing test feature vectors')
start_time = time.time()

preprocessed_docs=BoW()
testData = tfidf_vectorizer.transform(preprocessed_docs)

targetTrain = []
for i in range(0,num_posTrain):
    targetTrain.append(0)
for i in range(0,num_Train-num_posTrain):
    targetTrain.append(1)

targetTest = []
for i in range(0,num_posTest):
    targetTest.append(0)
for i in range(0,num_Test-num_posTest):
    targetTest.append(1)

print('Training and testing on training Naive Bayes')
start_time = time.time()

gnb = GaussianNB()
testData.todense()
y_pred = gnb.fit(trainData.todense(), targetTrain).predict(trainData.todense())
print("Number of mislabeled training points out of a total %d points : %d" % (trainData.shape[0],(targetTrain != y_pred).sum()))

print('Training and testing on test Naive Bayes')

y_pred = gnb.fit(trainData.todense(), targetTrain).predict(testData.todense())
print("Number of mislabeled test points out of a total %d points : %d" % (testData.shape[0],(targetTest != y_pred).sum()))

print('Training and testing on train with SVM')
clf = svm.SVC()
clf.fit(trainData.todense(), targetTrain)
y_pred = clf.predict(trainData.todense())
print("Number of mislabeled test points out of a total %d points : %d" % (trainData.shape[0],(targetTrain != y_pred).sum()))

print('Testing on test with already trained SVM')
y_pred = clf.predict(testData.todense())
print("Number of mislabeled test points out of a total %d points : %d" % (testData.shape[0],(targetTest != y_pred).sum()))

Reading the training data positive
Reading the training data negative
Defining dictionaries
Reading the test data positive
Reading the test data negative
Computing test feature vectors
Training and testing on training Naive Bayes
Number of mislabeled training points out of a total 12 points : 0
Training and testing on test Naive Bayes
Number of mislabeled test points out of a total 12 points : 2
Training and testing on train with SVM
Number of mislabeled test points out of a total 12 points : 0
Testing on test with already trained SVM
Number of mislabeled test points out of a total 12 points : 7


El ejemplo anterior usa uno de los conjuntos de datos disponibles públicos más grandes para el análisis de sentimiento, que
incluye más de 50,000 textos de reseñas de películas, incluida la
anotación de verdad de suelo relacionada con película positiva y negativa
revisiones. Como prueba de concepto, para este ejemplo usamos un subconjunto de
el conjunto de datos que consiste en aproximadamente el 30% de los datos. El código anterior reutiliza parte de los ejemplos anteriores para la limpieza de datos,
lee los datos de entrenamiento y prueba de las carpetas proporcionadas por
autores del conjunto de datos.

Ejemplo 6: código de reconocimiento de análisis de sentimiento binario de Tweets.

Finalmente, veamos otro ejemplo simple de análisis de sentimiento
basado en tweets. Aunque hay algo de trabajo que usa más
tuitear datos
http://www.sananalytics.com/lab/twitter-sentiment/ aquí
se presenta un conjunto simple de tweets que se analizan como en el
ejemplo anterior de críticas de películas. El código principal sigue siendo el mismo
a excepción de la definición de los datos iniciales.

In [25]:
def BoW():
    # Tokenizing text
    text_tokenized = [word_tokenize(doc) for doc in text]
    # Removing punctuation
    regex = re.compile('[%s]' % re.escape(string.punctuation))
    tokenized_docs_no_punctuation = []
    for review in text_tokenized:
        new_review = []
        for token in review:
            new_token = regex.sub(u'', token)
            if not new_token == u'':
                new_review.append(new_token)
        tokenized_docs_no_punctuation.append(new_review)
    # Stemming and Lemmatizing
    porter = PorterStemmer()
    preprocessed_docs = []
    for doc in tokenized_docs_no_punctuation:
        final_doc = ''
        for word in doc:
            final_doc = final_doc + ' ' + porter.stem(word)
        preprocessed_docs.append(final_doc)
    return preprocessed_docs

text = ['I love this sandwich.', 'This is an amazing place!',
        'I feel very good about these beers.',
         'This is my best work.', 'What an awesome view', 'I do not like this restaurant',
         'I am tired of this stuff.', 'I can not deal with this', 'He is my sworn enemy!',
         'My boss is horrible.']

targetTrain = [0,0,0,0,0,1,1,1,1,1]
preprocessed_docs=BoW()
tfidf_vectorizer = TfidfVectorizer(min_df = 1)
trainData = tfidf_vectorizer.fit_transform(preprocessed_docs)

text = ['The beer was good.', 'I do not enjoy my job', 'I aint feeling dandy today',
        'I feel amazing!'
        ,'Gary is a friend of mine.', 'I can not believe I am doing this.']
targetTest = [0,1,1,0,0,1]
preprocessed_docs=BoW()
testData = tfidf_vectorizer.transform(preprocessed_docs)

gnb = GaussianNB()
testData.todense()
y_pred = gnb.fit(trainData.todense(), targetTrain).predict(trainData.todense())
print("Number of mislabeled training points out of a total %d points : %d" % (trainData.shape[0],(targetTrain != y_pred).sum()))

print('Training and testing on test Naive Bayes')

y_pred = gnb.fit(trainData.todense(), targetTrain).predict(testData.todense())
print("Number of mislabeled test points out of a total %d points : %d" % (testData.shape[0],(targetTest != y_pred).sum()))

print('Training and testing on train with SVM')
clf = svm.SVC()
clf.fit(trainData.todense(), targetTrain)
y_pred = clf.predict(trainData.todense())
print("Number of mislabeled test points out of a total %d points : %d" % (trainData.shape[0],(targetTrain != y_pred).sum()))

print('Testing on test with already trained SVM')
y_pred = clf.predict(testData.todense())
print("Number of mislabeled test points out of a total %d points : %d" % (testData.shape[0],(targetTest != y_pred).sum()))

Number of mislabeled training points out of a total 10 points : 0
Training and testing on test Naive Bayes
Number of mislabeled test points out of a total 6 points : 2
Training and testing on train with SVM
Number of mislabeled test points out of a total 10 points : 0
Testing on test with already trained SVM
Number of mislabeled test points out of a total 6 points : 2


En este escenario simple anterior, ambas estrategias de aprendizaje logran las mismas tasas de reconocimiento tanto en el entrenamiento como en los conjuntos de prueba.
Tenga en cuenta que las palabras similares se comparten entre tweets. En la práctica, con ejemplos reales, los tweets incluirán oraciones no estructuradas y
abreviaturas, haciendo el reconocimiento más difícil. 