#Análisis de sentimiento como clasificación de textos

Objetivo: Clasificar reseñas de películas como aquellas que valoran de forma positiva o negativa una película


Ejemplo sencillo de hacer análisis de la opinión como una tarea de clasificación o de categorización de textos. 

Usaremos el corpus que se uso en uno de los primeros estudios acerca de análisis de sentimiento (movie_reviews) (Pang and Lee 2002) 

In [9]:
import nltk

from nltk.corpus import movie_reviews

print movie_reviews.readme()

Sentiment Polarity Dataset Version 2.0
Bo Pang and Lillian Lee

http://www.cs.cornell.edu/people/pabo/movie-review-data/

Distributed with NLTK with permission from the authors.


Introduction

This README v2.0 (June, 2004) for the v2.0 polarity dataset comes from
the URL http://www.cs.cornell.edu/people/pabo/movie-review-data .


What's New -- June, 2004

This dataset represents an enhancement of the review corpus v1.0
described in README v1.1: it contains more reviews, and labels were
created with an improved rating-extraction system.


Citation Info 

This data was first used in Bo Pang and Lillian Lee,
``A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization 
Based on Minimum Cuts'',  Proceedings of the ACL, 2004.

@InProceedings{Pang+Lee:04a,
  author =       {Bo Pang and Lillian Lee},
  title =        {A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts},
  booktitle =    "Proceedings of the ACL",
  year =      

## Inspección del corpus

In [13]:
# Mostrar las categorias: clasificación binaria entre textos positivos y negativos
movie_reviews.categories()

[u'neg', u'pos']

In [15]:
## Obtener los identificadores de fichero - podemos ver los datos en el directorio nltk_data 
## o inspeccionar mediante las utilidades de la clase CorpusReader

files = movie_reviews.fileids()

In [18]:
files[100]  ## Nombre del fichero con el id = 1000 - la carpeta indica la categoría
## Los ficheros con cada review se representan como una lista

u'neg/cv100_12406.txt'

In [26]:
movie_reviews.categories(files[0]) # ¿Cual es la categoría del documento? 
## categories(list) acepta una lista de ids de documentos y obtinene el conjunto de categorias

[u'neg']

In [28]:
movie_reviews.fileids('pos') # Obten todos los documentos etiquetados como una categorias

[u'pos/cv000_29590.txt',
 u'pos/cv001_18431.txt',
 u'pos/cv002_15918.txt',
 u'pos/cv003_11664.txt',
 u'pos/cv004_11636.txt',
 u'pos/cv005_29443.txt',
 u'pos/cv006_15448.txt',
 u'pos/cv007_4968.txt',
 u'pos/cv008_29435.txt',
 u'pos/cv009_29592.txt',
 u'pos/cv010_29198.txt',
 u'pos/cv011_12166.txt',
 u'pos/cv012_29576.txt',
 u'pos/cv013_10159.txt',
 u'pos/cv014_13924.txt',
 u'pos/cv015_29439.txt',
 u'pos/cv016_4659.txt',
 u'pos/cv017_22464.txt',
 u'pos/cv018_20137.txt',
 u'pos/cv019_14482.txt',
 u'pos/cv020_8825.txt',
 u'pos/cv021_15838.txt',
 u'pos/cv022_12864.txt',
 u'pos/cv023_12672.txt',
 u'pos/cv024_6778.txt',
 u'pos/cv025_3108.txt',
 u'pos/cv026_29325.txt',
 u'pos/cv027_25219.txt',
 u'pos/cv028_26746.txt',
 u'pos/cv029_18643.txt',
 u'pos/cv030_21593.txt',
 u'pos/cv031_18452.txt',
 u'pos/cv032_22550.txt',
 u'pos/cv033_24444.txt',
 u'pos/cv034_29647.txt',
 u'pos/cv035_3954.txt',
 u'pos/cv036_16831.txt',
 u'pos/cv037_18510.txt',
 u'pos/cv038_9749.txt',
 u'pos/cv039_6170.txt',
 u'pos/c

In [32]:
## ¿Cuantos ejemplos hay de cada una de las clases? 

print "Ejemplos positivos: %s" % len(movie_reviews.fileids('pos'))
print "Ejemplos negativos: %s" % len(movie_reviews.fileids('neg'))


Ejemplos positivos: 1000
Ejemplos negativos: 1000


## Inspeccionar algun documento

In [36]:
doc = movie_reviews.words(files[0]) # Recordad que la representación por defecto de nltk es como una lista de tokens

print " ".join(doc)

plot : two teen couples go to a church party , drink and then drive . they get into an accident . one of the guys dies , but his girlfriend continues to see him in her life , and has nightmares . what ' s the deal ? watch the movie and " sorta " find out . . . critique : a mind - fuck movie for the teen generation that touches on a very cool idea , but presents it in a very bad package . which is what makes this review an even harder one to write , since i generally applaud films which attempt to break the mold , mess with your head and such ( lost highway & memento ) , but there are good and bad ways of making all types of films , and these folks just didn ' t snag this one correctly . they seem to have taken this pretty neat concept , but executed it terribly . so what are the problems with the movie ? well , its main problem is that it ' s simply too jumbled . it starts off " normal " but then downshifts into this " fantasy " world in which you , as an audience member , have no idea

Inspecciona varios documentos y trata de leer las reviews:
 * ¿Que características tiene el texto respecto a tokenización? 
 * Identifica que tipo de características podrían ser interesantes para la tareas 
 * ¿Son generalizables? 
 * Identifica problemas, pero sin quedarse en lo anecdótico

## Inspeccionar las características del corpus

In [63]:
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
all_words.most_common() # Mostrar la lista de palabras más comunes

[(u',', 77717),
 (u'the', 76529),
 (u'.', 65876),
 (u'a', 38106),
 (u'and', 35576),
 (u'of', 34123),
 (u'to', 31937),
 (u"'", 30585),
 (u'is', 25195),
 (u'in', 21822),
 (u's', 18513),
 (u'"', 17612),
 (u'it', 16107),
 (u'that', 15924),
 (u'-', 15595),
 (u')', 11781),
 (u'(', 11664),
 (u'as', 11378),
 (u'with', 10792),
 (u'for', 9961),
 (u'his', 9587),
 (u'this', 9578),
 (u'film', 9517),
 (u'i', 8889),
 (u'he', 8864),
 (u'but', 8634),
 (u'on', 7385),
 (u'are', 6949),
 (u't', 6410),
 (u'by', 6261),
 (u'be', 6174),
 (u'one', 5852),
 (u'movie', 5771),
 (u'an', 5744),
 (u'who', 5692),
 (u'not', 5577),
 (u'you', 5316),
 (u'from', 4999),
 (u'at', 4986),
 (u'was', 4940),
 (u'have', 4901),
 (u'they', 4825),
 (u'has', 4719),
 (u'her', 4522),
 (u'all', 4373),
 (u'?', 3771),
 (u'there', 3770),
 (u'like', 3690),
 (u'so', 3683),
 (u'out', 3637),
 (u'about', 3523),
 (u'up', 3405),
 (u'more', 3347),
 (u'what', 3322),
 (u'when', 3258),
 (u'which', 3161),
 (u'or', 3148),
 (u'she', 3141),
 (u'their', 312

## Entrenar y evaluar un Clasificador Naive Bayes

In [39]:
import nltk.classify.util

from nltk.classify import NaiveBayesClassifier

### Seleccion de características: Todas las palabras

Inicialmente seleccionamos todos los tokens de un texto como características de nuestro clasificador

In [43]:
# Implementamos la extraccion de características como una función que se aplica a la lista de tokens de un documento
# NLTK nos permite representar las caracxterísticas como un diccionario

def word_feats(words):
    return dict([(word, True) for word in words])

### Generación de los conjuntos de datos

In [45]:
# Conjunto de instancias - documento
negids = movie_reviews.fileids('neg')
posids = movie_reviews.fileids('pos')

# Vectores de características
negfeatures = [(word_feats(movie_reviews.words(fileids=[f])), 'neg') for f in negids]
posfeatures = [(word_feats(movie_reviews.words(fileids=[f])), 'pos') for f in posids]

# Utilizamos 
#  - 3/4 partes de los documentos de cada clase para entrenamiento
#  - 1/4 part para evaluación 
negcutoff = len(negfeatures)*3/4
poscutoff = len(posfeatures)*3/4

trainfeats = negfeatures[:negcutoff] + posfeatures[:poscutoff]
testfeats = negfeatures[negcutoff:] + posfeatures[poscutoff:]
print 'train on %d instances, test on %d instances' % (len(trainfeats), len(testfeats))


train on 1500 instances, test on 500 instances


In [47]:
 ¿Qué pinta tienen los vectores de características?

Object `sticas` not found.


¿Qué pinta tienen los vectores de características

In [53]:
print trainfeats[100]



## Entrenamiento del clasificador

In [56]:
# Usamos el clasificador NaiveBayes de NLTK - Bernouilli NB (binario)

classifier = NaiveBayesClassifier.train(trainfeats)

## Evaluación del clasificador (1)

Como primera aproximación usamos la medida de **Accuracy** - Porcentaje de acierto

### Discusion
* ¿Es adecuada para este dataset? 
* ¿Es adecuada para la tarea de análisis de sentimiento? 
* ¿Y si tuviesemos varias clases de sentimiento: positivo, negativo, neutro?
* ¿Y si los ejemplos estuviesen desbalancesados?

In [59]:
print 'accuracy:', nltk.classify.util.accuracy(classifier, testfeats)

accuracy: 0.728


## Mostrar las características más informativas

In [64]:
classifier.show_most_informative_features(50)

Most Informative Features
             magnificent = True              pos : neg    =     15.0 : 1.0
             outstanding = True              pos : neg    =     13.6 : 1.0
               insulting = True              neg : pos    =     13.0 : 1.0
              vulnerable = True              pos : neg    =     12.3 : 1.0
               ludicrous = True              neg : pos    =     11.8 : 1.0
                  avoids = True              pos : neg    =     11.7 : 1.0
             uninvolving = True              neg : pos    =     11.7 : 1.0
              astounding = True              pos : neg    =     10.3 : 1.0
             fascination = True              pos : neg    =     10.3 : 1.0
                 idiotic = True              neg : pos    =      9.8 : 1.0
                  symbol = True              pos : neg    =      9.7 : 1.0
               affecting = True              pos : neg    =      9.7 : 1.0
               animators = True              pos : neg    =      9.0 : 1.0

## Evaluación del clasificador (2)

Otras medidas de evaluación: Precision, Recall (Cobertura) y su combinación la medida F

\begin{equation*}
Precision = \frac{tp}{tp +fp}
\end{equation*}

\begin{equation*}
Recall = \frac{tp}{tp +fn}
\end{equation*}

F es la media armónica entre la precision y la cobertura

\begin{equation*}
F = 2 · \frac{Precision · Recall}{Precision + Recall}
\end{equation*}


In [70]:
import collections

refsets = collections.defaultdict(set)
testsets = collections.defaultdict(set)


for i, (feats, label) in enumerate(testfeats):
        refsets[label].add(i)
        observed = classifier.classify(feats)
        testsets[observed].add(i)
 
print 'pos precision:', nltk.metrics.precision(refsets['pos'], testsets['pos'])
print 'pos recall:', nltk.metrics.recall(refsets['pos'], testsets['pos'])
print 'pos F-measure:', nltk.metrics.f_measure(refsets['pos'], testsets['pos'])
print 'neg precision:', nltk.metrics.precision(refsets['neg'], testsets['neg'])
print 'neg recall:', nltk.metrics.recall(refsets['neg'], testsets['neg'])
print 'neg F-measure:', nltk.metrics.f_measure(refsets['neg'], testsets['neg'])

pos precision: 0.651595744681
pos recall: 0.98
pos F-measure: 0.782747603834
neg precision: 0.959677419355
neg recall: 0.476
neg F-measure: 0.636363636364


## Discusión

* ¿Resultados?
* ¿Que se puede mejorar? 
 * Construccion del conjunto de entrenamiento/test 
 * Selección de características
 * Procesimiento para elegir características - ¿estamos viendo las características de test?
 * Algoritmos de aprendizaje