# Categorización de textos

## Análisis de sentimiento en reseñas de cine

## Análisis de sentimiento

* __Objetivo__: Clasificar reseñas de películas como aquellas que valoran de forma positiva o negativa una película
* Ejemplo sencillo de hacer análisis de la opinión como una tarea de clasificación o de categorización de documentos.
* __Corpus__:  Movie Reviews (Pang and Lee 2002) - usado en los primeros trabajos de de análisis de sentimiento

## Cargar Movie Reviews

In [None]:
import nltk

from nltk.corpus import movie_reviews

print movie_reviews.readme()

## Inspección del corpus (I)

In [None]:
# Mostrar las categorias: clasificación binaria entre textos positivos y negativos
movie_reviews.categories()

In [None]:
## Obtener los identificadores de fichero - podemos ver los datos en el directorio nltk_data 
## o inspeccionar mediante las utilidades de la clase CorpusReader

files = movie_reviews.fileids()

files

## Inspeccionar un documento 

In [None]:
files[100]  ## Nombre del fichero con el id = 100 - la carpeta indica la categoría
## Los ficheros con cada review se representan como una lista

In [None]:
movie_reviews.categories(files[1300]) # ¿Cual es la categoría del documento? 
## categories(list) acepta una lista de ids de documentos y obtinene el conjunto de categorias

## ¿Cómo están etiquetados?

In [None]:
movie_reviews.fileids('neg') # Obten todos los documentos etiquetados como una categorias

In [None]:
## ¿Cuantos ejemplos hay de cada una de las clases? 

print "Ejemplos positivos: %s" % len(movie_reviews.fileids('pos'))
print "Ejemplos negativos: %s" % len(movie_reviews.fileids('neg'))


## Contenido del documento

In [None]:
doc = movie_reviews.words(files[1]) # Recordad que la representación por defecto de nltk es como una lista de tokens

print " ".join(doc)

## ¿Qué características podemos usar?

Inspecciona varios documentos y trata de leer las reviews:
 * ¿Que características tiene el texto respecto a tokenización? 
 * Identifica que tipo de características podrían ser interesantes para la tareas 
 * ¿Son generalizables? 
 * Identifica problemas, pero sin quedarte en lo anecdótico

## Distribución de frecuencias en el corpus

In [None]:
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
all_words.most_common() # Mostrar la lista de palabras más comunes

## Usando un clasificador Naive Bayes

In [None]:
import nltk.classify.util

from nltk.classify import NaiveBayesClassifier

### 1. Seleccion de características: Todas las palabras

Inicialmente seleccionamos todos los tokens de un texto como características de nuestro clasificador

In [None]:
# Implementamos la extraccion de características como una función que se aplica a la lista de tokens de un documento
# NLTK nos permite representar las caracxterísticas como un diccionario

def word_feats(words):
    return dict([(word, True) for word in words])


word_feats(['How', 'are', 'you','?'])

### 2. Representación de los documentos

In [None]:
# Conjunto de instancias - documento
negids = movie_reviews.fileids('neg')
posids = movie_reviews.fileids('pos')

# Vectores de características
negfeatures = [(word_feats(movie_reviews.words(fileids=[f])), 'neg') 
               for f in negids]
posfeatures = [(word_feats(movie_reviews.words(fileids=[f])), 'pos') 
               for f in posids]

In [None]:
posfeatures[30]

### 3. Generación de conjuntos de train y test

In [None]:
# Utilizamos 
#  - 3/4 partes de los documentos de cada clase para entrenamiento
#  - 1/4 part para evaluación 
negcutoff = len(negfeatures)*3/4
poscutoff = len(posfeatures)*3/4

trainfeats = negfeatures[:negcutoff] + posfeatures[:poscutoff]
testfeats = negfeatures[negcutoff:] + posfeatures[poscutoff:]
print 'train on %d instances, test on %d instances' % (len(trainfeats), 
                                                       len(testfeats))

In [None]:
trainfeats[751][1]

### ¿Qué pinta tienen los vectores de características

In [None]:
print trainfeats[100]

## Entrenamiento del clasificador

In [None]:
# Usamos el clasificador NaiveBayes de NLTK - Bernouilli NB (binario)

classifier = NaiveBayesClassifier.train(trainfeats)

## Evaluación del clasificador (I)

Como primera aproximación usamos la medida de **Accuracy** - Porcentaje de acierto


In [None]:
print 'accuracy:', nltk.classify.util.accuracy(classifier, testfeats)

### Evaluación del clasificador: Discusión

* ¿Es adecuada para este dataset? 
* ¿Es adecuada para la tarea de análisis de sentimiento? 
* ¿Y si tuviesemos varias clases de sentimiento: positivo, negativo, neutro?
* ¿Y si los ejemplos estuviesen desbalanceados?

### Mostrar las características más informativas

In [None]:
classifier.show_most_informative_features(50)

## Evaluación del clasificador (II)

Otras medidas de evaluación: Precision, Recall (Cobertura) y su combinación la medida F

\begin{equation*}
Precision = \frac{tp}{tp +fp}
\end{equation*}

\begin{equation*}
Recall = \frac{tp}{tp +fn}
\end{equation*}


## Evaluación del clasificador (III)

F es la media armónica entre la precision y la cobertura

\begin{equation*}
F = 2 · \frac{Precision · Recall}{Precision + Recall}
\end{equation*}


### Evaluación del clasificador (IV)

In [None]:
import collections

refsets = collections.defaultdict(set)
testsets = collections.defaultdict(set)


for i, (feats, label) in enumerate(testfeats):
        refsets[label].add(i)
        observed = classifier.classify(feats)
        testsets[observed].add(i)
 
print 'pos precision:', nltk.metrics.precision(refsets['pos'], testsets['pos'])
print 'pos recall:', nltk.metrics.recall(refsets['pos'], testsets['pos'])
print 'pos F-measure:', nltk.metrics.f_measure(refsets['pos'], testsets['pos'])
print '---------'
print 'neg precision:', nltk.metrics.precision(refsets['neg'], testsets['neg'])
print 'neg recall:', nltk.metrics.recall(refsets['neg'], testsets['neg'])
print 'neg F-measure:', nltk.metrics.f_measure(refsets['neg'], testsets['neg'])

## Discusión

* ¿Resultados?
* ¿Que se puede mejorar? 
 * Construccion del conjunto de entrenamiento/test 
 * Selección de características
 * Procesimiento para elegir características - ¿estamos viendo las características de test?
 * Algoritmos de aprendizaje