![agents](images/header.jpg)
# Análisis semántico
### Ramón Soto C. [(rsotoc@moviquest.com)](mailto:rsotoc@moviquest.com/)
[ver en nbviewer](http://nbviewer.ipython.org/github/rsotoc/nlp/blob/master/6.%20Análisis%20semántico%20II.ipynb)

## Minería de opiniones

La **clasificación de textos** es un área del *procesamiento de lenguaje natural* que ha ganado gran importancia en los útlimos años debido a la *minería de opiniones* (o *análisis de sentimientos*).

La minería de opiniones busca detectar cuál es la postura de una comunidad en torno a un tema en particular: La aceptación a un programa de gobierno, la imagen de un producto, la recepción de una película, etc. La forma tradicional de atacar este problema ha sido a través de encuestas que son costosas, tardadas y tendenciosas: el diseño siempre está sesgado a lo que el encuestador quiere medir y las respuestas están restringidas a las opciones que el evaluado puede elegir y a la solemnidad de la encuesta.

![ ](images/de10.png)

Una mejor opción de conocer la verdadera opinión de la gente es a través de analizar sus opiniones abiertas, por ejemplo a través de sus publicaciones en redes sociales.

![ ](images/social.jpg)

Uno de los métodos más utilizados en análisis de textos es el clasificador bayesiano ingenuo con distribución multinomial (típicamente pesos tf–idf; detalles [aquí](https://github.com/rsotoc/pattern-recognition/blob/master/Clasificaci%C3%B3n%20II.ipynb) y [aquí](https://github.com/rsotoc/pattern-recognition/blob/master/Clasificaci%C3%B3n%20II-B.ipynb)).


### Revisiones de películas


El problema de identificar la polaridad en revisiones de películas es un ejercicio interesante debido a las expresiones utilizadas que suelen ser contradictorias.

![ ](images/deadpoolcritic.png)

En el siguiente ejercicio utilizaremos el clasificador bayesiano ingenuo para clasificar automáticamente la polaridad de revisiones de películas. Emplearemos los datos disponibles en el sitio de Kaggle ([Tutorial](https://www.kaggle.com/c/word2vec-nlp-tutorial/data)). Para preparar los datos utilizaremos la biblioteca [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#) para eliminar posibles etiquetas de *markup* y eliminaremos todos los elementos no alfabéticos. También eliminaremos, del conjunto de palabras representativas, las llamadas [palabras vacías (*stop words*)](https://en.wikipedia.org/wiki/Stop_words).

In [3]:
# Inicializar el ambiente
import numpy as np
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords 
from bs4 import BeautifulSoup
from sklearn import cluster # Auxiliar
from sklearn.naive_bayes import MultinomialNB

from IPython.display import display
%matplotlib inline
np.set_printoptions(precision=2, suppress=True) # Cortar la impresión de decimales a 1

In [4]:
movies_reviews = pd.read_csv("Data sets/Movies Reviews/labeledTrainData.tsv", sep='\t')

# Limpiar los documentos. Conservar sólo plabras (alfabéticas) y pasar a minúsculas
movies_reviews.review = list(map(lambda row: re.sub("[^a-zA-Z]", " ", 
                                BeautifulSoup(row, "lxml").get_text().lower()), 
                                 movies_reviews.review))

# Agregar una columna con la conversión de mensajes a listas de palabras
# Se eliminan las palabras vacías
stops = set(stopwords.words("english"))                  
movies_reviews["words"] = list(map(lambda row: [w for w in row.split() if not w in stops], 
                                   movies_reviews.review))
display(movies_reviews.head())

# Generar un arreglo con los valores de clasificación
Sentiments = np.array([int(x) for x in movies_reviews.sentiment])

Unnamed: 0,id,sentiment,review,words
0,5814_8,1,with all this stuff going down at the moment w...,"[stuff, going, moment, mj, started, listening,..."
1,2381_9,1,the classic war of the worlds by timothy hi...,"[classic, war, worlds, timothy, hines, enterta..."
2,7759_3,0,the film starts with a manager nicholas bell ...,"[film, starts, manager, nicholas, bell, giving..."
3,3630_4,0,it must be assumed that those who praised this...,"[must, assumed, praised, film, greatest, filme..."
4,9495_8,1,superbly trashy and wondrously unpretentious ...,"[superbly, trashy, wondrously, unpretentious, ..."


In [9]:
# Construcción de la Bolsa de palabras. Se seleccionan las 4000 palabras más frecuentes
all_words = nltk.FreqDist(w.lower() for wl in movies_reviews.words for w in wl)
print("Palabras en el corpus:\n", all_words.N())
print("Palabras en el corpus:\n", len(all_words.most_common()))
print("50 palabras más populares:\n", all_words.most_common(50))

Palabras en el corpus:
 2988089
Palabras en el corpus:
 74065
50 palabras más populares:
 [('movie', 44031), ('film', 40147), ('one', 26788), ('like', 20274), ('good', 15140), ('time', 12724), ('even', 12646), ('would', 12436), ('story', 11983), ('really', 11736), ('see', 11475), ('well', 10662), ('much', 9765), ('get', 9310), ('bad', 9301), ('people', 9285), ('also', 9156), ('first', 9061), ('great', 9058), ('made', 8362), ('way', 8026), ('make', 8023), ('could', 7922), ('movies', 7663), ('think', 7296), ('characters', 7154), ('character', 7023), ('watch', 6973), ('two', 6906), ('films', 6887), ('seen', 6679), ('many', 6675), ('life', 6628), ('plot', 6585), ('acting', 6490), ('never', 6484), ('love', 6454), ('little', 6435), ('best', 6416), ('show', 6295), ('know', 6166), ('ever', 5995), ('man', 5982), ('better', 5737), ('end', 5648), ('still', 5623), ('say', 5395), ('scene', 5378), ('scenes', 5207), ('go', 5157)]


In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(stop_words='english')
X_data = vectorizer.fit_transform(movies_reviews.review)

cut = 4 * X_data.shape[0] // 5
train_setM, test_setM = X_data[:cut], X_data[cut:]
train_targetsetM, test_targetsetM = Sentiments[:cut], Sentiments[cut:]

# Entrenamiento de un clasificador Multinomial Bayes ingenuo
clfM = MultinomialNB()
clfM.fit(train_setM, train_targetsetM)

# Pruebas del clasificador
predictions_trainM = clfM.predict(train_setM)
fails_trainM = sum(train_targetsetM  != predictions_trainM)
print("Puntos mal clasificados en el conjunto de entrenamiento: {} de {} ({}%)\n"
      .format(fails_trainM, train_setM.shape[0], 100*fails_trainM/train_setM.shape[0]))
predictions_testM = clfM.predict(test_setM)
fails_testM = sum(test_targetsetM  != predictions_testM)
print("Puntos mal clasificados en el conjunto de prueba: {} de {} ({}%)\n"
      .format(fails_testM, test_setM.shape[0], 100*fails_testM/test_setM.shape[0]))

Puntos mal clasificados en el conjunto de entrenamiento: 1601 de 20000 (8.005%)

Puntos mal clasificados en el conjunto de prueba: 713 de 5000 (14.26%)



<hr style="border-width: 3px;">

### Tarea 9

* Realice pruebas de los clasificadores bayesianos ingenuos sobre sus datos.

**Fecha de entrega**: Martes 21 de marzo.