# Reconocimiento de patrones: Clasificación
### Ramón Soto C. [(rsotoc@moviquest.com)](mailto:rsotoc@moviquest.com/)
![ ](images/blank.png)
![agents](images/binary_data_under_a_magnifying.jpg)
[ver en nbviewer](http://nbviewer.ipython.org/github/rsotoc/pattern-recognition/blob/master/Clasificación%20II-B.ipynb)

<hr style="border-width: 2px;">

## Clasificación de textos / Minería de opiniones

La **clasificación de textos** es un área del *procesamiento de lenguaje natural* que ha ganado gran importancia en los útlimos años debido a la *minería de opiniones* (o *análisis de sentimientos*).

La minería de opiniones busca detectar cuál es la postura de una comunidad en torno a un tema en particular: La aceptación a un programa de gobierno, la imagen de un producto, la recepción de una película, etc. La forma tradicional de atacar este problema ha sido a través de encuestas que son costosas, tardadas y tendenciosas: el diseño siempre está sesgado a lo que el encuestador quiere medir y las respuestas están restringidas a las opciones que el evaluado puede elegir y a la solemnidad de la encuesta.

![ ](images/de10.png)

Una mejor opción de conocer la verdadera opinión de la gente es a través de analizar sus opiniones abiertas, por ejemplo a través de sus publicaciones en redes sociales.

![ ](images/social.jpg)

El clasificador bayesiano ingenuo es uno de los métodos más utilizados en análisis de textos. Los dos modelos más utilizados para este fin son el modelo de Bernoulli y el modelo multinomial con pesos tf–idf.

El problema de identificar la polaridad en revisiones de películas es un ejercicio interesante debido a las expresiones utilizadas que suelen ser contradictorias.

![ ](images/deadpoolcritic.png)

<hr style="border-width: 2px;">

### Revisiones de películas

En el siguiente ejercició utilizaremos el clasificador bayesiano ingenuo para clasificar automáticamente la polaridad de revisiones de películas. Emplearemos los datos disponibles en el sitio de Kaggle ([Tutorial](https://www.kaggle.com/c/word2vec-nlp-tutorial/data)). Para preparar los datos utilizaremos la biblioteca [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#) para eliminar posibles etiquetas de *markup* y eliminaemos todos los elementos no alfabéticos. También eliminaremos, del conjunto de palabras representativas, las llamadas [palabras vacías (*stop words*)](https://en.wikipedia.org/wiki/Stop_words).

In [1]:
import nltk
import numpy as np
import pandas as pd
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from nltk.corpus import stopwords 
from bs4 import BeautifulSoup
import os
import re
from IPython.display import display, HTML

os.chdir('Data sets/Movies Reviews')
movies_reviews = pd.read_csv("labeledTrainData.tsv", sep='\t')

# Limpiar los documentos. Conservar sólo plabras (alfabéticas) y pasar a minúsculas
movies_reviews.review = list(map(lambda row: re.sub("[^a-zA-Z]", " ", 
                                BeautifulSoup(row, "lxml").get_text().lower()), 
                                 movies_reviews.review))

# Agregar una columna con la conversión de mensajes a listas de palabras
# Se eliminan las palabras vacías
stops = set(stopwords.words("english"))                  
movies_reviews["words"] = list(map(lambda row: [w for w in row.split() if not w in stops], 
                                   movies_reviews.review))
display(movies_reviews.head())

# Generar un arreglo con los valores de clasificación
Sentiments = np.array([int(x) for x in movies_reviews.sentiment])

Unnamed: 0,id,sentiment,review,words
0,5814_8,1,with all this stuff going down at the moment w...,"[stuff, going, moment, mj, started, listening,..."
1,2381_9,1,the classic war of the worlds by timothy hi...,"[classic, war, worlds, timothy, hines, enterta..."
2,7759_3,0,the film starts with a manager nicholas bell ...,"[film, starts, manager, nicholas, bell, giving..."
3,3630_4,0,it must be assumed that those who praised this...,"[must, assumed, praised, film, greatest, filme..."
4,9495_8,1,superbly trashy and wondrously unpretentious ...,"[superbly, trashy, wondrously, unpretentious, ..."


### Clasificador Bernoulli bayesiano ingenuo

En este ejemplo se utilizará el modelo de Bernoulli del clasificador bayesiano ingenuo. El proceso consiste en generar una bolsa de palabras con las palabras más frecuentes en el documento y utilizar la bolsa como prototipo de vector de características. A continuación, para cada vector de entrada, el vector de características específico contiene un 1 en las posiciones correspondientes a aquellas palabras que están presentes en el documento (sin importar cuantas veces aparece) y un 0 para las palabras de la bolsa que no aparecen en el documento.

![ ](images/bag-of-words-bernoulli.png)


In [2]:
#Regresa el vector de características de un documento
def document_features(document): 
    document_words = set(document) 
    features = []
    for word in word_features:
        if (word in document_words) :
            features.append(1)
        else :
            features.append(0)
    return features

# Construcción de la Bolsa de palabras. Se seleccionan las 4000 palabras más frecuentes
all_words = nltk.FreqDist(w.lower() for wl in movies_reviews.words for w in wl)
print("50 palabras más populares:\n", all_words.most_common(50))
word_features = [ w for (w,f) in all_words.most_common(4000)]

# Vectores de características de la colección de documentos
featuresetsB = [document_features(d) for d in movies_reviews["words"]]

50 palabras más populares:
 [('movie', 44030), ('film', 40146), ('one', 26788), ('like', 20274), ('good', 15140), ('time', 12723), ('even', 12646), ('would', 12436), ('story', 11983), ('really', 11736), ('see', 11474), ('well', 10661), ('much', 9765), ('get', 9310), ('bad', 9301), ('people', 9285), ('also', 9155), ('first', 9061), ('great', 9058), ('made', 8362), ('way', 8026), ('make', 8021), ('could', 7921), ('movies', 7663), ('think', 7296), ('characters', 7154), ('character', 7022), ('watch', 6972), ('two', 6906), ('films', 6887), ('seen', 6679), ('many', 6675), ('life', 6628), ('plot', 6585), ('acting', 6490), ('never', 6484), ('love', 6453), ('little', 6435), ('best', 6414), ('show', 6294), ('know', 6166), ('ever', 5995), ('man', 5982), ('better', 5737), ('end', 5648), ('still', 5622), ('say', 5395), ('scene', 5378), ('scenes', 5207), ('go', 5156)]


In [3]:
# Dividir datos en dos conjuntos: entrenamiento y prueba
cut = 4 * len(featuresetsB) // 5
train_setB, test_setB = featuresetsB[:cut], featuresetsB[cut:]
train_targetsetB, test_targetsetB = Sentiments[:cut], Sentiments[cut:]

# Entrenamiento de un clasificador Bernouilli Bayes ingenuo
#clfB = BernoulliNB(alpha=1.0, class_prior=None, fit_prior=False)
clfB = BernoulliNB()
clfB.fit(train_setB, train_targetsetB)

# Pruebas del clasificador
predictions_trainB = clfB.predict(train_setB)
fails_trainB = np.sum(train_targetsetB  != predictions_trainB)
print("Puntos mal clasificados en el conjunto de entrenamiento: {} de {} ({}%)\n"
      .format(fails_trainB, len(train_setB), 100*fails_trainB/len(train_setB)))
predictions_testB = clfB.predict(test_setB)
fails_testB = np.sum(test_targetsetB  != predictions_testB)
print("Puntos mal clasificados en el conjunto de prueba: {} de {} ({}%)\n"
      .format(fails_testB, len(test_setB), 100*fails_testB/len(test_targetsetB)))

Puntos mal clasificados en el conjunto de entrenamiento: 2705 de 20000 (13.525%)

Puntos mal clasificados en el conjunto de prueba: 756 de 5000 (15.12%)



### Clasificador bayesiano ingenuo multinomial con *tf–idf*

En el siguiente ejemplo, se repite el ejemplo previo, pero utilizando el modelo multinomial con pesos [*tf–idf*](https://en.wikipedia.org/wiki/Tf–idf) del clasificador bayesiano ingenuo. 

#### Pesos tf–idf

tf–idf (*term frequency–inverse document frequency*) es una medida de qué tan importante es una palabra en un documento dentro de una colección o un [corpus](https://en.wikipedia.org/wiki/Text_corpus). La lógica de esta medida es:

* Si una palabra aparece muchas veces en un documento, es importante y debe tener un valor alto. Este es el término *tf*, típicamente calculado como la frecuencia relativa del término en el documento: <br><br>
$$tf = \frac{n_{td}}{n_d}$$<br>
donde $n_{td}$ es la frecuencia de la palabra $t$ en el documento $d$ y $n_d=\mid d\mid$ la cantidad de palabras en el documento.<br><br>

* Si una palabra aparece en muchos documentos, entonces no es discriminante. Debe tener un valor bajo. Este es el término *idf* y su expresión más simple es:<br><br>
$$\text{idf}(t) = log{\frac{N}{1+\text{df}(d,t)}}$$<br>
donde $N=\mid D\mid$ es el número total de documentos en el corpus $D$ y $\text{df}(d,t)=\mid\{d\in D: t\in d\}\mid$ es el número de documentos en el corpus que contienen la palabra $t$.

La biblioteca *sklearn* ofrece diversas maneras de calcular los pesos *tf-idf*.

In [4]:
# Calculo del vector de carcterísticas, utilizano los 4000 términos más importantes
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(stop_words='english', max_features = 4000)
X_data = vectorizer.fit_transform(movies_reviews.review)

cut = 4 * X_data.shape[0] // 5
train_setM, test_setM = X_data[:cut], X_data[cut:]
train_targetsetM, test_targetsetM = Sentiments[:cut], Sentiments[cut:]

# Entrenamiento de un clasificador Multinomial Bayes ingenuo
clfM = MultinomialNB()
clfM.fit(train_setM, train_targetsetM)

# Pruebas del clasificador
predictions_trainM = clfM.predict(train_setM)
fails_trainM = sum(train_targetsetM  != predictions_trainM)
print("Puntos mal clasificados en el conjunto de entrenamiento: {} de {} ({}%)\n"
      .format(fails_trainM, train_setM.shape[0], 100*fails_trainM/train_setM.shape[0]))
predictions_testM = clfM.predict(test_setM)
fails_testM = sum(test_targetsetM  != predictions_testM)
print("Puntos mal clasificados en el conjunto de prueba: {} de {} ({}%)\n"
      .format(fails_testM, test_setM.shape[0], 100*fails_testM/test_setM.shape[0]))

Puntos mal clasificados en el conjunto de entrenamiento: 2702 de 20000 (13.51%)

Puntos mal clasificados en el conjunto de prueba: 776 de 5000 (15.52%)

