# Reconocimiento de patrones: Clasificación
### Ramón Soto C. [(rsotoc@moviquest.com)](mailto:rsotoc@moviquest.com/)
![ ](images/blank.png)
![agents](images/binary_data_under_a_magnifying.jpg)
[ver en nbviewer](http://nbviewer.ipython.org/github/rsotoc/pattern-recognition/blob/master/Clasificación%20II.ipynb)

<hr style="border-width: 2px;">

## Clasificación de textos / Minería de opiniones

La **clasificación de textos** es un área del *procesamiento de lenguaje natural* que ha ganado gran importancia en los útlimos años debido a la *minería de opiniones* (o *análisis de sentimientos*).

La minería de opiniones busca detectar cuál es la postura de una comunidad en torno a un tema en particular: La aceptación a un programa de gobierno, la imagen de un producto, la recepción de una película, etc. La forma tradicional de atacar este problema ha sido a través de encuestas que son costosas, tardadas y tendenciosas: el diseño siempre está sesgado a lo que el encuestador quiere medir y las respuestas están restringidas a las opciones que el evaluado puede elegir y a la solemnidad de la encuesta.

![ ](images/de10.png)

Una mejor opción de concoer la verdadera opinión de la gente es a través de analizar sus opiniones abiertas, por ejemplo a través de sus publicaciones en redes sociales.

![ ](images/social.jpg)

El clasificador bayesiano ingenuo es uno de los métodos más utilizados en análisis de textos. Los dos modelos más utilizados para este fin son el modelo de Bernoulli y el modelo multinomial con pesos tf–idf.

El problema de identificar la polaridad en revisiones de películas es un ejercicio interesante debido a las expresiones utilizadas que suelen ser contradictorias.

![ ](images/deadpoolcritic.png)

En el siguiente ejercició utilizaremos el clasificador bayesiano ingenuo para clasificar automáticamente la polaridad de revisiones de películas.

In [1]:
import nltk
import numpy as np
import pandas as pd
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from bs4 import BeautifulSoup
import os
import re

os.chdir('Data sets/Movies Reviews')
movies_reviews = pd.read_csv("labeledTrainData.tsv", sep='\t')
# Limpiar los documentos
movies_reviews.review = list(map(lambda row: re.sub("[^a-zA-Z]", " ", 
                                BeautifulSoup(row, "lxml").get_text().lower()), 
                                 movies_reviews.review))
# Agregar una columna con la conversión de mensajes a listas de palabras
movies_reviews["words"] = list(map(lambda row: row.split(), movies_reviews.review))

### Ejemplo simple de clasificador Bernoulli bayesiano ingenuo



In [None]:
#Regresa el vector de características de un documento
def document_features(document): 
    document_words = set(document) 
    features = []
    for word in word_features:
        if (word in document_words) :
            features.append(1)
        else :
            features.append(0)
    return features

# Construcción de la Bolsa de palabras
all_words = nltk.FreqDist(w.lower() for wl in dfBernoulli.words for w in wl)
word_features = list(all_words)[:4000]

# Vectores de características de la colección de documentos
featuresets = [document_features(d) for d in dfBernoulli["words"]]

train_set, test_set = featuresets[100:], featuresets[:100]
#targetsets = [c for (d,c) in documents]
targetsets = np.array([int(x) for x in dfBernoulli.sentiment])
train_targetset, test_targetset = targetsets[100:], targetsets[:100]

# Entrenamiento de un clasificador Bernouilli Bayes ingenuo
clfB = BernoulliNB(alpha=1.0, class_prior=None, fit_prior=False)
clfB.fit(train_set, train_targetset)

# Pruebas del clasificador
class_predict_train = clfB.predict(train_set)
fails_train = np.sum(train_targetset  != class_predict_train)
print("Puntos mal clasificados en el conjunto de entrenamiento: {} de {} ({}%)\n"
      .format(fails_train, len(train_set), 100*fails_train/len(train_set)))
class_predict_test = clfB.predict(test_set)
fails_test = np.sum(test_targetset  != class_predict_test)
print("Puntos mal clasificados en el conjunto de prueba: {} de {} ({}%)\n"
      .format(fails_test, len(test_set), 100*fails_test/len(test_targetset)))

### Ejemplo simple de clasificador bayesiano ingenuo multinomial con *tf–idf*

En el siguiente ejemplo, se repite el ejemplo previo, pero utilizando el modelo multinomial con pesos [*tf–idf*](https://en.wikipedia.org/wiki/Tf–idf) del clasificador bayesiano ingenuo. 

#### tf–idf


In [None]:

from sklearn.feature_extraction.text import TfidfVectorizer
input_vectorizer = TfidfVectorizer(stop_words='english', min_df=3, max_df = 0.8)

Sentiments = np.array([int(x) for x in df.sentiment])
X_data = input_vectorizer.fit_transform(df.review)

cut = 4 * X_data.shape[0] // 5
train = X_data[:cut]
train_sent = Sentiments[:cut]
test = X_data[cut:]
test_sent = Sentiments[cut:]


clfM = MultinomialNB()

probas = clfM.fit(train, train_sent).predict(train)
correct_predictions = [train_sent[i]==probas[i] for i in range(0,len(probas)-1)]
likelihood = sum(correct_predictions)*100.0/len(probas)
print(sum(correct_predictions), len(probas), likelihood)

probas2 = clfM.predict(test)
correct_predictions2 = [test_sent[i]==probas2[i] for i in range(0,len(probas2)-1)]
likelihood2 = sum(correct_predictions2)*100.0/len(probas2)
print(sum(correct_predictions2), len(probas2), likelihood2)

<hr style="border-width: 3px;">

### Tarea 6

* Realice pruebas de los clasificadores bayesianos ingenuos sobre sus datos.

**Fecha de entrega**: Martes 4 de octubre.