# Reconocimiento de patrones: Clasificación
### Ramón Soto C. [(rsotoc@moviquest.com)](mailto:rsotoc@moviquest.com/)
![ ](images/blank.png)
![agents](images/binary_data_under_a_magnifying.jpg)
[ver en nbviewer](http://nbviewer.ipython.org/github/rsotoc/pattern-recognition/blob/master/Clasificación%20V.ipynb)

## Técnicas de clasificación: Reconocimiento sintáctico


### Reconocimiento estructural de patrones

El **reconocimiento de patrones estructural** hace énfasis en la integración de patrones simples para conformar patrones complejos. En este enfoque, un patrón es descrito mediante una estructura jerárquica de componentes, como en el caso de la estructura sintáctica de los lenguajes formales:

![](images/structural.jpg)<br>

Existen dos formas principales de reconocimiento estructural de patrones: la **estructura de pareo** (*matching structure*) y el **análisis sintáctico**. El método de apareamiento consiste básicamente en *aparear* los elementos a clasificar con *moldes* conocidos. En muchos casos, este método puede expresarse de manera sintáctica. 

![](images/matching.jpg)

El enfoque sintáctico, por su parte, realiza el reconocimiento de patrones a partir de una determinada *sintaxis*, lo que permite utilizar las herramientas de la teoría formal de lenguajes. 

### Gramáticas formales

Una gramática (formal) se define como la tupla

$$G = (N,\Sigma,P,S)$$

donde

* $N$ es un conjunto finito de símbolos  no-terminales (variables a substituir)
* $\Sigma$ es un conjunto finito de símbolos terminales llamado el *alfabeto* o *vocabulario*
* $S\in N$ es el *símbolo inicial*, es decir el símbolo no terminal desde donde se inicia la construcción de una *'frase'*
* $P$ es un conjunto finito de *reglas de producción*, es decir, reglas que definen cómo pueden irse reemplazando los símbolos no-terminales, desde el símbolo inicial, hasta tener una frase terminada.

La forma de las reglas de producción determinan el tipo de gramática y el correspondiente autómata. 

Cada gramática está asociado a un tipo de *autómata* que sería, en realidad, el responsable de reconocer los patrones generables por la gramática correspondiente.

Un lenguaje, es un conjunto de secuencias o cadenas sobre $\Sigma$: $L(G) \subseteq \Sigma^*$. Cuando se aplica la teoría de gramáticas formales al lenguaje natural, el vocabulario es usualmente un conjunto de letras, signos, palabras, morfemas o sonidos.

Los tipos principales de autómata están definidos mediante la jerarquía de Chomsky:

Gramática | Lenguaje | Autómata
-| 
Tipo 0 | Recursivamente enumerable |	Máquina de Turing
Tipo 1 | Dependiente del contexto | Autómata linealmente acotado
Tipo 2 | Independiente del contexto | Autómata de pila
Tipo 3 | Regular | Autómata finito

#### Gramáticas no lingüísticas

Aunque la formulación de gramáticas proviene del contexto lingüístico, es posible desarrollar gramáticas para representar patrones en otros contextos. Consideremos por ejemplo la siguiente gramática regular:

![](images/syntactic_1.png)<br>

En esta gramática, los elementos del alfabeto son segmentos de rectángulos. A partir de las reglas en $P$ podemos construir rectángulos como los siguientes:<br>

![](images/syntactic_2.png)

Dada esta gramática podemos construir un autómata finito capaz de reconocer rectángulos en una imagen. 

Un problema que ha llamado intensamente la atención de la industria es el reconocimiento automático de placas vehiculares. Este es un problema relativamente simple de resolver en ambientes controlados, sin embargo, es un problema complicado cauando deben reconocerse placas de diferentes tipos en un contexto abierto, posiblemente con visibiidad limitada:

![](images/plates.jpg)

Un paso importante en la resolución de este problema es identificar la *estructura* en los componentes de una placa: Una placa de auto es un rectángulo (el símbolo inicial $S$):

![](images/plates_1.jpg)

Pero no cualquier rectángulo "*genera*" una placa:

![](images/plates_2.jpg)



Una etapa posterior incluiría evaluar las posibles producciones a partir del rectángulo, capaces de conducir a la generación de una placa válida:

![](images/plates_3.jpg)

### Procesamiento de lenguaje natural

#### Gramáticas libres de contexto

La ubicación de los lenguajes naturales en la jerarquía de Chomsky (o qué tanto pueden ser representados en ella) es un tema de discusión abierto. El uso de los diferentes tipos de gramáticas para análisis de lenguajes naturales ha sido limitado, siendo las gramáticas más utilizadas las gramáticas libres de contexto.

Considérese la siguiente gramática:

In [None]:
import nltk
from nltk.parse.generate import generate
from nltk import CFG
from IPython.display import Image, display  

grammar = nltk.CFG.fromstring("""
    S -> NP VP
    NP -> Det N | NP PP | N
    VP -> V NP | VP PP | V
    PP -> P NP | P
    Det -> 'el' | 'los' | 'la'
    N -> 'hombre' | 'parque' | 'perro' | 'amigos' | 'cafe' | 'leche'
    V -> 'duerme' | 'mira' | 'toma' | 'camina' | 'toman'
    P -> 'en' | 'con' |'solo'
    """)

parser = nltk.ChartParser(grammar)
print(grammar)

Esta gramática permite generar frases como $\textrm{"el perro duerme"}$, cuyo árbol de generación por $G$
es:

In [None]:
X = "el perro duerme"
print("Árbol de generación de la cadena \"{}\"".format(X))
for tree in parser.parse(X.split()):
    display(tree) # tree.draw() arroja una ventana emergente

o $\textrm{"los amigos toman cafe"}$

In [None]:
X = "los amigos toman cafe"
print("Generación de la cadena \"{}\"".format(X))
for tree in parser.parse(X.split()):
    display(tree)    

o $\textrm{"el perro duerme en el parque"}$

In [None]:
X = "el perro duerme en el parque"
print("Generación de la cadena \"{}\"".format(X))
for tree in parser.parse(X.split()):
    display(tree)    

Y muchas otras frases:

In [None]:
sent_to_print = 30
frases = generate(grammar)

for sentence in generate(grammar, n=sent_to_print):
    print(' '.join(sentence))

Muchas de esta frases, aunque son sintácticamente correctas, no tienen un significado "correcto". 

Las gramáticas libres de contexto (y los correspondientes autómatas finitos / de pila) ofrecen un mecanismo poderoso para la generación (y reconocimiento) de patrones, particularmente útiles en el reconocimiento de patrones en lenguajes, por ejemplo para la implementación de compiladores (específicamente en la etapa de *parsing* o análisis sintáctico).

#### Gramáticas sensibles al contexto

Las gramáticas sensibles al contexto ofrecen una mayor capacidad de discriminación al establecer condiciones de contexto para la aplicación de reglas. Las reglas, en este caso, contienen cadenas en ambos lados, del tipo $\alpha\textrm{A}\beta \to \alpha \gamma \beta$ donde $\textrm{A} \in N$, $\alpha, \beta \in (N \cup \Sigma)^*$ y $\gamma \in (N \cup \Sigma)^+$. En la siguiente versión modificada de nuestra gramática, hemos reemplazado la regla $\textrm{NP} \to \textrm{N}$ por las reglas $\textrm{'la' NP} \to \textrm{NF}$ y $\textrm{'la' NP} \to \textrm{NF}$ y hemos distinguido entre nombres femenino ($\textrm{NF}$) y masculino ($\textrm{NM}$). 

    P = {
        S -> NP VP
        NP -> Det N
        NP -> NP PP
        'la' NP -> NF
        'el' NP -> NM
        VP -> V NP
        VP -> VP PP
        VP -> V
        PP -> P NP
        PP -> P
        Det -> 'el'
        Det -> 'los'
        Det -> 'la'S -> NP VP
        NM -> 'hombre'
        NM -> 'parque'
        NM -> 'perro'
        NM -> 'amigos'
        NM -> 'cafe'
        NF -> 'leche'
        V -> 'duerme'
        V -> 'mira'
        V -> 'toma'
        V -> 'camina'
        V -> 'toman'
        P -> 'en'
        P -> 'con'
        P -> 'solo'
    }
    
Estos cambios evitarían la generación de frases como "el hombre duerme <u>la hombre</u>", "el hombre duerme <u>la parque</u>", "el hombre duerme <u>la perro</u>", "el hombre duerme <u>la cafe</u>" y "el hombre duerme el hombre en <u>el leche</u>". Sin embargo, tratar de reflejar el contexto en frases generadas en un lenguaje natural mediante reglas rebasa la capacidad de las gramáticas convencionales. Considérese el siguiente ejemplo clásico en un diálogo de *Groucho Marx* (*Animal Crackers*, 1930):

> *One morning I shot an elephant in my pajamas. <br>
> How he got in my pajamas, I don't know.* ![](images/groucho.jpg)

Aunque la situación es utilizada como broma, particularmente al ser forzada por Groucho Marx, la estructura es sintácticamente correcta, lo cual es claro si modificamos ligeramente la cita, de la siguiente manera:

> I shot an elephant in my yard.

Una gramática (de juguete) capaz de generar estas frases sería:

In [None]:
groucho_grammar = nltk.CFG.fromstring("""
    S -> NP VP
    PP -> P NP 
    NP -> Det N | Det N PP | 'I'
    VP -> V NP | VP PP 
    Det -> 'an' | 'my'
    N -> 'elephant' | 'pajamas' | 'yard'
    V -> 'shot'
    P -> 'con' | 'in'
    """)

print(groucho_grammar)

Esta gramática genera dos árboles en cada caso. Así para la frase "*I shot an elephant in my yard*", los árboles de generación serían:

![](images/groucho_elephant.png)

El árbol de la izquierda tiene al mismo nivel el verbo ('*shot*') y la preposición ('*in*'); describe la realización de la acción en un sitio "SHOT ... IN...": "*Le disparé a un elefante cuando yo estaba en mi patio*". El árbol de la derecha pone a la misma altura el objeto nominal ('*an elephant*') y a la frase preposicional ('*in my yard*'): "*Le disparé a un elefante que estaba en mi patio*". Ambas frases son sintácticamente y semánticamente correctas.

Los árboles de generación para la frase original, "*I shot an elephant in my pajamas*", son:

In [None]:
string = "I shot an elephant in my pajamas"

groucho_parser = nltk.ChartParser(groucho_grammar)
for tree in groucho_parser.parse(string.split()):
    display(tree)

En la gramática de prueba, la frase $\textrm{"el hombre con el perro camina en el parque con amigos"}$ también tiene asociados dos árboles de generación:

In [None]:
X = "el hombre con el perro camina en el parque con amigos"
print("Generación de la cadena \"{}\"".format(X))
for tree in parser.parse(X.split()):
    display(tree)    

Aunque las gramáticas sensibles al contexto ofrecen una manera elegante y natural de extender las gramáticas regulares para tomar en consideración el contexto en una producción, en la práctica son de poca utilidad para lidiar con problemas de lenguaje natural. Entre las limitaciones de las gramáticas sensibles al contexto destaca su complejidad computacional, particularmente su caracter [PSPACE-complete](https://en.wikipedia.org/wiki/PSPACE-complete) (también, es notable la rapidez con que una gramática sensible al contexto se vuelve difícil de describir y la tasa en que aumenta la cantidad de reglas conforme se agregan características del contexto). Por ello, se han propuesto otras formas de gramáticas que, sin poseer el poder de una gramática sensible al contexto, son capaces de describir elementos del contexto en una frase. Destacan entre tales gramáticas las gramáticas probabilísticas.


### Naturaleza probabilística del lenguaje natural

Una característica de los lenguajes naturales es que las frases que los componen no tienen una distribución uniforme. Por el contrario, existen construcciones que son más comunes que otras. De esta manera, aunque las frases $f_1 = \textrm{"el perro camina"}$ y $f_2 = \textrm{"el perro vuela"}$ son ambas correctas sintácticamente, es más probable encontrar la frase $f_1$ que la frase $f_2$ en un texto arbitrario. 

Esta característica estadística es modelada mediante las llamadas "*gramáticas libres de contexto probabilísticas*". Una **Gramática libre de contexto probabilística** (o estocástica) es una **Gramática libre de contexto** cuyas reglas de producción tienen asignadas probabilidades de aplicación, de manera que la suma de probabilidades para todas las reglas que expanden el mismo símbolo no terminal es uno. Considérese la siguiente variante de nuestra gramática ejemplo

![](images/pcfg.png)

Estas reglas generan un lenguaje centrado en el tema de $\textrm{"hombre o perro"}$ en el $\textrm{"parque"}$.

Aunque las gramáticas libres de contexto probabilísticas resultan más adecuadas para generar y reconocer lenguajes naturales que las gramáticas no probabilísticas, aún carecen del poder para capturar las dependencias típicas de los lenguajes naturales. Sin embargo, estas gramáticas ofrecen un avance y nuevas ideas de cómo abordar el problema de identificación del contexto en una frase.

### N-gramas y el enfoque probabilístico

En la película "*Take The Money And Run*", Virgil Starkwell (Woody Allen) intenta asaltar un banco y entrega al cajero una nota con el mensaje "*Please put fifty thousand dollars into this bag and act natural as I am pointing a gun at you*" que es leída por los empleados del banco como "*Please put fifty thousand dollars into this bag and ABT natural as I am pointing a GUB at you*". 

[![](images/i_have_a_gub.jpg)](https://www.youtube.com/watch?v=pEm0zi8QrpA)

Sin embargo, es obvio que la frase "*I am pointing a GUN at you*" es más probable que la frase "*I am pointing a GUB at you*", por lo que en la vida real no nos cuesta trabajo reconocer la frase correcta. Para modelar esta capacidad de predecir la ocurrencia de una palabra en una frase se utilizan **Modelos de lenguajes** que asignan probabilidades a las secuencias de palabras que pueden conformar un texto. 

El modelo más simple es el **Modelo de N-Gramas**". Este modelo asume que la probabiliad de ocurrencia de una palabra está determinada por las palabras recientes; lo que se conoce como la **suposición de Markov**. De manera que para el cálculo de estas probabilidades basta contabilizar la ocurrencia de secuencias de palabras de longitud definida. Un **$N$-Grama** es una secuencia de $N$ palabras. Así, por ejemplo, un 2-grama (o bigrama) es una secuencia de 2 palabras, como "*el hombre*", "*hombre camina*", "*camina en*", "*en el*", "*el parque*". Un 3-grama (trigrama) es una secuencia de tres palabras, como "*el hombre camina*", "*hombre camina en*", "*camina en el*", "*en el parque*". 

In [None]:
from nltk import word_tokenize
from nltk.util import ngrams
from collections import Counter

text = "los amigos toman cafe. el perro duerme en el parque. el hombre con el perro \
camina en el parque con amigos."

token = nltk.word_tokenize(text)
bigrams = ngrams(token,2)
trigrams = ngrams(token,3)
fourgrams = ngrams(token,4)
fivegrams = ngrams(token,5)

bigrams_list = list(bigrams)
counter_bigrams = Counter(bigrams_list)

print (bigrams_list)
print (counter_bigrams)

In [None]:
import numpy as np
import pandas as pd
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from nltk.corpus import stopwords 
from bs4 import BeautifulSoup
import os
import re
from IPython.display import display, HTML

os.chdir('Data sets/Movies Reviews')
movies_reviews = pd.read_csv("labeledTrainData.tsv", sep='\t')

# Limpiar los documentos. Conservar sólo plabras (alfabéticas) y pasar a minúsculas
movies_reviews.review = list(map(lambda row: re.sub("[^a-zA-Z]", " ", 
                                BeautifulSoup(row, "lxml").get_text().lower()), 
                                 movies_reviews.review))

# Agregar una columna con la conversión de mensajes a listas de palabras
# Se eliminan las palabras vacías
stops = set(stopwords.words("english"))                  

movies_reviews["words"] = list(map(lambda row: [w for w in row.split() if not w in stops], 
                                   movies_reviews.review))

movies_reviews["bigrams"] = list(map(lambda row: list(ngrams(word_tokenize(row),2)), 
                                   movies_reviews.review))

movies_reviews["bigrams_sw"] = list(map(lambda row: list(ngrams(row,2)), 
                                   movies_reviews.words))


display(movies_reviews.head())

In [None]:
# Generar un arreglo con los valores de clasificación
Sentiments = np.array([int(x) for x in movies_reviews.sentiment])

In [None]:
# Construcción de la Bolsa de palabras. Se seleccionan las 4000 palabras más frecuentes
all_words = nltk.FreqDist(w.lower() for wl in movies_reviews.words for w in wl)
print("50 palabras más populares:\n", all_words.most_common(50))

# Construcción de la Bolsa de palabras. Se seleccionan las 4000 palabras más frecuentes
all_bigrams = nltk.FreqDist(w for wl in movies_reviews.bigrams for w in wl)
print("50 palabras más populares:\n", all_bigrams.most_common(50))

# Construcción de la Bolsa de palabras. Se seleccionan las 4000 palabras más frecuentes
all_bigrams_sw = nltk.FreqDist(w for wl in movies_reviews.bigrams_sw for w in wl)
print("50 palabras más populares:\n", all_bigrams_sw.most_common(50))

In [None]:
word_features = [ w for (w,f) in all_words.most_common(4000)]

bigrams_features = [ w for (w,f) in all_bigrams.most_common(4000)]

bigrams_sw_features = [ w for (w,f) in all_bigrams_sw.most_common(4000)]

In [None]:
#Regresa el vector de características de un documento
def document_features(document, global_features): 
    document_words = set(document) 
    features = []
    for word in global_features:
        if (word in document_words) :
            features.append(1)
        else :
            features.append(0)
    return features


# Vectores de características de la colección de documentos
featuresets_words = [
    document_features(d, word_features) for d in movies_reviews["words"]]
featuresets_bigrams = [
    document_features(d, bigrams_features) for d in movies_reviews["bigrams"]]
featuresets_bigrams_sw = [
    document_features(d, bigrams_sw_features) for d in movies_reviews["bigrams_sw"]]

In [None]:
for i in range(20):
    print(sum(x > 0 for x in featuresets_words[i]), 
          sum(x > 0 for x in featuresets_bigrams[i]),
          sum(x > 0 for x in featuresets_bigrams_sw[i]))

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import BernoulliNB, MultinomialNB

# Dividir datos en dos conjuntos: entrenamiento y prueba
words_train, words_test, wy_train, wy_test = train_test_split(
    featuresets_words, Sentiments, test_size=0.2)

# Entrenamiento de un clasificador Bernouilli Bayes ingenuo
#clfB = BernoulliNB(alpha=1.0, class_prior=None, fit_prior=False)
clfBw = BernoulliNB()
clfBw.fit(words_train, wy_train)

# Pruebas del clasificador
predictions_train_words = clfBw.predict(words_train)
fails_train_words = np.sum(wy_train != predictions_train_words)
print("Puntos mal clasificados en el conjunto de entrenamiento: {} de {} ({}%)\n"
      .format(fails_train_words, len(words_train), 100*fails_train_words/len(words_train)))
predictions_test_words = clfBw.predict(words_test)
fails_test_words = np.sum(wy_test != predictions_test_words)
print("Puntos mal clasificados en el conjunto de prueba: {} de {} ({}%)\n"
      .format(fails_test_words, len(words_test), 100*fails_test_words/len(words_test)))

In [None]:
# Dividir datos en dos conjuntos: entrenamiento y prueba
bigrams_train, bigrams_test, biy_train, biy_test = train_test_split(
    featuresets_bigrams, Sentiments, test_size=0.2)

# Entrenamiento de un clasificador Bernouilli Bayes ingenuo
#clfB = BernoulliNB(alpha=1.0, class_prior=None, fit_prior=False)
clfBbi = BernoulliNB()
clfBbi.fit(bigrams_train, biy_train)

# Pruebas del clasificador
predictions_train_bigrams = clfBbi.predict(bigrams_train)
fails_train_bigrams = np.sum(biy_train != predictions_train_bigrams)
print("Puntos mal clasificados en el conjunto de entrenamiento: {} de {} ({}%)\n"
      .format(fails_train_bigrams, len(bigrams_train), 
              100*fails_train_bigrams/len(bigrams_train)))
predictions_test_bigrams = clfBbi.predict(bigrams_test)
fails_test_bigrams = np.sum(biy_test != predictions_test_bigrams)
print("Puntos mal clasificados en el conjunto de prueba: {} de {} ({}%)\n"
      .format(fails_test_bigrams, len(bigrams_test), 
              100*fails_test_bigrams/len(bigrams_test)))

In [None]:
# Dividir datos en dos conjuntos: entrenamiento y prueba
bigrams_sw_train, bigrams_sw_test, biswy_train, biswy_test = train_test_split(
    featuresets_bigrams_sw, Sentiments, test_size=0.2)

# Entrenamiento de un clasificador Bernouilli Bayes ingenuo
#clfB = BernoulliNB(alpha=1.0, class_prior=None, fit_prior=False)
clfBbisw = BernoulliNB()
clfBbisw.fit(bigrams_sw_train, biswy_train)

# Pruebas del clasificador
predictions_train_bigrams_sw = clfBbisw.predict(bigrams_sw_train)
fails_train_bigrams_sw = np.sum(biswy_train != predictions_train_bigrams_sw)
print("Puntos mal clasificados en el conjunto de entrenamiento: {} de {} ({}%)\n"
      .format(fails_train_bigrams_sw, len(bigrams_sw_train), 
              100*fails_train_bigrams_sw/len(bigrams_sw_train)))
predictions_test_bigrams_sw = clfBbisw.predict(bigrams_sw_test)
fails_test_bigrams_sw = np.sum(biswy_test != predictions_test_bigrams_sw)
print("Puntos mal clasificados en el conjunto de prueba: {} de {} ({}%)\n"
      .format(fails_test_bigrams_sw, len(bigrams_sw_test), 
              100*fails_test_bigrams_sw/len(bigrams_sw_test)))

In [None]:
movies_reviews = pd.read_csv("labeledTrainData.tsv", sep='\t')

# Limpiar los documentos. Conservar sólo plabras (alfabéticas) y pasar a minúsculas
movies_reviews.review = list(map(lambda row: re.sub("[^a-zA-Z]", " ", 
                                BeautifulSoup(row, "lxml").get_text().lower()), 
                                 movies_reviews.review))

# Agregar una columna con la conversión de mensajes a listas de palabras
# Sin eliminar las palabras vacías
movies_reviews["words"] = list(map(lambda row: row.split(), movies_reviews.review))

most_common_words = nltk.FreqDist(w for wl in movies_reviews.words for w in wl)
print("30 palabras más populares:\n", most_common_words.most_common(30))

'movie' es la primera palabra de interés y tiene una frecuencia de 44031... eliminamos las primeras 15 palabras.... y volvemos a crear los bigramas

In [None]:
my_stop_words = [ w for (w,f) in most_common_words.most_common(15)]

movies_reviews["words"] = list(map(lambda row: 
                                   [w for w in row.split() if not w in my_stop_words], 
                                   movies_reviews.review))

movies_reviews["bigrams"] = list(map(lambda row: list(ngrams(row,2)), 
                                   movies_reviews.words))

movies_reviews["trigrams"] = list(map(lambda row: list(ngrams(row,3)), 
                                   movies_reviews.words))

display(movies_reviews.head())

In [None]:
# Construcción de la Bolsa de palabras. Se seleccionan las 4000 palabras más frecuentes
bigrams = nltk.FreqDist(w for wl in movies_reviews.bigrams for w in wl)
bigrams_features = [ w for (w,f) in bigrams.most_common(4000)]
featuresets_bigrams = [
    document_features(d, bigrams_features) for d in movies_reviews["bigrams"]]

trigrams = nltk.FreqDist(w for wl in movies_reviews.trigrams for w in wl)
trigrams_features = [ w for (w,f) in trigrams.most_common(4000)]
featuresets_trigrams = [
    document_features(d, trigrams_features) for d in movies_reviews["trigrams"]]

In [None]:
# Dividir datos en dos conjuntos: entrenamiento y prueba
bigrams_train, bigrams_test, biy_train, biy_test = train_test_split(
    featuresets_bigrams, Sentiments, test_size=0.2)

# Entrenamiento de un clasificador Bernouilli Bayes ingenuo
#clfB = BernoulliNB(alpha=1.0, class_prior=None, fit_prior=False)
clfBbi = BernoulliNB()
clfBbi.fit(bigrams_train, biy_train)

# Pruebas del clasificador
predictions_train_bigrams = clfBbi.predict(bigrams_train)
fails_train_bigrams = np.sum(biy_train != predictions_train_bigrams)
print("Puntos mal clasificados en el conjunto de entrenamiento: {} de {} ({}%)\n"
      .format(fails_train_bigrams, len(bigrams_train), 
              100*fails_train_bigrams/len(bigrams_train)))
predictions_test_bigrams = clfBbi.predict(bigrams_test)
fails_test_bigrams = np.sum(biy_test != predictions_test_bigrams)
print("Puntos mal clasificados en el conjunto de prueba: {} de {} ({}%)\n"
      .format(fails_test_bigrams, len(bigrams_test), 
              100*fails_test_bigrams/len(bigrams_test)))

In [None]:
# ------------------------------------------------------------------
movies_reviews = pd.read_csv("labeledTrainData.tsv", sep='\t')

# Limpiar los documentos. Conservar sólo plabras (alfabéticas) y pasar a minúsculas
movies_reviews.review = list(map(lambda row: re.sub("[^a-zA-Z]", " ", 
                                BeautifulSoup(row, "lxml").get_text().lower()), 
                                 movies_reviews.review))

# Agregar una columna con la conversión de mensajes a listas de palabras
# Sin eliminar las palabras vacías
movies_reviews["words"] = list(map(lambda row: row.split(), movies_reviews.review))

# Agregar una columna con la conversión de mensajes a listas de palabras
# Se eliminan las palabras vacías
stops = set(stopwords.words("english"))                  

movies_reviews["words"] = list(map(lambda row: [w for w in row.split() if not w in stops], 
                                   movies_reviews.review))

movies_reviews["bigrams"] = list(map(lambda row: list(ngrams(row,2)), 
                                   movies_reviews.words))

movies_reviews["trigrams"] = list(map(lambda row: list(ngrams(row,3)), 
                                   movies_reviews.words))


words_frq = nltk.FreqDist(w.lower() for wl in movies_reviews.words for w in wl
                         ).most_common(4000)
bigrams_frq = nltk.FreqDist(w for wl in movies_reviews.bigrams for w in wl
                           ).most_common(4000)
trigrams_frq = nltk.FreqDist(w for wl in movies_reviews.trigrams for w in wl
                            ).most_common(4000)

In [None]:
def document_features_ngrams(document, global_features): 
    document_ngrams = nltk.FreqDist(w for wl in movies_reviews.bigrams for w in wl) 
    features = [0] * len(global_features)
    for index, (elem, f) in enumerate(global_features):
        tf = np.log(document_ngrams.freq(elem))
        idf = np.log(1 / f)
        features[index] = tf * idf
    return features

featuresets_bigrams = [
    document_features_ngrams(d, bigrams_frq) for d in movies_reviews["bigrams"]]

print(featuresets_words[:10])

In [None]:
# Vectores de características de la colección de documentos
featuresets_words = [
    document_features(d, words_frq.most_common(4000)) for d in movies_reviews["words"]]
featuresets_bigrams = [
    document_features(d, bigrams_frq) for d in movies_reviews["bigrams"]]
featuresets_trigrams = [
    document_features(d, trigrams_frq) for d in movies_reviews["trigrams"]]



Sentiments = np.array([int(x) for x in movies_reviews.sentiment])

<hr style="border-width: 3px;">

### Tarea 12

* Haga una revisión de ventajas e inconvenientes de las redes neuronales feed-forward.
* Utilice la técnica de redes neuronales en su proyecto.

**Fecha de entrega**: Martes 16 de noviembre.