# Reconocimiento de patrones: Clasificación
### Ramón Soto C. [(rsotoc@moviquest.com)](mailto:rsotoc@moviquest.com/)
![ ](images/blank.png)
![agents](images/binary_data_under_a_magnifying.jpg)
[ver en nbviewer](http://nbviewer.ipython.org/github/rsotoc/pattern-recognition/blob/master/Clasificación%20V.ipynb)

## Técnicas de clasificación: Reconocimiento sintáctico


### Reconocimiento estructural de patrones

El **reconocimiento de patrones estructural** hace énfasis en la integración de patrones simples para conformar patrones complejos. En este enfoque, un patrón es descrito mediante una estructura jerárquica de componentes, como en el caso de la estructura sintáctica de los lenguajes formales:

![](images/structural.jpg)<br>

Existen dos formas principales de reconocimiento estructural de patrones: la **estructura de pareo** (*matching structure*) y el **análisis sintáctico**. El método de apareamiento consiste básicamente en *aparear* los elementos a clasificar con *moldes* conocidos. En muchos casos, este método puede expresarse de manera sintáctica. 

![](images/matching.jpg)

El enfoque sintáctico, por su parte, realiza el reconocimiento de patrones a partir de una determinada *sintaxis*, lo que permite utilizar las herramientas de la teoría formal de lenguajes. 

### Gramáticas formales

Una gramática (formal) se define como la tupla

$$G = (N,\Sigma,P,S)$$

donde

* $N$ es un conjunto finito de símbolos  no-terminales (variables a substituir)
* $\Sigma$ es un conjunto finito de símbolos terminales llamado el *alfabeto* o *vocabulario*
* $S\in N$ es el *símbolo inicial*, es decir el símbolo no terminal desde donde se inicia la construcción de una *'frase'*
* $P$ es un conjunto finito de *reglas de producción*, es decir, reglas que definen cómo pueden irse reemplazando los símbolos no-terminales, desde el símbolo inicial, hasta tener una frase terminada.

La forma de las reglas de producción determinan el tipo de gramática y el correspondiente autómata. 

Cada gramática está asociado a un tipo de *autómata* que sería, en realidad, el responsable de reconocer los patrones generables por la gramática correspondiente.

Un lenguaje, es un conjunto de secuencias o cadenas sobre $\Sigma$: $L(G) \subseteq \Sigma^*$. Cuando se aplica la teoría de gramáticas formales al lenguaje natural, el vocabulario es usualmente un conjunto de letras, signos, palabras, morfemas o sonidos.

Los tipos principales de autómata están definidos mediante la jerarquía de Chomsky:

Gramática | Lenguaje | Autómata
-| 
Tipo 0 | Recursivamente enumerable |	Máquina de Turing
Tipo 1 | Dependiente del contexto | Autómata linealmente acotado
Tipo 2 | Independiente del contexto | Autómata de pila
Tipo 3 | Regular | Autómata finito

#### Gramáticas no lingüísticas

Aunque la formulación de gramáticas proviene del contexto lingüístico, es posible desarrollar gramáticas para representar patrones en otros contextos. Consideremos por ejemplo la siguiente gramática regular:

![](images/syntactic_1.png)<br>

En esta gramática, los elementos del alfabeto son segmentos de rectángulos. A partir de las reglas en $P$ podemos construir rectángulos como los siguientes:<br>

![](images/syntactic_2.png)

Dada esta gramática podemos construir un autómata finito capaz de reconocer rectángulos en una imagen. 

Un problema que ha llamado intensamente la atención de la industria es el reconocimiento automático de placas vehiculares. Este es un problema relativamente simple de resolver en ambientes controlados, sin embargo, es un problema complicado cauando deben reconocerse placas de diferentes tipos en un contexto abierto, posiblemente con visibiidad limitada:

![](images/plates.jpg)

Un paso importante en la resolución de este problema es identificar la *estructura* en los componentes de una placa: Una placa de auto es un rectángulo (el símbolo inicial $S$):

![](images/plates_1.jpg)

Pero no cualquier rectángulo "*genera*" una placa:

![](images/plates_2.jpg)



Una etapa posterior incluiría evaluar las posibles producciones a partir del rectángulo, capaces de conducir a la generación de una placa válida:

![](images/plates_3.jpg)

#### Procesamiento de lenguaje natural

La ubicación de los lenguajes naturales en la jerarquía de Chomsky (o qué tanto pueden ser representados en ella) es un tema de discusión abierto. 

Considérese la siguiente gramática:

In [1]:
import nltk
from nltk.parse.generate import generate, demo_grammar
from nltk import CFG

grammar = CFG.fromstring(demo_grammar)
parser = nltk.ChartParser(grammar)
print(grammar)

Grammar with 13 productions (start state = S)
    S -> NP VP
    NP -> Det N
    PP -> P NP
    VP -> 'slept'
    VP -> 'saw' NP
    VP -> 'walked' PP
    Det -> 'the'
    Det -> 'a'
    N -> 'man'
    N -> 'park'
    N -> 'dog'
    P -> 'in'
    P -> 'with'


Esta gramática permite generar frases como $X=\textrm{"the man walked with the dog"}$. A continuación se presenta el árbol de generación de $X$:

In [2]:
X = "the man walked with the dog"
print("Generation tree of \"{}\"".format(X))
for tree in parser.parse(X.split()):
    print(tree)

Generation tree of "the man walked with the dog"
(S
  (NP (Det the) (N man))
  (VP walked (PP (P with) (NP (Det the) (N dog)))))


Esta gramática puede generar muchas otras frases:

In [3]:
sent_to_print = 20
print("\nNumber of sentences: ", len(list(generate(grammar))))
for sentence in generate(grammar, n=sent_to_print):
    print(' '.join(sentence))
print("... besides other ", len(list(generate(grammar))) - sent_to_print, "sentences\n")    

string = "the man saw a dog"
print("Generation tree of \"{}\"".format(string))
for tree in parser.parse(string.split()):
    print(tree)


Number of sentences:  114
the man slept
the man saw the man
the man saw the park
the man saw the dog
the man saw a man
the man saw a park
the man saw a dog
the man walked in the man
the man walked in the park
the man walked in the dog
the man walked in a man
the man walked in a park
the man walked in a dog
the man walked with the man
the man walked with the park
the man walked with the dog
the man walked with a man
the man walked with a park
the man walked with a dog
the park slept
... besides other  94 sentences

Generation tree of "the man saw a dog"
(S (NP (Det the) (N man)) (VP saw (NP (Det a) (N dog))))


Podemos generar frases sin sentido como $Y=\textrm{"the park walked with the dog"}$

In [4]:
Y = "the park walked with the dog"
print("Generation tree of \"{}\"".format(Y))
for tree in parser.parse(Y.split()):
    print(tree)

Generation tree of "the park walked with the dog"
(S
  (NP (Det the) (N park))
  (VP walked (PP (P with) (NP (Det the) (N dog)))))


Consideremos el siguiente ejemplo, parafraseando a *Groucho Marx* en *Animal Crackers* (1930):

> *Estando de cacería en África, le disparé a un elefante con mi rifle. <br>
> ¿Cómo consiguió el elefante mi rifle?, No lo sé.* ![](images/groucho.jpg)

In [5]:

groucho_grammar = nltk.CFG.fromstring("""
    S -> NP VP
    PP -> P NP
    NP -> Det N | Det N PP | 'I'
    VP -> V NP | VP PP
    Det -> 'an' | 'my'
    N -> 'elephant' | 'pajamas'
    V -> 'shot'
    P -> 'in'
    """)

string = "I shot an elephant in my pajamas"

parser = nltk.ChartParser(groucho_grammar)

for tree in parser.parse(string.split()):
    print(tree)



(S
  (NP I)
  (VP
    (VP (V shot) (NP (Det an) (N elephant)))
    (PP (P in) (NP (Det my) (N pajamas)))))
(S
  (NP I)
  (VP
    (V shot)
    (NP (Det an) (N elephant) (PP (P in) (NP (Det my) (N pajamas))))))


La teoría formal de lenguajes se ocupa exclusivamente de la sintaxis del lenguaje. Aunque esta es una etapa fundamental para la descripción del lenguaje natural, hay otros aspectos importantes entre los que sobresalen el contenido semántico (el significado de las cadenas generadas); los aspectos cuantitativos/estadísticos, como la frecuencia y probabilidad de las cadenas y el manejo de incertidumbre.

<hr style="border-width: 3px;">

### Tarea 12

* Haga una revisión de ventajas e inconvenientes de las redes neuronales feed-forward.
* Utilice la técnica de redes neuronales en su proyecto.

**Fecha de entrega**: Martes 16 de noviembre.