# Clase Práctica #7 (Compilación)

En esta clase estaremos implementando algunas de las operaciones más importantes entre autómatas. Específicamente implementaremos **unión**, **concatenación** y **clausura**, las cuales juegan un papel fundamental en la construcción del intérprete de expresiones regulares en el que trabajaremos la semana próxima.

In [276]:
from cmp.tools.automata import NFA, DFA, nfa_to_dfa

## Operaciones entre autómatas

Trabajemos con el siguiente autómata de ejemplo. El lenguaje que reconoce dicho autómata es `(a|b)*b`.

In [277]:
automaton = DFA(states=2, finals=[1], transitions={
    (0,'a'):  0,
    (0,'b'):  1,
    (1,'a'):  0,
    (1,'b'):  1,
})
automaton

<cmp.tools.automata.DFA at 0x10965dd20>

### Unión de autómatas

Dados 2 autómatas finitos `a1` y `a2` se define el autómata **unión** entre ellos como el autómata que reconoce $L(a_1) \cup L(a_2)$. Dicho de otra forma, reconoce el lenguaje $L(a_1 \cup a_2) = \{w $| $w \in L(a_1) \lor w \in L(a_2)\}$.

In [278]:
def automata_union(a1, a2):
    transitions = {}
    
    start = 0
    d1 = 1
    d2 = a1.states + d1
    final = a2.states + d2
    print(a1.map.items())
    for (origin, symbol), destinations in a1.map.items():
        ## Relocate a1 transitions ...
        # Your code here
        transitions[(origin + d1, symbol)] = [dest + d1 for dest in destinations]
        pass

    for (origin, symbol), destinations in a2.map.items():
        ## Relocate a2 transitions ...
        # Your code here
        transitions[(origin + d2, symbol)] = [dest + d2 for dest in destinations]
        pass
    
    ## Add transitions from start state ...
    # Your code here
    transitions[(start, '')] = [d1,d2]
    ## Add transitions to final state ...
    # Your code here
    for state in a1.finals:
        transitions[(state + d1 , '')] = [final]
        
    for state in a2.finals:
        transitions[(state + d2 , '')] = [final]
    states = a1.states + a2.states + 2
    finals = { final }
    
    return NFA(states, finals, transitions, start)

Comprobemos que `automata_union(automaton, automaton)` reconoce el propio lenguaje `(a|b)*b`.

In [279]:
union = automata_union(automaton, automaton)
display(union)
recognize = nfa_to_dfa(union).recognize
assert union.states == 2 * automaton.states + 2

assert recognize('b')
assert recognize('abbb')
assert recognize('abaaababab')

assert not recognize('')
assert not recognize('a')
assert not recognize('abbbbaa')

dict_items([((0, 'a'), [0]), ((0, 'b'), [1]), ((1, 'a'), [0]), ((1, 'b'), [1])])


<cmp.tools.automata.NFA at 0x109f05390>

### Concatenación de autómatas

Dados 2 autómatas finitos `a1` y `a2` se define el autómata **concatenación** entre ellos como el autómata que reconoce $L(a_1) L(a_2)$. Dicho de otra forma, reconoce el lenguaje $L(a_1 a_2) = \{vw $| $v \in L(a_1) \land w \in L(a_2)\}$.

In [280]:
def automata_concatenation(a1, a2):
    transitions = {}
    
    start = 0
    d1 = 0
    d2 = a1.states + d1
    final = a2.states + d2
    
    for (origin, symbol), destinations in a1.map.items():
        ## Relocate a1 transitions ...
        # Your code here
        transitions[(origin + d1, symbol)] = [dest + d1 for dest in destinations]
        pass

    for (origin, symbol), destinations in a2.map.items():
        ## Relocate a2 transitions ...
        # Your code here
        transitions[(origin + d2, symbol)] = [dest + d2 for dest in destinations]
        pass
    
    ## Add transitions to final state ...
    # Your code here
    for state1 in a1.finals :    
        transitions[(state1 + d1, '')] = [a2.start + d2]
    states = a1.states + a2.states + 1
    for state in a2.finals:
        transitions[(state + d2 , '')] = [final]
    finals = { final }
    
    return NFA(states, finals, transitions, start)

Comprobemos que `automata_concatenation(automaton, automaton)` reconoce el lenguaje `(a|b)*b(a|b)*b`.

In [281]:
concat = automata_concatenation(automaton, automaton)
display(concat)
recognize = nfa_to_dfa(concat).recognize
print(concat.transitions)
assert concat.states == 2 * automaton.states + 1

assert recognize('bb')
assert recognize('abbb')
assert recognize('abaaababab')

assert not recognize('')
assert not recognize('a')
assert not recognize('b')
assert not recognize('ab')
assert not recognize('aaaab')
assert not recognize('abbbbaa')

<cmp.tools.automata.NFA at 0x1097c79d0>

{0: {'a': [0], 'b': [1]}, 1: {'a': [0], 'b': [1], '': [2]}, 2: {'a': [2], 'b': [3]}, 3: {'a': [2], 'b': [3], '': [4]}, 4: {}}


### Clausura de autómatas

Dado un autómata finito `a1` se define el autómata **clausura** de `a1` como el autómata que reconoce $L(a_1)^*$. Dicho de otra forma, reconoce el lenguaje $L(a_1^*) = L(a_1)^n$, con $n \geq 0$.

In [282]:
def automata_closure(a1):
    transitions = {}
    
    start = 0
    d1 = 1
    final = a1.states + d1
    
    for (origin, symbol), destinations in a1.map.items():
        ## Relocate automaton transitions ...
        transitions[(origin + d1, symbol)] = [destination + d1 for destination in destinations]
    
    ## Add transitions from start state ...
    # Your code here
    transitions[(start, '')] = [d1, final]
    
    ## Add transitions to final state and to start state ...
    # Your code here
    for state in a1.finals:
        transitions[(state + d1, '')] = [final]
            
    states = a1.states +  2
    finals = { final }
    
    return NFA(states, finals, transitions, start)

Comprobemos que `automata_closure(automaton)` reconoce el lenguaje `((a|b)*b)*`.

In [283]:
closure = automata_closure(automaton)
display(closure)
recognize = nfa_to_dfa(closure).recognize

assert closure.states == automaton.states + 2

assert recognize('')
assert recognize('b')
assert recognize('ab')
assert recognize('bb')
assert recognize('abbb')
assert recognize('abaaababab')

assert not recognize('a')
assert not recognize('abbbbaa')

<cmp.tools.automata.NFA at 0x109efe170>

### Minimización de autómatas

Hasta ahora hemos estado ignorando la cantidad de estados del autómata. Sin embargo, resulta conveniente obtener el DFA con menor cantidad de estados. Se puede demostrar que siempre hay un único DFA con la mínima cantidad de estados para cualquier lenguaje regular. Dicho autómata puede ser construido a partir de cualquier otro DFA del lenguaje como resultado de agrupar conjuntos de estados equivalentes.

El algoritmo de minimización particiona los estados del DFA en grupos de estados que no puedan ser diferenciados _(comenzando en ellos, cualquier cadena termina siendo igualmente aceptada o no)_. Cada grupo de estados es mezclado posteriormente en un único estado del DFA resultante. A medida que avanza el algoritmo, los estados en el mismo grupo representan estados que aún no se han podido diferenciar, mientras que dos estados cualesquiera de distintos grupos ya fueron diferenciados. Una vez que la partición no pueda ser refinada más, el algoritmo se detiene pues encontró el DFA con menor cantidad de estados.

El algoritmo funciona de la siguiente forma:
1. Comenzar con una partición inicial $\Pi$ en dos grupos, $F$ y $Q - F$, con los estados finales y no finales respectivamente.
2. Inicializar $\Pi_{new} = \Pi$
3. Por cada grupo $G$ en la partición $\Pi$:
    1. Particionar $G$ en subgrupos de forma tal que: dos estados $s$ y $t$ están en el mismo grupo **si y solo si** para todo símbolo $a$ del vocabulario, los estados $s$ y $t$ tienen transición con $a$ hacia estados en el mismo grupo de $\Pi$.
    2. Reemplazar $G$ in $\Pi_{new}$ por los subgrupos formados.
4. Si $\Pi_{new} = \Pi$, hacer $\Pi_{final} = \Pi$ y continuar al paso `5`. En otro caso, regresar al paso `2` con $\Pi_{new}$ en el lugar de $\Pi$.
5. Seleccionar un estado de cada grupo de $\Pi_{final}$ como el _representante_ de ese grupo. Los representantes serán los estados del DFA con la mínima cantidad de estados. El resto de los componentes se construyen de la siguiente forma:
    1. El estado inicial es el representante del grupo que contiene al estado inicial del autómata original.
    2. Los estados finales son los representantes de los grupos que contienen uno de los estados finales originales. _Note que cada grupo contiene solamente estados finales o no finales, ya que se parte de una partición que los separa y nunca se vuelven a unir_.
    3. Las transiciones se obtienen entre los representantes de cada grupo. Sea $s$ el representante de algún grupo de $G$, y sea, $(s, a) \to t$, la transición del autómata original desde $s$ con un símbolo $a$. Sea $r$ el representante de $t$ en su grupo $H$. Entonces en el autómata resultante estará la transición: $(s, a) \to r$.

Utilizaremos la implementación de la estructura de datos _conjuntos disjuntos_ de `cmp.utils`. A continuación se ilustra el uso de las funcionalidades más relevantes de la mismas.

In [284]:
from cmp.utils import DisjointSet

dset = DisjointSet(*range(10))
print('> Inicializando conjuntos disjuntos:\n', dset)

dset.merge([5,9])
print('> Mezclando conjuntos 5 y 9:\n', dset)

dset.merge([8,0,2])
print('> Mezclando conjuntos 8, 0 y 2:\n', dset)

dset.merge([2,9])
print('> Mezclando conjuntos 2 y 9:\n', dset)

print('> Representantes:\n', dset.representatives)
print('> Grupos:\n', dset.groups)
print('> Nodos:\n', dset.nodes)
print('> Conjunto 0:\n', dset[0], '--->', type(dset[0]))
print('> Conjunto 0 [valor]:\n', dset[0].value, '--->' , type(dset[0].value))
print('> Conjunto 0 [representante]:\n', dset[0].representative, '--->' , type(dset[0].representative))

> Inicializando conjuntos disjuntos:
 [[1], [2], [6], [3], [0], [9], [7], [4], [5], [8]]
> Mezclando conjuntos 5 y 9:
 [[1], [2], [6], [3], [0], [7], [4], [5, 9], [8]]
> Mezclando conjuntos 8, 0 y 2:
 [[1], [6], [3], [7], [4], [5, 9], [0, 2, 8]]
> Mezclando conjuntos 2 y 9:
 [[1], [6], [3], [7], [4], [0, 2, 5, 8, 9]]
> Representantes:
 {1, 6, 3, 7, 4, 8}
> Grupos:
 [[1], [6], [3], [7], [4], [0, 2, 5, 8, 9]]
> Nodos:
 {0: 0, 1: 1, 2: 2, 3: 3, 4: 4, 5: 5, 6: 6, 7: 7, 8: 8, 9: 9}
> Conjunto 0:
 0 ---> <class 'cmp.utils.DisjointNode'>
> Conjunto 0 [valor]:
 0 ---> <class 'int'>
> Conjunto 0 [representante]:
 8 ---> <class 'cmp.utils.DisjointNode'>


Trabajaremos sobre el siguiente autómamata que reconoce el lenguaje `(a|b)*abb`. Note que los estados `0` y `2` pueden ser mezclados.

In [285]:
automaton = DFA(states=5, finals=[4], transitions={
    (0,'a'): 1,
    (0,'b'): 2,
    (1,'a'): 1,
    (1,'b'): 3,
    (2,'a'): 1,
    (2,'b'): 2,
    (3,'a'): 1,
    (3,'b'): 4,
    (4,'a'): 1,
    (4,'b'): 2,
})
automaton

<cmp.tools.automata.DFA at 0x10454d630>

Implementemos los métodos siguientes, donde:

- `distinguish_states(group, automaton, partition)`: devuelve los subgrupos que se obtienen de diferenciar los estados de `group` según la partición `partition`.
> `int[][]`: Lista de las listas de estados en las que se dividió `group`.

- `state_minimization(automaton)`: devuelve una partición de los estados de `automaton`.
> `DisjointSet`: Conjunto disjunto sobre los estados de `automaton`.

- `automata_minimization(automaton)`: devuelve el DFA con la mínima cantidad de estados que reconoce el mismo lenguaje que el DFA `automaton`.

In [286]:
def distinguish_states(group, automaton, partition):
    split = {}
    vocabulary = tuple(automaton.vocabulary)
    for member in group:
        # Your code here
        temp = []
        for symbol in vocabulary:
            temp.append(symbol)
        split[member] = temp
        pass
    for i in split:
        for j in split:
            if i != j and split[i].values() == split[j].values():
                partition.merge([i,j])
                return True
    return [ group for group in split.values()]
            
def state_minimization(automaton):
    partition = DisjointSet(*range(automaton.states))

    ## partition = { NON-FINALS | FINALS }
    # Your code here
    for i in partition:
        for j in partition:
            if(not i== j and  i in automaton.finals and j in automaton.finals):
                partition.marge([i,j])
                pass
            pass
        pass

    while True:
        new_partition = DisjointSet(*range(automaton.states))
        print(new_partition)
        ## Split each group if needed (use distinguish_states(group, automaton, partition))
        # Your code here

        if len(new_partition) == len(partition):
            break

        partition = new_partition
        
    return partition

def automata_minimization(automaton):
    partition = state_minimization(automaton)
    
    states = [s for s in partition.representatives]
    
    transitions = {}
    for i, state in enumerate(states):
        ## origin = ???
        # Your code here
        for symbol, destinations in automaton.transitions[origin].items():
            # Your code here
            
            try:
                transitions[i,symbol]
                assert False
            except KeyError:
                # Your code here
                pass
    
    ## finals = ???
    ## start  = ???
    # Your code here
    
    return DFA(len(states), finals, transitions, start)

Comprobemos que al minimizar los estados del autómata, solo los estados `0` y `2` quedan en el mismo grupo, pues no son diferenciables.

In [287]:
states = state_minimization(automaton)
print(states)

for members in states.groups:
    all_in_finals = all(m.value in automaton.finals for m in members)
    none_in_finals = all(m.value not in automaton.finals for m in members)
    assert all_in_finals or none_in_finals
    
assert len(states) == 4
assert states[0].representative == states[2].representative
assert states[1].representative == states[1]
assert states[3].representative == states[3]
assert states[4].representative == states[4]

KeyError: 5

Comprobemos que el algoritmo de minimización funciona correctamente. La cantidad de estados debe haberse reducido puesto que los estados `0` y `2` no son diferenciables. El autómata debe seguir reconociendo el lenguaje `(a|b)*abb`.

In [None]:
mini = automata_minimization(automaton)
display(mini)

assert mini.states == 4

assert mini.recognize('abb')
assert mini.recognize('ababbaabb')

assert not mini.recognize('')
assert not mini.recognize('ab')
assert not mini.recognize('aaaaa')
assert not mini.recognize('bbbbb')
assert not mini.recognize('abbabababa')

## Propuestas
- Implemente el resto de las operaciones entre autómatas vistas en conferencia:
    - Complemento
    - Intersección
    - Diferencia
    - Reverso
    - Zip