# Endliche Automaten



![simple automaton](simple_automaton.png)

**Heute:**
- Endliche Automaten
 - Determiniertheit
 - Vollständigkeit
- Lexikonautomaten (?)

## Mathematische Definition

Ein (nicht-deterministischer) endlicher Automat ist ein 5-Tupel $A =(Q,\Sigma,\Delta,s,F)$

$Q$ ist die Menge der *Zustände* des Automaten: Eine Menge von Objekten

> $Q = \{\text{WORK,HOME,BED}\}$ \
> $Q = \{1,2,3,4\}$ \
> $Q = \{q_0,q_1,q_2,q_3\} $

Ein (nicht-deterministischer) endlicher Automat ist ein 5-Tupel $A =(Q,\Sigma,\Delta,s,F)$

$\Sigma$ ist das *Alphabet* des Automaten: Eine Menge von Symbolen.
> $\Sigma = \{take\_train,wake,sleep\}$ \
> $\Sigma = \{a,b,c,d\}$ \
> $\Sigma = \{\text{"der","die","das"}\}$

Diese Symbole sind die möglichen Label der Übergänge im Automaten

Ein (nicht-deterministischer) endlicher Automat ist ein 5-Tupel $A =(Q,\Sigma,\Delta,s,F)$

$\Delta$ ist die *Übergangsfunktion* des Automaten. Sie beschreibt, welche Kanten zwischen welchen Zuständen verlaufen:
> $\Delta = \{(\text{WORK},take\_train,\text{HOME}),(\text{HOME},sleep,\text{BED})\}$ \
> $\Delta = \{(1,a,2),(2,a,3),(2,b,1),(2,c,1)\}$

Ein (nicht-deterministischer) endlicher Automat ist ein 5-Tupel $A =(Q,\Sigma,\Delta,s,F)$

$s$ ist der *Startzustand* des Automaten: Hier beginnt die Ausführung.
> $s = \text{HOME}$ \
> $s = 1$ \
> $s = q_1$

Ein (nicht-deterministischer) endlicher Automat ist ein 5-Tupel $A =(Q,\Sigma,\Delta,s,F)$

$F$ ist die Menge der *Finalzustände*: Erreichen wir einen solchen Zustand, war die Reise ein Erfolg.
> $F = \{\text{HOME,BED}\}$ \
> $F = \{4\}$ \
> $F = \{\}$

![nondeterministic automaton](nondet_automaton.png)

> Aufgabe: Finde 3 Zahlenfolgen aus {0,1}, die vom obrigen Automaten akzeptiert werden

> Finde 3 Zahlenfolgen aus {0,1}, die vom obrigen Automaten **nicht** akzeptiert werden

 ## Python-Implementierung
 

Wollen Klasse **Automaton** schreiben, die einen solchen Automaten modelliert

In [None]:
class Automaton():
    def __init__(self,Q,Sigma,Delta,s,F):
        self.Q = Q
        self.Sigma = Sigma
        # TODO it is not necessary, but it can help to save Delta as a dictionary instead, 
        # where the origin state is the key for a list of label-target state tuples.
        # This would provide easy lookup!
        self.Delta = Delta 
        self.s = s
        self.F = F
    
    def run(self,w):
        """w is the input word for the automaton.
            Return true, if the execution ends in a final state.
            Return false, if that is not the case, or if no suitable edge could be found.
        """
        # Hint: We ignore the case where there are multiple edges with the same label starting
        # from the same state. For this exercise, assume there is only ever one.
        
        remaining_input = w
        current_char = remaining_input[0] # You may of course delete these lines.
        
        return None 

In [None]:
Q = {0,1,2,3}; s = 0; F = {0}
Sigma = {"l","m","u"}
Delta = {(0,"l",1),(1,"m",2),(0,"u",0),(2,"u",3),(3,"u",2),(2,"m",1),(1,"l",0)}

A = # TODO

result1 = A.run("lmuuml"); result2 = A.run("lmu")
result3 = A.run("lll"); result4 = A.run("")

print("'lmulmu': Result should be True. Actual result:",result1)
print("'lmu': Result should be False. Actual result:",result2)
print("'lll': Result should be False. Actual result:",result3)
print("Empty String: Result should be True. Actual result:",result4)

In [None]:
import graphviz

g = graphviz.Digraph('Automaton',filename='automaton.gv')

for state in A.Q:
    if state in A.F:
        g.attr('node',style='bold')
    if state == A.s:
        g.node(str(state), label="-> " + str(state))
    else:
        g.node(str(state))
    g.attr('node',style='solid')
    
for x,label,z in A.Delta:
    g.edge(str(x),str(z),label=" " + label+ " ")
    
g




## Deterministische endliche Automaten

Bislang war es erlaubt, dass ein Zustand mehrere ausgehende Kanten mit dem gleichen Label haben konnte.

> **Deterministische** endliche Automaten dürfen an jedem Zustand maximal eine ausgehende Kante für jedes Zeichen im Alphabet $\Sigma$ haben.

## Vollständigkeit

Bislang war es erlaubt, dass Zustände keine Ausgehende Kante eines oder mehrerer möglicher Symbole aus dem Alphabet $\Sigma$ haben konnte.

> **Vollständige** deterministische endliche Automaten müssen zusätzlich an jedem Zustand für jedes Zeichen aus dem Alphabet $\Sigma$ eine ausgehende Kante besitzen.

Dies ist einfach zu erreichen: Es kann ein sogenannter 'sink'-Zustand hinzugefügt werden, der nicht final ist, und auf den alle fehlenden Kanten gerichtet werden. Alle Eingabewörter, die vorher mangels Kanten nicht erkannt worden sind, werden weiterhin nicht erkannt, da es aus dem 'sink' kein Entkommen gibt: Alle ausgehenden Kanten aus dem 'sink'-Zustand führen zurück in den 'sink'-Zustand.

In [None]:
Q = {0,1,2,3,4} # 4 ist der neue 'sink'-Zustand
Sigma = {"l","m","u"}
Delta = {(0,"l",1),(0,"m",4),(0,"u",0),(1,"m",2),(1,"l",0),(1,"u",4),(2,"u",3),(2,"m",1),(2,"l",4),(3,"u",2),(3,"l",4),(3,"m",4),(4,"l",4),(4,"m",4),(4,"u",4)}
s = 0
F = {0}

A = Automaton(Q,Sigma,Delta,s,F)


In [None]:
g = graphviz.Digraph('Automaton',filename='automaton.gv')

for state in A.Q:
    if state in A.F:
        g.attr('node',style='bold')
    if state == A.s:
        g.node(str(state), label="-> " + str(state))
    else:
        g.node(str(state))
    g.attr('node',style='solid')
    
for x,label,z in A.Delta:
    g.edge(str(x),str(z),label=" " + label+ " ")
    
g

## Lexikonautomaten

Automaten können dazu verwendet werden, Lexika effizient abzuspeichern und zu durchsuchen.

> Gegeben ein Lexikon von Wörtern, wie erhalten wir einen Automaten, der alle Wörter akzeptiert?

## Lexikon-Tries

Tries sind eine einfache und platzsparende Methode, ein Lexikon in einen Automaten umzuwandeln.
Ausgehend von einem Startzustand werden die Wörter als Zustandsfolgen angehängt.
Bereits bestehende Präfixe werden wiederverwendet.

![trie](trie.png)

*Welche Zustände werden Finalzustände?*

### Algorithmus für Lexikon-Tries

```
Given: Lexicon L
Given: Empty Automaton A with initial state s
---
for each w in L do
    wander A on the path given by w as far as possible
    add remainder of w as a tail of states
    make last state (full word w) final
```

*Sonderfall: Fügen "Da" ein, nachdem wir schon "Dach" eingefügt haben*

### Lexikon vs. Trie

Klassisches Lexikon:
- Speicherbedarf wächst linear mit der Anzahl der Wörter: $O(n)$
- Zur Suche muss über die Liste iteriert werden: $O(n)$




Trie:
- Speicherbedarf wächst weniger als linear: Gemeinsame Präfixe werden nur einmal abgespeichert: $< O(n)$
- Zur Suche muss nur der Automat abgelaufen werden. Max. so viele Schritte wie die länge des längsten Wortes: $\approx O(1)$

In [None]:
Q = {0}
s = 0
F = set()
Sigma = {c for c in "abcdefghijklmnopqrstuvwxyzäöü"}
Delta = set()

Trie = Automaton(Q,Sigma,Delta,s,F)

# TODO fill the trie according to the algorithm stated above
lexicon = ["Der","Das","Die","Dosenbier","Dose","Dame","Geist"]

# Hint: Add states with Trie.Q.add(...)
# Hint: Add edges and final states likewise

In [None]:
g = graphviz.Digraph('Automaton',filename='automaton.gv')

for state in A.Q:
    if state in A.F:
        g.attr('node',style='bold')
    if state == A.s:
        g.node(str(state), label="-> " + str(state))
    else:
        g.node(str(state))
    g.attr('node',style='solid')
    
for x,label,z in A.Delta:
    g.edge(str(x),str(z),label=" " + label+ " ")
    
g