<a href="https://colab.research.google.com/github/cs-pub-ro/LFA-CB/blob/master/Labs/Lab3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## OOP în Python

Python pune la dispoziție clase și obiecte, similare cu cele din Java. Clasele
sunt o metodă de crea noi tipuri, încapsulând datele necesare reprezentării
acestora, precum și comportamentul lor. Acestea pot fi instanțiate pentru a crea
obiecte cu propria stare, independente între ele.

**Notă**: Reiterăm ideea că scopul laboratorului de LFA nu este de a aprofunda
limbajul Python, el fiind folosit doar ca o unealtă pentru a ne ușura
implementarea. Nu este, deci, necesar să înțelegeți în profunzime modelul de
clase din Python; vom prezenta doar strictul necesar.

### I. Definire

In [0]:

class ExampleClass1(object):
    # constructori,
    # metode,
    # etc.
    pass

### II. Instanțiere

Instanțierea folosește sintaxa de apel de funcție, ca și cum numele clasei este
o funcție ce ne întoarce un obiect de tipul respectiv:

In [0]:
exampleObject = ExampleClass1()

### III. Metode și membrii

Metodele sunt funcții definite în cadrul unei clase, care pot fi apelate pe un
obiect anume cu o sintaxă similară celei din Java. Spre deosebire de Java,
metodele primesc explicit o referință către obiectul curent, pasată ca prim
parametru, denumit convențional `self` (similar cu `this` din Java):

In [0]:
class ExampleClass2(object):
    def setCounter(self, counter):
        self.counter = counter

    def getCounter(self):
        return self.counter

Pentru a apela o metodă a unui obiect, folosim numele instanției, urmat de punct
apoi de apelul metodei:

In [0]:
exampleObject = ExampleClass2()
exampleObject.setCounter(10)
print(exampleObject.getCounter())

10


După cum ați observat din exemple, membrii de date nu trebuie declarați explicit
la începutul clasei. Dacă obiectul nu are un membru `x`, acesta va fi creat în
momentul asignării unei valori la `self.x` (de obicei este o idee bună să
inițializăm toți membrii doriți în constructor).

**Notă:** Spre deosebire de Java, nu există tipuri de protecție (`private`, 
`protected` etc.). Toate metodele și membrii de date sunt accesibile de
oriunde, echivalentul `public` din Java.

### IV. Constructor

Constructorii sunt metode speciale prin care putem instanția o clasă, creând un
obiect concret. Spre deosebire de Java (unde putem avea multiplii constructori,
diferențiați prin numărul și tipul parametrilor, purtând toți numele clasei), în
Python putem avea un singur constructor, numit `__init__`.

In [0]:
class ExampleClass3(object):
    def __init__(self, counter, name):
        self.counter = counter
        self.name = name

Dacă `__init__` este definit, acesta va fi apelat implicit atunci când
instanțiem o clasă. Pentru constructori care primesc parametrii, instanțierea
trebuie să îi precizeze, ca în cazul oricărui apel de funcție:

In [0]:
exampleObject = ExampleClass3(10, "Example Name")

## Schelet de cod

Pentru a vă ajuta în dezvoltarea laboratorului, vă punem la dispoziție un schelet de cod pentru a modela Expresii Regulate și Automate Finite Nedeterministe. Acesta oferă clase, constante și funcții ajutătoare. Pentru a încărca scheletul de cod, rulați următoarele căsuțe (implementarea efectivă este irelevantă, e suficient să citiți prezentarea interfeței).

### `RegularExpression`

Clasa care modelează o expresie regulată. O instanță a acestei clase are un membru `type` care indică tipul expresiei regulate (șirul vid, simbol, concatenare etc.). Valoarea acestuia poate fi una din următoarele constante simbolice. În funcție de valoarea câmpului `type`, pot exista alți membri cu o valoare bine definită:

* `EMPTY_SET`: 
* `EMPTY_STRING`: 
* `SYMBOL`: `symbol` este simbolul expresiei (e.g. "0", "a", "#" etc.)
* `STAR`: `lhs` este expresia căreia îi este aplicată Kleene Star
* `CONCATENATION`: `lhs` și `rhs` sunt expresiile concatenate
* `ALTERNATION`: `lhs` și `rhs` sunt expresiile separate prin "sau"


Atunci când sunt definiți, `lhs` și `rhs` sunt, la rândul lor, obiecte de tip `RegularExpression`.

Pentru a instanția o expresie regulată, pasați tipul ca prim argument al constructorului, urmat apoi de celălalte argumente necesare, i.e.:

```python
e = RegularExpression(EMPTY_SET)
e = RegularExpression(EMPTY_STRING)
e = RegularExpression(SYMBOL, "0")
e = RegularExpression(CONCATENATION, e1, e2)
e = RegularExpression(ALTERNATION, e1, e2)
e = RegularExpression(STAR, e1)
```

Puteți pasa un `RegularExpression` funcției `print` pentru a obține o reprezentare citibilă (caracterul "`|`" este folosit pentru a reprezenta "sau").

```python
>>> expr = ...
>>> print(expr)
(A|B)(a|b)*(0|1)*
```

### `NFA`

Clasa care modelează Automate Finite Nedeterministe. Un obiect de acest tip are următorii membri:


*   `alphabet`: o listă de simboluri
*   `states`: un `set` de întregi non-negativi
*   `start_state`: un membru al `states`
*   `final_states`: o submulțime a `states`
*   `delta`: un dicționar ale cărui chei sunt configurații, iar valorile submulțimi ale `states`
    * o configurație este o pereche (stare, cuvânt), unde un cuvânt este un șir de simboluri din `alphabet`

Pentru a instanția un `NFA`, trebuie pasate valori pentru aceste atribute în ordinea prezentată mai sus. E.g.:

```python
# NFA pentru limbajul cuvintelor peste {0, 1} care se termină în "11"
nfa = NFA("01", {0, 1, 2}, 0, {2}, {(0, "0"): {0}, (0, "1"): {0, 1}, (1, "1"): {2}})
```

Pentru a obține o reprezentare sub formă de graf a automatului, puteți apela metoda `to_graphviz` ca să obțineți un obiect graph; pentru a-l randa, puteți să-l scrieți pe propria linie într-o celulă de cod sau să executați explicit `graphviz.Source(obj)`.

```python
nfa.to_graphviz()
```

![alt text](https://ocw.cs.pub.ro/ppcarte/lib/exe/fetch.php?cache=&w=338&h=126&tok=d841da&media=lfa:automaton.png)

### Alte funcții

În procesul de conversie Expresie Regulată -> Automat Finit Nedeterminist, va trebui să combinați automate sau să adăugați noi stări. Pentru că stările trebuie să fie unice (e.g. nu putem avea două stări `2`), va trebui să aveți un mecanism de generare și redenumire de stări care garantează nume unice. Pentru asta, aveți la dispoziție următoarele două funcții:

#### `rename_states`

Această funcție primește un automat țintă și un automat de referință. Funcția schimbă numele automatului țintă astfel încât acesta să nu aibă nicio stare în comun cu cel de referință, care este lăsat neschimbat. Stările primului automat sunt redenumite chiar dacă îndeplineau deja condiția de a fi diferite de cele ale automatului de referință.

```python
# atât a, cât și b au două stări: 0 și 1
a = NFA("ab", {0, 1}, 0, {1}, {(0, "a"): {1}})
b = NFA("ab", {0, 1}, 0, {1}, {(0, "b"): {1}})

rename_states(a, b)
# după acest apel, stările lui a au fost redenumite în altceva decât 0 și 1
```

#### `new_states`

Funcția primește un număr arbitrar de automate și întoarce o pereche de stări noi, care nu apar în niciunul din automatele primite.

```python
new_state1, new_state2 = new_states()
# sau
new_state1, new_state2 = new_states(nfa1)
# sau
new_state1, new_state2 = new_states(nfa1, nfa2)
# sau
new_state1, new_state2 = new_states(nfa1, nfa2, nfa3)
# etc...
```

In [0]:
#@title
# Order is important as it's used for priority
EMPTY_SET = 0
EMPTY_STRING = 1
SYMBOL = 2
STAR = 3
CONCATENATION = 4
ALTERNATION = 5


_BASE_TYPES = {EMPTY_SET, EMPTY_STRING, SYMBOL}


def str_paranthesize(parent_type, re):
    if parent_type > re.type or \
       (parent_type == re.type and parent_type != STAR):
        return str(re)

    return "({!s})".format(str(re))


class RegularExpression(object):
    """Model a Regular Expression TDA

    The member "type" is always available, indicating the type of the
    RegularExpression. Its value dictates which other members (if any) are
    defined:

        - EMPTY_SET:
        - EMPTY_STRING:
        - SYMBOL: "symbol" is the symbol
        - STAR: "lhs" is the RegularExpression
        - CONCATENATION: "lhs" and "rhs" are the RegularExpressions
        - ALTERNATION: "lhs" and "rhs" are the RegularExpressions

    """
    def __init__(self, type, obj1=None, obj2=None):
        """Create a Regular Expression

        The value of the "type" parameter influences the interpretation of the
        other two paramters:

            - EMPTY_SET: obj1 and obj2 are unused
            - EMPTY_STRING: obj1 and obj2 are unused
            - SYMBOL: obj1 should be a symbol; obj2 is unused
            - STAR: obj1 should be a RegularExpression; obj2 is unused
            - CONCATENATION: obj1 and obj2 should be RegularExpressions
            - ALTERNATION: obj1 and obj2 should be RegularExpressions

        """
        self.type = type
        if type == SYMBOL:
            assert obj1 is not None
            self.symbol = obj1
        elif type == CONCATENATION or type == ALTERNATION:
            assert (obj1 is not None) and (obj2 is not None)
            assert isinstance(obj1, RegularExpression)
            assert isinstance(obj2, RegularExpression)
            self.lhs = obj1
            self.rhs = obj2
        elif type == STAR:
            assert obj1 is not None
            assert isinstance(obj1, RegularExpression)
            self.lhs = obj1

    def __str__(self):
        if self.type == EMPTY_SET:
            return "∅"
        elif self.type == EMPTY_STRING:
            return "ε"
        elif self.type == SYMBOL:
            return str(self.symbol)
        elif self.type == CONCATENATION:
            slhs = str_paranthesize(self.type, self.lhs)
            srhs = str_paranthesize(self.type, self.rhs)
            return slhs + srhs
        elif self.type == ALTERNATION:
            slhs = str_paranthesize(self.type, self.lhs)
            srhs = str_paranthesize(self.type, self.rhs)
            return slhs + "|" + srhs
        elif self.type == STAR:
            slhs = str_paranthesize(self.type, self.lhs)
            return slhs + "*"

        return ""

    def is_base_type(self):
        return self.type in _BASE_TYPES


In [0]:
#@title
import graphviz


class NFA(object):
    """Model a Nondeterministic Finite Automaton

    The automaton contains the following:

        - "alphabet": a list of symbols
        - "states": set of non-negative integers
        - "start_state": a member of "states"
        - "final_states": a subset of "states"
        - "delta": a dictionary from configurations to a set of states
                {(state, word): next_states}
            where a "configuration" is a tuple consisting of a member of
            "states" and a list of 0 or more symbols from "alphabet" and
            "next_states" is a subset of "states"

    """
    def __init__(self, alphabet, states, start_state, final_states, delta):
        """See class docstring"""
        assert start_state in states
        assert final_states.issubset(states)
        for symbol in "()*|-,":
            assert symbol not in alphabet

        self.alphabet = alphabet
        self.states = states
        self.start_state = start_state
        self.final_states = final_states
        self.delta = delta

    def to_graphviz(self):
        def get_edges(delta):
            edges = {}
            for (prev_state, word), next_states in delta.items():
                for next_state in next_states:
                    edge = (prev_state, next_state)
                    if edge not in edges:
                        edges[edge] = set()

                    edges[edge].add(word)

            return edges

        def collate_symbols(edge_words):
            collated = []
            i = 0
            while i < len(self.alphabet):
                if self.alphabet[i] not in edge_words:
                    i += 1
                    continue

                range_start = i
                while i + 1 < len(self.alphabet) and \
                      self.alphabet[i + 1] in edge_words:
                    i += 1

                dist = i - range_start
                if dist >= 2:
                    label = "{}-{}".format(self.alphabet[range_start],
                                           self.alphabet[i])
                    collated.append(label)
                else:
                    collated.append(str(self.alphabet[range_start]))
                    if dist == 1:
                        collated.append(str(self.alphabet[range_start + 1]))
                        i += 1

                i += 1

            collated += [word for word in edge_words if len(word) > 1]
            if "" in edge_words:
                collated.insert(0, "ε")

            return ",".join(collated)

        dot = graphviz.Digraph()
        dot.graph_attr['rankdir'] = 'LR'

        # This is here to nicely mark the starting state.
        dot.node("_", shape="point")
        dot.edge("_", str(self.start_state))

        for state in self.states:
            shape = "doublecircle" if state in self.final_states else "circle"
            dot.node(str(state), shape=shape)

        edges = get_edges(self.delta)

        edges = {k: collate_symbols(v) for k, v in edges.items()}
        for (prev_state, next_state), label in edges.items():
            dot.edge(str(prev_state), str(next_state), label=label)

        return dot

In [0]:
#@title
def rename_states(target, reference):
    off = max(reference.states) + 1
    target.start_state += off
    target.states = set(map(lambda s: s + off, target.states))
    target.final_states = set(map(lambda s: s + off, target.final_states))
    new_delta = {}
    for (state, symbol), next_states in target.delta.items():
        new_next_states = set(map(lambda s: s + off, next_states))
        new_delta[(state + off, symbol)] = new_next_states

    target.delta = new_delta


def new_states(*nfas):
    state = 0
    for nfa in nfas:
        m = max(nfa.states)
        if m >= state:
            state = m + 1

    return state, state + 1

## Expresie Regulată -> Automat Finit Nedeterminist

Implementați funcția `re_to_nfa` care primește un `RegularExpression` și produce un `NFA` echivalent, implementând [algoritmul studiat la curs](https://ocw.cs.pub.ro/ppcarte/doku.php?id=lfa:nfa#from_regular_expressions_to_nfas).

In [0]:
def re_to_nfa(re):
    """Convert a Regular Expression to a Nondeterminstic Finite Automaton"""
    # TODO Thompson's algorithm

Mai jos aveți reprezentarea expresiei regulate prezentă în exemplul din curs ca să vă ajute să verificați corectitudinea implementării. Puteți să începeți cu expresii mai simple, implementând pe rând construcțiile necesare algoritmului.

In [0]:
z = RegularExpression(SYMBOL, "0")
o = RegularExpression(SYMBOL, "1")
A = RegularExpression(SYMBOL, "A")
B = RegularExpression(SYMBOL, "B")
a = RegularExpression(SYMBOL, "a")
b = RegularExpression(SYMBOL, "b")

e1 = RegularExpression(ALTERNATION, A, B)
e2 = RegularExpression(ALTERNATION, a, b)
e3 = RegularExpression(ALTERNATION, z, o)
e4 = RegularExpression(STAR, e2)
e5 = RegularExpression(STAR, e3)
e6 = RegularExpression(CONCATENATION, e1, e4)
e7 = RegularExpression(CONCATENATION, e6, e5)