# Analisi sintattica

Rinfreschiamoci un pò la memoria.

![Image 4](images/image-4.png)

Abbiamo detto che generalmente lo scanner viene utilizzato come routine del parser. Quando il parse ha bisogno di token da verificare, chiama lo scanner per poterli ottenere.

Abbiamo visto nel notebook precedente come lavora l'analizzatore lessicale, ovvero lo scanner. Ora analizziamo meglio il parser, colui che analizza questa volta la sintassi.

Lo scopo del parser è proprio verificare se la sequenza dei token rappresentano un programma corretto dal punto di vista sintattico.

> *Sintassi*  
La sintassi è la branca della grammatica e della linguistica che studia i diversi modi in cui i codici dei linguaggi si uniscono tra loro per formare una proposizione. Nella grammatica generativa la struttura di una frase è rappresentata da alberi di struttura sintagmatica.  
*Fonte Wikipedia*

In caso di programma sintatticamente corretto, l'output del parser è una struttura nota come parse tree che costituisce l'input perr la successiva analisi semantica.  
Allo stesso modo in cui lo scanner si occupa solamente di lessico senza entrare nel merito del possibile ordine corretto o non dei token, anche il parse si occupa solamente della sintassi, della corretta struttura delle frasi senza preoccuparsi che essa abbia o non un significato proprio o improprio.

Il parser fa ampio uso di una tabella denominata ```symbol table```. Questa tabella è una struttura utilizzata sia dal frontend che dal backend del compilatore e dell'interprete. Lo scopo della symbol table è di inserire i dati relativi agli identificatori, come ad esempio: nome, tipo, posizione in memoria.

Le informazioni contenenti nella symbol table vengono utilizzate dal parser per fare controlli di correttezza. In più, un'opportuna organizzazione di più symbol table consente di implementare la nozione di ambiente, namespace, con le relative regole di visibilità. Questi ultimi aspetti li considereremo più avanti.

## Grammatiche libere

Le grammatiche libere giocano per il parsing lo stesso ruolo che giocavano le espressioni regolari per lo scanning. Le grammatiche libere sono lo strumento che ci permette di descrivere la sintassi di un linguaggio di programmazione.

In generale, una grammatica è un formalismo generativo, ovvero il linguaggio definito da una grammatica coincide con l'insieme delle stringhe generabili usando le regole che formano la grammatica stessa.

## Definizione di grammatiche libere

Una grammatica libera è definita da quattro elementi:

- $\mathcal{N}$, l'insieme di di simboli non terminali
- $\mathcal{T}$, l'insieme di simboli terminali
- $\mathcal{P}$, l'insieme di produzioni
- $\mathcal{S}$, il simbolo iniziale o assioma

Quindi una grammatica $\mathcal{G}$ è una quadrupla $\mathcal{G} = \left ( \mathcal{N}, \mathcal{T}, \mathcal{P}, \mathcal{S} \right )$.

Con $\mathcal{V} = \mathcal{N} \cup \mathcal{T}$ definiamo il vocabolario della grammatica.  
La parte sinistra di una produzione viene definita testa, mentre la parte destra è detta corpo.

Vediamo un semplice esempio.

- $\mathcal{N} = \left \{ P \right \}$
- $\mathcal{T} = \left \{ (,) \right \}$
- $\mathcal{S} = P$
- $\mathcal{P}$:
    - $P \rightarrow (P)P$
    - $P \rightarrow \varepsilon$

Il meccanismo in base al quale una grammatica genera un linguaggio è quello delle derivazioni. Una derivazione è un processo mediante il quale si ottiene una stringa di soli terminali applicado una sequenza di produzioni a partire dall'assioma. La sequenza di produzioni avviene trovando un non terminale nella frase e sostituendo la coda di essa con la produzione utilizzata. Il processo di riscrittura termina quando non sono più presenti non terminali. La forma di frase composta da soli terminali è detta frase di linguaggio.

Riprendiamo l'esempio precedente.  
Da esso abbiamo due produzioni differenti da potere applicare e quindi molte frasi di linguaggio differenti da ottenere. Questi sono due esempi: 
$$P \stackrel{p_1} \rightarrow (P)P \stackrel{p_2} \rightarrow (P) \stackrel{p_1} \rightarrow ((P)P) \stackrel{p_2} \rightarrow ((P)) \stackrel{p_2} \rightarrow (())$$
$$P \stackrel{p_1} \rightarrow (P)P \stackrel{p_1} \rightarrow (P)(P)P \stackrel{p_2} \rightarrow (P)(P) \stackrel{p_2} \rightarrow (P)() \stackrel{p_2} \rightarrow ()()$$

Il linguaggio generato da una grammatica $\mathcal{G}$ coincide con l'insieme delle frasi derivabili dall'assioma usando le proguzioni di $\mathcal{G}$ stesso. Solitamente si indica questo linguaggio con la seguente scrittura $L = L(\mathcal{G})$.

## Parsing

Un algoritmo di parsing per un linguaggio $L(\mathcal{G})$ è un algoritmo che data una frase generica $\alpha$ di $L$ determina una derivazione che produce $\alpha$ a partire dall'assioma.

Un problema che può portare il processo di derivazione è il non determinismo delle frasi ottenute. Questo vuole dire che data una frase generica, non siamo in grado a priori di determinare il suo risultato anche a conoscenza di produzioni.  
Questo succede perchè non è stata definita nessuna regola. Non è stato specificato quale sia l'ordine con cui riscrivere i non terminali, ovvero se riscrivere prima il terminale più a sinistra e poi quello successivo o l'inverso. La derivazione non ci da nessuna regola neanche riguardo l'ordine con cui utilizzare le nostre produzioni a disposizione, potremmo utilizzare una produzione invece che un'altra puramente a nostro piacimento.

A fronte di questo problema di non determinismo, sono state introdotte le cosidette derivazioni canoniche, ovvero specie di linee guida per permettere di ridurre il non determinismo.  
Le derivazioni canoniche possono essere divise in destre o sinistre. Esse ci dicono che l'ordine di derivazione dei non terminali deve avvenire a partire rispettivamente da sinistra a destra e da destra a sinistra, a seconda di derivazione canonica destra o sinistra. Tutti gli algoritmi di parsing utilizzano le derivazioni canoniche.

Vediamo un esempio pratico per le derivazioni canoniche.

- $\mathcal{N} = \left \{ E \right \}$
- $\mathcal{T} = \left \{ +, \times, (,), n \right \}$
- $\mathcal{S} = E$
- $\mathcal{E}$:
    - $E \rightarrow E + E$
    - $E \rightarrow E \times E$
    - $E \rightarrow (E)$
    - $E \rightarrow n$

Una generica derivazione canonica destra per una stringa £\varepsilon_1$ può essere:

$$
\begin{eqnarray}
E & \rightarrow & E \times E \\
& \rightarrow & E \times E + E \\
& \rightarrow & E \times E + n \\
& \rightarrow & E \times n + n \\
& \rightarrow & n \times\ n + n
\end{eqnarray}
$$

Ma l'utilizzare le derivazioni canoniche non ci esclude totalmente il non determinismo. Infatti se cosideriamo un secondo esempio di derivazione canonica destra

$$
\begin{eqnarray}
E & \rightarrow & E + E \\
& \rightarrow & E + n \\
& \rightarrow & E \times E + n \\
& \rightarrow & E \times n + n \\
& \rightarrow & n \times\ n + n
\end{eqnarray}
$$

Vedremo che due stringhe inizialmente differenti restituisco la stessa derivazione canonica. Quando una stessa frase frase di linguaggio è ottenibile attraverso due differenti derivazioni canoniche si dice che la grammatica è ambigua. Le grammatiche ambigue creano grossi problemi al parsing.

## Alberi di derivazione

Una generica derivazione la possiamo rappresentare mediante un albero, detto appunto albero di derivazione o parse tree.

L'albero di derivazione rappresenta una data derivazione per una generica frase nel seguente modo:

- La radice dell'albero è l'assioma della grammatica
- Ogni nodo interno è un simbolo non terminale utilizzato nella derivazione
- Le foglie sono i simboli terminali, che letti da sinistra a destra formano la nostra frase di linguaggio

Quindi, fissato un ordine canonico, destra o sinistra, c'è una corrispondenza biunivoca tra la derivazione e il parse tree.

Questa corrispondenza biunivoca tra derivazione canonica e parse tree non esclude però la presenza di ambiguità. Infatti se provassimo a scrivere le due precedenti derivazioni sottoforma di albero di derivazione

$$
\begin{eqnarray}
E & \rightarrow & E \times E \\
& \rightarrow & E \times E + E \\
& \rightarrow & E \times E + n \\
& \rightarrow & E \times n + n \\
& \rightarrow & n \times\ n + n
\end{eqnarray}
$$

![Image 6](images/image-6.png)

$$
\begin{eqnarray}
E & \rightarrow & E + E \\
& \rightarrow & E + n \\
& \rightarrow & E \times E + n \\
& \rightarrow & E \times n + n \\
& \rightarrow & n \times\ n + n
\end{eqnarray}
$$

![Image 7](images/image-7.png)

Notiamo come risulta la corrispondenza biunivoca ma solamente tra derivazione e albero, non con la stringa iniziale.  
Se provassimo ad utilizzare la frase ottenuta con dei valori numerici come $5 \times 3 + 2$ ci aspettiamo che il risultato sia 17, dato che la moltiplicazione predede l'addizione. Questo ci porterebbe a dire che entrambi i parse tree alla fine dei conti possano andare bene per il nostro fine. Ma in realtà non è così.

Come sappiamo il principale scopo del parsing è la verifica di correttezza sintattica, ma è altrettanto vero che il parsing deve preparare le informazioni per le fasi successive, in particolare per la generazione del codice intermedio. In questa ottica il parse tree è un elemento fondamentale.

Proprio per questo motivo, possiamo dedurre che il primo albero, e quindi la prima derivazione dato la corrispondenza biunivoca, è errato. Infatti, il primo albero di derivazione suggerirebbe come prima operazione la somma tra due numeri e solo successivamente la moltiplicazione, seppur la frase risulti $n \times n + n$. In altre parole, il primo albero conduce ad una semantica errata dell'espressione.

## Grammatica non ambigua per espressioni aritmetiche

L'unico modo per ottenere l'univocità delle derivazioni è scrivere una grammatica che non ammetta ambiguità. Lo scrivere grammatiche non ambigue è un lavoro molto complesso, ci sono interi studi riguardo esso. Quindi quello che possiamo fare è analizzare come una grammatica non ambigua permetta di ottenere una unica derivazione per ogni frase linguistica.

La seguente grammatica risulta non ambigua per espressioni aritmetiche. Non dimostreremo la non ambiguità perchè come già detto non è un lavoro facile.

- $\mathcal{N} = \left \{ E, T, P, F \right \}$
- $\mathcal{T} = \left \{ +, -, \times, /, ^, (,), n \right \}$
- $\mathcal{S} = E$
- $\mathcal{E}$:
    - $E \rightarrow E + T | E - T | T$
    - $T \rightarrow T \times P | T / P | P$
    - $P \rightarrow F ^ P | F$
    - $F \rightarrow n | (E)$

Il simbolo $|$ che compare nella definizione della grammatica è un metasimbolo proprio come $\rightarrow$, il significato di esso è sostanzialmente l'OR logico, ovvero una produzione per $E$ può essere $E \rightarrow E + T$ o $E \rightarrow E - T$ o $E \rightarrow T$.

Detto ciò possiamo utilizzare queste produzioni per cercare di ottenere lo stesso risultato precedente: $n \times n + n$. Questa di seguito è l'unica derivazione canonica destra possibile per la frase in questione.

$$
\begin{eqnarray}
E & \rightarrow & E + T \\
& \rightarrow & E + P \\
& \rightarrow & E + F \\
& \rightarrow & E + n \\
& \rightarrow & T + n \\
& \rightarrow & T \times P + n \\
& \rightarrow & T \times F + n \\
& \rightarrow & T \times n + n \\
& \rightarrow & P \times n + n \\
& \rightarrow & F \times n + n \\
& \rightarrow & n \times n + n \\
\end{eqnarray}
$$

Il procedimento da svolgere per ottenere questa derivazione consiste sostanzialmente di tentare determinate produzioni finchè non si ottiene una frase di soli non terminali. Quando utilizzeremo produzioni "sbagliate" per il nostro scopo, arriveremo ad un punto che non potremmo fare altro che tornare indietro di un passo per tentare una produzione differente. Questo lo si svolge finchè non si arriva alla unica soluzione.

Il parse tree della derivazione canonica destra è il seguente.

![Image 8](images/image-8.png)

## Abstract syntaxt tree

Gli AST per un linguaggio $L$ è un albero in cui:

- I nodi interni rappresentano i costrutti di $L$
- Le foglie sono token, in genere con riferimento alla symbol table

L'abstract syntaxt tree dell'esempio che abbiamo analizzato precedentemente è il seguente.

![Image 9](images/image-9.png)

Una volta che otteniamo l'AST, la generazione di codice intermedio è un esercizio abbastanza semplice. Il problema però è che dobbiamo trovare il modo di ottenere l'AST.

## Parsing bottom up

Il parser bottom up procede nel modo inverso a quanto visto fino ad adesso. Il parser bottom up parte dalla stringa da riconoscere fino ad arrivare all'assioma iniziale. Il parser quindi tenta di ricostruire a rovescio la descrizione canonica destra a partire dalla frase e per fare ciò deve quindi applicare le produzioni nel senso opposto, body to head. Solitamente si usa dire che una produzione applicata in questo modo è una riduzione.

Analizziamo il parser bottom up sull'esempio che portiamo avanti da quasi tutto il notebook. Per maggiore chiarezza chiamiamo ogni simbolo con un relatico pedice per distinguerli.

$$
\begin{eqnarray}
E_1 & \rightarrow & E_2 + T_1 \\
& \rightarrow & E_2 + P_1 \\
& \rightarrow & E_2 + F_1 \\
& \rightarrow & E_2 + n_1 \\
& \rightarrow & T_2 + n_1 \\
& \rightarrow & T_3 \times P_2 + n_1 \\
& \rightarrow & T_3 \times F_2 + n_1 \\
& \rightarrow & T_3 \times n_2 + n_1 \\
& \rightarrow & P_3 \times n_2 + n_1 \\
& \rightarrow & F_3 \times n_2 + n_1 \\
& \rightarrow & n_3 \times n_2 + n_1 \\
\end{eqnarray}
$$

Il parse svolge questi tre passi:

1. Recupera un simbolo terminale dall'input e lo inserisce nello stack, operazione detta ```shift```
2. Individua sulla cima dello stack la parte destra di una produzione e ne sostituisce tutti i simboli con la relativa parte sinistra, operazione di ```reduce```
3. Infine ```accetta``` o ```rifiuta``` l'input come appartenente o non appartenente al linguaggio

\begin{array}{lclcrcl}
\mathrm{step}&&\mathrm{stack}&&\mathrm{input}&&\mathrm{action} \\
1 && \$ && n_3 \times n_2 + n_1\$ && shift \\
2 && \$n_3 && \times n_2 + n_1\$ && reduce \ by \ F \rightarrow n \\
3 && \$F_3 && \times n_2 + n_1\$ && reduce \ by \ P \rightarrow F \\
4 && \$P_3 && \times n_2 + n_1\$ && reduce \ by \ T \rightarrow P \\
5 && \$T_3 && \times n_2 + n_1\$ && shift \\
6 && \$T_3 \times && n_2 + n_1\$ && shift \\
7 && \$T_3 \times n_2 && + n_1\$ && reduce \ by \ F \rightarrow n \\
8 && \$T_3 \times F_2 && + n_1\$ && reduce \ by \ P \rightarrow F \\
9 && \$T_3 \times P_2 && + n_1\$ && reduce \ by \ T \rightarrow T \times P \\
10 && \$T_2 && + n_1\$ && reduce \ by \ E \rightarrow T \\
11 && \$E_2 && + n_1\$ && shift \\
12 && \$E_2 + && n_1\$ && shift \\
13 && \$E_2 + n_1 && \$ && reduce \ by \ F \rightarrow n \\
14 && \$E_2 + F_1 && \$ && reduce \ by \ P \rightarrow F \\
15 && \$E_2 + P_1 && \$ && reduce \ by \ T \rightarrow P \\
16 && \$E_2 + T_1 && \$ && reduce \ by \ E \rightarrow E + T \\
17 && \$E_1 && \$ && accept
\end{array}

Risulta abbastanza evidente come la descrizione del funzionamento del parser non sia un algoritmo. Infatti persistono elementi di non determinismo, nello specifico due casi particolari:

- Quando è possibile applicare sia una riduzione che uno shift
- Quando sulla cima dello stack è presente la parte destra di più di una produzione

Non entriamo nei dettagli di come vengono gestiti questi casi particolari perchè sarà proprio il parser a occuparsene. Quanto visto fino ad adesso è sufficiente a comprendere il modo di utilizzare tale strumento. Va però precisato che non tutte le grammatiche sono adatte a tutti gli strumenti. Noi utilizzeremo ```ply.yacc```.

## Generatori di parser

Ora, come fatto per lo scanner, andremo a generare un interprete per le espressioni aritmetiche definite dalla grammatica non ambigua definita precedentemente. Ciò comporta la scrittura anche di uno scanner specifico per il nostro scopo, oltre che il parser.

Andremo ad utilizzare sempre il modulo python ```ply.lex``` per lo scanner, mentre il modulo ```ply.yacc``` per il parser.

In [2]:
from ply import lex
from ply import yacc

Questo sarà il nostro scanner.

In [3]:
tokens = ('NUMBER','PLUS','MINUS','MUL','DIV','POW','LPAR','RPAR',)

t_PLUS  = r'\+'
t_MINUS = r'-'
t_MUL   = r'\*'
t_DIV   = r'/'
t_POW   = r'\^'          
t_LPAR  = r'\('
t_RPAR  = r'\)'

def t_NUMBER(t):
    r'\d+'
    t.value = int(t.value)
    return t
 
def t_newline(t):
    r'\n+'
    t.lexer.lineno += len(t.value)

t_ignore  = r' \t'

def t_error(t):
    print(f"Illegal character {t.value[0]}")
    t.lexer.skip(1)

lexer = lex.lex()

Yacc è l'acronimo di ```Yet Another Compiler Compiler```. È uno strumento di ausilio alla generazione di compilatori a partire dalla definizione della grammatica. Un meccanismo simile allo scanner. Si tratta di un complemento di lex, infatti tipicamente yacc importa i token definiti in lex.

In [4]:
from codes.expressions_scanner import tokens

print(tokens)

('NUMBER', 'PLUS', 'MINUS', 'MUL', 'DIV', 'POW', 'LPAR', 'RPAR')


Le produzioni e le corrispondenti azioni che devono essere eseguite dal parser le forniamo come funzioni, in particolare, come anche nello scanner, utilizziamo la docstring della funzoine stessa per indicare la produzione relativa. Il corpo della funzione contiene invece il codice che deve essere eseguito nel momento in cui la produzione viene utilizzata per la riduzione.

La nomenclatura delle funzioni è analoga a quella dello scanner tranne per la lettera t.

In [5]:
def p_expression_add(p):
    'expression : expression PLUS term'
    p[0] = p[1] + p[3]

def p_expression_sub(p):
    'expression : expression MINUS term'
    p[0] = p[1] - p[3]

def p_expression_term(p):
    'expression : term'
    p[0] = p[1]

def p_term_mul(p):
    'term : term MUL power'
    p[0] = p[1] * p[3]

def p_term_div(p):
    'term : term DIV power'
    p[0] = p[1] // p[3]

def p_term_power(p):
    'term : power'
    p[0] = p[1]

def p_power_raise(p):
    'power : factor POW power'
    p[0] = p[1] ** p[3]
    
def p_power_factor(p):
    'power : factor'
    p[0] = p[1]
    
def p_factor_num(p):
    'factor : NUMBER'
    p[0] = p[1]

def p_factor_expr(p):
    'factor : LPAR expression RPAR'
    p[0] = p[2]

def p_error(p):
    print("Syntax error in input!")

Il parser utilizza una lista per ottenere i token relativi ad una riduzione, ogni simbolo corrisponde ad un indice nella lista stessa. Tantè che nelle definizioni delle funzioni quello che noi intendiamo come operatore, ad esempio ```+```, viene saltato come indice perche lo sostituiamo il suo effettivo significato, utilizzando solamente gli indici corrispondenti ai token veri e propri.

Vediamo ora un possibile main program per l'utilizzo di quanto fatto fino ad ora.

In [None]:
def main():
    parser = yacc.yacc()
    while True:
        try:
            s = input('calc (ctrl-d to quit) > ')
        except EOFError:
            break
        if not s: continue
        result = parser.parse(s)
        print(result)


if __name__ == '__main__':
    main()

Ovviamente tutti i file relativi a questo esempio li ho inseriti nella cartella ```codes``` nominati rispettivamente ```expressions_scanner```, ```expressions_parser```, ```expressions_main```.

L'esecuzione non avviene tramite IPython per lo stesso modivo spiegato nel notebook dello scanner. Per eseguire il codice di esempio ci basta utilizzare il seguente comando:

```
python expressions_main.py
```

E inserire l'espressione di cui vogliamo il risultato:

```
calc (ctrl-d to quit) > 5*3/2
17
```

Nel caso volessimo arricchire il parser con ulteriori produzioni, come la seguente:

- $\mathcal{N} = \left \{ E, T, P, F \right \}$
- $\mathcal{T} = \left \{ +, -, \times, /, ^, (,), n \right \}$
- $\mathcal{S} = E$
- $\mathcal{E}$:
    - $E \rightarrow E + T | E - T | T$
    - $T \rightarrow T \times P | T / P | P$
    - $P \rightarrow F ^ P | F$
    - $F \rightarrow pi | sqrt(E) | n | (E)$

Ci basterebbe aggiungere le relative produzioni nel file del parser con le seguenti funzioni:

In [None]:
from math import pi, sqrt

def p_factor_pi(p):
    'factor : PI'
    p[0] = pi
    
def p_factor_sqrt(p):
    'factor : SQRT LPAR expression RPAR'
    p[0] = sqrt(p[3])

# Non può più essere una divisione intera
def p_term_div(p):
    'term : term DIV power'
    p[0] = p[1] / p[3]

E aggiungere nello scanner i token necessari:

In [None]:
tokens += ('SQRT','PI')

def t_SQRT(t):
    r'sqrt\b'
    return t

def t_PI(t):
    r'pi\b'
    return t

def t_NUMBER(t):
    r'[1-9]+[.]?\d*|[0]?\.\d+'
    return t