# Compilatori e interpreti

Iniziamo ad affrontare un argomento molto importante per comprendere a pieno i linguaggi dinamici, l'architettura di un compilatore e di un interprete.

## Compilatori e interpreti

I compilatori e gli interpreti sono degli strumenti messi a disposizione per la generazione di codice eseguibile.

Un compilatore traduce un codice di alto livello in un secondo codice ma di basso livello. Possiamo fare l'esempio del compilatore C. Esso traduce il liguaggio C, linguaggio di alto livello, nel linguaggio macchina, liguaggio di basso livello.  
I compilatori traducono il codice sorgente in codice macchina tutto insieme e in una unica volta.

Un interprete, invece, considera solamente porzioni limitate di codice di alto livello o codice intermedio, le traduce in linguaggio di più basso livello e successivamente le esegue direttamente.  
L'interprete, con questo meccanismo di porzionamento del codice, permette di tradurre ed eseguire porzioni di codice sorgenete in momenti differenti e quindi permette la modifica del codice a runtime. Proprio per questo la forza dei linguaggi dinamici deriva dal fattore interprete.

Un linguaggio con prevalenza di interpretazione ha diversi vantaggi e svantaggi.

Vantaggi:

- Maggiore portabilità
- Maggiore flessibilità
- Supporto per debugging a runtime più flessibile e potente
- Tempi di sviluppo più brevi, derivato prevalentemente per il type checking dinamico

Svantaggi:

- Performance peggiori
- Maggiore richiesta di memoria
- Necessità di disporre dell'interprete sul computer dove viene eseguito il programma

Solitamente però, essere compilato o interpretato non è una caratteristica del linguaggio stesso, ma più una caratteristica dell'implementazione dello stesso.  
I linguaggi dinamici generalmente si collocano più dalla parte dell'interpretazione, anche se per ragioni di efficienza si è spinto anche verso soluzioni ```JIT```, ```Just In Time```, o tecniche di ```early biding``, come Cython.

## Linguaggi dinamici

I principali obbiettivi che vogliono portare i linguaggi dinamici sono la portabilità e rapidità di prototipazione. In aggiunta, i linguaggi dinamici puntano a performance migliori a linguaggi con una implementazione completamente interpretata, come ad esempio Shell.

I linguaggi dinamici adottano quindi un approccio ibrido, compilazione più interpretazione. Il codice sorgente viene tradotto in un codice intermedio per poi essere eseguito. Il modello di esecuzione è diviso in due macro modelli, il modello ```Abstract Syntaxt Tree```, ```AST```, e il modello ```Bytecode```.

## Architettura generica di un compilatore

![Architettura compilatore](images/image-1.jpg)

Il compilatore è suddiviso in due componenti distinti, il frontend ed il backend.

Il frontend ha il compito di analizzare l'input, ovvero il codice sorgente, e di tradurlo in un codice intermedio. Il componente frontend è fortemente dipendente dal linguaggio di programmazione.

Il backend ha il compito invece di sintesi dell'output, ovvero riceve un codice intermedio e riuscire a restituire un programma oggetto che sia in grado di essere comprensibile all'architettura hardware. Di conseguenza, questo componente dipende dall'architettura hardware sul quale è presente.

I grossi vantaggi di una struttura del genere sono:

- Modularità

    Con questa divisione tra frontend e backend non è necessario sviluppare infinite combinazioni di compilatori in grado di essere operativo per n linguaggi e m hardware, basta sviluppare il relativo frontend o backend a seconda delle esigenze. Un esempio può essere con il linguaggio C. Non abbiamo bisogno di sviluppare un compilatore per C - ARM, uno per C - x86 e uno C - PowerPC, ci basta sviluppare un singolo frontend C e tre differenti backend, ARM, x86, PowerPC.

- Portabilità

    La divisione frontend - backend permette di avere grossi benefici in termini di portabilità. Infatti ci basterà avere un solo frontend specifico per un linguaggio e dei backend relativi a diverse architetture, allora possiamo fare girare lo stesso programma di quante più architetture noi vogliamo.

- Economicità

    Questo deriva direttamente dal concetto di modularità. Sviluppando i singoli moduli ci permette di avere una gamma di compilatori maggiore al sviluppare i singoli compilatori specifici. Ciò comporta quindi un grande risparmio economico.

La seguente immagine rappresenta i componenti da cui sono formati il frontend ed il backend.

![Image 2](images/image-2.png)

## Architettura di un interprete

L'architettura di un interprete è anch'essa descrivibile mediante i due componenti frontend e backend, come la figura del compilatore.

I compiti di questi due blocchi sono essenzialmente gli stessi, cambiamo le modalità.

Il beckend, ovvero il componente che genera il codice eseguibile, è in realtà il vero e proprio interprete che possiamo anche chiamare come interprete del codice intermedio. A seconda del tipo di formato intermedio abbiamo due modelli di esecuzione differenti che può adottare il backend, che d'ora in poi chiameremo solamente interprete, il modello ```AST``` e il modello ```Bytecode```.

Il frontend invere ha sempre il compito di tradurre il codice sorgente in un codice intermedio. Esso sarà quindi il componente che deciderà il modello di esecuzione. D'ora in poi chiameremo il frontend più comunemente come compilatore.

Facciamo attenzione al fatto che, siccome analizziamo l'architettura dell'interprete, il compilatore corrisponde al frontend dell'interprete, mentre l'interprete corrisponde al backend dello stesso.

### Modello AST

Il modello AST consiste nella costruzione di un albero sintattico del codice sorgente da parte del compilatore. Successivamente, attraverso algoritmi di visita dell'albero, l'interprete è in grado di considerare singole porzioni dell'albero per tradurle singolarmente e in momenti differenti in istruzioni corrispondenti all'hardware fisico e eseguirle.

### Modello Bytecode

Il compilatore traduce il codice sorgente in una rappresentazione intermedia di bytecode, un linguaggio intermedio. Il modello a bytecode rappresenta un passo successivo rispetto all'AST, e potenzialmente più ottimizzato.

Il bytecode può essere considerato come un codice macchina, ma la macchina che lo esegue non è direttamente l'hardware ma una sorta di macchina virtuale in grado di comprendere le istruzioni del bytecode per poi tradurle in istruzioni per l'hardware specifico. Quella che chiamiamo macchina virtuale solitamente è implementata nell'interprete.

### Compilazione Just In Time

La compilazione JIT è anche chiamata traduzione dinamica. Ne viene fatto uso in linguaggi che adottano il modello a bytecode, come ad esempio Java e Python. La compilazione JIT viene utilizzata oramai da quasi tutte le macchine virtuali attuali.

La macchina virtuale che implementa la compilazione JIT permette a runtime:

- La compilazione di porzioni di bytecode traducendole in linguaggio macchina nativo del computer ospitante
- Di memorizzare determinate porzioni tradotte per il loro riutilizzo

Il principale motivo dell'utilizzo del compilatore JIT in macchine virtuali in modelli a bytecode è l'efficienza.

## Analisi lessicale

La fase di analisi lessicale ha come obbiettivo primario la trasformazione del programma sorgente, inteso come sequenza di semplici caratteri, in una sequenza di token. I token sono le unità linguistiche utilizzate per l'analisi sintattica e riconoscere la correttezza del programma.

I token quindi possono essere identificatori, numeri, operatori, parole riservate e altre istruzioni. Possiamo fare un esempio con un frammento di programma python.

```python
for element in my_list:
    print(element)
```

Il seguente frammento di codice python potrebbe essere trasformato nella seguente sequenza di token:

```
FOR ID IN ID COLON ID LPAR ID RPAR
```

Non concentriamoci troppo attualmente sul nome dati ai token in questo esempio. L'importante in questo assaggio è il concetto.

Un token può essere un oggetto al quanto complesso. Esso deve riuscire a identificare determinati caratteri e riuscire a dare il giusto significato ad essi. Immaginiamo la parola riservata ```for```, essa avrà una corrispondenza univoca con il token ```FOR``` con il suo relativo significato. Ma se la sequenza di caratteri fosse ```element``` la questione diventa più complessa. L'analizzatore non riesce a dare una corrispondenza univoca con un token, in quanto la parola element è una variabile nel programma e quindi il suo nome può essere arbitrario. Quello che fa l'analizzatore, il cui sinonimo è ```scanner``` o anche ```lexer```, è di attribuire un token ID al quale associa altre informazioni utili al fine dell'esecuzione del programma.

Approfondiremo meglio l'analisi lessicale e il lexer in un notebook successivo.

## Analisi sintattica

In questa dase il compilatore raggruppa tutti i token ricevuti dal lexer in costruzioni linguistiche sintatticamente corrette. Se il processo non ritorna nessun errore, allora potrà essere rappresentato mediante una struttura ad albero.

Un esempio di come potrebbe apparire l'analisi sintattica del precedente frammento di programma è il seguente albero.

![Image 3](images/image-3.png)

Il modulo che esegue l'analisi sintattica è detto anche ```parser```, mentre il processo di analisi è detto ```parsing```.

Approfondiremo meglio anche il parser in un notebook successivamente.

## Interazione fra scanner e parser

Le fasi di scanner e parser, al contrario di quanto si possa pensare, non sono sequenziali tra loro, ovvero prima lo scanning e poi il parsing.

L'architettura prevede piuttosto che lo scanner sia una sorta di sottoprogramma del parser. Il parser inizia l'analisi sintattica e per svolgere questo compito invocherà l'esecizione dello scanner per ottenere i token necessari.

![Image 4](images/image-4.png)