# Parsers (analizadores sintácticos)
---

## Funciones

* Comprobar que los tokens que le suministra el Scanner van ordenados según la especificación de la gramática del lenguaje a compilar
*  Si no es así, dar los mensajes de error adecuados, pero continuar funcionando sin detenerse, hasta que se llegue al final del archivo de entrada
*  Guia casi todo el proceso de la compilación. Esto es así porque por un lado va solicitando al Scanner los tokens y al mismo tiempo va dirigiendo el proceso de análisis semántico y generación de código intermedio (ambos procesos se les llama, traducción dirigida por la sintaxis)

![fase-parser.png](attachment:cc74d7a4-daa3-4c0a-a65c-ec5ed0b5b512.png)

* Generalmente, los Parsers obtienen un árbol teórico, árbol de análisis sintáctico (AAS) que permite expresar el orden de los lexemas según van apareciendo
* Si se utiliza el método de traducción dirigida por la sintaxis no se llega ni siquiera a plantearse la generación del árbol ya que el Parser realizará las acciones semánticas e incorporará los métodos para realizar la generación de código intermedio y avisará de errores y su recuperación
* Es decir, el Parser hará las funciones de las dos fases siguientes (analizador semántico y generación de código intermedio)
* Si se le da la oportunidad a la creación del AAS, recorriéndolo es posible crear una representación intermedia del programa fuente, ya sea en forma de árbol sintáctico abstracto o en forma de programa en un lenguaje intermedio
* Para generar el Parser, se pueden utilizar dos técnicas:

| Técnica                                                  | Implementación | Eficiencia      |
| --                                                       | --             | --              |
| **a mano**                                               | difícil        | eficiente       |
| **mediante herramientas que lo generan automáticamente** | fácil          | menos eficiente |

## Especificación del Lenguaje (L)

* Para que un Parser funcione, se debe especificar formalmente L
* L debe ser representado con reglas únicas y bien formadas (GIC) de manera que el Parser funcione de una manera bien definida
* Primer paso para implementar un Parser es definir la GIC que debe ser capaz de analizar
* Una GIC es una especificación (formal) de un conjunto de strings válidos (programas)
* La GIC no explica el "significado" de las partes del programa
* Ejemplo: "Cobertorzinho"

```
<exp> ::= a 
<exp> ::= b
<exp> ::= virar(<exp>)
<exp> ::= costurar(<exp>,<exp>)
```

## Ejemplos

### Sintaxis del lenguaje de fechas (GIC no recursiva)

```
<date> ::= <d><d>/<d><d>/<d><d><d><d>
```

### Sintaxis del lenguaje de secuencia de números (GIC recursiva)

```
<real_number> ::= <digit_seq> . <digit_seq>
<digit_seq> ::= <d> | <d> <digit_seq>
<d> ::= 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9
```

### Sintaxis del lenguaje de expresiones aritméticas

```
E -> E + E | E * E | num | id | (E)
```

* Derivaciones para la cadena: id1 + id2 * id3

|                      |                                                                                 |
| --                   | --                                                                              |
| **Por la izquierda** | E -> E \* E -> E + E \* E -> id1 + E \* E -> id1 + id2 \* E -> id1 + id2 \* id3 |
| **Por la derecha**   | E -> E \* E -> E \* id3 -> E + E \* id3 -> E + id2 \* id3 -> id1 + id2 \* id3   |

* Se observa que la gramática es **ambigua**, para su implementación, es necesario evitar la ambigüedad

```
E -> E + T | T
T -> T * F | F
F -> id | F | (E)
```

## Tipos de análisis sintáctico y GICs

* Al derivar una secuencia de tokens, si existe más de un no terminal en una cadena de derivación se debe elegir cuál es el próximo no terminal que se va a expandir, es decir, cuál será reemplazado por su lado derecho de la producción
* Por ello se utilizan dos tipos de derivaciones que determinan con precisión cuál será el no terminal a tratar:

|                            |                                                                                                                                 |
| --                         | --                                                                                                                              |
| **Derivación a izquierda** | ocurre cuando siempre se reemplaza el primer no terminal que se encuentre en una cadena derivación leída de izquierda a derecha |
| **Derivación a derecha**   | ocurre cuando siempre reemplaza el último no terminal de la cadena de derivación leída de izquierda a derecha                   |

## Estrategias de análisis sintáctico

* Hay varios algoritmos de análisis sintáctico (incluso para las gramáticas ambiguas), pero su costo computacional es elevado -> $O(n^3)$
* Por lo que se debe modificar la GIC (si es necesario) para que se pueda utilizar un algoritmo de menor costo computacional -> $O(n)$
* Si se consigue eliminar la ambigüedad, se pueden utilizar dos estrategias:

|||
| -- | -- |
| **Análisis Sintáctico Descendente (ASD)** | produce una derivación por izquierda, que comienza en el axioma y finaliza con los terminales que forman la construcción analizada |
| **Análisis Sintáctico Ascendente (ASA)**  | utiliza una derivación a derecha, pero en orden inverso, esto es: la última producción aplicada en la derivación a derecha, es la primera producción que es "descubierta", mientras que la primera producción utilizada, la que involucra al axioma, es la última producción en ser "descubierta". En otras palabras, "reduce el árbol de análisis sintáctico" hasta llegar al axioma |

![parsers.png](attachment:b20eb29c-6ab8-4af9-aca3-031d35ed91d6.png)

### Análisis Sintáctico Descendente (ASD)

* Se parte de la raíz del AAS y se van aplicando **reglas por la izquierda** para obtener una derivación por la izquierda del símbolo inicial
* Para saber la regla a aplicar, se van leyendo tokens de la entrada
* De esta manera se construye el AAS
* Recorriendo el árbol en profundidad, de izquierda a derecha, se tendrá en las hojas los tokens ordenados
* Las gramáticas de tipo LL(k) se pueden analizar en tiempo lineal por el método de análisis descendente
  * k: número de símbolos de entrada que es necesario conocer en cada momento para poder realizar el análisis

* Ejemplo: derivar la cadena $aabcdd$

$$S \rightarrow aST \mid b$$
$$T \rightarrow cT \mid d$$

| Cadena de derivación obtenida | Próxima producción a aplicar |
| --                            | --                           |
| $S$                           | $S \rightarrow aST$          |
| $aST$                         | $S \rightarrow aST$          |
| $aaSTT$                       | $S \rightarrow b$            |
| $aabTT$                       | $T \rightarrow cT$           |
| $aabcTT$                      | $T \rightarrow d$            |
| $aabcdT$                      | $T \rightarrow d$            |
| $aabcdd$                      | $accept$                     |

* Tipos de análisis:
  * **Análisis Sintáctico Descendente con retroceso** -> ASD con retroceso
  * **Análisis Sintáctico Descendente Predictivo** -> ASDP LL(1)

### Análisis Sintáctico Ascendente (ASA)

* Se parte de la palabra de entrada y se va construyendo el árbol a partir de las hojas para llegar a la raíz
* Si se recorre el árbol generado, se encontrarán los tokens ordenados
* Las gramáticas de tipo LR(k) se pueden analizar en tiempo lineal por el método de análisis ascendente

* Ejemplo: derivar la cadena $aabcdd$

$$S \rightarrow aST \mid b$$
$$T \rightarrow cT \mid d$$

1. Derivación a derecha:

| Cadena de derivación obtenida | Próxima producción a aplicar |
| --                            | --                           |
| $S$                           | $S \rightarrow aST$          |
| $aST$                         | $T \rightarrow d$            |
| $aSd$                         | $S \rightarrow aST$          |
| $aaSTd$                       | $T \rightarrow cT$           |
| $aaScTd$                      | $T \rightarrow d$            |
| $aaScdd$                      | $S \rightarrow b$            |
| $aabcdd$                      |                              |

2. Orden Inverso a la derivación por derecha

| Cadena de derivación obtenida | Próxima producción a aplicar |
| --                            | --                           |
| $aabcdd$                      | $S \rightarrow b$            |
| $aaScdd$                      | $T \rightarrow d$            |
| $aaScTd$                      | $T \rightarrow cT$           |
| $aaSTd$                       | $S \rightarrow aST$          |
| $aSd$                         | $T \rightarrow d$            |
| $aST$                         | $S \rightarrow aST$          |
| $S$                           | $accept$                     |

* Tipos de análisis:
  * **Análisis Sintáctico Ascendente con retroceso** -> ASA con retroceso
  * **Análisis Sintáctico Ascendente Predictivo** -> ASAP SLR