# Análise sintática

Dada uma gramática livre de contexto $G$ e uma sentença (programa fonte) $s$, o objetivo de um analisador sintático é verificar se a sentença $s$ pertence à _linguagem gerada_ por $G$. 

O analisador sintático recebe do analisador léxico a sequência de tokens que constui a sentença $s$ e produz como resulado uma _árvore de derivação_ para $s$.

Há duas estratégias para a análise sintática: estratégia top-down e estratégia bottom-up.

Os métodos baseados na **estratégia top-down (descendente)** constróem a árvore de derivação a partir do símbolo inicial da gramática (raiz da árvore), fazendo a árvore crescer até atingir suas folhas. 

Os métodos baseados na **estratégia bottom-up (redutiva)** realizam a análise a partir dos tokens do texto fonte (folhas da árvore de derivação) e constróem a árvore até o símbolo inicial da gramática.

## Gramática livre de contexto (GLC)

As gramáticas livre de contexto, popularizadas pela notação BNF (Backus Naur Form), formam a base para a análise sintática das linguagens de programação, pois permitem descrever a maioria das linguagens de programação usadas atualmente.

Uma gramática livre de contexto é qualquer gramática cujas produções têm a forma:

\begin{align*}
A \to \alpha
\end{align*}

onde $A$ é um símbolo não-terminal e $\alpha \in (N \cup T)^*$.

Importante lembrar: uma gramática $G = (N, T, P, S)$, onde:
* $N$ é um conjunto de símbolos não terminais
* $T$ é um conjunto de símbolos terminais
* $P$ é um conjunto de regras de produção
* $S$ é o símbolo inicial da gramática

Em outras palavras, o não-terminal $A$ pode ser substituído por $\alpha$ em qualquer contexto, sem depender (livre) de qualquer análise dos símbolos que sucedem ou antecedem $A$.

**Exemplo de GLC:**

```
G = (N, T, P, S)
N = {E}
T = {+, -, *, /, (, ), x}
P = { E -> E + E | E - E | E * E | E / E | ( E ) | x }
S = E
```

**_Exercício:_** Exemplifique uma sentença válida nessa linguagem.

**Exemplo de GLC utilizando EBNF:**

```
E        ::= E OPERADOR E | E | '(' E ')' | INCOGNITA | NUMERO
OPERADOR ::= '+' | '-' | '*' | '/'
INCOGNITA ::= 'x' | 'y'
NUMERO   ::= [0-9]+
```

**_Exercício**_: Use a ferramenta [http://www.bottlecaps.de/rr/ui](http://www.bottlecaps.de/rr/ui) para gerar o diagrama de sintaxe.

**_Exercício_**: Exemplifique uma sentença válida nessa linguagem e use a ferramenta [http://ironcreek.net/phpsyntaxtree/](http://ironcreek.net/phpsyntaxtree/) para gerar a árvore de derivação.

A linguagem definida no exemplo anterior gera expressões aritméticas com parênteses balanceados. Gere a árvore de derivação para a expressão $x + x * x$. Essa expressão (sentença) pode gerar as derivações:
* $E \to E + E \to x + E \to x + E * E \to x + x * E \to x + x * x$
* $E \to E + E \to E + E * E \to E + E * x \to E + x * x \to x + x * x$
* $E \to E + E \to E + E * E \to x + E * E \to x + x * E \to x + x * x$

Portanto, "derivar" significa aplicar uma "substituição" a cada nó não-terminal até representar toda a sentença.

## Derivação mais à esquerda e mais à direita

Uma **derivação mais à esquerda** de uma sentença é a sequência de formas sentenciias que se obtém derivando sempre o símbolo não-terminal mais à esquerda.

Uma **derivação mais à direita** aplica as produções sempre ao não-terminal mais à direita.

## Gramática ambígua

Uma gramática que permite construir mais de uma árvore de derivação para uma mesma sentença é chamada **gramática ambígua**. Gerou a árvore de derivação para uma sentença (expressão) da linguagem do exemplo? Gere outra árvore de derivação para a mesma sentença.

## Transformações de GLCs

As seguintes transformações podem acontecer em GLCs gerando **gramáticas equivalentes**:
* eliminação de produções vazias
* retirada de recursividade à esquerda
* fatoração de produções

## Tabela de símbolos EBNF

A tabela a seguir apresenta os símbolos da **Extended Bakus-Naur** Form (EBNF).

|Aplicação           |Notação                |
|--------------------|-----------------------|
|definição           | `::=` ou `=`          |
|concatenação        | `,` ou vazio          |
|terminação          | `;`                   |
|alternação          | &#124;                |
|opcional            | `[...]`               |
|repetição           | `{...}`               | 
|agrupamento         | `(...)`               |
|terminador de string| "..." ou '...'        |
|comentário          | (\*...\*) ou \\\*...*\\ |
|sequência especial  | ?...?               |
|exceção             | -                     |

Operadores:
* \* : símbolo de repetição (0 ou mais)
* +  : símbolo de repetição (1 ou mais)
* (E){i, j} : símbolo de repetição (1 a n)
* \- : símbolo de exceção
* ,  : símbolo de concatenação (ou vazio)
* |  : símbolo separador de definições
* =  : símbolo de definição
* ;  : símbolo terminador
* .  : símbolo terminador

Mais informações sobre a [EBNF](https://en.wikipedia.org/wiki/Extended_Backus%E2%80%93Naur_Form).

