# Análise léxica

A função do analisador léxico, também chamado _scanner_, é **fazer a leitura do programa fonte, caractere a caractere, e traduzi-lo para uma sequência de símbolos léxicos, também chamados _tokens_**.

Uma linguagem é um conjunto de palavras formadas por símbolos de um determinado alfabeto. Tokens de uma LP constituem uma _linguagem regular_. 

## De linguagens formais

Uma gramática $G$ é um mecanismo para regar sentenças (palavras) de uma linguagem e é definida por: $(N, T, P, S)$, onde:
* $N$ é um conjunto de símbolos não terminais
* $T$ é um conjunto de símbolos terminais
* $P$ é um conjunto de regras de produção
* $S$ é o símbolo inicial da gramática

A _linguagem gerada_ por $G$, denotada por $L(G)$ é o conjunto formado por todas as sentenças de símbolos terminais deriváveis a partir do símbolo inicial $S$, ou seja:

\begin{align*}
L(G) = \{ s | s \in T^* \wedge S \Rightarrow s \}
\end{align*}

### Expressões regulares

Uma expresão regular $r$ sobre um conjunto de símbolos $T$ representa uma linguagem $L(r)$.

## Tokens

Os tokens são as unidades básicas do texto do programa. Cada token é representado por três informações:
* **classe** (ex.: identificadores, constantes numéricas, cadeias de caracteres, palavras reservadas, operadores, separadores)
* **valor do token** (ex.: o número representado por uma constante numérica)
* **posição do token** (local do texto, linha e coluna, onde ocorreu o token)

## Especificação

A especificação de um analisador léxico descreve o conjunto de tokens que formam a linguagem, incluindo também a indicação de quais caracteres podem ser ignorados (ex.: espaços em branco entre tokens e comentários).

As palavras-reservadas da linguagem (_keywords_) são armazenadas em uma tabela, que é examinada cada vez quem um identificador é reconhecido. Se o token ocorre na tabela, então trata-se de uma _keyword_, senão, é um identificador. 

**Exemplo**: Considere uma linguagem de programação cujos tokens são os seguintes:
* identificadores formados por uma letra (L) seguida, opcionalmente, por uma ou mais letras e dígitos (D)
* números inteiros formados por um ou mais dígitos (D)
* espaços em branco (B) são ignorados

Geralmente, um _autômato finito_ é utilizado para representar o analisador léxico, mas a implementação pode ocorrer de diversas formas, como lendo o programa fonte a cada caractere e avaliando condicionais ou utilizando-se de expressões regulares.

## Tabela de símbolos

A tabela de símbolos associa atributos (como tipo, escopo, limites no caso de vetores) ao snomes definidos pelo programador. Ela começa a ser construída durante a análise léxica, no reconhecimento dos identificadores. Uma estratégia de implementação é utilizar uma _tabela hash_.