**COMPILADORES - AULA 1**

***Prof. Luciano Silva***

**Objetivos da aula:**
*   revisar os passos de compilação
*   apresentar o conceito de analisador léxico
*   implementar analisadores léxicos em Python, usando o módulo rply





**FASES DO PROCESSO DE COMPILAÇÃO**

As diversas fases do processo de compilação são mostradas na imagem abaixo:

<img src="https://www.researchgate.net/profile/Nuno-Oliveira-15/publication/266497079/figure/fig1/AS:295651775664128@1447500284302/Common-Compiler-Phases.png"> <img>

A partir de um programa-fonte (source), a primeira fase do processo de compilação é a quebra do programa em **tokens**, realizado através do **analisador léxico**. 

Uma vez identificados os tokens, o compilador precisa verificar se eles aparecem numa ordem determinada por uma **gramática**, processo que é realizado pelo **analisador sintático**. O produto do analisador sintático é a chamada **árvore de análise sintática** ou, abreviadamente, **árvore sintática**.

A partir da árvore sintática, o compilador utiliza o **analisador semântico**. Este analisador percorre a árvore sintática para verificar, por exemplo, se há algum erro de tipo, se as funções são chamada com os argumentos corretos, dentre outras verificações. 

Uma vez que o programa não tenha erros sintáticos e semânticos, o compilador começa as tarefas de geração de código. O **gerador de código intermediário** é o primeiro deles e, para este gerador, a máquina-alvo do código é considerada como tendo um número infinito de registradores. Isto facilita bastante a geração de código inicial.

A partir deste código intermediário, caímos em um problema de otimização: como transformar um código com infinitos registradores em um código que utilize um número finito de registradores. Esta é uma das tarefas do **otimizador de código**.

Finalmente, uma vez otimizado o código, podemos gerar o código final para a máquina-alvo utilizando o **gerador de código**. 


**ANALISADOR LÉXICO**

O **analisador léxico** é um módulo de compilador responsável por quebrar o programa a ser compilado em **tokens**. Um token é, essencilamente, uma 2-upla (valor,tipo). Por exemplo, o token (123,NUMBER) diz que a entrada 123 reconhecida é um número. 

A representação operacional de um analisador léxico é, essencialmente, um **autômato (de estados) finito**. Abaixo temos um exemplo de um analisador léxico para reconhecer números inteiros sem sinal.

<img src="https://www.csee.umbc.edu/courses/undergraduate/CMSC331/fall17/park/homeworks/hw3/dfa.gif"> <img>



**EXERCÍCIO RESOLVIDO**

Queremos constuir um analisador léxico para os símbolos terminais da gramática abaixo:

\<expression\> ::= NUMBER

               | \<expression\> "+" \<expression\>

               | \<expression\> "-" \<expression\>

               | \<expression\> "*" \<expression\>

               | \<expression\> "/" \<expression\>

               | "(" <expression> ")"

O primeiro passo é instalar o rply, um módulo para construir analisadores.



In [1]:
!pip install rply

Collecting rply
  Downloading rply-0.7.8-py2.py3-none-any.whl (16 kB)
Collecting appdirs
  Downloading appdirs-1.4.4-py2.py3-none-any.whl (9.6 kB)
Installing collected packages: appdirs, rply
Successfully installed appdirs-1.4.4 rply-0.7.8


Toda a documentação do rply pode ser encontrada abaixo:

<a href="https://rply.readthedocs.io/en/latest/">Documentação RPLY </a>

O segundo passo é construir o analisador léxico:

In [2]:
from rply import LexerGenerator

lg = LexerGenerator()

lg.add('NUMBER', r'\d+')
lg.add('PLUS', r'\+')
lg.add('MINUS', r'-')
lg.add('MUL', r'\*')
lg.add('DIV', r'/')
lg.add('OPEN_PARENS', r'\(')
lg.add('CLOSE_PARENS', r'\)')

lg.ignore('\s+')

lexer = lg.build()

Observe que, associado a cada classe léxica, temos uma expressão regular associada. Esta expressão regular usa a facilidade RegEx do Python, cuja documentação pode ser enontrada abaixo:

<a href="https://blog.geekhunter.com.br/python-regex/"> Expressões Regulares em Python </a>

Para usar somente o analisador léxico, podemos usar o código abaixo:

In [3]:
for token in lexer.lex('1+1-1'):
  print(token)

Token('NUMBER', '1')
Token('PLUS', '+')
Token('NUMBER', '1')
Token('MINUS', '-')
Token('NUMBER', '1')


**EXERCÍCIO PROPOSTO**

Modifique o analisador léxico para reconhecer números inteiros com ou sem  sinal. Por exemplo: +6, -58, 100.


In [6]:
lg = LexerGenerator()

lg.add('NUMBER', r'[+-]?\d+')
lg.add('PLUS', r'\+')
lg.add('MINUS', r'-')
lg.add('MUL', r'\*')
lg.add('DIV', r'/')
lg.add('OPEN_PARENS', r'\(')
lg.add('CLOSE_PARENS', r'\)')

lg.ignore('\s+')

lexer = lg.build()

for token in lexer.lex('1+1-1'):
  print(token)

Token('NUMBER', '1')
Token('PLUS', '+')
Token('NUMBER', '+1')
Token('NUMBER', '-1')


**EXERCÍCIO PROPOSTO**

Modifique o analisador léxico para reconhecer números em ponto flutuante com ou sem  sinal. Por exemplo: +6.56, -6.089678, 234.475.

In [10]:
lg = LexerGenerator()

lg.add('NUMBER', r'[+-]?\d+.\d+')
lg.add('PLUS', r'\+')
lg.add('MINUS', r'-')
lg.add('MUL', r'\*')
lg.add('DIV', r'/')
lg.add('OPEN_PARENS', r'\(')
lg.add('CLOSE_PARENS', r'\)')

lg.ignore('\s+')

lexer = lg.build()

for token in lexer.lex('+315.2543-63.532124'):
  print(token)

Token('NUMBER', '+315.2543')
Token('NUMBER', '-63.532124')


**EXERCÍCIO PROPOSTO**

Considere a nossa gramática inicial com a modificação abaixo. Nesta alteração, id é o nome de uma variável que começa com letra (minúscula ou maiúscula) e, depois disto, pode conter letras ou números. Implemente e teste um analisador  léxico para esta alteração.

\<atribuicao\> ::= **id** **"="** \<expression\> **";"**

\<expression\> ::= **NUMBER**

               | \<expression\> "+" \<expression\>

               | \<expression\> "-" \<expression\>

               | \<expression\> "*" \<expression\>

               | \<expression\> "/"\<expression\>

               | "(" <expression> ")"

In [18]:
lg = LexerGenerator()

lg.add('NUMBER', r'[+-]?\d*.\d+')
lg.add('PLUS', r'\+')
lg.add('MINUS', r'-')
lg.add('MUL', r'\*')
lg.add('DIV', r'/')
lg.add('OPEN_PARENS', r'\(')
lg.add('CLOSE_PARENS', r'\)')

lg.add('ID',r'[a-zA-Z][a-zA-Z0-9]*')
lg.add('EQUALS',r'=')
lg.add('SEMICOLON',r';')

lg.ignore('\s+')

lexer = lg.build()

for token in lexer.lex('User2 = 1902.52125'):
  print(token)

Token('ID', 'User2')
Token('EQUALS', '=')
Token('NUMBER', '1902.52125')
