<a href="https://colab.research.google.com/github/rogerioag/tutorial-de-compiladores/blob/master/01_compiladores_analise_lexica_tpplex.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise Léxica

## Preparação do Ambiente

*   Instalação do [PLY](https://www.dabeaz.com/ply/ply.html)



In [3]:
!pip install ply

Collecting ply
[?25l  Downloading https://files.pythonhosted.org/packages/a3/58/35da89ee790598a0700ea49b2a66594140f44dec458c07e8e3d4979137fc/ply-3.11-py2.py3-none-any.whl (49kB)
[K     |██████▋                         | 10kB 18.7MB/s eta 0:00:01[K     |█████████████▏                  | 20kB 2.1MB/s eta 0:00:01[K     |███████████████████▉            | 30kB 2.8MB/s eta 0:00:01[K     |██████████████████████████▍     | 40kB 3.0MB/s eta 0:00:01[K     |████████████████████████████████| 51kB 2.0MB/s 
[?25hInstalling collected packages: ply
Successfully installed ply-3.11


In [4]:
from sys import argv, exit

import logging
logging.basicConfig(
     level = logging.DEBUG,
     filename = "log.txt",
     filemode = "w",
     format = "%(filename)10s:%(lineno)4d:%(message)s"
)
log = logging.getLogger()

import ply.lex as lex
from ply.lex import TOKEN

In [5]:
tokens = [
    "ID",  # identificador
    # numerais
    "NUM_NOTACAO_CIENTIFICA",  # ponto flutuante em notaçao científica
    "NUM_PONTO_FLUTUANTE",  # ponto flutuate
    "NUM_INTEIRO",  # inteiro
    # operadores binarios
    "ADICAO",  # +
    "SUBTRACAO",  # -
    "MULTIPLICACAO",  # *
    "DIVISAO",  # /
    "E_LOGICO",  # &&
    "OU_LOGICO",  # ||
    "DIFERENCA",  # <>
    "MENOR_IGUAL",  # <=
    "MAIOR_IGUAL",  # >=
    "MENOR",  # <
    "MAIOR",  # >
    "IGUALDADE",  # =
    # operadores unarios
    "NEGACAO",  # !
    # simbolos
    "ABRE_PAR",  # (
    "FECHA_PAR",  # )
    "ABRE_COL",  # [
    "FECHA_COL",  # ]
    "VIRGULA",  # ,
    "DOIS_PONTOS",  # :
    "ATRIBUICAO",  # :=
    # 'COMENTARIO', # {***}
]

In [7]:
reserved_words = {
    "se": "SE",
    "então": "ENTAO",
    "senão": "SENAO",
    "fim": "FIM",
    "repita": "REPITA",
    "flutuante": "FLUTUANTE",
    "retorna": "RETORNA",
    "até": "ATE",
    "leia": "LEIA",
    "escreva": "ESCREVA",
    "inteiro": "INTEIRO",
}

tokens = tokens + list(reserved_words.values())

In [8]:
digito = r"([0-9])"
letra = r"([a-zA-ZáÁãÃàÀéÉíÍóÓõÕ])"
sinal = r"([\-\+]?)"

""" 
    id deve começar com uma letra
"""
id = (
    r"(" + letra + r"(" + digito + r"+|_|" + letra + r")*)"
)  # o mesmo que '((letra)(letra|_|([0-9]))*)'

inteiro = r"(" + sinal + digito + r"+)"

flutuante = (
    # r"(" + digito + r"+\." + digito + r"+?)"
    # (([-\+]?)([0-9]+)\.([0-9]+))'
    r'\d+[eE][-+]?\d+|(\.\d+|\d+\.\d*)([eE][-+]?\d+)?'
    # r'[-+]?[0-9]+(\.([0-9]+)?)'
    #r'[+-]?(\d+(\.\d*)?|\.\d+)([eE][+-]?\d+)?'
    #r"(([-\+]?)([0-9]+)\.([0-9]+))"
    )

notacao_cientifica = (
    r"(" + sinal + r"([1-9])\." + digito + r"+[eE]" + sinal + digito + r"+)"
)  # o mesmo que '(([-\+]?)([1-9])\.([0-9])+[eE]([-\+]?)([0-9]+))'

In [9]:
 
# Expressões Regulaes para tokens simples.
# Símbolos.
t_ADICAO    = r'\+'
t_SUBTRACAO  = r'-'
t_MULTIPLICACAO   = r'\*'
t_DIVISAO = r'/'
t_ABRE_PAR  = r'\('
t_FECHA_PAR  = r'\)'
t_ABRE_COL = r'\['
t_FECHA_COL = r'\]'
t_VIRGULA = r','
t_ATRIBUICAO = r':='
t_DOIS_PONTOS = r':'

# Operadores Lógicos.
t_E_LOGICO = r'&&'
t_OU_LOGICO = r'\|\|'
t_NEGACAO = r'!'

# Operadores Relacionais.
t_DIFERENCA = r'<>'
t_MENOR_IGUAL = r'<='
t_MAIOR_IGUAL = r'>='
t_MENOR = r'<'
t_MAIOR = r'>'
t_IGUALDADE = r'='

In [10]:
@TOKEN(id)
def t_ID(token):
    token.type = reserved_words.get(
        token.value, "ID"
    )  # não é necessário fazer regras/regex para cada palavra reservada
    # se o token não for uma palavra reservada automaticamente é um id
    # As palavras reservadas têm precedências sobre os ids

    return token

@TOKEN(notacao_cientifica)
def t_NUM_NOTACAO_CIENTIFICA(token):
    return token

@TOKEN(flutuante)
def t_NUM_PONTO_FLUTUANTE(token):
    return token

@TOKEN(inteiro)
def t_NUM_INTEIRO(token):
    return token

In [11]:
t_ignore = " \t"

# t_COMENTARIO = r'(\{((.|\n)*?)\})'
# para poder contar as quebras de linha dentro dos comentarios
def t_COMENTARIO(token):
    r"(\{((.|\n)*?)\})"
    token.lexer.lineno += token.value.count("\n")
    # return token

def t_newline(token):
    r"\n+"
    token.lexer.lineno += len(token.value)

def define_column(input, lexpos):
    begin_line = input.rfind("\n", 0, lexpos) + 1
    return (lexpos - begin_line) + 1

In [12]:
def t_error(token):

    # file = token.lexer.filename
    line = token.lineno
    # column = define_column(token.lexer.backup_data, token.lexpos)
    message = "Caracter ilegal '%s'" % token.value[0]

    # print(f"[{file}]:[{line},{column}]: {message}.") 
    print(message)

    token.lexer.skip(1)

    # token.lexer.has_error = Trueb

In [13]:
def main():
    # argv[1] = 'teste.tpp'
    aux = argv[1].split('.')
    if aux[-1] != 'tpp':
      raise IOError("Not a .tpp file!")
    data = open(argv[1])

    source_file = data.read()
    lexer.input(source_file)

    # Tokenize
    while True:
      tok = lexer.token()
      if not tok: 
        break      # No more input
      print(tok)
      # print(tok.type)
      #print(tok.value)

In [23]:
# Build the lexer.
__file__ = "01-compiladores-analise-lexica-tpplex.ipynb"
lexer = lex.lex(optimize=True,debug=True,debuglog=log)

if __name__ == "__main__":
    main()

LexToken(INTEIRO,'inteiro',2,1)
LexToken(DOIS_PONTOS,':',2,8)
LexToken(ID,'a',2,10)
LexToken(ABRE_COL,'[',2,11)
LexToken(NUM_INTEIRO,'10',2,12)
LexToken(FECHA_COL,']',2,14)
LexToken(FLUTUANTE,'flutuante',3,16)
LexToken(DOIS_PONTOS,':',3,25)
LexToken(ID,'b',3,27)
LexToken(INTEIRO,'inteiro',5,30)
LexToken(ID,'func1',5,38)
LexToken(ABRE_PAR,'(',5,43)
LexToken(INTEIRO,'inteiro',5,44)
LexToken(DOIS_PONTOS,':',5,51)
LexToken(ID,'x',5,52)
LexToken(VIRGULA,',',5,53)
LexToken(FLUTUANTE,'flutuante',5,55)
LexToken(DOIS_PONTOS,':',5,64)
LexToken(ID,'y',5,65)
LexToken(FECHA_PAR,')',5,66)
LexToken(INTEIRO,'inteiro',6,70)
LexToken(DOIS_PONTOS,':',6,77)
LexToken(ID,'res',6,79)
LexToken(SE,'se',7,85)
LexToken(ABRE_PAR,'(',7,88)
LexToken(ID,'x',7,89)
LexToken(MAIOR,'>',7,91)
LexToken(ID,'y',7,93)
LexToken(FECHA_PAR,')',7,94)
LexToken(ENTAO,'então',7,96)
LexToken(ID,'res',8,106)
LexToken(ATRIBUICAO,':=',8,110)
LexToken(ID,'x',8,113)
LexToken(ADICAO,'+',8,115)
LexToken(ID,'y',8,117)
LexToken(SENAO,'senão'

In [24]:
%%writefile teste.tpp

inteiro: a[10]
flutuante: b

inteiro func1(inteiro:x, flutuante:y)
  inteiro: res
  se (x > y) então
    res := x + y
  senão
    res := x * y
  fim
  retorna(res)
fim

func2(inteiro:z, flutuante:w)
  a := z
  b := w
fim

inteiro principal()
  inteiro: x,y
  flutuante: w
  a := 10 + 2
  leia(x)
  leia(w)
  w := .6 + 1.
  func2(1, 2.5)
  b := func1(x,w)
  escreva(b)
  retorna(0)
fim


Overwriting teste.tpp


In [25]:
!python tpplex.py teste.tpp

python3: can't open file 'tpplex.py': [Errno 2] No such file or directory
