In [108]:
%%javascript
require("base/js/utils").load_extensions("highlighter/highlighter")

<IPython.core.display.Javascript object>

In [109]:
from sys import argv, exit

import logging
logging.basicConfig(
     level = logging.DEBUG,
     filename = "log.txt",
     filemode = "w",
     format = "%(filename)10s:%(lineno)4d:%(message)s"
)
log = logging.getLogger()

import ply.lex as lex
from ply.lex import TOKEN

In [110]:
tokens = [
    "ID",  # identificador
    # numerais
    "NUM_NOTACAO_CIENTIFICA",  # ponto flutuante em notaçao científica
    "NUM_PONTO_FLUTUANTE",  # ponto flutuate
    "NUM_INTEIRO",  # inteiro
    # operadores binarios
    "ADICAO",  # +
    "SUBTRACAO",  # -
    "MULTIPLICACAO",  # *
    "DIVISAO",  # /
    "E_LOGICO",  # &&
    "OU_LOGICO",  # ||
    "DIFERENCA",  # <>
    "MENOR_IGUAL",  # <=
    "MAIOR_IGUAL",  # >=
    "MENOR",  # <
    "MAIOR",  # >
    "IGUALDADE",  # =
    # operadores unarios
    "NEGACAO",  # !
    # simbolos
    "ABRE_PAR",  # (
    "FECHA_PAR",  # )
    "ABRE_COL",  # [
    "FECHA_COL",  # ]
    "VIRGULA",  # ,
    "DOIS_PONTOS",  # :
    "ATRIBUICAO",  # :=
    # 'COMENTARIO', # {***}
]

In [111]:
reserved_words = {
    "se": "SE",
    "então": "ENTAO",
    "senão": "SENAO",
    "fim": "FIM",
    "repita": "REPITA",
    "flutuante": "FLUTUANTE",
    "retorna": "RETORNA",
    "até": "ATE",
    "leia": "LEIA",
    "escreva": "ESCREVA",
    "inteiro": "INTEIRO",
}

tokens = tokens + list(reserved_words.values())

In [112]:
digito = r"([0-9])"
letra = r"([a-zA-ZáÁãÃàÀéÉíÍóÓõÕ])"
sinal = r"([\-\+]?)"

""" 
    id deve começar com uma letra
"""
id = (
    r"(" + letra + r"(" + digito + r"+|_|" + letra + r")*)"
)  # o mesmo que '((letra)(letra|_|([0-9]))*)'

inteiro = r"(" + sinal + digito + r"+)"

flutuante = (
    # r"(" + digito + r"+\." + digito + r"+?)"
    # (([-\+]?)([0-9]+)\.([0-9]+))'
    r'\d+[eE][-+]?\d+|(\.\d+|\d+\.\d*)([eE][-+]?\d+)?'
    # r'[-+]?[0-9]+(\.([0-9]+)?)'
    #r'[+-]?(\d+(\.\d*)?|\.\d+)([eE][+-]?\d+)?'
    #r"(([-\+]?)([0-9]+)\.([0-9]+))"
    )

notacao_cientifica = (
    r"(" + sinal + r"([1-9])\." + digito + r"+[eE]" + sinal + digito + r"+)"
)  # o mesmo que '(([-\+]?)([1-9])\.([0-9])+[eE]([-\+]?)([0-9]+))'

In [113]:
 
# Expressões Regulaes para tokens simples.
# Símbolos.
t_ADICAO    = r'\+'
t_SUBTRACAO  = r'-'
t_MULTIPLICACAO   = r'\*'
t_DIVISAO = r'/'
t_ABRE_PAR  = r'\('
t_FECHA_PAR  = r'\)'
t_ABRE_COL = r'\['
t_FECHA_COL = r'\]'
t_VIRGULA = r','
t_ATRIBUICAO = r':='
t_DOIS_PONTOS = r':'

# Operadores Lógicos.
t_E_LOGICO = r'&&'
t_OU_LOGICO = r'\|\|'
t_NEGACAO = r'!'

# Operadores Relacionais.
t_DIFERENCA = r'<>'
t_MENOR_IGUAL = r'<='
t_MAIOR_IGUAL = r'>='
t_MENOR = r'<'
t_MAIOR = r'>'
t_IGUALDADE = r'='

In [114]:
@TOKEN(id)
def t_ID(token):
    token.type = reserved_words.get(
        token.value, "ID"
    )  # não é necessário fazer regras/regex para cada palavra reservada
    # se o token não for uma palavra reservada automaticamente é um id
    # As palavras reservadas têm precedências sobre os ids

    return token

@TOKEN(notacao_cientifica)
def t_NUM_NOTACAO_CIENTIFICA(token):
    return token

@TOKEN(flutuante)
def t_NUM_PONTO_FLUTUANTE(token):
    return token

@TOKEN(inteiro)
def t_NUM_INTEIRO(token):
    return token

In [115]:
t_ignore = " \t"

# t_COMENTARIO = r'(\{((.|\n)*?)\})'
# para poder contar as quebras de linha dentro dos comentarios
def t_COMENTARIO(token):
    # r"(\{((.|\n)*?)\})"
    r"(\\)|(\{((.|\n)*?)\})"
    token.lexer.lineno += token.value.count("\n")
    # return token

def t_newline(token):
    r"\n+"
    token.lexer.lineno += len(token.value)

def define_column(input, lexpos):
    begin_line = input.rfind("\n", 0, lexpos) + 1
    return (lexpos - begin_line) + 1

In [116]:
def t_error(token):

    # file = token.lexer.filename
    line = token.lineno
    # column = define_column(token.lexer.backup_data, token.lexpos)
    message = "Caracter ilegal '%s'" % token.value[0]

    # print(f"[{file}]:[{line},{column}]: {message}.") 
    print(message)

    token.lexer.skip(1)

    # token.lexer.has_error = Trueb

In [117]:
def main():
    argv[1] = 'teste.tpp'
    aux = argv[1].split('.')
    if aux[-1] != 'tpp':
      raise IOError("Not a .tpp file!")
    data = open(argv[1])

    source_file = data.read()
    lexer.input(source_file)

    # Tokenize
    while True:
      tok = lexer.token()
      if not tok: 
        break      # No more input
      # print(tok)
      print(tok.type)
      #print(tok.value)

In [118]:
# Build the lexer.
__file__ = "01-compiladores-analise-lexica-tpplex.ipynb"
lexer = lex.lex(optimize=False,debug=True,debuglog=log)

if __name__ == "__main__":
    main()

INTEIRO
DOIS_PONTOS
ID
ABRE_COL
NUM_INTEIRO
FECHA_COL
FLUTUANTE
DOIS_PONTOS
ID
INTEIRO
ID
ABRE_PAR
INTEIRO
DOIS_PONTOS
ID
VIRGULA
FLUTUANTE
DOIS_PONTOS
ID
FECHA_PAR
INTEIRO
DOIS_PONTOS
ID
SE
ABRE_PAR
ID
MAIOR
ID
FECHA_PAR
ENTAO
ID
ATRIBUICAO
ID
ADICAO
ID
SENAO
ID
ATRIBUICAO
ID
MULTIPLICACAO
ID
FIM
RETORNA
ABRE_PAR
ID
FECHA_PAR
FIM
ID
ABRE_PAR
INTEIRO
DOIS_PONTOS
ID
VIRGULA
FLUTUANTE
DOIS_PONTOS
ID
FECHA_PAR
ID
ATRIBUICAO
ID
ID
ATRIBUICAO
ID
FIM
INTEIRO
ID
ABRE_PAR
FECHA_PAR
INTEIRO
DOIS_PONTOS
ID
VIRGULA
ID
FLUTUANTE
DOIS_PONTOS
ID
ID
ATRIBUICAO
NUM_INTEIRO
ADICAO
NUM_INTEIRO
LEIA
ABRE_PAR
ID
FECHA_PAR
LEIA
ABRE_PAR
ID
FECHA_PAR
ID
ATRIBUICAO
NUM_PONTO_FLUTUANTE
ADICAO
NUM_PONTO_FLUTUANTE
ID
ABRE_PAR
NUM_INTEIRO
VIRGULA
NUM_PONTO_FLUTUANTE
FECHA_PAR
ID
ATRIBUICAO
ID
ABRE_PAR
ID
VIRGULA
ID
FECHA_PAR
ESCREVA
ABRE_PAR
ID
FECHA_PAR
RETORNA
ABRE_PAR
NUM_INTEIRO
FECHA_PAR
FIM


In [123]:
!python tpplex.py lexica-testes/teste-2.tpp

LexToken(INTEIRO,'inteiro',1,0)
LexToken(DOIS_PONTOS,':',1,7)
LexToken(ID,'n',1,9)
LexToken(VIRGULA,',',1,10)
LexToken(ID,'g',1,12)
LexToken(INTEIRO,'inteiro',3,15)
LexToken(ID,'fatorial',3,23)
LexToken(ABRE_PAR,'(',3,31)
LexToken(INTEIRO,'inteiro',3,32)
LexToken(DOIS_PONTOS,':',3,39)
LexToken(ID,'n',3,41)
LexToken(FECHA_PAR,')',3,42)
LexToken(FLUTUANTE,'flutuante',4,45)
LexToken(DOIS_PONTOS,':',4,54)
LexToken(ID,'d',4,56)
LexToken(ID,'d',5,59)
LexToken(ATRIBUICAO,':=',5,61)
LexToken(NUM_INTEIRO,'+5',5,64)
LexToken(NUM_PONTO_FLUTUANTE,'.6',5,66)
LexToken(INTEIRO,'inteiro',6,71)
LexToken(DOIS_PONTOS,':',6,78)
LexToken(ID,'fat',6,80)
LexToken(SE,'se',7,85)
LexToken(ID,'n',7,88)
LexToken(MAIOR,'>',7,90)
LexToken(NUM_INTEIRO,'10',7,92)
LexToken(ENTAO,'então',7,95)
LexToken(SE,'se',8,103)
LexToken(ID,'n',8,106)
LexToken(MAIOR,'>',8,108)
LexToken(NUM_INTEIRO,'0',8,110)
LexToken(ENTAO,'então',8,112)
LexToken(ID,'fat',9,144)
LexToken(ATRIBUICAO,':=',9,148)
LexToken(NUM_INTEIRO,'1',9,151)
LexTo