# TPC6: Analisador Léxico para uma Linguagem de Programação

Usando o `Ply` constrói um analisador léxico que devolve a lista de tokens para a linguagem de programação que se exemplifica a seguir.

## Exemplo1

```
/* factorial.p
-- 2023-03-20 
-- by jcr
*/

int i;

// Função que calcula o factorial dum número n
function fact(n){
  int res = 1;
  while res > 1 {
    res = res * n;
    res = res - 1;
  }
}

// Programa principal
program myFact{
  for i in [1..10]{
    print(i, fact(i));
  }
}

``` 

## Exemplo2

```
/* max.p: calcula o maior inteiro duma lista desordenada
-- 2023-03-20 
-- by jcr
*/

int i = 10, a[10] = {1,2,3,4,5,6,7,8,9,10};

// Programa principal
program myMax{
  int max = a[0];
  for i in [1..9]{
    if max < a[i] {
      max = a[i];
    }
  }
  print(max);
}

``` 

# Código

In [None]:
import sys
import ply.lex as lex

reserved = {
    'program': 'PROGRAM',
    'function': 'FUNCTION',
    'int': 'INT',
    'while': 'WHILE',
    'for': 'FOR',
    'in': 'IN',
    'if': 'IF',
    'else': 'ELSE',
    'print': 'PRINT',
}

tokens = [
    'LPAREN',
    'RPAREN',
    'LBRACE',
    'RBRACE',
    'LSQBRACKET',
    'RSQBRACKET',
    'COMMA',
    'SEMICOLON',
    'EQUALS',
    'PLUS',
    'MINUS',
    'TIMES',
    'DIVIDE',
    'LESS',
    'LESSEQUAL',
    'GREATER',
    'GREATEREQUAL',
    'EQUAL',
    'NOTEQUAL',
    'ID',
    'NUMBER',
    'LINECOMMENT',
    'BLOCKCOMMENT',
    'NEWLINE',
] + list(reserved.values())

t_LPAREN = r'\('
t_RPAREN = r'\)'
t_LBRACE = r'\{'
t_RBRACE = r'\}'
t_LSQBRACKET = r'\['
t_RSQBRACKET = r'\]'
t_COMMA = r','
t_SEMICOLON = r';'
t_EQUALS = r'='
t_PLUS = r'\+'
t_MINUS = r'-'
t_TIMES = r'\*'
t_DIVIDE = r'/'
t_LESS = r'<'
t_LESSEQUAL = r'<='
t_GREATER = r'>'
t_GREATEREQUAL = r'>='
t_EQUAL = r'=='
t_NOTEQUAL = r'!='
t_LINECOMMENT = r'//[^\n]*'

def t_BLOCKCOMMENT(t):
    r'/\*(.|\n)*?\*/'
    t.lexer.lineno += t.value.count('\n')
    return t

def t_ID(t):
    r'[a-zA-Z_]\w*'
    t.type = reserved.get(t.value, 'ID')
    return t

def t_NUMBER(t):
    r'\d+'
    t.value = int(t.value)
    return t

def t_NEWLINE(t):
    r'\n+'
    t.lexer.lineno += t.value.count('\n')

t_ignore = ' \t'

def t_error(t):
    print(f"Caracter inválido: '{t.value[0]}' na linha {t.lexer.lineno}")
    t.lexer.skip(1)

lexer = lex.lex()

text = ""


lexer.input(text)

while True:
    tok = lex.token()
    if not tok: 
        break      
    print(tok.type, tok.value, tok.lineno, tok.lexpos)