## TPC3 - Analisador Léxico

### Token's de Queries SPARQL (Análise Léxica)
- Objetivo: Construir um analisador léxico para queries SPARQL
    - Analisar uma query com base nos tokens abaixo definidos

In [6]:
import re 

tokens = [
        ('NEWLINE', r'\n'),
        ('SKIP', r'[ \t]+'),
        ('PREFIX', r'PREFIX\b'),
        ('SELECT', r'SELECT\b'),
        ('WHERE', r'WHERE\b'),
        ('OPTIONAL', r'OPTIONAL\b'),
        ('FILTER', r'FILTER\b'),
        ('VAR', r'\?[a-zA-Z_][\w]*'),     
        ('URI', r'<[^>]*>'),              
        ('IDENT', r':[a-zA-Z_][\w]*'),    
        ('INT', r'\d+'),
        ('STRING', r'"[^"]*"'),
        ('OP', r'[=!<>]+'),
        ('PUNCT', r'[{}.;,]'),
        ('ERRO', r'.')                    
    ]

### Implementação

In [11]:
def tokenizerSPARQL(query):
    rec = []
    line = 1
    token_regex = '|'.join(f'(?P<{name}>{pattern})' for name, pattern in tokens)
    rc = re.finditer(token_regex,query)
    for r in rc:
        dic = r.groupdict()
        tipo = None
        valor = r.group()
        for key in dic:
            if dic[key]:
                tipo = key
                break
        if tipo == 'NEWLINE':
            line += 1
            rec.append((tipo, valor, line, r.span()))
        elif tipo != 'SKIP':
            rec.append((tipo, valor, line, r.span()))
    
    return rec

query = """SELECT ?a ?b ?c WHERE 
{
  ?a a :Pessoa ;
     :temIdade ?b ;
     :eIrmaoDe ?c .
}
"""

for t in tokenizerSPARQL(query):
    print(t)
    print()

('SELECT', 'SELECT', 1, (0, 6))

('VAR', '?a', 1, (7, 9))

('VAR', '?b', 1, (10, 12))

('VAR', '?c', 1, (13, 15))

('WHERE', 'WHERE', 1, (16, 21))

('NEWLINE', '\n', 2, (22, 23))

('PUNCT', '{', 2, (23, 24))

('NEWLINE', '\n', 3, (24, 25))

('VAR', '?a', 3, (27, 29))

('ERRO', 'a', 3, (30, 31))

('IDENT', ':Pessoa', 3, (32, 39))

('PUNCT', ';', 3, (40, 41))

('NEWLINE', '\n', 4, (41, 42))

('IDENT', ':temIdade', 4, (47, 56))

('VAR', '?b', 4, (57, 59))

('PUNCT', ';', 4, (60, 61))

('NEWLINE', '\n', 5, (61, 62))

('IDENT', ':eIrmaoDe', 5, (67, 76))

('VAR', '?c', 5, (77, 79))

('PUNCT', '.', 5, (80, 81))

('NEWLINE', '\n', 6, (81, 82))

('PUNCT', '}', 6, (82, 83))

('NEWLINE', '\n', 7, (83, 84))

