## Analisador Léxico

### Construir um analisador léxico para uma liguagem de query com a qual se podem escrever frases do género:

In [14]:
import re

- Reconhecer os seguintes elementos da lista sintax de SPARQL:

In [15]:
tokens = [
        ('NEWLINE', r'\n'),
        ('SKIP', r'[ \t]+'),
        ('PREFIX', r'PREFIX\b'),
        ('SELECT', r'SELECT\b'),
        ('WHERE', r'WHERE\b'),
        ('OPTIONAL', r'OPTIONAL\b'),
        ('FILTER', r'FILTER\b'),
        ('VAR', r'\?[a-zA-Z_][\w]*'),     
        ('URI', r'<[^>]*>'),              
        ('IDENT', r':[a-zA-Z_][\w]*'),    
        ('INT', r'\d+'),
        ('STRING', r'"[^"]*"'),
        ('OP', r'[=!<>]+'),
        ('PUNCT', r'[{}.;,]'),
        ('ERRO', r'.')                    
    ]

### Exemplo : 

- Input : 
```
SELECT ?x ?nome ?idade WHERE 
{
  ?x a :Aluno ;
     :temNome ?nome ;
     :temIdade ?idade .
}
```
- Output : 
```
('SELECT', 'SELECT', 1, (0, 6))
('VAR', '?x', 1, (7, 9))
('VAR', '?nome', 1, (10, 15))
('VAR', '?idade', 1, (16, 22))
('WHERE', 'WHERE', 1, (23, 28))
('NEWLINE', '\n', 2, (29, 30))
('PUNCT', '{', 2, (30, 31))
('NEWLINE', '\n', 3, (31, 32))
('VAR', '?x', 3, (34, 36))
('ERRO', 'a', 3, (37, 38))
('IDENT', ':Aluno', 3, (39, 45))
('PUNCT', ';', 3, (46, 47))
('NEWLINE', '\n', 4, (47, 48))
('IDENT', ':temNome', 4, (53, 61))
('VAR', '?nome', 4, (62, 67))
('PUNCT', ';', 4, (68, 69))
('NEWLINE', '\n', 5, (69, 70))
('IDENT', ':temIdade', 5, (75, 84))
('VAR', '?idade', 5, (85, 91))
('PUNCT', '.', 5, (92, 93))
('NEWLINE', '\n', 6, (93, 94))
('PUNCT', '}', 6, (94, 95))

### Implementação : 

In [16]:
def tokenizerSPARQL(query):
    reconhecidos = []
    linha = 1
    
    # Tokens em cima já escritos 

    token_regex = '|'.join(f'(?P<{name}>{pattern})' for name, pattern in tokens)
    
    for r in re.finditer(token_regex, query):
        dic = r.groupdict()
        tipo = None
        valor = r.group()
        for key in dic:
            if dic[key]:
                tipo = key
                break
        if tipo == 'NEWLINE':
            linha += 1
            reconhecidos.append((tipo, valor, linha, r.span()))
        elif tipo != 'SKIP':
            reconhecidos.append((tipo, valor, linha, r.span()))
    
    return reconhecidos


# Query SPARQL de exemplo
query = """SELECT ?x ?nome ?idade WHERE 
{
  ?x a :Aluno ;
     :temNome ?nome ;
     :temIdade ?idade .
}"""

# Testar o tokenizer
tokens = tokenizerSPARQL(query)
for t in tokens:
    print(t)


('SELECT', 'SELECT', 1, (0, 6))
('VAR', '?x', 1, (7, 9))
('VAR', '?nome', 1, (10, 15))
('VAR', '?idade', 1, (16, 22))
('WHERE', 'WHERE', 1, (23, 28))
('NEWLINE', '\n', 2, (29, 30))
('PUNCT', '{', 2, (30, 31))
('NEWLINE', '\n', 3, (31, 32))
('VAR', '?x', 3, (34, 36))
('ERRO', 'a', 3, (37, 38))
('IDENT', ':Aluno', 3, (39, 45))
('PUNCT', ';', 3, (46, 47))
('NEWLINE', '\n', 4, (47, 48))
('IDENT', ':temNome', 4, (53, 61))
('VAR', '?nome', 4, (62, 67))
('PUNCT', ';', 4, (68, 69))
('NEWLINE', '\n', 5, (69, 70))
('IDENT', ':temIdade', 5, (75, 84))
('VAR', '?idade', 5, (85, 91))
('PUNCT', '.', 5, (92, 93))
('NEWLINE', '\n', 6, (93, 94))
('PUNCT', '}', 6, (94, 95))
