## TPC 3 - Token's de Queries SPARQL (Análise Léxica)

### Objetivo:
Criar em Python um analisador léxico (tokenizer) para queries SPARQL, capaz de identificar os principais tokens de uma query, incluindo palavras-chave, variáveis, identificadores, literais, operadores, pontuação e quebras de linha.

### Requisitos:

- Implementar em Python usando a biblioteca re (expressões regulares).

In [19]:
import re

- Reconhecer os seguintes elementos da sintaxe básica de SPARQL:

In [20]:
tokens = [
        ('NEWLINE', r'\n'),
        ('SKIP', r'[ \t]+'),
        ('PREFIX', r'PREFIX\b'),
        ('SELECT', r'SELECT\b'),
        ('WHERE', r'WHERE\b'),
        ('OPTIONAL', r'OPTIONAL\b'),
        ('FILTER', r'FILTER\b'),
        ('VAR', r'\?[a-zA-Z_][\w]*'),     
        ('URI', r'<[^>]*>'),              
        ('IDENT', r':[a-zA-Z_][\w]*'),    
        ('INT', r'\d+'),
        ('STRING', r'"[^"]*"'),
        ('OP', r'[=!<>]+'),
        ('PUNCT', r'[{}.;,]'),
        ('ERRO', r'.')                    
    ]

### Exemplo:

**In:**
```
SELECT ?a ?b ?c WHERE 
{
  ?a a :Pessoa ;
     :temIdade ?b ;
     :eIrmaoDe ?c .
}
```

**Out:**
```
[('SELECT', 'SELECT', 0, (0, 6)),
 ('VAR', '?a', 0, (7, 9)),
 ('VAR', '?b', 0, (10, 12)),
 ('VAR', '?c', 0, (13, 15)),
 ('WHERE', 'WHERE', 0, (16, 21)),
 ('NEWLINE', '\n', 1, (22, 23)),
 ('PUNCT', '{', 1, (23, 24)),
 ('NEWLINE', '\n', 2, (24, 25)),
 ('VAR', '?a', 2, (27, 29)),
 ('ERRO', 'a', 2, (30, 31)),
 ('IDENT', ':Pessoa', 2, (32, 39)),
 ('PUNCT', ';', 2, (40, 41)),
 ('NEWLINE', '\n', 3, (41, 42)),
 ('IDENT', ':temIdade', 3, (47, 56)),
 ('VAR', '?b', 3, (57, 59)),
 ('PUNCT', ';', 3, (60, 61)),
 ('NEWLINE', '\n', 4, (61, 62)),
 ('IDENT', ':eIrmaoDe', 4, (67, 76)),
 ('VAR', '?c', 4, (77, 79)),
 ('PUNCT', '.', 4, (80, 81)),
 ('NEWLINE', '\n', 5, (81, 82)),
 ('PUNCT', '}', 5, (82, 83)),
 ('NEWLINE', '\n', 6, (83, 84))]
```


### Implementação:

In [21]:
def tokenizerSPARQL(query):
    reconhecidos = []
    linha = 1
    tokens = [
        ('NEWLINE', r'\n'),
        ('SKIP', r'[ \t]+'),
        ('PREFIX', r'PREFIX\b'),
        ('SELECT', r'SELECT\b'),
        ('WHERE', r'WHERE\b'),
        ('OPTIONAL', r'OPTIONAL\b'),
        ('FILTER', r'FILTER\b'),
        ('VAR', r'\?[a-zA-Z_][\w]*'),     
        ('URI', r'<[^>]*>'),              
        ('IDENT', r':[a-zA-Z_][\w]*'),    
        ('INT', r'\d+'),
        ('STRING', r'"[^"]*"'),
        ('OP', r'[=!<>]+'),
        ('PUNCT', r'[{}.;,]'),
        ('ERRO', r'.')                    
    ]
    
    token_regex = '|'.join(f'(?P<{name}>{pattern})' for name, pattern in tokens)
    rc = re.finditer(token_regex, query)
    for r in rc:
        dic = r.groupdict()
        tipo = None
        valor = r.group()
        for key in dic:
            if dic[key]:
                tipo = key
                break
        if tipo == 'NEWLINE':
            linha += 1
            reconhecidos.append((tipo, valor, linha, r.span()))
        elif tipo != 'SKIP':
            reconhecidos.append((tipo, valor, linha, r.span()))
    
    return reconhecidos
    print(reconhecidos)

query = """SELECT ?a ?b ?c WHERE 
{
  ?a a :Pessoa ;
     :temIdade ?b ;
     :eIrmaoDe ?c .
}
"""

tokenizerSPARQL(query)

[('SELECT', 'SELECT', 1, (0, 6)),
 ('VAR', '?a', 1, (7, 9)),
 ('VAR', '?b', 1, (10, 12)),
 ('VAR', '?c', 1, (13, 15)),
 ('WHERE', 'WHERE', 1, (16, 21)),
 ('NEWLINE', '\n', 2, (22, 23)),
 ('PUNCT', '{', 2, (23, 24)),
 ('NEWLINE', '\n', 3, (24, 25)),
 ('VAR', '?a', 3, (27, 29)),
 ('ERRO', 'a', 3, (30, 31)),
 ('IDENT', ':Pessoa', 3, (32, 39)),
 ('PUNCT', ';', 3, (40, 41)),
 ('NEWLINE', '\n', 4, (41, 42)),
 ('IDENT', ':temIdade', 4, (47, 56)),
 ('VAR', '?b', 4, (57, 59)),
 ('PUNCT', ';', 4, (60, 61)),
 ('NEWLINE', '\n', 5, (61, 62)),
 ('IDENT', ':eIrmaoDe', 5, (67, 76)),
 ('VAR', '?c', 5, (77, 79)),
 ('PUNCT', '.', 5, (80, 81)),
 ('NEWLINE', '\n', 6, (81, 82)),
 ('PUNCT', '}', 6, (82, 83)),
 ('NEWLINE', '\n', 7, (83, 84))]