# TPC3: Analisador Léxico

**Data:** 2025-02-28  

Construir um analisador léxico para uma linguagem de query com a qual se podem escrever frases do género:

---

### Exemplo de Query

```sparql
# DBPedia: obras de Chuck Berry

select ?nome ?desc where { 
    ?s a dbo:MusicalArtist. 
    ?s foaf:name "Chuck Berry"@en . 
    ?w dbo:artist ?s. 
    ?w foaf:name ?nome. 
    ?w dbo:abstract ?desc 
} LIMIT 1000


In [24]:
import re



def tokenize (teste):
    tokens = [
        ('NEWLINE', r'\n'),
        ('SELECT', r'select\b'),
        ('WHERE', r'where\b'),
        ('LIMIT', r'LIMIT\b'),
        ('A', r'\ba\b'),
        ('VAR', r'\?[a-zA-Z_]\w*'),
        ('INT', r'\d+'),
        ('PREFIX', r'[a-zA-Z_]\w*:[a-zA-Z_]\w*'),
        ('PUNCT', r'[\.{}]'),
        ('STR', r'"[^"]*"'),
        ('IDIOMA', r'@[a-zA-Z]+'),
        ('SKIP', r'[ \t]+'),
        ('ERRO', r'.')
    ]
    
    reconhecidos = []
    linha = 1
    token_regex = '|'.join([f'(?P<{id}>{expreg})' for id, expreg in tokens])

    for m in re.finditer(token_regex, teste):
        dic=m.groupdict()
        valor =m.group()
        for key in dic:
            if dic[key]:
                tipo=key
                break
        if tipo=='NEWLINE':
            linha+=1
            reconhecidos.append((tipo, valor, linha, m.span()))
        elif tipo != 'SKIP':
            reconhecidos.append((tipo, valor, linha, m.span()))
            
    return reconhecidos


test ="""select ?nome ?desc where { 
    ?s a dbo:MusicalArtist. 
    ?s foaf:name "Chuck Berry"@en . 
    ?w dbo:artist ?s. 
    ?w foaf:name ?nome. 
    ?w dbo:abstract ?desc 
} LIMIT 1000"""

tokenize(test)

[('SELECT', 'select', 1, (0, 6)),
 ('VAR', '?nome', 1, (7, 12)),
 ('VAR', '?desc', 1, (13, 18)),
 ('WHERE', 'where', 1, (19, 24)),
 ('PUNCT', '{', 1, (25, 26)),
 ('NEWLINE', '\n', 2, (27, 28)),
 ('VAR', '?s', 2, (32, 34)),
 ('A', 'a', 2, (35, 36)),
 ('PREFIX', 'dbo:MusicalArtist', 2, (37, 54)),
 ('PUNCT', '.', 2, (54, 55)),
 ('NEWLINE', '\n', 3, (56, 57)),
 ('VAR', '?s', 3, (61, 63)),
 ('PREFIX', 'foaf:name', 3, (64, 73)),
 ('STR', '"Chuck Berry"', 3, (74, 87)),
 ('IDIOMA', '@en', 3, (87, 90)),
 ('PUNCT', '.', 3, (91, 92)),
 ('NEWLINE', '\n', 4, (93, 94)),
 ('VAR', '?w', 4, (98, 100)),
 ('PREFIX', 'dbo:artist', 4, (101, 111)),
 ('VAR', '?s', 4, (112, 114)),
 ('PUNCT', '.', 4, (114, 115)),
 ('NEWLINE', '\n', 5, (116, 117)),
 ('VAR', '?w', 5, (121, 123)),
 ('PREFIX', 'foaf:name', 5, (124, 133)),
 ('VAR', '?nome', 5, (134, 139)),
 ('PUNCT', '.', 5, (139, 140)),
 ('NEWLINE', '\n', 6, (141, 142)),
 ('VAR', '?w', 6, (146, 148)),
 ('PREFIX', 'dbo:abstract', 6, (149, 161)),
 ('VAR', '?desc', 6