# Caderno 2. Testes com embeddings

In [1]:
import json
import pandas as pd
from openai import OpenAI
import faiss
import os
from tqdm import tqdm
from getpass import getpass
import h5py
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

In [2]:
OPENAI_KEY = getpass("KEY OpenAI")
NOME_MODELO_EMB_OPENAI = "text-embedding-3-large"
DIM_MODELO_EMB_OPENAI = 3072

# Modelos disponíveis
MODELOS_EMB_NOME_E_DIM_EMB = [(NOME_MODELO_EMB_OPENAI, DIM_MODELO_EMB_OPENAI)]

# Modelos para gerar. A ideia é que, uma vez que já foi gerado, pode tirar daqui. Daí ele não precisa carregar o arquivo e ver se está lá
# MODELOS_EMB_PARA_GERAR = [(NOME_MODELO_EMB_OPENAI, DIM_MODELO_EMB_OPENAI)]
MODELOS_EMB_PARA_GERAR = []

KEY OpenAI ········


In [3]:
ARQUIVO_EMBEDDINGS_CHUNKS = 'outputs/2 - embeddings/embeddings_chunks.h5'
ARQUIVO_EMBEDDINGS_QUESTOES = 'outputs/2 - embeddings/embeddings_questoes.h5'

# 1. Carregar as bases de dados de chunks e de questões

In [4]:
def load_jsonl(path):
    with open(path, 'r', encoding='utf-8') as f:
        return [json.loads(line) for line in f]

chunks_pesquisa = load_jsonl('inputs/chunks_pesquisa.jsonl')
questoes = load_jsonl('inputs/questoes.jsonl')

## 1.1 Lista de urns/texto dos chunks e dos ids/enunciados das questões.

Separa as URN/TEXTO dos chunks e as ID/ENUNCIADO das questões.

Isso é necessário porque os embeddings são salvos em listas pareadas no H5.

In [5]:
urn_chunks = [c['URN'] for c in chunks_pesquisa]
texto_chunks = [c['TEXTO'] for c in chunks_pesquisa]

id_questoes = [q['ID_QUESTAO'] for q in questoes]
enunciado_questoes = [q['ENUNCIADO_COM_ALTERNATIVAS'] for q in questoes]

## 1.2 Gera qrels no formato esperado considerando todos os chunks e no nível de artigo

O código para gerar as métricas considera um qrels no dataframe pandas. Gera o qrels no formato esperado pela ferramenta.

In [6]:
# Cria um qrels no formato esperado
id_questao = []
urn_chunk = []
score = []
rank = []
for q in questoes:
    total_docs = len(q['URN_FUNDAMENTACAO'])
    id_questao += [q['ID_QUESTAO']] * total_docs
    urn_chunk += q['URN_FUNDAMENTACAO']
    score += [1] * total_docs
    rank += list(range(1, total_docs+1))

qrels_todos_chunks = pd.DataFrame({
    "QUERY_KEY": id_questao,
    "DOC_KEY": urn_chunk,
    "SCORE": score,
    "RANK": rank
})

Filtra chunks_pesquisa para isolar apenas os chunks que são artigos completos. Isso apenas será utilizado na criação do índice, em outra seção.

In [7]:
urns_chunks_pesquisa_apenas_art = { c['URN'] for c in chunks_pesquisa if c['TIPO'] == 'ART' or c['TIPO'] == 'JUR'}

Cria uma segunda lista de questões com o campo URN_FUNDAMENTACAO alterado para considerar apenas o nível de artigo.

In [8]:
import copy
import re

padrao = re.compile(r'!art\d{1,3}')

questoes_fund_apenas_art = copy.deepcopy(questoes)

for questao in questoes_fund_apenas_art:
    nova_fundamentacao = []

    for texto in questao.get("URN_FUNDAMENTACAO", []):
        match = padrao.search(texto)

        if match:
            # corta exatamente no final de !artX
            nova_fundamentacao.append(texto[:match.end()])
        else:
            nova_fundamentacao.append(texto)

    questao["URN_FUNDAMENTACAO"] = list(set(nova_fundamentacao))

# Cria um qrels no formato esperado
id_questao = []
urn_chunk = []
score = []
rank = []
for q in questoes_fund_apenas_art:
    total_docs = len(q['URN_FUNDAMENTACAO'])
    id_questao += [q['ID_QUESTAO']] * total_docs
    urn_chunk += q['URN_FUNDAMENTACAO']
    score += [1] * total_docs
    rank += list(range(1, total_docs+1))

qrels_apenas_art = pd.DataFrame({
    "QUERY_KEY": id_questao,
    "DOC_KEY": urn_chunk,
    "SCORE": score,
    "RANK": rank
})

## 1.3 Mapa de URN -> CHUNK

In [9]:
mapa_urn_chunk = { c['URN']: c for c in chunks_pesquisa}

# 2. Criar as estruturas em arquivos H5

Garante que o arquivo existe e que tem os datasets nele:

In [10]:
def criar_estrutura_embeddings(arquivo, nome_id, lista_id):
    with h5py.File(arquivo, "a") as f:
        chunk_size=128
        n = len(lista_id)
        
        if nome_id not in f:
            # Quando criar o dataset para as URNS/ID, já cria ele preenchido com todas elas
            f.create_dataset(
                nome_id,
                data=np.array(lista_id, dtype="S"),  # grava tudo de uma vez
                maxshape=(None,),
                dtype=h5py.string_dtype(encoding="utf-8"),
                chunks=True
            )
    
        for nome_modelo, dim_modelo in MODELOS_EMB_NOME_E_DIM_EMB:
            if nome_modelo not in f:
                # Quando criar o dataset com os embeddings do modelo, cria preenchido com nan
                ds = f.create_dataset(
                    nome_modelo,
                    shape=(n, dim_modelo),
                    maxshape=(n, dim_modelo),
                    dtype=np.float16,
                    compression="gzip",
                    chunks=(chunk_size, dim_modelo)
                )
                ds[:] = np.nan

criar_estrutura_embeddings(ARQUIVO_EMBEDDINGS_CHUNKS, 'urn', urn_chunks)
criar_estrutura_embeddings(ARQUIVO_EMBEDDINGS_QUESTOES, 'id', id_questoes)

Funções auxiliares para saber se já existe embedding associado e para atualizar embeddings:

In [11]:
def existe_embedding(arquivo, nome_modelo, idx):
    with h5py.File(arquivo, "a") as f:
        ds = f[nome_modelo]

        return not np.isnan(ds[idx, 0])
    
def atualizar_embedding(arquivo, nome_modelo, idx, embedding):
    with h5py.File(arquivo, "a") as f:
        ds = f[nome_modelo]

        ds[idx] = np.asarray(embedding, dtype=np.float16)

# 3. Cria embeddings para o campo TEXTO (chunks) e para o campo ENUNCIADO_COM_ALTERNATIVAS (questões)

Funções auxiliares para geração de embeddings

In [12]:
def extrai_emb_com_retry(id, texto, nome_modelo, func_get_emb):
    try:
        return func_get_emb(nome_modelo, texto)
    except Exception as e:
        tqdm.write(f'id: {id}. Chunk muito grande. Reduzindo em 20%\n{e.message}')
        # Extrai, da mensagem de erro, o total de tokens requisitados e diminui o texto proporcionalmente.
        # No caso da openai, eles aceitam 8192 de entrada.
        # Na hora de diminuir, garante que vai diminuir pelo menos 20% do texto de entrada
        reduzir_para = int(len(texto)*.8)
        if nome_modelo == NOME_MODELO_EMB_OPENAI:
            match = re.search(r'requested\s+(\d+)\s+tokens', e.message)
             # Se não achou a mensagem, considera 8192 para reduzir em 20%
            total_token_requisitados = int(match.group(1)) if match else 8192
            reduzir_para = int(min(8192/total_token_requisitados, 0.8) * len(texto))
            
        return extrai_emb_com_retry(id, texto[:reduzir_para], nome_modelo, func_get_emb)

Função para extrair embeddings usando o modelo da openAI

In [13]:
client_openai = OpenAI(api_key=OPENAI_KEY, base_url=None)
def extrair_embeddings_openai(nome_modelo, texto):
   return client_openai.embeddings.create(input = [texto], model=nome_modelo).data[0].embedding

Agora gera os embeddings dos chunks:

In [14]:
# Varre todos os urns
for idx, urn in enumerate(tqdm(urn_chunks)):
    texto = texto_chunks[idx]

    for nome_modelo, _ in MODELOS_EMB_PARA_GERAR:
        if not existe_embedding(ARQUIVO_EMBEDDINGS_CHUNKS, nome_modelo, idx):
            # TODO: Depois generalizar isso daqui para não ficar tendo que fazer if com o nome dos modelos
            if nome_modelo == NOME_MODELO_EMB_OPENAI:
                emb_gerado = extrai_emb_com_retry(urn, texto, nome_modelo, extrair_embeddings_openai)
                atualizar_embedding(ARQUIVO_EMBEDDINGS_CHUNKS, nome_modelo, idx, emb_gerado)

100%|█████████████████████████████████████████████████████████████████████████| 6932/6932 [00:00<00:00, 1668479.02it/s]


Gera os embeddings dos enunciados

In [15]:
# Varre todos os enunciados das questões
for idx, id in enumerate(tqdm(id_questoes)):
    texto = enunciado_questoes[idx]

    for nome_modelo, _ in MODELOS_EMB_PARA_GERAR:
        if not existe_embedding(ARQUIVO_EMBEDDINGS_QUESTOES, nome_modelo, idx):
            # TODO: Depois generalizar isso daqui para não ficar tendo que fazer if com o nome dos modelos
            if nome_modelo == NOME_MODELO_EMB_OPENAI:
                emb_gerado = extrai_emb_com_retry(id, texto, nome_modelo, extrair_embeddings_openai)
                atualizar_embedding(ARQUIVO_EMBEDDINGS_QUESTOES, nome_modelo, idx, emb_gerado)

100%|████████████████████████████████████████████████████████████████████████████████████████| 700/700 [00:00<?, ?it/s]


# 4. Pesquisa semântica

Função auxiliar para, considerando uma lista ordenada de urns, selecionar as n primeiras urns considerando a regra de que nessa lista uma urn não pode englobar outra.

In [16]:
# Função para, dado uma lista de urns, selecionar as primeiras n urns.
# Para isso, é feita uma consideração de que uma urn pode englobar outra (vendo os atributos INICIO e FIM da urn).
# A lógica implementada é:
# 1. Começa a lista de resultados como vazia
# 2. Pega o próximo elemento de urns (a lista de chunks). Chamando NOVO
# 3. Antes de inserir na lista de resultados, verifica:
# 3.1. Se NOVO engloba algum elemento que está na lista, NOVO assume a posição do outro elemento, que sai da lista
# 3.2. Se NOVO é englobado por algum elemento que já está na lista, NOVO não entra na lista
# 3.3. Caso 3.1 ou 3.2 não ocorra, NOVO entra na lista
#
# Com isso, as n urns retornadas serão as que mais englobam contexto.
# Assim, é importante selecionar sempre o número que for usar no RAG.
# Por exemplo, se for utilizar só 3, o ideal é informar n=3. Se for utilizar só 5, informar n=5.
# Da forma como foi feita a implementação, informar n=5 e pegar os 3 primeiros resultados pode dar um resultado diferente 
# do que apenas informar n=3. Por exemplo, suponha que o resultado da lista é [art1_cpt_inc1, art2, art3, art1, art4, art6].
# Se usamos n=3, o resultado deverá ser [art1_cpt_inc1, art2, art3].
# No entanto, se usarmos n=5, o resultado deverá ser [art1, art2, art3, art4, art6], pois art1_cpt_inc1 tomou o lugar de art1.  
def seleciona_n_urns(urns, n):
    resultados = []

    for urn in urns:
        if len(resultados) >= n:
            break

        chunk_novo = mapa_urn_chunk[urn]
        ini_novo = chunk_novo['INICIO']
        fim_novo = chunk_novo['FIM']

        # EXCEÇÃO: INICIO == -1 → insere direto
        if ini_novo == -1:
            resultados.append(urn)
            continue
            
        indices_engloba = []
        descartar = False

        for i, urn_existente in enumerate(resultados):
            chunk_exist = mapa_urn_chunk[urn_existente]
            ini_exist = chunk_exist['INICIO']
            fim_exist = chunk_exist['FIM']

            # Caso 1: existente engloba novo → descarta
            if ini_exist <= ini_novo and fim_exist >= fim_novo:
                descartar = True
                break

            # Caso 2: novo engloba existente → marca para remoção
            if ini_novo <= ini_exist and fim_novo >= fim_exist:
                indices_engloba.append(i)

        if descartar:
            continue

        if indices_engloba:
            # remove do fim para o começo para não bagunçar índices
            for i in reversed(indices_engloba):
                del resultados[i]

            # insere na posição do primeiro removido
            resultados.insert(indices_engloba[0], urn)
        else:
            resultados.append(urn)

    return resultados

In [17]:
# Teste
seleciona_n_urns([
    "urn:lex:br:federal:constituicao:1988-10-05;1988!art1_par1u",
    "urn:lex:br:federal:constituicao:1988-10-05;1988!art1_cpt",
    "urn:lex:br:federal:constituicao:1988-10-05;1988!art1",
    "urn:lex:br:federal:constituicao:1988-10-05;1988!art2_cpt",
    "urn:lex:br:federal:constituicao:1988-10-05;1988!art3_cpt"
    ],3)

['urn:lex:br:federal:constituicao:1988-10-05;1988!art1',
 'urn:lex:br:federal:constituicao:1988-10-05;1988!art2_cpt',
 'urn:lex:br:federal:constituicao:1988-10-05;1988!art3_cpt']

## 4.2 Pesquisa com o FAISS

Carregar e normalizar embeddings.

Obs.: Os embeddings da OpenAI já são normalizados (mas há uma perda na conversão de f32 pra f16 para salvar no H5), nem precisaria disso.

In [18]:
def carregar_embeddings_faiss(arquivo, coluna_id, nome_modelo):
    with h5py.File(arquivo, "r") as f:
        ids = f[coluna_id][:].astype(str)
        emb = f[nome_modelo][:].astype(np.float32)

    return ids, emb

# A ideia dessa função é, uma vez carregado todos os embeddings, filtrar apenas aqueles
# que batem com a máscara. Será usado para indexar apenas os embeddings que se referem a artigos completos
def filtro_apenas_art(urn):
    return urn in urns_chunks_pesquisa_apenas_art

def filtro_seleciona_tudo(_):
    return True
    
def filtrar_embeddings(urns, emb, func_filtro):
    mask = np.array([func_filtro(i) for i in urns], dtype=bool)

    return urns[mask], emb[mask]

def normalizar_embeddings(x):
    faiss.normalize_L2(x)
    return x

Criar o índice.

In [19]:
def criar_mapa_indice_chunks(arquivo, filtro_seleciona_id):
    mapa_indice_faiss = {}
    
    for nome_modelo, _ in MODELOS_EMB_NOME_E_DIM_EMB:
        urns, emb_chunks = carregar_embeddings_faiss(arquivo, 'urn', nome_modelo)
        urns, emb_chunks = filtrar_embeddings(urns, emb_chunks, filtro_seleciona_id)
                                           
        emb_chunks = normalizar_embeddings(emb_chunks)
        dim = emb_chunks.shape[1]
        
        index_faiss = faiss.IndexFlatL2(dim)
        index_faiss.add(emb_chunks)
    
        mapa_indice_faiss[nome_modelo] = index_faiss
        print(f"Índice criado com {index_faiss.ntotal} vetores")
    
    return urns, mapa_indice_faiss

urns_todos_chunks, mapa_indice_faiss_todos_chunks_por_modelo = criar_mapa_indice_chunks(ARQUIVO_EMBEDDINGS_CHUNKS, filtro_seleciona_tudo)
urns_apenas_art, mapa_indice_faiss_apenas_art_por_modelo = criar_mapa_indice_chunks(ARQUIVO_EMBEDDINGS_CHUNKS, filtro_apenas_art)

Índice criado com 6932 vetores
Índice criado com 1078 vetores


Função de busca no índice

In [20]:
# Mapa embeddings da questão por modelo
mapa_emb_questao_por_modelo = {}
for nome_modelo, _ in MODELOS_EMB_NOME_E_DIM_EMB:
    ids_q, emb_q = carregar_embeddings_faiss(ARQUIVO_EMBEDDINGS_QUESTOES, 'id', nome_modelo)
    emb_q = normalizar_embeddings(emb_q)
    mapa_emb_questao_por_modelo[nome_modelo] = emb_q

# Mapa id da questão por índice. Considera que todos os embeddings foram criados sequencialmente (foi feito assim mesmo)
mapa_id_questao = {id_: i for i, id_ in enumerate(ids_q)}

In [21]:
def get_chunks_proximos_faiss(id_questao, nome_modelo, urns, mapa_indices, n_chunks=20):
    idx_q = mapa_id_questao[id_questao]
    query =  mapa_emb_questao_por_modelo[nome_modelo][idx_q:idx_q+1]  # shape (1, dim)
    
    distancias, indices = mapa_indices[nome_modelo].search(query, n_chunks)

    resultados = []
    for rank, (i, d) in enumerate(zip(indices[0], distancias[0])):
        resultados.append({
            "rank": rank + 1,
            "urn": urns[i],
            "distancia_l2": float(d),
            "similaridade_cosine_aprox": 1 - d / 2
        })

    return resultados

Alguns testes

In [22]:
get_chunks_proximos_faiss('675', NOME_MODELO_EMB_OPENAI, urns_todos_chunks, mapa_indice_faiss_todos_chunks_por_modelo, n_chunks=3)

[{'rank': 1,
  'urn': 'tema_stf_483',
  'distancia_l2': 0.8046747446060181,
  'similaridade_cosine_aprox': 0.597662627696991},
 {'rank': 2,
  'urn': 'urn:lex:br:federal:lei:2018-08-14;13709!art23_cpt',
  'distancia_l2': 0.9386035799980164,
  'similaridade_cosine_aprox': 0.5306982100009918},
 {'rank': 3,
  'urn': 'urn:lex:br:federal:lei:2018-08-14;13709!art23_cpt_inc4',
  'distancia_l2': 0.9555093050003052,
  'similaridade_cosine_aprox': 0.5222453474998474}]

In [23]:
get_chunks_proximos_faiss('675', NOME_MODELO_EMB_OPENAI, urns_apenas_art, mapa_indice_faiss_apenas_art_por_modelo, n_chunks=3)

[{'rank': 1,
  'urn': 'tema_stf_483',
  'distancia_l2': 0.8046747446060181,
  'similaridade_cosine_aprox': 0.597662627696991},
 {'rank': 2,
  'urn': 'urn:lex:br:federal:lei:2011-11-18;12527!art34',
  'distancia_l2': 0.9825958013534546,
  'similaridade_cosine_aprox': 0.5087020993232727},
 {'rank': 3,
  'urn': 'urn:lex:br:autoridade.nacional.protecao.dados;conselho.diretor:resolucao:2024-07-16;18;anexo.1!art5',
  'distancia_l2': 0.9892439842224121,
  'similaridade_cosine_aprox': 0.505378007888794}]

Calcula as métricas para toda a base de dados.

# TODO: PRECISA TERMINAR DE IMPLEMENTAR A PARTE DE CHAMAR SELECIONA_N_URNS PARA QUE A PESQUISA USE A LÓGICA DE ENGLOBAR OS CHUNKS

In [24]:
def pesquisa_semantica(urns_nos_indices, mapa_indice_faiss, n_chunks=20):   
    mapa_df_resultado_por_modelo = {}

    total_porcentagem = len(MODELOS_EMB_NOME_E_DIM_EMB)*len(questoes)
    with tqdm(total=total_porcentagem) as pbar:
        for nome_modelo, _ in MODELOS_EMB_NOME_E_DIM_EMB:
            col_resultado_id_questao=[]
            col_resultado_urn_chunk=[]
            col_resultado_rank=[]
            
            for q in questoes:
                id_questao = q['ID_QUESTAO']
                resultados_para_id_questao = get_chunks_proximos_faiss(id_questao, nome_modelo, urns_nos_indices, mapa_indice_faiss, n_chunks)
                
                ids_questao = [id_questao] * len(resultados_para_id_questao)
                primeiros_20_urns = [item['urn'] for item in resultados_para_id_questao]
                ranking = [item['rank'] for item in resultados_para_id_questao]
        
                col_resultado_id_questao.extend(ids_questao)
                col_resultado_urn_chunk.extend(primeiros_20_urns)
                col_resultado_rank.extend(ranking)
    
                pbar.update(1)
        
            df_resultados_por_modelo = pd.DataFrame({
                "QUERY_KEY": col_resultado_id_questao,
                "DOC_KEY": col_resultado_urn_chunk,
                "RANK": col_resultado_rank,
            })
            mapa_df_resultado_por_modelo[nome_modelo] = df_resultados_por_modelo
    
    return mapa_df_resultado_por_modelo

In [29]:
k=5
mapa_resultados_todos_chunks_por_modelo = pesquisa_semantica(urns_todos_chunks, mapa_indice_faiss_todos_chunks_por_modelo, n_chunks=k)
mapa_resultados_apenas_art_por_modelo = pesquisa_semantica(urns_apenas_art, mapa_indice_faiss_apenas_art_por_modelo, n_chunks=k)

100%|███████████████████████████████████████████████████████████████████████████████| 700/700 [00:03<00:00, 177.71it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 700/700 [00:00<00:00, 2468.18it/s]


In [30]:
from metricas import histograma_metricas, boxplot_metricas, metricas

mapa_metricas_todos_chunks = {}
mapa_metricas_apenas_art = {}

for nome_modelo, _ in tqdm(MODELOS_EMB_NOME_E_DIM_EMB):
    mapa_metricas_todos_chunks[nome_modelo] = metricas(mapa_resultados_todos_chunks_por_modelo[nome_modelo], qrels_todos_chunks, aproximacao_trec_eval=True, k=[k])
    mapa_metricas_apenas_art[nome_modelo] = metricas(mapa_resultados_apenas_art_por_modelo[nome_modelo], qrels_apenas_art, aproximacao_trec_eval=True, k=[k])

100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.04s/it]


In [31]:
for nome_modelo, _ in MODELOS_EMB_NOME_E_DIM_EMB:
    print(f'########################## {nome_modelo} ##########################')
    display(mapa_metricas_todos_chunks[nome_modelo].describe())

########################## text-embedding-3-large ##########################


Unnamed: 0,P@5,R@5,MRR@5,nDCG@5
count,700.0,700.0,700.0,700.0
mean,0.183429,0.489627,0.455786,0.408552
std,0.153396,0.421263,0.398562,0.361241
min,0.0,0.0,0.0,0.0
25%,0.0,0.0,0.0,0.0
50%,0.2,0.4,0.333333,0.386853
75%,0.2,1.0,1.0,0.63093
max,0.8,1.0,1.0,1.0


In [32]:
for nome_modelo, _ in MODELOS_EMB_NOME_E_DIM_EMB:
    print(f'########################## {nome_modelo} ##########################')
    display(mapa_metricas_apenas_art[nome_modelo].describe())

########################## text-embedding-3-large ##########################


Unnamed: 0,P@5,R@5,MRR@5,nDCG@5
count,700.0,700.0,700.0,700.0
mean,0.227429,0.771704,0.727738,0.702141
std,0.158468,0.371088,0.388643,0.361167
min,0.0,0.0,0.0,0.0
25%,0.2,0.6,0.5,0.5
50%,0.2,1.0,1.0,0.881338
75%,0.2,1.0,1.0,1.0
max,0.8,1.0,1.0,1.0


In [44]:
df = mapa_resultados_todos_chunks_por_modelo[NOME_MODELO_EMB_OPENAI]
df[df.QUERY_KEY == '675'].DOC_KEY.iloc[0:k].tolist()

['tema_stf_483',
 'urn:lex:br:federal:lei:2018-08-14;13709!art23_cpt',
 'urn:lex:br:federal:lei:2018-08-14;13709!art23_cpt_inc4',
 'urn:lex:br:federal:lei:2018-08-14;13709!art23_cpt_inc2',
 'urn:lex:br:federal:lei:2018-08-14;13709!art23_cpt_inc1']

In [45]:
df = mapa_resultados_apenas_art_por_modelo[NOME_MODELO_EMB_OPENAI]
df[df.QUERY_KEY == '675'].DOC_KEY.iloc[0:k].tolist()

['tema_stf_483',
 'urn:lex:br:federal:lei:2011-11-18;12527!art34',
 'urn:lex:br:autoridade.nacional.protecao.dados;conselho.diretor:resolucao:2024-07-16;18;anexo.1!art5',
 'urn:lex:br:federal:lei:2018-08-14;13709!art23',
 'urn:lex:br:federal:lei:2018-08-14;13709!art26']