In [113]:
import re
from anytree import Node, RenderTree, PreOrderIter

def parse_lei(texto):
    raiz = Node("Lei")

    # Ponteiros de contexto
    parte_atual = None
    livro_atual = None
    titulo_atual = None
    capitulo_atual = None
    secao_atual = None
    subsecao_atual = None
    artigo_atual = None
    paragrafo_atual = None
    inciso_atual = None
    alinea_atual = None

    # Guarda último agrupamento para anexar nome
    ultimo_agrupamento = None

    linhas = texto.split("\n")

    for linha in linhas:
        linha = linha.strip()
        if not linha:
            continue

        # Remover aspas de início e fim (aspas normais ou tipográficas “ ”)
        linha = linha.strip('\"“”')
        
        # ---------------- Níveis superiores ----------------
        if re.match(r"^PARTE\s+[IVXLCDM]+", linha, re.IGNORECASE):
            parte_atual = Node(linha, parent=raiz)
            ultimo_agrupamento = parte_atual
            livro_atual = titulo_atual = capitulo_atual = secao_atual = subsecao_atual = artigo_atual = paragrafo_atual = inciso_atual = alinea_atual = None

        elif re.match(r"^LIVRO\s+[IVXLCDM]+", linha, re.IGNORECASE):
            pai = parte_atual or raiz
            livro_atual = Node(linha, parent=pai)
            ultimo_agrupamento = livro_atual
            titulo_atual = capitulo_atual = secao_atual = subsecao_atual = artigo_atual = paragrafo_atual = inciso_atual = alinea_atual = None

        elif re.match(r"^T[ÍI]TULO\s+[IVXLCDM]+", linha, re.IGNORECASE):
            pai = livro_atual or parte_atual or raiz
            titulo_atual = Node(linha, parent=pai)
            ultimo_agrupamento = titulo_atual
            capitulo_atual = secao_atual = subsecao_atual = artigo_atual = paragrafo_atual = inciso_atual = alinea_atual = None

        elif re.match(r"^CAP[ÍI]TULO\s+[IVXLCDM]+", linha, re.IGNORECASE):
            pai = titulo_atual or livro_atual or raiz
            capitulo_atual = Node(linha, parent=pai)
            ultimo_agrupamento = capitulo_atual
            secao_atual = subsecao_atual = artigo_atual = paragrafo_atual = inciso_atual = alinea_atual = None

        elif re.match(r"^SEÇÃO\s+[IVXLCDM]+", linha, re.IGNORECASE):
            pai = capitulo_atual or raiz
            secao_atual = Node(linha, parent=pai)
            ultimo_agrupamento = secao_atual
            subsecao_atual = artigo_atual = paragrafo_atual = inciso_atual = alinea_atual = None

        elif re.match(r"^SUBSEÇÃO\s+[IVXLCDM]+", linha, re.IGNORECASE):
            pai = secao_atual or capitulo_atual or raiz
            subsecao_atual = Node(linha, parent=pai)
            ultimo_agrupamento = subsecao_atual
            artigo_atual = paragrafo_atual = inciso_atual = alinea_atual = None

        # ---------------- Artigo ----------------
        elif re.match(r"^Art\. \d+", linha):
            pai = subsecao_atual or secao_atual or capitulo_atual or titulo_atual or livro_atual or parte_atual or raiz
            artigo_atual = Node(linha, parent=pai)
            paragrafo_atual = inciso_atual = alinea_atual = None
            ultimo_agrupamento = None  # Artigo não recebe "nome" na linha de baixo

        # ---------------- Parágrafo ----------------
        elif re.match(r"^(Parágrafo único|§\s*\d+)", linha):
            if artigo_atual:
                paragrafo_atual = Node(linha, parent=artigo_atual)
                inciso_atual = alinea_atual = None
            ultimo_agrupamento = None

        # ---------------- Inciso ----------------
        elif re.match(r"^[IVXLCDM]+\s-", linha):
            if paragrafo_atual:
                inciso_atual = Node(linha, parent=paragrafo_atual)
            elif artigo_atual:
                inciso_atual = Node(linha, parent=artigo_atual)
            alinea_atual = None
            ultimo_agrupamento = None

        # ---------------- Alínea ----------------
        elif re.match(r"^[a-z]\)", linha):
            if inciso_atual:
                alinea_atual = Node(linha, parent=inciso_atual)
            ultimo_agrupamento = None

        # ---------------- Item ----------------
        elif re.match(r"^\d+\s-", linha):
            if alinea_atual:
                Node(linha, parent=alinea_atual)
            ultimo_agrupamento = None

        # ---------------- Nome de agrupamento ----------------
        else:
            # Se a linha não corresponde a nenhum padrão conhecido
            # e temos um último agrupamento registrado, anexamos como descrição
            if ultimo_agrupamento:
                ultimo_agrupamento.name = f"{ultimo_agrupamento.name} — {linha}"
                ultimo_agrupamento = None  # Evita anexar várias linhas por engano

    return raiz


def mostra_estrutura(raiz):
    for pre, fill, node in RenderTree(raiz):
        print("%s%s" % (pre, node.name))

def classificar_no(nome):
    """
    Retorna o tipo do nó com base no texto.
    """
    if re.match(r"^Art\. \d+", nome):
        return "Artigo"
    elif re.match(r"^(Parágrafo único|§\s*\d+)", nome):
        return "Parágrafo"
    elif re.match(r"^[IVXLCDM]+\s-", nome):
        return "Inciso"
    elif re.match(r"^[a-z]\)", nome):
        return "Alínea"
    elif re.match(r"^\d+\s-", nome):
        return "Item"

    # Tem leis que o capítulo é escrito como "Capítulo" e, outras, como "CAPÍTULO". Normaliza.
    nome = nome.upper()
    if nome.startswith("LEI"):
        return "Lei"
    elif nome.startswith("PARTE"):
        return "Parte"
    elif nome.startswith("LIVRO"):
        return "Livro"
    elif nome.startswith("TÍTULO"):
        return "Título"
    elif nome.startswith("CAPÍTULO"):
        return "Capítulo"
    elif nome.startswith("SEÇÃO"):
        return "Seção"
    elif nome.startswith("SUBSEÇÃO"):
        return "Subseção"
    else:
        return "Outro"

def gerar_chunks(raiz):
    chunks = []

    for node in PreOrderIter(raiz):
        tipo = classificar_no(node.name)

        # Caso 1: níveis acima ou iguais a Artigo → subárvore completa
        if tipo in ("Lei", "Parte", "Livro", "Título", "Capítulo", "Seção", "Subseção", "Artigo"):
            linhas = [subnode.name for _, _, subnode in RenderTree(node)]
            chunk_text = "\n".join(linhas)
            chunks.append({"tipo": tipo, "texto": chunk_text})

        # Caso 2: níveis abaixo de Artigo → caminho do artigo até o nó
        elif tipo in ("Parágrafo", "Inciso", "Alínea", "Item"):
            artigo_pai = node
            while artigo_pai and classificar_no(artigo_pai.name) != "Artigo":
                artigo_pai = artigo_pai.parent

            if artigo_pai:
                caminho = []
                atual = node
                while atual is not None:
                    caminho.append(atual.name)
                    if atual == artigo_pai:
                        break
                    atual = atual.parent
                caminho = list(reversed(caminho))
                chunk_text = "\n".join(caminho)
                chunks.append({"tipo": tipo, "texto": chunk_text})

    return chunks

In [61]:
def carrega_estrutura_lei(arquivo_txt_da_lei):
    with open(arquivo_txt_da_lei, "r", encoding="utf-8") as file:
        lei = file.read()
    lei_parseada = parse_lei(lei)
    return lei_parseada

def carrega_e_mostra_estrutura(arquivo_txt_da_lei):
    lei_parseada = carrega_estrutura_lei(arquivo_txt_da_lei)
    mostra_estrutura(lei_parseada)
    return lei_parseada

In [62]:
lgpd_txt = "legislacao/L13709 de 2008 - LGPD.txt"
mci_txt = "legislacao/L12965 de 2014 - Marco Civil da Internet.txt"
carolina_dieckmann_txt = "legislacao/L12737 de 2012 - Lei Carolina Diechmann.txt"
lai_txt = "legislacao/L12527 de 2011 - LAI.txt"
lei_software_txt = "legislacao/L9609 de 1998 - Lei do Software.txt"
direitos_autorais_txt = "legislacao/L9610 de 1998 - Lei de Direitos Autorais.txt"
assinaturas_digitais_txt = "legislacao/L14063 de 2020 - Lei das Assinaturas Digitais.txt"
lgt_txt = "legislacao/L9472 de 1997 - LGT.txt"
regulamento_mci_txt = "legislacao/D8771 de 2016 - Regulamenta MCI.txt"
regulamento_ecommerce_txt = "legislacao/D7962 de 2013 - Regulamento E-Commerce.txt"

In [111]:
carrega_e_mostra_estrutura(lgpd_txt)

Lei
├── CAPÍTULO I — DISPOSIÇÕES PRELIMINARES
│   ├── Art. 1º Esta Lei dispõe sobre o tratamento de dados pessoais, inclusive nos meios digitais, por pessoa natural ou por pessoa jurídica de direito público ou privado, com o objetivo de proteger os direitos fundamentais de liberdade e de privacidade e o livre desenvolvimento da personalidade da pessoa natural.
│   │   └── Parágrafo único. As normas gerais contidas nesta Lei são de interesse nacional e devem ser observadas pela União, Estados, Distrito Federal e Municípios.      (Incluído pela Lei nº 13.853, de 2019)       Vigência
│   ├── Art. 2º A disciplina da proteção de dados pessoais tem como fundamentos:
│   │   ├── I - o respeito à privacidade;
│   │   ├── II - a autodeterminação informativa;
│   │   ├── III - a liberdade de expressão, de informação, de comunicação e de opinião;
│   │   ├── IV - a inviolabilidade da intimidade, da honra e da imagem;
│   │   ├── V - o desenvolvimento econômico e tecnológico e a inovação;
│   │   

Node('/Lei')

In [64]:
carrega_e_mostra_estrutura(mci_txt)

Lei
├── CAPÍTULO I — DISPOSIÇÕES PRELIMINARES
│   ├── Art. 1º Esta Lei estabelece princípios, garantias, direitos e deveres para o uso da internet no Brasil e determina as diretrizes para atuação da União, dos Estados, do Distrito Federal e dos Municípios em relação à matéria.
│   ├── Art. 2º A disciplina do uso da internet no Brasil tem como fundamento o respeito à liberdade de expressão, bem como:
│   │   ├── I - o reconhecimento da escala mundial da rede;
│   │   ├── II - os direitos humanos, o desenvolvimento da personalidade e o exercício da cidadania em meios digitais;
│   │   ├── III - a pluralidade e a diversidade;
│   │   ├── IV - a abertura e a colaboração;
│   │   ├── V - a livre iniciativa, a livre concorrência e a defesa do consumidor; e
│   │   └── VI - a finalidade social da rede.
│   ├── Art. 3º A disciplina do uso da internet no Brasil tem os seguintes princípios:
│   │   ├── I - garantia da liberdade de expressão, comunicação e manifestação de pensamento, nos termos d

Node('/Lei')

In [65]:
carrega_e_mostra_estrutura(carolina_dieckmann_txt)

Lei
├── Art. 1º Esta Lei dispõe sobre a tipificação criminal de delitos informáticos e dá outras providências.
├── Art. 2º O Decreto-Lei nº 2.848, de 7 de dezembro de 1940 - Código Penal, fica acrescido dos seguintes arts. 154-A e 154-B:
├── Art. 154-A. Invadir dispositivo informático alheio, conectado ou não à rede de computadores, mediante violação indevida de mecanismo de segurança e com o fim de obter, adulterar ou destruir dados ou informações sem autorização expressa ou tácita do titular do dispositivo ou instalar vulnerabilidades para obter vantagem ilícita:
│   ├── § 1º Na mesma pena incorre quem produz, oferece, distribui, vende ou difunde dispositivo ou programa de computador com o intuito de permitir a prática da conduta definida no caput .
│   ├── § 2º Aumenta-se a pena de um sexto a um terço se da invasão resulta prejuízo econômico.
│   ├── § 3º Se da invasão resultar a obtenção de conteúdo de comunicações eletrônicas privadas, segredos comerciais ou industriais, informaçõ

Node('/Lei')

In [66]:
carrega_e_mostra_estrutura(lai_txt)

Lei
├── CAPÍTULO I — DISPOSIÇÕES GERAIS
│   ├── Art. 1º Esta Lei dispõe sobre os procedimentos a serem observados pela União, Estados, Distrito Federal e Municípios, com o fim de garantir o acesso a informações previsto no inciso XXXIII do art. 5º , no inciso II do § 3º do art. 37 e no § 2º do art. 216 da Constituição Federal.
│   │   └── Parágrafo único. Subordinam-se ao regime desta Lei:
│   │       ├── I - os órgãos públicos integrantes da administração direta dos Poderes Executivo, Legislativo, incluindo as Cortes de Contas, e Judiciário e do Ministério Público;
│   │       └── II - as autarquias, as fundações públicas, as empresas públicas, as sociedades de economia mista e demais entidades controladas direta ou indiretamente pela União, Estados, Distrito Federal e Municípios.
│   ├── Art. 2º Aplicam-se as disposições desta Lei, no que couber, às entidades privadas sem fins lucrativos que recebam, para realização de ações de interesse público, recursos públicos diretamente do orça

Node('/Lei')

In [67]:
carrega_e_mostra_estrutura(mci_file)

Lei
├── CAPÍTULO I — DISPOSIÇÕES PRELIMINARES
│   ├── Art. 1º Esta Lei estabelece princípios, garantias, direitos e deveres para o uso da internet no Brasil e determina as diretrizes para atuação da União, dos Estados, do Distrito Federal e dos Municípios em relação à matéria.
│   ├── Art. 2º A disciplina do uso da internet no Brasil tem como fundamento o respeito à liberdade de expressão, bem como:
│   │   ├── I - o reconhecimento da escala mundial da rede;
│   │   ├── II - os direitos humanos, o desenvolvimento da personalidade e o exercício da cidadania em meios digitais;
│   │   ├── III - a pluralidade e a diversidade;
│   │   ├── IV - a abertura e a colaboração;
│   │   ├── V - a livre iniciativa, a livre concorrência e a defesa do consumidor; e
│   │   └── VI - a finalidade social da rede.
│   ├── Art. 3º A disciplina do uso da internet no Brasil tem os seguintes princípios:
│   │   ├── I - garantia da liberdade de expressão, comunicação e manifestação de pensamento, nos termos d

Node('/Lei')

In [68]:
carrega_e_mostra_estrutura(lei_software_txt)

Lei
├── CAPÍTULO I — DISPOSIÇÕES PRELIMINARES
│   └── Art. 1º Programa de computador é a expressão de um conjunto organizado de instruções em linguagem natural ou codificada, contida em suporte físico de qualquer natureza, de emprego necessário em máquinas automáticas de tratamento da informação, dispositivos, instrumentos ou equipamentos periféricos, baseados em técnica digital ou análoga, para fazê-los funcionar de modo e para fins determinados.
├── CAPÍTULO II — DA PROTEÇÃO AOS DIREITOS DE AUTOR E DO REGISTRO
│   ├── Art. 2º O regime de proteção à propriedade intelectual de programa de computador é o conferido às obras literárias pela legislação de direitos autorais e conexos vigentes no País, observado o disposto nesta Lei.
│   │   ├── § 1º Não se aplicam ao programa de computador as disposições relativas aos direitos morais, ressalvado, a qualquer tempo, o direito do autor de reivindicar a paternidade do programa de computador e o direito do autor de opor-se a alterações não-autor

Node('/Lei')

In [69]:
carrega_e_mostra_estrutura(direitos_autorais_txt)

Lei
├── Título I — Disposições Preliminares
│   ├── Art. 1º Esta Lei regula os direitos autorais, entendendo-se sob esta denominação os direitos de autor e os que lhes são conexos.
│   ├── Art. 2º Os estrangeiros domiciliados no exterior gozarão da proteção assegurada nos acordos, convenções e tratados em vigor no Brasil.
│   │   └── Parágrafo único. Aplica-se o disposto nesta Lei aos nacionais ou pessoas domiciliadas em país que assegure aos brasileiros ou pessoas domiciliadas no Brasil a reciprocidade na proteção aos direitos autorais ou equivalentes.
│   ├── Art. 3º Os direitos autorais reputam-se, para os efeitos legais, bens móveis.
│   ├── Art. 4º Interpretam-se restritivamente os negócios jurídicos sobre os direitos autorais.
│   ├── Art. 5º Para os efeitos desta Lei, considera-se:
│   │   ├── I - publicação - o oferecimento de obra literária, artística ou científica ao conhecimento do público, com o consentimento do autor, ou de qualquer outro titular de direito de autor, por q

Node('/Lei')

In [70]:
carrega_e_mostra_estrutura(assinaturas_digitais_txt)

Lei
├── CAPÍTULO I — DISPOSIÇÃO PRELIMINAR
│   └── Art. 1 º Esta Lei dispõe sobre o uso de assinaturas eletrônicas em interações com entes públicos, em atos de pessoas jurídicas e em questões de saúde e sobre as licenças de softwares desenvolvidos por entes públicos, com o objetivo de proteger as informações pessoais e sensíveis dos cidadãos, com base nos incisos X e XII do caput do art. 5º da Constituição Federal e na Lei nº 13.709, de 14 de agosto de 2018 (Lei Geral de Proteção de Dados Pessoais), bem como de atribuir eficiência e segurança aos serviços públicos prestados sobretudo em ambiente eletrônico.
├── CAPÍTULO II — DA ASSINATURA ELETRÔNICA EM INTERAÇÕES COM ENTES PÚBLICOS
│   ├── Seção I — Do Objeto, do Âmbito de Aplicação e das Definições
│   │   ├── Art. 2º Este Capítulo estabelece regras e procedimentos sobre o uso de assinaturas eletrônicas no âmbito da:
│   │   │   ├── I - interação interna dos órgãos e entidades da administração direta, autárquica e fundacional dos Pode

Node('/Lei')

In [71]:
carrega_e_mostra_estrutura(lgt_txt)

Lei
├── LIVRO I — DOS PRINCÍPIOS FUNDAMENTAIS
│   ├── Art. 1° Compete à União, por intermédio do órgão regulador e nos termos das políticas estabelecidas pelos Poderes Executivo e Legislativo, organizar a exploração dos serviços de telecomunicações.
│   │   └── Parágrafo único. A organização inclui, entre outros aspectos, o disciplinamento e a fiscalização da execução, comercialização e uso dos serviços e da implantação e funcionamento de redes de telecomunicações, bem como da utilização dos recursos de órbita e espectro de radiofreqüências.
│   ├── Art. 2° O Poder Público tem o dever de:
│   │   ├── I - garantir, a toda a população, o acesso às telecomunicações, a tarifas e preços razoáveis, em condições adequadas;
│   │   ├── II - estimular a expansão do uso de redes e serviços de telecomunicações pelos serviços de interesse público em benefício da população brasileira;
│   │   ├── III - adotar medidas que promovam a competição e a diversidade dos serviços, incrementem sua oferta e p

Node('/Lei')

In [72]:
carrega_e_mostra_estrutura(regulamento_mci_txt)

Lei
├── CAPÍTULO I — DISPOSIÇÕES GERAIS
│   ├── Art. 1º Este Decreto trata das hipóteses admitidas de discriminação de pacotes de dados na internet e de degradação de tráfego, indica procedimentos para guarda e proteção de dados por provedores de conexão e de aplicações, aponta medidas de transparência na requisição de dados cadastrais pela administração pública e estabelece parâmetros para fiscalização e apuração de infrações contidas na Lei nº 12.965, de 23 de abril de 2014 .
│   └── Art. 2º O disposto neste Decreto se destina aos responsáveis pela transmissão, pela comutação ou pelo roteamento e aos provedores de conexão e de aplicações de internet, definida nos termos do inciso I do caput do art. 5º da Lei nº 12.965, de 2014 .
│       └── Parágrafo único. O disposto neste Decreto não se aplica:
│           ├── I - aos serviços de telecomunicações que não se destinem ao provimento de conexão de internet; e
│           └── II - aos serviços especializados, entendidos como serviços ot

Node('/Lei')

In [73]:
carrega_e_mostra_estrutura(regulamento_ecommerce_txt)

Lei
├── Art. 1º Este Decreto regulamenta a Lei nº 8.078, de 11 de setembro de 1990, para dispor sobre a contratação no comércio eletrônico, abrangendo os seguintes aspectos:
│   ├── I - informações claras a respeito do produto, serviço e do fornecedor;
│   ├── II - atendimento facilitado ao consumidor; e
│   └── III - respeito ao direito de arrependimento.
├── Art. 2º Os sítios eletrônicos ou demais meios eletrônicos utilizados para oferta ou conclusão de contrato de consumo devem disponibilizar, em local de destaque e de fácil visualização, as seguintes informações:
│   ├── I - nome empresarial e número de inscrição do fornecedor, quando houver, no Cadastro Nacional de Pessoas Físicas ou no Cadastro Nacional de Pessoas Jurídicas do Ministério da Fazenda;
│   ├── II - endereço físico e eletrônico, e demais informações necessárias para sua localização e contato;
│   ├── III - características essenciais do produto ou do serviço, incluídos os riscos à saúde e à segurança dos consumidores;

Node('/Lei')

In [112]:
chunks_lgt = gerar_chunks(carrega_estrutura_lei(lgt_txt))
# No caso da LGT:
# O chunk 0 é a lei inteira
# O chunk 1 é todo o título 1
# O chunk 2 é todo o art. 1
# O chunk 3 é apenas o parágrafo único do art. 1
# O chunk 4 é todo o art. 2
# O chunk 5 é o inciso I do art 2. Teste:
print(chunks_lgt[4]['texto'])

Art. 2° O Poder Público tem o dever de:
I - garantir, a toda a população, o acesso às telecomunicações, a tarifas e preços razoáveis, em condições adequadas;
II - estimular a expansão do uso de redes e serviços de telecomunicações pelos serviços de interesse público em benefício da população brasileira;
III - adotar medidas que promovam a competição e a diversidade dos serviços, incrementem sua oferta e propiciem padrões de qualidade compatíveis com a exigência dos usuários;
IV - fortalecer o papel regulador do Estado;
V - criar oportunidades de investimento e estimular o desenvolvimento tecnológico e industrial, em ambiente competitivo;
VI - criar condições para que o desenvolvimento do setor seja harmônico com as metas de desenvolvimento social do País.
VII - criar condições para ampliação da conectividade e da inclusão digital, priorizando a cobertura de estabelecimentos públicos de ensino.   (Incluído pela Lei nº 14.173, de 2021)


In [118]:
chunks_lgpd = gerar_chunks(carrega_estrutura_lei(lgpd_txt))
# No caso da LGPD:
# O chunk 0 é toda a lei
# O chunk 1 é o capítulo I
# O chunk 2 é o art. 1
# O chunk 3 é o parágrafo único do art. 1
# O chunk 4 é todo o art. 2
# O chunk 5 é todo o art. 2, I
# O chunk 6 é todo o art. 2, II
print(chunks_lgpd[5]['texto'])

Art. 2º A disciplina da proteção de dados pessoais tem como fundamentos:
I - o respeito à privacidade;
