In [7]:
import requests
import re
import json
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry

def create_session():
    session = requests.Session()
    retry_strategy = Retry(total=3, backoff_factor=1)
    adapter = HTTPAdapter(max_retries=retry_strategy)
    session.mount("http://", adapter)
    session.mount("https://", adapter)
    return session

def limpar_texto(texto):
    texto = re.sub(r'<[^>]+>', '', texto)
    texto = re.sub(r'\s+', ' ', texto)
    return texto.strip()

def scrape_planalto():
    url = "https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/decreto/d9580.htm"

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
        'Accept': 'text/html,application/xhtml+xml',
        'Accept-Language': 'pt-BR,pt;q=0.9,en-US;q=0.8,en;q=0.7',
    }

    try:
        session = create_session()
        response = session.get(url, headers=headers, timeout=30)
        response.raise_for_status()
        content = response.text
    except requests.RequestException as e:
        print(f"Erro ao acessar a página: {e}")
        return None

    # Estrutura do documento
    estrutura = []

    # Dividir o conteúdo em linhas e processar cada uma
    linhas = content.split('\n')
    elemento_atual = None

    for linha in linhas:
        linha_limpa = limpar_texto(linha)

        if not linha_limpa:
            continue

        # Identificar o tipo de linha
        if "DECRETO Nº" in linha_limpa:
            elemento = {
                "tipo": "Lei",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("Regulamenta"):
            elemento = {
                "tipo": "Resumo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("O PRESIDENTE DA REPÚBLICA"):
            elemento = {
                "tipo": "Decreto",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("LIVRO"):
            elemento = {
                "tipo": "Livro",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Livro"

        elif linha_limpa.startswith("TÍTULO"):
            elemento = {
                "tipo": "Titulo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Titulo"

        elif linha_limpa.startswith("CAPÍTULO"):
            elemento = {
                "tipo": "Capitulo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Capitulo"

        elif linha_limpa.startswith("Art."):
            elemento = {
                "tipo": "Artigo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Artigo"

        elif linha_limpa.startswith("§"):
            elemento = {
                "tipo": "Paragrafo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Paragrafo"

        elif re.match(r'^[IVX]+\s*[-–]', linha_limpa):
            elemento = {
                "tipo": "Inciso",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Brasília," in linha_limpa:
            elemento = {
                "tipo": "Data_Final",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "MICHEL TEMER" in linha_limpa:
            elemento = {
                "tipo": "Presidente",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Eduardo Refinetti Guardia" in linha_limpa:
            elemento = {
                "tipo": "Servidor",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Este texto não substitui" in linha_limpa:
            elemento = {
                "tipo": "Mensagem_Final",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

    # Salvar em JSON
    try:
        with open('decreto_9580_estrutura.json', 'w', encoding='utf-8') as f:
            json.dump(estrutura, f, ensure_ascii=False, indent=2)
        print("Arquivo JSON criado com sucesso!")
        return estrutura
    except IOError as e:
        print(f"Erro ao salvar arquivo: {e}")
        return None

if __name__ == "__main__":
    print("Iniciando scraping estruturado...")
    resultado = scrape_planalto()

    if resultado:
        # Contagem de elementos por tipo
        contagem = {}
        for elemento in resultado:
            tipo = elemento["tipo"]
            contagem[tipo] = contagem.get(tipo, 0) + 1

        print("\nElementos encontrados:")
        for tipo, quantidade in contagem.items():
            print(f"- {tipo}: {quantidade}")

Iniciando scraping estruturado...
Arquivo JSON criado com sucesso!

Elementos encontrados:
- Lei: 1
- Resumo: 1
- Decreto: 1
- Artigo: 1055
- Data_Final: 1
- Presidente: 1
- Servidor: 1
- Mensagem_Final: 1
- Livro: 4
- Titulo: 39
- Capitulo: 135
- Paragrafo: 1764
- Inciso: 1662


In [8]:
import requests
import re
import json
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry

def create_session():
    session = requests.Session()
    retry_strategy = Retry(total=3, backoff_factor=1)
    adapter = HTTPAdapter(max_retries=retry_strategy)
    session.mount("http://", adapter)
    session.mount("https://", adapter)
    return session

def limpar_texto(texto):
    texto = re.sub(r'<[^>]+>', '', texto)
    texto = re.sub(r'\s+', ' ', texto)
    return texto.strip()

def scrape_planalto():
    url = "https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/decreto/d9580.htm"

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
        'Accept': 'text/html,application/xhtml+xml',
        'Accept-Language': 'pt-BR,pt;q=0.9,en-US;q=0.8,en;q=0.7',
    }

    try:
        session = create_session()
        response = session.get(url, headers=headers, timeout=30)
        response.raise_for_status()
        content = response.text
    except requests.RequestException as e:
        print(f"Erro ao acessar a página: {e}")
        return None

    # Estrutura do documento
    estrutura = []

    # Dividir o conteúdo em linhas e processar cada uma
    linhas = content.split('\n')
    elemento_atual = None

    for linha in linhas:
        linha_limpa = limpar_texto(linha)

        if not linha_limpa:
            continue

        # Identificar o tipo de linha
        if "DECRETO Nº" in linha_limpa:
            elemento = {
                "tipo": "Lei",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("Regulamenta"):
            elemento = {
                "tipo": "Resumo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("O PRESIDENTE DA REPÚBLICA"):
            elemento = {
                "tipo": "Decreto",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("LIVRO"):
            elemento = {
                "tipo": "Livro",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Livro"

        elif linha_limpa.startswith("TÍTULO"):
            elemento = {
                "tipo": "Titulo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Titulo"

        elif linha_limpa.startswith("CAPÍTULO"):
            elemento = {
                "tipo": "Capitulo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Capitulo"

        # Adicionar identificação de Seção
        elif re.match(r'^Seção\s+[IVX]+', linha_limpa, re.IGNORECASE):
            elemento = {
                "tipo": "Secao",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Secao"

        # Adicionar identificação de Subseção
        elif linha_limpa.startswith("Subseção"):
            elemento = {
                "tipo": "Subsecao",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Subsecao"

        elif linha_limpa.startswith("Art."):
            elemento = {
                "tipo": "Artigo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Artigo"

        elif linha_limpa.startswith("§"):
            elemento = {
                "tipo": "Paragrafo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Paragrafo"

        elif re.match(r'^[IVX]+\s*[-–]', linha_limpa):
            elemento = {
                "tipo": "Inciso",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Brasília," in linha_limpa:
            elemento = {
                "tipo": "Data_Final",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "MICHEL TEMER" in linha_limpa:
            elemento = {
                "tipo": "Presidente",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Eduardo Refinetti Guardia" in linha_limpa:
            elemento = {
                "tipo": "Servidor",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Este texto não substitui" in linha_limpa:
            elemento = {
                "tipo": "Mensagem_Final",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

    # Salvar em JSON
    try:
        with open('decreto_9580_estrutura.json', 'w', encoding='utf-8') as f:
            json.dump(estrutura, f, ensure_ascii=False, indent=2)
        print("Arquivo JSON criado com sucesso!")
        return estrutura
    except IOError as e:
        print(f"Erro ao salvar arquivo: {e}")
        return None

if __name__ == "__main__":
    print("Iniciando scraping estruturado...")
    resultado = scrape_planalto()

    if resultado:
        # Contagem de elementos por tipo
        contagem = {}
        for elemento in resultado:
            tipo = elemento["tipo"]
            contagem[tipo] = contagem.get(tipo, 0) + 1

        print("\nElementos encontrados:")
        for tipo, quantidade in contagem.items():
            print(f"- {tipo}: {quantidade}")

Iniciando scraping estruturado...
Arquivo JSON criado com sucesso!

Elementos encontrados:
- Lei: 1
- Resumo: 1
- Decreto: 1
- Artigo: 1055
- Data_Final: 1
- Presidente: 1
- Servidor: 1
- Mensagem_Final: 1
- Livro: 4
- Titulo: 39
- Capitulo: 135
- Paragrafo: 1764
- Secao: 221
- Inciso: 1662
- Subsecao: 208


In [9]:
import requests
import re
import json
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry

def create_session():
    session = requests.Session()
    retry_strategy = Retry(total=3, backoff_factor=1)
    adapter = HTTPAdapter(max_retries=retry_strategy)
    session.mount("http://", adapter)
    session.mount("https://", adapter)
    return session

def limpar_texto(texto):
    texto = re.sub(r'<[^>]+>', '', texto)
    texto = re.sub(r'\s+', ' ', texto)
    return texto.strip()

def scrape_planalto():
    url = "https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/decreto/d9580.htm"

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
        'Accept': 'text/html,application/xhtml+xml',
        'Accept-Language': 'pt-BR,pt;q=0.9,en-US;q=0.8,en;q=0.7',
    }

    try:
        session = create_session()
        response = session.get(url, headers=headers, timeout=30)
        response.raise_for_status()
        content = response.text
    except requests.RequestException as e:
        print(f"Erro ao acessar a página: {e}")
        return None

    # Estrutura do documento
    estrutura = []

    # Dividir o conteúdo em linhas e processar cada uma
    linhas = content.split('\n')
    elemento_atual = None

    for linha in linhas:
        linha_limpa = limpar_texto(linha)

        if not linha_limpa:
            continue

        # Identificar o tipo de linha
        if "DECRETO Nº" in linha_limpa:
            elemento = {
                "tipo": "Lei",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("Regulamenta"):
            elemento = {
                "tipo": "Resumo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("O PRESIDENTE DA REPÚBLICA"):
            elemento = {
                "tipo": "Decreto",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("LIVRO"):
            elemento = {
                "tipo": "Livro",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Livro"

        elif linha_limpa.startswith("TÍTULO"):
            elemento = {
                "tipo": "Titulo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Titulo"

        elif linha_limpa.startswith("CAPÍTULO"):
            elemento = {
                "tipo": "Capitulo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Capitulo"

        # Adicionar identificação de Seção
        elif re.match(r'^Seção\s+[IVX]+', linha_limpa, re.IGNORECASE):
            elemento = {
                "tipo": "Secao",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Secao"

        # Adicionar identificação de Subseção
        elif linha_limpa.startswith("Subseção"):
            elemento = {
                "tipo": "Subsecao",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Subsecao"

        elif linha_limpa.startswith("Art."):
            elemento = {
                "tipo": "Artigo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Artigo"

        elif linha_limpa.startswith("§"):
            elemento = {
                "tipo": "Paragrafo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Paragrafo"

        elif re.match(r'^[IVX]+\s*[-–]', linha_limpa):
            elemento = {
                "tipo": "Inciso",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Brasília," in linha_limpa:
            elemento = {
                "tipo": "Data_Final",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "MICHEL TEMER" in linha_limpa:
            elemento = {
                "tipo": "Presidente",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Eduardo Refinetti Guardia" in linha_limpa:
            elemento = {
                "tipo": "Servidor",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Este texto não substitui" in linha_limpa:
            elemento = {
                "tipo": "Mensagem_Final",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

    # Salvar em JSON
    try:
        with open('decreto_9580_estrutura.json', 'w', encoding='utf-8') as f:
            json.dump(estrutura, f, ensure_ascii=False, indent=2)
        print("Arquivo JSON criado com sucesso!")
        return estrutura
    except IOError as e:
        print(f"Erro ao salvar arquivo: {e}")
        return None

if __name__ == "__main__":
    print("Iniciando scraping estruturado...")
    resultado = scrape_planalto()

    if resultado:
        # Contagem de elementos por tipo
        contagem = {}
        for elemento in resultado:
            tipo = elemento["tipo"]
            contagem[tipo] = contagem.get(tipo, 0) + 1

        print("\nElementos encontrados:")
        for tipo, quantidade in contagem.items():
            print(f"- {tipo}: {quantidade}")

Iniciando scraping estruturado...
Arquivo JSON criado com sucesso!

Elementos encontrados:
- Lei: 1
- Resumo: 1
- Decreto: 1
- Artigo: 1055
- Data_Final: 1
- Presidente: 1
- Servidor: 1
- Mensagem_Final: 1
- Livro: 4
- Titulo: 39
- Capitulo: 135
- Paragrafo: 1764
- Secao: 221
- Inciso: 1662
- Subsecao: 208


In [10]:
import requests
import re
import json
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry

def create_session():
    session = requests.Session()
    retry_strategy = Retry(total=3, backoff_factor=1)
    adapter = HTTPAdapter(max_retries=retry_strategy)
    session.mount("http://", adapter)
    session.mount("https://", adapter)
    return session

def limpar_texto(texto):
    texto = re.sub(r'<[^>]+>', '', texto)
    texto = re.sub(r'\s+', ' ', texto)
    return texto.strip()

def extrair_secao(linha):
    # Padrão para extrair número da seção e texto
    padrao_secao = re.match(r'^(Seção\s+[IVX]+)\s*[-–]?\s*(.*)', linha, re.IGNORECASE)
    if padrao_secao:
        return {
            "identificador": padrao_secao.group(1).strip(),
            "texto": padrao_secao.group(2).strip()
        }
    return None

def extrair_subsecao(linha):
    # Padrão para extrair identificador da subseção e texto
    padrao_subsecao = re.match(r'^(Subseção\s+[únicaIVX]+)\s*[-–]?\s*(.*)', linha, re.IGNORECASE)
    if padrao_subsecao:
        return {
            "identificador": padrao_subsecao.group(1).strip(),
            "texto": padrao_subsecao.group(2).strip()
        }
    return None

def scrape_planalto():
    url = "https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/decreto/d9580.htm"

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
        'Accept': 'text/html,application/xhtml+xml',
        'Accept-Language': 'pt-BR,pt;q=0.9,en-US;q=0.8,en;q=0.7',
    }

    try:
        session = create_session()
        response = session.get(url, headers=headers, timeout=30)
        response.raise_for_status()
        content = response.text
    except requests.RequestException as e:
        print(f"Erro ao acessar a página: {e}")
        return None

    # Estrutura do documento
    estrutura = []

    # Dividir o conteúdo em linhas e processar cada uma
    linhas = content.split('\n')
    elemento_atual = None

    for linha in linhas:
        linha_limpa = limpar_texto(linha)

        if not linha_limpa:
            continue

        # Identificar o tipo de linha
        if "DECRETO Nº" in linha_limpa:
            elemento = {
                "tipo": "Lei",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("Regulamenta"):
            elemento = {
                "tipo": "Resumo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("O PRESIDENTE DA REPÚBLICA"):
            elemento = {
                "tipo": "Decreto",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("LIVRO"):
            elemento = {
                "tipo": "Livro",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Livro"

        elif linha_limpa.startswith("TÍTULO"):
            elemento = {
                "tipo": "Titulo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Titulo"

        elif linha_limpa.startswith("CAPÍTULO"):
            elemento = {
                "tipo": "Capitulo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Capitulo"

        # Identificação de Seção com estrutura detalhada
        elif re.match(r'^Seção\s+[IVX]+', linha_limpa, re.IGNORECASE):
            info_secao = extrair_secao(linha_limpa)
            if info_secao:
                elemento = {
                    "tipo": "Secao",
                    "identificador": info_secao["identificador"],
                    "texto": info_secao["texto"]
                }
                estrutura.append(elemento)
                elemento_atual = "Secao"

        # Identificação de Subseção com estrutura detalhada
        elif linha_limpa.startswith("Subseção"):
            info_subsecao = extrair_subsecao(linha_limpa)
            if info_subsecao:
                elemento = {
                    "tipo": "Subsecao",
                    "identificador": info_subsecao["identificador"],
                    "texto": info_subsecao["texto"]
                }
                estrutura.append(elemento)
                elemento_atual = "Subsecao"

        elif linha_limpa.startswith("Art."):
            elemento = {
                "tipo": "Artigo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Artigo"

        elif linha_limpa.startswith("§"):
            elemento = {
                "tipo": "Paragrafo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Paragrafo"

        elif re.match(r'^[IVX]+\s*[-–]', linha_limpa):
            elemento = {
                "tipo": "Inciso",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Brasília," in linha_limpa:
            elemento = {
                "tipo": "Data_Final",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "MICHEL TEMER" in linha_limpa:
            elemento = {
                "tipo": "Presidente",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Eduardo Refinetti Guardia" in linha_limpa:
            elemento = {
                "tipo": "Servidor",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Este texto não substitui" in linha_limpa:
            elemento = {
                "tipo": "Mensagem_Final",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

    # Salvar em JSON
    try:
        with open('decreto_9580_estrutura.json', 'w', encoding='utf-8') as f:
            json.dump(estrutura, f, ensure_ascii=False, indent=2)
        print("Arquivo JSON criado com sucesso!")
        return estrutura
    except IOError as e:
        print(f"Erro ao salvar arquivo: {e}")
        return None

if __name__ == "__main__":
    print("Iniciando scraping estruturado...")
    resultado = scrape_planalto()

    if resultado:
        # Contagem de elementos por tipo
        contagem = {}
        for elemento in resultado:
            tipo = elemento["tipo"]
            contagem[tipo] = contagem.get(tipo, 0) + 1

        print("\nElementos encontrados:")
        for tipo, quantidade in contagem.items():
            print(f"- {tipo}: {quantidade}")

Iniciando scraping estruturado...
Arquivo JSON criado com sucesso!

Elementos encontrados:
- Lei: 1
- Resumo: 1
- Decreto: 1
- Artigo: 1055
- Data_Final: 1
- Presidente: 1
- Servidor: 1
- Mensagem_Final: 1
- Livro: 4
- Titulo: 39
- Capitulo: 135
- Paragrafo: 1764
- Secao: 221
- Inciso: 1662
- Subsecao: 208


In [11]:
import requests
import re
import json
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry

def create_session():
    session = requests.Session()
    retry_strategy = Retry(total=3, backoff_factor=1)
    adapter = HTTPAdapter(max_retries=retry_strategy)
    session.mount("http://", adapter)
    session.mount("https://", adapter)
    return session

def limpar_texto(texto):
    texto = re.sub(r'<[^>]+>', '', texto)
    texto = re.sub(r'\s+', ' ', texto)
    return texto.strip()

def extrair_secao(linha_atual, proxima_linha=""):
    # Primeiro, tenta extrair o identificador da seção
    padrao_secao = re.match(r'^(Seção\s+[IVX]+)\s*$', linha_atual, re.IGNORECASE)
    if padrao_secao:
        return {
            "identificador": padrao_secao.group(1).strip(),
            "texto": proxima_linha.strip()
        }

    # Se não encontrar o padrão acima, tenta o padrão com texto na mesma linha
    padrao_completo = re.match(r'^(Seção\s+[IVX]+)\s*[-–]?\s*(.*)', linha_atual, re.IGNORECASE)
    if padrao_completo:
        return {
            "identificador": padrao_completo.group(1).strip(),
            "texto": padrao_completo.group(2).strip()
        }
    return None

def extrair_subsecao(linha_atual, proxima_linha=""):
    # Primeiro, tenta extrair o identificador da subseção
    padrao_subsecao = re.match(r'^(Subseção\s+[únicaIVX]+)\s*$', linha_atual, re.IGNORECASE)
    if padrao_subsecao:
        return {
            "identificador": padrao_subsecao.group(1).strip(),
            "texto": proxima_linha.strip()
        }

    # Se não encontrar o padrão acima, tenta o padrão com texto na mesma linha
    padrao_completo = re.match(r'^(Subseção\s+[únicaIVX]+)\s*[-–]?\s*(.*)', linha_atual, re.IGNORECASE)
    if padrao_completo:
        return {
            "identificador": padrao_completo.group(1).strip(),
            "texto": padrao_completo.group(2).strip()
        }
    return None

def scrape_planalto():
    url = "https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/decreto/d9580.htm"

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
        'Accept': 'text/html,application/xhtml+xml',
        'Accept-Language': 'pt-BR,pt;q=0.9,en-US;q=0.8,en;q=0.7',
    }

    try:
        session = create_session()
        response = session.get(url, headers=headers, timeout=30)
        response.raise_for_status()
        content = response.text
    except requests.RequestException as e:
        print(f"Erro ao acessar a página: {e}")
        return None

    # Estrutura do documento
    estrutura = []

    # Dividir o conteúdo em linhas e processar cada uma
    linhas = content.split('\n')
    elemento_atual = None

    i = 0
    while i < len(linhas):
        linha_limpa = limpar_texto(linhas[i])
        proxima_linha = limpar_texto(linhas[i + 1]) if i + 1 < len(linhas) else ""

        if not linha_limpa:
            i += 1
            continue

        # Identificar o tipo de linha
        if "DECRETO Nº" in linha_limpa:
            elemento = {
                "tipo": "Lei",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("Regulamenta"):
            elemento = {
                "tipo": "Resumo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("O PRESIDENTE DA REPÚBLICA"):
            elemento = {
                "tipo": "Decreto",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("LIVRO"):
            elemento = {
                "tipo": "Livro",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Livro"

        elif linha_limpa.startswith("TÍTULO"):
            elemento = {
                "tipo": "Titulo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Titulo"

        elif linha_limpa.startswith("CAPÍTULO"):
            elemento = {
                "tipo": "Capitulo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Capitulo"

        # Identificação de Seção com estrutura detalhada
        elif re.match(r'^Seção\s+[IVX]+', linha_limpa, re.IGNORECASE):
            info_secao = extrair_secao(linha_limpa, proxima_linha)
            if info_secao:
                elemento = {
                    "tipo": "Secao",
                    "identificador": info_secao["identificador"],
                    "texto": info_secao["texto"]
                }
                estrutura.append(elemento)
                elemento_atual = "Secao"
                # Se o texto estava na próxima linha, pula ela
                if not info_secao["texto"] and proxima_linha:
                    i += 1

        # Identificação de Subseção com estrutura detalhada
        elif linha_limpa.startswith("Subseção"):
            info_subsecao = extrair_subsecao(linha_limpa, proxima_linha)
            if info_subsecao:
                elemento = {
                    "tipo": "Subsecao",
                    "identificador": info_subsecao["identificador"],
                    "texto": info_subsecao["texto"]
                }
                estrutura.append(elemento)
                elemento_atual = "Subsecao"
                # Se o texto estava na próxima linha, pula ela
                if not info_subsecao["texto"] and proxima_linha:
                    i += 1

        elif linha_limpa.startswith("Art."):
            elemento = {
                "tipo": "Artigo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Artigo"

        elif linha_limpa.startswith("§"):
            elemento = {
                "tipo": "Paragrafo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)
            elemento_atual = "Paragrafo"

        elif re.match(r'^[IVX]+\s*[-–]', linha_limpa):
            elemento = {
                "tipo": "Inciso",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Brasília," in linha_limpa:
            elemento = {
                "tipo": "Data_Final",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "MICHEL TEMER" in linha_limpa:
            elemento = {
                "tipo": "Presidente",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Eduardo Refinetti Guardia" in linha_limpa:
            elemento = {
                "tipo": "Servidor",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Este texto não substitui" in linha_limpa:
            elemento = {
                "tipo": "Mensagem_Final",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        i += 1

    # Salvar em JSON
    try:
        with open('decreto_9580_estrutura.json', 'w', encoding='utf-8') as f:
            json.dump(estrutura, f, ensure_ascii=False, indent=2)
        print("Arquivo JSON criado com sucesso!")
        return estrutura
    except IOError as e:
        print(f"Erro ao salvar arquivo: {e}")
        return None

if __name__ == "__main__":
    print("Iniciando scraping estruturado...")
    resultado = scrape_planalto()

    if resultado:
        # Contagem de elementos por tipo
        contagem = {}
        for elemento in resultado:
            tipo = elemento["tipo"]
            contagem[tipo] = contagem.get(tipo, 0) + 1

        print("\nElementos encontrados:")
        for tipo, quantidade in contagem.items():
            print(f"- {tipo}: {quantidade}")

Iniciando scraping estruturado...
Arquivo JSON criado com sucesso!

Elementos encontrados:
- Lei: 1
- Resumo: 1
- Decreto: 1
- Artigo: 1055
- Data_Final: 1
- Presidente: 1
- Servidor: 1
- Mensagem_Final: 1
- Livro: 4
- Titulo: 39
- Capitulo: 135
- Paragrafo: 1764
- Secao: 221
- Inciso: 1662
- Subsecao: 208


In [12]:
import requests
import re
import json
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry

def create_session():
    session = requests.Session()
    retry_strategy = Retry(total=3, backoff_factor=1)
    adapter = HTTPAdapter(max_retries=retry_strategy)
    session.mount("http://", adapter)
    session.mount("https://", adapter)
    return session

def limpar_texto(texto):
    texto = re.sub(r'<[^>]+>', '', texto)
    texto = re.sub(r'\s+', ' ', texto)
    return texto.strip()

def eh_inicio_novo_elemento(linha):
    """Verifica se a linha é início de um novo elemento estrutural"""
    padroes = [
        r'^LIVRO', r'^TÍTULO', r'^CAPÍTULO', r'^Seção', r'^Subseção',
        r'^Art\.', r'^§', r'^[IVX]+\s*[-–]'
    ]
    return any(re.match(pattern, linha, re.IGNORECASE) for pattern in padroes)

def extrair_secao(linhas, indice_atual):
    """
    Extrai informações da seção considerando múltiplas linhas
    Retorna a informação da seção e o novo índice para continuar o processamento
    """
    linha_atual = linhas[indice_atual]
    padrao_secao = re.match(r'^(Seção\s+[IVX]+)\s*$', linha_atual, re.IGNORECASE)

    if not padrao_secao:
        return None, indice_atual

    identificador = padrao_secao.group(1).strip()
    texto = ""
    proximo_indice = indice_atual + 1

    # Procura o texto da seção nas próximas linhas até encontrar outro elemento estrutural
    while proximo_indice < len(linhas):
        proxima_linha = limpar_texto(linhas[proximo_indice])
        if not proxima_linha:
            proximo_indice += 1
            continue

        # Se encontrar o início de outro elemento estrutural, para a busca
        if eh_inicio_novo_elemento(proxima_linha):
            break

        # Se já tem algum texto, adiciona espaço antes de concatenar
        if texto:
            texto += " "
        texto += proxima_linha
        proximo_indice += 1

    return {
        "identificador": identificador,
        "texto": texto
    }, proximo_indice - 1

def extrair_subsecao(linhas, indice_atual):
    """
    Extrai informações da subseção considerando múltiplas linhas
    Retorna a informação da subseção e o novo índice para continuar o processamento
    """
    linha_atual = linhas[indice_atual]
    padrao_subsecao = re.match(r'^(Subseção\s+[únicaIVX]+)\s*$', linha_atual, re.IGNORECASE)

    if not padrao_subsecao:
        return None, indice_atual

    identificador = padrao_subsecao.group(1).strip()
    texto = ""
    proximo_indice = indice_atual + 1

    # Procura o texto da subseção nas próximas linhas até encontrar outro elemento estrutural
    while proximo_indice < len(linhas):
        proxima_linha = limpar_texto(linhas[proximo_indice])
        if not proxima_linha:
            proximo_indice += 1
            continue

        if eh_inicio_novo_elemento(proxima_linha):
            break

        if texto:
            texto += " "
        texto += proxima_linha
        proximo_indice += 1

    return {
        "identificador": identificador,
        "texto": texto
    }, proximo_indice - 1

def scrape_planalto():
    url = "https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/decreto/d9580.htm"

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
        'Accept': 'text/html,application/xhtml+xml',
        'Accept-Language': 'pt-BR,pt;q=0.9,en-US;q=0.8,en;q=0.7',
    }

    try:
        session = create_session()
        response = session.get(url, headers=headers, timeout=30)
        response.raise_for_status()
        content = response.text
    except requests.RequestException as e:
        print(f"Erro ao acessar a página: {e}")
        return None

    # Estrutura do documento
    estrutura = []

    # Dividir o conteúdo em linhas
    linhas = content.split('\n')
    i = 0

    while i < len(linhas):
        linha_limpa = limpar_texto(linhas[i])

        if not linha_limpa:
            i += 1
            continue

        # Identificar o tipo de linha
        if "DECRETO Nº" in linha_limpa:
            elemento = {
                "tipo": "Lei",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("Regulamenta"):
            elemento = {
                "tipo": "Resumo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("O PRESIDENTE DA REPÚBLICA"):
            elemento = {
                "tipo": "Decreto",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("LIVRO"):
            elemento = {
                "tipo": "Livro",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("TÍTULO"):
            elemento = {
                "tipo": "Titulo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("CAPÍTULO"):
            elemento = {
                "tipo": "Capitulo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        # Identificação de Seção com estrutura detalhada
        elif re.match(r'^Seção\s+[IVX]+', linha_limpa, re.IGNORECASE):
            info_secao, novo_indice = extrair_secao(linhas, i)
            if info_secao:
                elemento = {
                    "tipo": "Secao",
                    "identificador": info_secao["identificador"],
                    "texto": info_secao["texto"]
                }
                estrutura.append(elemento)
                i = novo_indice

        # Identificação de Subseção com estrutura detalhada
        elif linha_limpa.startswith("Subseção"):
            info_subsecao, novo_indice = extrair_subsecao(linhas, i)
            if info_subsecao:
                elemento = {
                    "tipo": "Subsecao",
                    "identificador": info_subsecao["identificador"],
                    "texto": info_subsecao["texto"]
                }
                estrutura.append(elemento)
                i = novo_indice

        elif linha_limpa.startswith("Art."):
            elemento = {
                "tipo": "Artigo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("§"):
            elemento = {
                "tipo": "Paragrafo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif re.match(r'^[IVX]+\s*[-–]', linha_limpa):
            elemento = {
                "tipo": "Inciso",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Brasília," in linha_limpa:
            elemento = {
                "tipo": "Data_Final",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "MICHEL TEMER" in linha_limpa:
            elemento = {
                "tipo": "Presidente",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Eduardo Refinetti Guardia" in linha_limpa:
            elemento = {
                "tipo": "Servidor",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Este texto não substitui" in linha_limpa:
            elemento = {
                "tipo": "Mensagem_Final",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        i += 1

    # Salvar em JSON
    try:
        with open('decreto_9580_estrutura.json', 'w', encoding='utf-8') as f:
            json.dump(estrutura, f, ensure_ascii=False, indent=2)
        print("Arquivo JSON criado com sucesso!")
        return estrutura
    except IOError as e:
        print(f"Erro ao salvar arquivo: {e}")
        return None

if __name__ == "__main__":
    print("Iniciando scraping estruturado...")
    resultado = scrape_planalto()

    if resultado:
        # Contagem de elementos por tipo
        contagem = {}
        for elemento in resultado:
            tipo = elemento["tipo"]
            contagem[tipo] = contagem.get(tipo, 0) + 1

        print("\nElementos encontrados:")
        for tipo, quantidade in contagem.items():
            print(f"- {tipo}: {quantidade}")

Iniciando scraping estruturado...
Arquivo JSON criado com sucesso!

Elementos encontrados:
- Lei: 1
- Resumo: 1
- Decreto: 1
- Artigo: 1055
- Data_Final: 1
- Presidente: 1
- Servidor: 1
- Mensagem_Final: 1
- Livro: 4
- Titulo: 39
- Capitulo: 135
- Paragrafo: 1764
- Inciso: 1662


In [13]:
def extrair_secao(linhas, indice_atual):
    """
    Extrai informações da seção considerando múltiplas linhas
    Retorna a informação da seção e o novo índice para continuar o processamento
    """
    linha_atual = limpar_texto(linhas[indice_atual])
    padrao_secao = re.match(r'^(Seção\s+[IVX]+)(?:\s*[-–]?\s*(.*))?$', linha_atual, re.IGNORECASE)

    if padrao_secao:
        identificador = padrao_secao.group(1).strip()
        titulo = padrao_secao.group(2).strip() if padrao_secao.group(2) else ''
    else:
        # Verifica se a próxima linha contém o título da seção
        padrao_secao = re.match(r'^(Seção\s+[IVX]+)$', linha_atual, re.IGNORECASE)
        if not padrao_secao:
            return None, indice_atual
        identificador = padrao_secao.group(1).strip()
        # Assume que a próxima linha não vazia é o título da seção
        proximo_indice = indice_atual + 1
        titulo = ''
        while proximo_indice < len(linhas):
            proxima_linha = limpar_texto(linhas[proximo_indice])
            if proxima_linha:
                titulo = proxima_linha
                break
            proximo_indice += 1
        indice_atual = proximo_indice

    texto = titulo
    proximo_indice = indice_atual + 1

    # Procura o texto da seção nas próximas linhas até encontrar outro elemento estrutural
    while proximo_indice < len(linhas):
        proxima_linha = limpar_texto(linhas[proximo_indice])
        if not proxima_linha:
            proximo_indice += 1
            continue

        if eh_inicio_novo_elemento(proxima_linha):
            break

        texto += " " + proxima_linha
        proximo_indice += 1

    return {
        "identificador": identificador,
        "texto": texto.strip()
    }, proximo_indice - 1


In [14]:
import requests
import re
import json
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry

def create_session():
    session = requests.Session()
    retry_strategy = Retry(total=3, backoff_factor=1)
    adapter = HTTPAdapter(max_retries=retry_strategy)
    session.mount("http://", adapter)
    session.mount("https://", adapter)
    return session

def limpar_texto(texto):
    texto = re.sub(r'<[^>]+>', '', texto)
    texto = re.sub(r'\s+', ' ', texto)
    return texto.strip()

def eh_inicio_novo_elemento(linha):
    """Verifica se a linha é início de um novo elemento estrutural"""
    padroes = [
        r'^LIVRO', r'^TÍTULO', r'^CAPÍTULO', r'^Seção', r'^Subseção',
        r'^Art\.', r'^§', r'^[IVX]+\s*[-–]', r'^Anexo'
    ]
    return any(re.match(pattern, linha, re.IGNORECASE) for pattern in padroes)

def extrair_secao(linhas, indice_atual):
    """
    Extrai informações da seção considerando múltiplas linhas
    Retorna a informação da seção e o novo índice para continuar o processamento
    """
    linha_atual = limpar_texto(linhas[indice_atual])
    padrao_secao = re.match(r'^(Seção\s+[IVX]+)(?:\s*[-–]?\s*(.*))?$', linha_atual, re.IGNORECASE)

    if padrao_secao:
        identificador = padrao_secao.group(1).strip()
        titulo = padrao_secao.group(2).strip() if padrao_secao.group(2) else ''
        proximo_indice = indice_atual + 1
    else:
        # Verifica se a próxima linha contém o título da seção
        padrao_secao = re.match(r'^(Seção\s+[IVX]+)$', linha_atual, re.IGNORECASE)
        if not padrao_secao:
            return None, indice_atual
        identificador = padrao_secao.group(1).strip()
        titulo = ''
        proximo_indice = indice_atual + 1
        while proximo_indice < len(linhas):
            proxima_linha = limpar_texto(linhas[proximo_indice])
            if proxima_linha:
                # Verifica se a próxima linha é o título ou um novo elemento
                if eh_inicio_novo_elemento(proxima_linha):
                    break
                titulo = proxima_linha
                proximo_indice += 1
                break
            proximo_indice += 1

    texto = titulo
    while proximo_indice < len(linhas):
        proxima_linha = limpar_texto(linhas[proximo_indice])
        if not proxima_linha:
            proximo_indice += 1
            continue

        if eh_inicio_novo_elemento(proxima_linha):
            break

        texto += " " + proxima_linha
        proximo_indice += 1

    return {
        "identificador": identificador,
        "texto": texto.strip()
    }, proximo_indice - 1

def extrair_subsecao(linhas, indice_atual):
    """
    Extrai informações da subseção considerando múltiplas linhas
    Retorna a informação da subseção e o novo índice para continuar o processamento
    """
    linha_atual = limpar_texto(linhas[indice_atual])
    padrao_subsecao = re.match(r'^(Subseção\s+[únicaIVX]+)(?:\s*[-–]?\s*(.*))?$', linha_atual, re.IGNORECASE)

    if padrao_subsecao:
        identificador = padrao_subsecao.group(1).strip()
        titulo = padrao_subsecao.group(2).strip() if padrao_subsecao.group(2) else ''
        proximo_indice = indice_atual + 1
    else:
        # Verifica se a próxima linha contém o título da subseção
        padrao_subsecao = re.match(r'^(Subseção\s+[únicaIVX]+)$', linha_atual, re.IGNORECASE)
        if not padrao_subsecao:
            return None, indice_atual
        identificador = padrao_subsecao.group(1).strip()
        titulo = ''
        proximo_indice = indice_atual + 1
        while proximo_indice < len(linhas):
            proxima_linha = limpar_texto(linhas[proximo_indice])
            if proxima_linha:
                # Verifica se a próxima linha é o título ou um novo elemento
                if eh_inicio_novo_elemento(proxima_linha):
                    break
                titulo = proxima_linha
                proximo_indice += 1
                break
            proximo_indice += 1

    texto = titulo
    while proximo_indice < len(linhas):
        proxima_linha = limpar_texto(linhas[proximo_indice])
        if not proxima_linha:
            proximo_indice += 1
            continue

        if eh_inicio_novo_elemento(proxima_linha):
            break

        texto += " " + proxima_linha
        proximo_indice += 1

    return {
        "identificador": identificador,
        "texto": texto.strip()
    }, proximo_indice - 1

def scrape_planalto():
    url = "https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/decreto/d9580.htm"

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
        'Accept': 'text/html,application/xhtml+xml',
        'Accept-Language': 'pt-BR,pt;q=0.9,en-US;q=0.8,en;q=0.7',
    }

    try:
        session = create_session()
        response = session.get(url, headers=headers, timeout=30)
        response.raise_for_status()
        content = response.text
    except requests.RequestException as e:
        print(f"Erro ao acessar a página: {e}")
        return None

    # Estrutura do documento
    estrutura = []

    # Dividir o conteúdo em linhas
    linhas = content.split('\n')
    i = 0

    while i < len(linhas):
        linha_limpa = limpar_texto(linhas[i])

        if not linha_limpa:
            i += 1
            continue

        # Identificar o tipo de linha
        if "DECRETO Nº" in linha_limpa:
            elemento = {
                "tipo": "Lei",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("Regulamenta"):
            elemento = {
                "tipo": "Resumo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("O PRESIDENTE DA REPÚBLICA"):
            elemento = {
                "tipo": "Decreto",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("LIVRO"):
            elemento = {
                "tipo": "Livro",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("TÍTULO"):
            elemento = {
                "tipo": "Titulo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif linha_limpa.startswith("CAPÍTULO"):
            elemento = {
                "tipo": "Capitulo",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        # Identificação de Seção com estrutura detalhada
        elif re.match(r'^Seção\s+[IVX]+', linha_limpa, re.IGNORECASE):
            info_secao, novo_indice = extrair_secao(linhas, i)
            if info_secao:
                elemento = {
                    "tipo": "Secao",
                    "identificador": info_secao["identificador"],
                    "texto": info_secao["texto"]
                }
                estrutura.append(elemento)
                i = novo_indice

        # Identificação de Subseção com estrutura detalhada
        elif re.match(r'^Subseção\s+[únicaIVX]+', linha_limpa, re.IGNORECASE):
            info_subsecao, novo_indice = extrair_subsecao(linhas, i)
            if info_subsecao:
                elemento = {
                    "tipo": "Subsecao",
                    "identificador": info_subsecao["identificador"],
                    "texto": info_subsecao["texto"]
                }
                estrutura.append(elemento)
                i = novo_indice

        elif linha_limpa.startswith("Art."):
            texto_artigo = linha_limpa
            # Captura possíveis linhas contínuas do artigo
            proximo_indice = i + 1
            while proximo_indice < len(linhas):
                proxima_linha = limpar_texto(linhas[proximo_indice])
                if not proxima_linha or eh_inicio_novo_elemento(proxima_linha):
                    break
                texto_artigo += " " + proxima_linha
                proximo_indice += 1
            elemento = {
                "tipo": "Artigo",
                "texto": texto_artigo.strip()
            }
            estrutura.append(elemento)
            i = proximo_indice - 1

        elif linha_limpa.startswith("§"):
            texto_paragrafo = linha_limpa
            # Captura possíveis linhas contínuas do parágrafo
            proximo_indice = i + 1
            while proximo_indice < len(linhas):
                proxima_linha = limpar_texto(linhas[proximo_indice])
                if not proxima_linha or eh_inicio_novo_elemento(proxima_linha):
                    break
                texto_paragrafo += " " + proxima_linha
                proximo_indice += 1
            elemento = {
                "tipo": "Paragrafo",
                "texto": texto_paragrafo.strip()
            }
            estrutura.append(elemento)
            i = proximo_indice - 1

        elif re.match(r'^[IVX]+\s*[-–]', linha_limpa):
            elemento = {
                "tipo": "Inciso",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Brasília," in linha_limpa:
            elemento = {
                "tipo": "Data_Final",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "MICHEL TEMER" in linha_limpa:
            elemento = {
                "tipo": "Presidente",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        elif "Este texto não substitui" in linha_limpa:
            elemento = {
                "tipo": "Mensagem_Final",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        else:
            # Captura outros elementos não identificados que podem ser relevantes
            elemento = {
                "tipo": "Outros",
                "texto": linha_limpa
            }
            estrutura.append(elemento)

        i += 1

    # Salvar em JSON
    try:
        with open('decreto_9580_estrutura.json', 'w', encoding='utf-8') as f:
            json.dump(estrutura, f, ensure_ascii=False, indent=2)
        print("Arquivo JSON criado com sucesso!")
        return estrutura
    except IOError as e:
        print(f"Erro ao salvar arquivo: {e}")
        return None

if __name__ == "__main__":
    print("Iniciando scraping estruturado...")
    resultado = scrape_planalto()

    if resultado:
        # Contagem de elementos por tipo
        contagem = {}
        for elemento in resultado:
            tipo = elemento["tipo"]
            contagem[tipo] = contagem.get(tipo, 0) + 1

        print("\nElementos encontrados:")
        for tipo, quantidade in contagem.items():
            print(f"- {tipo}: {quantidade}")


Iniciando scraping estruturado...
Arquivo JSON criado com sucesso!

Elementos encontrados:
- Outros: 13297
- Lei: 1
- Resumo: 1
- Decreto: 1
- Artigo: 1055
- Data_Final: 1
- Presidente: 1
- Mensagem_Final: 1
- Livro: 4
- Titulo: 39
- Capitulo: 135
- Paragrafo: 1764
- Secao: 221
- Inciso: 1662
- Subsecao: 208
