# Extra√ß√£o de Portarias Autorizativas de Pesquisas Arqueol√≥gicas no DOU

Este programa automatiza a extra√ß√£o de informa√ß√µes de portarias publicadas pelo IPHAN no Di√°rio Oficial da Uni√£o. Ele coleta dados como:

- **N√∫meros de processos e portarias**
- **Empreendedores e empreendimentos** 
- **Arque√≥logos respons√°veis** (coordenadores e de campo)
- **√Åreas de abrang√™ncia** (munic√≠pios e estados)
- **Prazos de validade e datas de expira√ß√£o**
- **Projetos e apoio institucional**

## Como funciona:

1. **Entrada**: Recebe uma lista de URLs das portarias no DOU
2. **Processamento**: Acessa cada documento, identifica e extrai as informa√ß√µes relevantes
3. **Sa√≠da**: Gera uma tabela organizada com todos os dados coletados

## Benef√≠cios:

- ‚è±Ô∏è **Economia de tempo**: Processa automaticamente dezenas de documentos
- üìä **Dados estruturados**: Transforma texto n√£o estruturado em tabelas organizadas
- üîç **Consist√™ncia**: Padroniza formatos e calcula datas automaticamente
- üìà **Acumula√ß√£o**: Mant√©m um hist√≥rico crescente das portarias processadas

*Execute as c√©lulas abaixo para utilizar o coletor.*

In [1]:
# Carregando bibliotecas

import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
from dateutil.relativedelta import relativedelta
import itertools
from typing import List, Dict, Any, Optional, Tuple

In [2]:
# Configura√ß√£o para exibir mais linhas no pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 50)

# Contador global para controlar a exibi√ß√£o de debug
debug_counter = {'parse_item_fields': 0, 'split_area': 0}

def scrape_portarias(links: List[str], projeto_col: str = "Projeto", 
                    accumulate_var: str = "df_portarias_acumulado") -> pd.DataFrame:
    """
    Fun√ß√£o principal para scraping de portarias do IPHAN
    """
    
    # ----------------------- FUN√á√ïES AUXILIARES -----------------------
    
    def clean_text(text: str) -> str:
        """Normaliza texto removendo espa√ßos excessivos"""
        if pd.isna(text):
            return ""
        text = re.sub(r'\s+', ' ', str(text))
        return text.strip()
    
    def padronizar_processo(proc_str: str) -> str:
        """Padroniza processo no formato xxxxx.xxxxxx/xxxx-xx"""
        if pd.isna(proc_str):
            print("  Processo: NA (nada para padronizar)")
            return np.nan
        
        print(f"  Processo original para padroniza√ß√£o: {proc_str}")
        
        # Remove todos os caracteres n√£o num√©ricos exceto pontos, barras e h√≠fens
        proc_clean = re.sub(r'[^0-9./-]', '', str(proc_str))
        print(f"  Processo limpo: {proc_clean}")
        
        # Verifica se j√° est√° no formato correto
        padrao_correto = r'^[0-9]{5}\.[0-9]{6}/[0-9]{4}-[0-9]{2}$'
        if re.match(padrao_correto, proc_clean):
            print("  Processo j√° est√° no formato correto")
            return proc_clean
        
        # Tenta extrair e reorganizar os n√∫meros no formato correto
        numeros = re.findall(r'[0-9]+', proc_clean)
        print(f"  N√∫meros extra√≠dos: {', '.join(numeros)}")
        
        if len(numeros) >= 4:
            # Formato: xxxxx.xxxxxx/xxxx-xx
            parte1 = str(numeros[0]).zfill(5)
            parte2 = str(numeros[1]).zfill(6)
            parte3 = str(numeros[2]).zfill(4)
            parte4 = str(numeros[3]).zfill(2)
            
            processo_padronizado = f"{parte1}.{parte2}/{parte3}-{parte4}"
            print(f"  Processo padronizado: {processo_padronizado}")
            
            # Verifica se o resultado est√° no formato correto
            if re.match(padrao_correto, processo_padronizado):
                print("  Processo padronizado com SUCESSO")
                return processo_padronizado
        
        # Se n√£o conseguiu padronizar, retorna o original limpo
        print("  Processo N√ÉO padronizado, retornando original limpo")
        return proc_clean
    
    def extrair_processo(lines: List[str]) -> str:
        """Extrai processo dos par√°grafos espec√≠ficos"""
        processo = np.nan
        
        print("  Buscando processo nos par√°grafos espec√≠ficos...")
        
        # Padr√µes para buscar o processo
        padroes = [
            # Par√°grafo iniciado por "Processo n¬∫" ou "Processo n.¬∫"
            r"^Processo\s+n[¬∫¬∞\.]?\s*[:\\s]*([^\n]+)",
            r"^PROCESSO\s+N[¬∫¬∞\.]?\s*[:\\s]*([^\n]+)",
            
            # Par√°grafo iniciado por n√∫mero de dois d√≠gitos seguido de "-Processo n¬∫"  
            r"^\d{2}-\s*Processo\s+n[¬∫¬∞\.]?\s*[:\\s]*([^\n]+)",
            r"^\d{2}-\s*PROCESSO\s+N[¬∫¬∞\.]?\s*[:\\s]*([^\n]+)"
        ]
        
        # Procura nos padr√µes
        for i, padrao in enumerate(padroes, 1):
            print(f"  Tentando padr√£o {i}: {padrao}")
            
            linha_processo = [line for line in lines if re.search(padrao, line, re.IGNORECASE)]
            if linha_processo:
                print(f"  Linha encontrada com padr√£o {i}: {linha_processo[0]}")
                
                # Extrai o texto ap√≥s "n¬∫" ou "n.¬∫"
                match = re.search(padrao, linha_processo[0], re.IGNORECASE)
                if match and match.group(1):
                    texto_processo = clean_text(match.group(1))
                    print(f"  Texto do processo extra√≠do: {texto_processo}")
                    
                    # Remove poss√≠veis descri√ß√µes ap√≥s o n√∫mero
                    texto_processo = re.split(r'\s+-\s+|\s+‚Äì\s+|\s*[,;]\s*', texto_processo)[0]
                    print(f"  Texto do processo limpo: {texto_processo}")
                    
                    processo = texto_processo
                    break
        
        # Se encontrou algum texto de processo, tenta padronizar
        if not pd.isna(processo) and processo != "":
            print("  Processo encontrado, iniciando padroniza√ß√£o...")
            processo = padronizar_processo(processo)
        else:
            print("  Nenhum processo encontrado nos par√°grafos espec√≠ficos")
        
        return processo
    
    def extract_dou_date(header_lines: List[str]) -> str:
        """Extrai data dd/mm/aaaa de 'Publicado em: ... |'"""
        print("=== EXTRAINDO DATA DOU ===")
        
        # Procura em todas as linhas do header por padr√µes de data
        for line in header_lines:
            print(f"  Analisando linha: {line}")
            
            # Padr√£o 1: "Publicado em: DD/MM/AAAA"
            match = re.search(r'Publicado em:\s*([0-9]{2}/[0-9]{2}/[0-9]{4})', line, re.IGNORECASE)
            if match:
                date_str = match.group(1)
                print(f"  Data encontrada (padr√£o 1): {date_str}")
                return date_str
            
            # Padr√£o 2: "Publicado em DD/MM/AAAA"
            match = re.search(r'Publicado em\s+([0-9]{2}/[0-9]{2}/[0-9]{4})', line, re.IGNORECASE)
            if match:
                date_str = match.group(1)
                print(f"  Data encontrada (padr√£o 2): {date_str}")
                return date_str
            
            # Padr√£o 3: Data no formato DD/MM/AAAA em qualquer lugar
            match = re.search(r'([0-9]{2}/[0-9]{2}/[0-9]{4})', line)
            if match:
                date_str = match.group(1)
                # Verifica se √© uma data v√°lida (evita capturar n√∫meros de processo)
                try:
                    datetime.strptime(date_str, '%d/%m/%Y')
                    # Verifica se n√£o est√° em contexto de processo
                    if not re.search(r'processo|proc\.|n¬∫', line, re.IGNORECASE):
                        print(f"  Data encontrada (padr√£o 3): {date_str}")
                        return date_str
                except ValueError:
                    continue
        
        print("  Nenhuma data encontrada no header")
        return np.nan
    
    def extract_portaria(page: BeautifulSoup, all_text_lines: List[str] = None) -> str:
        """Extrai a Portaria do t√≠tulo da p√°gina"""
        title_text = np.nan
        try:
            title_element = page.find('title')
            title_text = clean_text(title_element.get_text()) if title_element else np.nan
        except:
            pass
        
        # CORRE√á√ÉO: Substituir \p{P} por [^\w\s] (qualquer caractere que n√£o seja palavra ou espa√ßo)
        pattern_full = r'(?i)\bPortaria\b[^\d\n\r]{0,30}?(?:N[^\w\s]?\s*)?(\d{1,3})\s*,\s*de\s*\d{1,2}\s+de\s+[A-Za-z√†-√∫√Ä-√ö]+\s+de\s*(\d{4})'
        
        if not pd.isna(title_text):
            match = re.search(pattern_full, title_text)
            if match:
                num, ano = match.groups()
                return f"Portaria n¬∫ {int(num)}/{ano}"
        
        if all_text_lines:
            big_text = ' '.join(all_text_lines)
            match = re.search(pattern_full, big_text)
            if match:
                num, ano = match.groups()
                return f"Portaria n¬∫ {int(num)}/{ano}"
        
        # Padr√£o mais flex√≠vel - tamb√©m corrigido
        pattern_loose = r'(?i)\bPortaria\b[^\d\n\r]{0,30}?(?:N[^\w\s]?\s*)?(\d{1,3}).*?(\d{4})'
        
        if not pd.isna(title_text):
            match = re.search(pattern_loose, title_text)
            if match:
                num, ano = match.groups()
                return f"Portaria n¬∫ {int(num)}/{ano}"
        
        if all_text_lines:
            big_text = ' '.join(all_text_lines)
            match = re.search(pattern_loose, big_text)
            if match:
                num, ano = match.groups()
                return f"Portaria n¬∫ {int(num)}/{ano}"
        
        return np.nan
    
    def slice_header(lines: List[str]) -> List[str]:
        """Captura cabe√ßalho"""
        start_idx = next((i for i, line in enumerate(lines) 
                         if re.search(r'^Di√°rio Oficial da Uni√£o', line, re.IGNORECASE)), 0)
        
        end_pattern = r'^(O\s+Diretor|A\s+Diretora|O\s+Diretora|A\s+Diretor)\b'
        end_idx = next((i for i, line in enumerate(lines) 
                       if re.search(end_pattern, line, re.IGNORECASE)), min(len(lines), start_idx + 50))
        
        return lines[start_idx:end_idx+1]
    
    def extract_annex_items(annex_lines: List[str]) -> List[List[str]]:
        """Extrai blocos de itens dentro de um ANEXO"""
        starts = [i for i, line in enumerate(annex_lines) if re.match(r'^\d{2}-', line)]
        if not starts:
            return []
        
        # Padr√£o expandido para detectar fim do bloco
        end_pattern = r'(meses|m√™s|mes|m√™s\.|meses\.|m√™s\.|mes\.|ano\.|anos\.|ano|anos)\s*\)?\s*$'
        ends = [i for i, line in enumerate(annex_lines) if re.search(end_pattern, line, re.IGNORECASE)]
        
        items = []
        for s in starts:
            e = next((end for end in ends if end >= s), min(s + 20, len(annex_lines) - 1))
            items.append(annex_lines[s:e+1])
        
        return items
    
    def parse_item_fields(item_lines: List[str]) -> pd.DataFrame:
        """Analisa campos de um item - VERS√ÉO ATUALIZADA COM DEBUG LIMITADO"""
        # Controle de exibi√ß√£o de debug - apenas para os primeiros 1 registros
        debug_counter['parse_item_fields'] += 1
        show_debug = debug_counter['parse_item_fields'] <= 1
        
        if show_debug:
            print("\n=== INICIANDO PARSE_ITEM_FIELDS ===")
        
        lines = [clean_text(line) for line in item_lines if len(clean_text(line)) > 0]
        full_text = ' '.join(lines)
        
        if show_debug:
            print(f"N√∫mero de linhas do item: {len(lines)}")
            print(f"Texto completo do item (primeiros 500 chars): {full_text[:500]}\n")
            
            # Imprime cada linha numerada (limitado a 5 linhas para n√£o poluir)
            for i, line in enumerate(lines[:1], 1):
                print(f"Linha {i}: {line}")
            if len(lines) > 1:
                print(f"... ({len(lines) - 1} linhas omitidas)")
            print()
        
        # PROCESSO - NOVA IMPLEMENTA√á√ÉO
        if show_debug:
            print("=== EXTRA√á√ÉO DO PROCESSO ===")
        proc_val = extrair_processo(lines)
        
        # Segundo: se n√£o encontrou, tenta o padr√£o completo no texto
        if pd.isna(proc_val):
            if show_debug:
                print("  Buscando padr√£o completo no texto...")
            proc_pattern = r'([0-9]{5}\.[0-9]{6}/[0-9]{4}-[0-9]{2})'
            match = re.search(proc_pattern, full_text)
            if match:
                proc_val = match.group(1)
                if show_debug:
                    print(f"  Processo encontrado com padr√£o completo: {proc_val}")
            else:
                if show_debug:
                    print("  Nenhum processo encontrado com padr√£o completo")
        
        # Terceiro: busca alternativa em qualquer linha que contenha "Processo"
        if pd.isna(proc_val):
            if show_debug:
                print("  Buscando alternativa em linhas com 'Processo'...")
            for ln in lines:
                if re.search(r'Processo\s+n\.?\s*¬∫|\d{2}-\s*Processo', ln, re.IGNORECASE):
                    if show_debug:
                        print(f"  Linha com men√ß√£o a processo: {ln}")
                    # Tenta o padr√£o completo primeiro
                    match = re.search(r'([0-9]{5}\.[0-9]{6}/[0-9]{4}-[0-9]{2})', ln)
                    if match:
                        proc_val = match.group(1)
                        if show_debug:
                            print(f"  Processo encontrado com padr√£o completo na linha: {proc_val}")
                        break
                    
                    # Fallback: extrai qualquer sequ√™ncia num√©rica ap√≥s "n¬∫"
                    match = re.search(r'Processo\s+n\.?\s*¬∫?\s*[:\\s]*([0-9\.\/\-]+)', ln, re.IGNORECASE)
                    if match and match.group(1):
                        alt = match.group(1)
                        if show_debug:
                            print(f"  Sequ√™ncia num√©rica encontrada ap√≥s 'n¬∫': {alt}")
                        proc_val = padronizar_processo(alt)
                        if not pd.isna(proc_val):
                            if show_debug:
                                print(f"  Processo padronizado com sucesso: {proc_val}")
                            break
        
        if show_debug:
            print(f"  PROCESSO FINAL: {proc_val}\n")
        
        # N_Autorizacao
        if show_debug:
            print("=== EXTRA√á√ÉO DA AUTORIZA√á√ÉO ===")
        n_aut = np.nan
        for ln in lines:
            if re.match(r'^\d{2}-', ln):
                match = re.match(r'^(\d{2})-', ln)
                n_aut = match.group(1) if match else np.nan
                if show_debug:
                    print(f"  N_Autorizacao encontrado: {n_aut}")
                break
        
        if pd.isna(n_aut) and show_debug:
            print("  Nenhuma autoriza√ß√£o encontrada")
        
        # CAPTURA ROBUSTA DE ARQUE√ìLOGOS
        if show_debug:
            print("=== EXTRA√á√ÉO DE ARQUE√ìLOGOS ===")
        coord_val = np.nan
        campo_val = np.nan
        matched_raw = []
        
        # Padr√µes para coordenadores - case insensitive para toda a string
        coord_patterns = [
            r"[Aa]rque[√≥o]logo [Cc]oordenador:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]loga [Cc]oordenadora:\s*([^.\"]+)\.?", 
            r"[Aa]rque[√≥o]logo [Cc]oordenador [Gg]eral:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logos [Cc]oordenadores [Gg]eral:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logos [Cc]oordenadores [Gg]erais:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]loga [Cc]oordenadora [Gg]eral:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logas [Cc]oordenadoras [Gg]eral:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logas [Cc]oordenadoras [Gg]erais:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logo [Cc]oordenador e de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]loga [Cc]oordenadora e de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logos [Cc]oordenadores:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logas [Cc]oordenadoras:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logos [Cc]oordenadores e de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logas [Cc]oordenadoras e de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logo [Cc]oordenador [Gg]eral e de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]loga [Cc]oordenadora [Gg]eral e de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logos [Cc]oordenadores [Gg]eral e de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logas [Cc]oordenadoras [Gg]eral e de [Cc]ampo:\s*([^.\"]+)\.?"
        ]
        
        # Padr√µes para campo - case insensitive para toda a string
        campo_patterns = [
            r"[Aa]rque[√≥o]logo de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]loga de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logos de [Cc]ampo:\s*([^.\"]+)\.?", 
            r"[Aa]rque[√≥o]logas de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logo [Cc]oordenador de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logos [Cc]oordenador de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]loga [Cc]oordenadora de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logos [Cc]oordenadores de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logas [Cc]oordenadoras de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logo [Cc]oordenador e de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]loga [Cc]oordenadora e de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logos [Cc]oordenadores e de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logas [Cc]oordenadoras e de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]loga [Cc]oordena[√ßc][√£a]o de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]loga [Cc]oordena[√ßc][√£a]o de campo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logo [Cc]oordena[√ßc][√£a]o de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Cc]oordena[√ßc][√£a]o de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logo [Cc]oordena[√ßc][√£a]o de campo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logo [Cc]oordenador [Gg]eral e de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]loga [Cc]oordenadora [Gg]eral e de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logos [Cc]oordenadores [Gg]eral e de [Cc]ampo:\s*([^.\"]+)\.?",
            r"[Aa]rque[√≥o]logas [Cc]oordenadoras [Gg]eral e de [Cc]ampo:\s*([^.\"]+)\.?"
        ]
        
        # Procura por arque√≥logos nas linhas
        for ln in lines:
            # Verifica coordenadores
            for pattern in coord_patterns:
                match = re.search(pattern, ln)
                if match:
                    value = clean_text(match.group(1))
                    if value and value != "":
                        coord_val = value if pd.isna(coord_val) else f"{coord_val}; {value}"
                        matched_raw.append(ln)
                        if show_debug:
                            print(f"  Arque√≥logo Coordenador encontrado: {value}")
                        break
            
            # Verifica campo
            for pattern in campo_patterns:
                match = re.search(pattern, ln)
                if match:
                    value = clean_text(match.group(1))
                    if value and value != "":
                        campo_val = value if pd.isna(campo_val) else f"{campo_val}; {value}"
                        matched_raw.append(ln)
                        if show_debug:
                            print(f"  Arque√≥logo Campo encontrado: {value}")
                        break
        
        if pd.isna(coord_val) and show_debug:
            print("  Nenhum arque√≥logo coordenador encontrado")
        if pd.isna(campo_val) and show_debug:
            print("  Nenhum arque√≥logo de campo encontrado")
        
        # Remove linhas capturadas
        cleaned_lines = [line for line in lines if line not in matched_raw]
        cleaned = ' '.join(cleaned_lines)
        
        if show_debug:
            print(f"  Texto ap√≥s remo√ß√£o de arque√≥logos: {cleaned[:200]}\n")
        
        # Demais campos
        if show_debug:
            print("=== EXTRA√á√ÉO DOS DEMAIS CAMPOS ===")
        
        # Enquadramento_IN
        enqu_match = re.search(r'Enquadramento\s+IN:\s*([^;]+?)(?=\s+Empreendedor:|\s+Empreendimento:|\s+Projeto:|\s+Apoio\s+Institucional:|\s+√Årea\s+de\s+Abrang√™ncia:|\s+Prazo\s+de\s+Validade:|$)', cleaned, re.IGNORECASE)
        enqu = enqu_match.group(1) if enqu_match else np.nan
        if show_debug:
            print(f"  Enquadramento_IN: {enqu}")
        
        # Empreendedor
        empr_match = re.search(r'Empreendedor:\s*([^;]+?)(?=\s+Empreendimento:|\s+Processo|\s+Projeto:|\s+Apoio\s+Institucional:|\s+√Årea\s+de\s+Abrang√™ncia:|\s+Prazo\s+de\s+Validade:|$)', cleaned, re.IGNORECASE)
        empr = empr_match.group(1) if empr_match else np.nan
        if show_debug:
            print(f"  Empreendedor: {empr}")
        
        # Empreendimento
        empd_match = re.search(r'Empreendimento:\s*([^;]+?)(?=\s+Processo|\s+Projeto:|\s+Apoio\s+Institucional:|\s+√Årea\s+de\s+Abrang√™ncia:|\s+Prazo\s+de\s+Validade:|$)', cleaned, re.IGNORECASE)
        empd = empd_match.group(1) if empd_match else np.nan
        if show_debug:
            print(f"  Empreendimento: {empd}")
        
        # Apoio Institucional
        apoio_match = re.search(r'Apoio\s+Institucional:\s*([^;]+?)(?=\s+√Årea\s+de\s+Abrang√™ncia:|\s+Prazo\s+de\s+Validade:|$)', cleaned, re.IGNORECASE)
        apoio = apoio_match.group(1) if apoio_match else np.nan
        if show_debug:
            print(f"  Apoio_Institucional: {apoio}")
        
        # Extra√ß√£o robusta da √Årea de Abrang√™ncia
        area = np.nan
        area_patterns = [
            r"√Årea\s+de\s+Abrang√™ncia\s*:\s*(.+?)(?=\s+Prazo\s+de\s+Validade:|$)",
            r"√Årea\s+de\s+Abrang√™ncia\s*:\s*(.+)",
            r"√Årea\s+Abrang√™ncia\s*:\s*(.+)",
            r"Area\s+de\s+Abrangencia\s*:\s*(.+)"
        ]
        
        for pattern in area_patterns:
            area_match = re.search(pattern, cleaned, re.IGNORECASE | re.DOTALL)
            if area_match:
                area = area_match.group(1)
                if show_debug:
                    print(f"  √Årea de Abrang√™ncia encontrada com padr√£o: {area}")
                break
        
        # Se n√£o encontrou, tenta buscar em todo o texto
        if pd.isna(area):
            if show_debug:
                print("  Buscando √Årea de Abrang√™ncia no texto completo...")
            for pattern in area_patterns:
                area_match = re.search(pattern, full_text, re.IGNORECASE | re.DOTALL)
                if area_match:
                    area = area_match.group(1)
                    if show_debug:
                        print(f"  √Årea de Abrang√™ncia encontrada no texto completo: {area}")
                    break
        
        if pd.isna(area) and show_debug:
            print("  Nenhuma √Årea de Abrang√™ncia encontrada")
        
        # Prazo de Validade - CORRE√á√ÉO: Busca mais robusta
        if show_debug:
            print("=== EXTRA√á√ÉO DO PRAZO DE VALIDADE ===")
        prazo = np.nan
        prazo_patterns = [
            r"Prazo\s+de\s+Validade\s*:\s*([^;]+?)(?=\s*$|\s*\.)",
            r"Prazo\s+da\s+Validade\s*:\s*([^;]+?)(?=\s*$|\s*\.)",
            r"Prazo\s+da\s+portaria\s*:\s*([^;]+?)(?=\s*$|\s*\.)",
            r"Prazo\s+Validade\s*:\s*([^;]+?)(?=\s*$|\s*\.)",
            r"Prazo\s*:\s*([^;]+?)(?=\s*$|\s*\.)",
            r"Validade\s*:\s*([^;]+?)(?=\s*$|\s*\.)"
        ]
        
        for pattern in prazo_patterns:
            match = re.search(pattern, cleaned, re.IGNORECASE)
            if match:
                prazo = clean_text(match.group(1))
                if show_debug:
                    print(f"  Prazo de Validade encontrado com padr√£o '{pattern}': {prazo}")
                break
        
        # Se n√£o encontrou, busca no texto completo
        if pd.isna(prazo):
            if show_debug:
                print("  Buscando prazo no texto completo...")
            for pattern in prazo_patterns:
                match = re.search(pattern, full_text, re.IGNORECASE)
                if match:
                    prazo = clean_text(match.group(1))
                    if show_debug:
                        print(f"  Prazo de Validade encontrado no texto completo: {prazo}")
                    break
        
        if pd.isna(prazo) and show_debug:
            print("  Nenhum Prazo de Validade encontrado")
        
        # Projeto
        proj = np.nan
        if re.search(r'Projeto:\s*', cleaned, re.IGNORECASE):
            proj_match = re.search(r'Projeto:\s*([^;]+?)(?=\s+Apoio\s+Institucional:|\s+√Årea\s+de\s+Abrang√™ncia:|\s+Prazo\s+de\s+Validade:|$)', cleaned, re.IGNORECASE)
            proj = proj_match.group(1) if proj_match else np.nan
            if show_debug:
                print(f"  Projeto encontrado: {proj}")
        elif show_debug:
            print("  Nenhum Projeto encontrado")
        
        if show_debug:
            print("\n=== RESUMO DOS VALORES EXTRA√çDOS ===")
            print(f"  Enquadramento_IN: {enqu}")
            print(f"  Empreendedor: {empr}")
            print(f"  Empreendimento: {empd}")
            print(f"  Projeto: {proj}")
            print(f"  Arqueologos_Coordenadores: {coord_val}")
            print(f"  Arqueologos_Campo: {campo_val}")
            print(f"  Apoio_Institucional: {apoio}")
            print(f"  Area_Abrangencia_raw: {area}")
            print(f"  Prazo_Validade: {prazo}")
        
        # Cria DataFrame com resultados
        resultado = pd.DataFrame({
            'N_Autorizacao': [n_aut],
            'Processo': [proc_val],
            'Enquadramento_IN': [enqu],
            'Empreendedor': [empr],
            'Empreendimento': [empd],
            'Projeto': [proj],
            'Arqueologos_Coordenadores': [coord_val],
            'Arqueologos_Campo': [campo_val],
            'Apoio_Institucional': [apoio],
            'Area_Abrangencia_raw': [area],
            'Prazo_Validade': [prazo]
        })
        
        if show_debug:
            print("\n=== RESUMO FINAL DO PARSE ===")
            for col in resultado.columns:
                print(f"  {col}: {resultado[col].iloc[0]}")
            print("=== FIM DO PARSE_ITEM_FIELDS ===\n")
        
        return resultado
    
    def split_area(area_str: str) -> pd.DataFrame:
        """Separa munic√≠pios e estados a partir de '√Årea de Abrang√™ncia'"""
        # Controle de exibi√ß√£o de debug - apenas para os primeiros 1 registros
        debug_counter['split_area'] += 1
        show_debug = debug_counter['split_area'] <= 1
        
        if pd.isna(area_str):
            return pd.DataFrame({
                'Municipios_Abrangencias': [np.nan],
                'Estados_Abrangencias': [np.nan]
            })
        
        if show_debug:
            print("=== INICIANDO SPLIT_AREA ===")
            print(f"√Årea de abrang√™ncia original: {area_str}")
        
        s = clean_text(area_str)
        if show_debug:
            print(f"√Årea de abrang√™ncia processada: {s}")
        
        # Lista completa de estados brasileiros
        estados_brasileiros = [
            "Acre", "Alagoas", "Amap√°", "Amazonas", "Bahia", "Cear√°", 
            "Distrito Federal", "Esp√≠rito Santo", "Goi√°s", "Maranh√£o", 
            "Mato Grosso", "Mato Grosso do Sul", "Minas Gerais", "Par√°", 
            "Para√≠ba", "Paran√°", "Pernambuco", "Piau√≠", "Rio de Janeiro", 
            "Rio Grande do Norte", "Rio Grande do Sul", "Rond√¥nia", 
            "Roraima", "Santa Catarina", "S√£o Paulo", "Sergipe", "Tocantins"
        ]
        
        # Extrai o conte√∫do ap√≥s "√Årea de Abrang√™ncia:"
        area_content = np.nan
        area_patterns = [
            r"(?i)√Årea\s+de\s+Abrang√™ncia\s*:\s*(.+)",
            r"(?i)√Årea\s+Abrang√™ncia\s*:\s*(.+)",
            r"(?i)Area\s+de\s+Abrangencia\s*:\s*(.+)"
        ]
        
        for pattern in area_patterns:
            match = re.search(pattern, s, re.DOTALL)
            if match:
                area_content = match.group(1)
                if show_debug:
                    print(f"Conte√∫do da √°rea de abrang√™ncia extra√≠do: {area_content}")
                break
        
        if pd.isna(area_content):
            area_content = s
            if show_debug:
                print("Usando texto completo como conte√∫do da √°rea")
        
        # ESTRAT√âGIA COMPLETAMENTE REFORMULADA
        
        # 1. PRIMEIRO: Extrair todos os estados mantendo a ORDEM CORRETA
        estados_ordenados = []
        texto_trabalho = area_content
        
        # Padr√µes expandidos para capturar estados
        padroes_estado = [
            # Padr√µes com "no Estado"
            r"no Estado do\s+([^,;.|]+)", r"no Estado de\s+([^,;.|]+)", r"no Estado da\s+([^,;.|]+)",
            r"nos Estados do\s+([^,;.|]+)", r"nos Estados de\s+([^,;.|]+)", r"nos Estados da\s+([^,;.|]+)",
            
            # Padr√µes com "Estado" 
            r"Estado do\s+([^,;.|]+)", r"Estado de\s+([^,;.|]+)", r"Estado da\s+([^,;.|]+)",
            
            # Padr√µes com "estado"
            r"estado do\s+([^,;.|]+)", r"estado de\s+([^,;.|]+)", r"estado da\s+([^,;.|]+)",
            
            # Padr√£o direto para Distrito Federal
            r"Distrito Federal"
        ]
        
        # Busca iterativa por estados na ordem correta
        while len(texto_trabalho) > 0:
            estado_encontrado = np.nan
            melhor_match = ""
            melhor_posicao = float('inf')
            
            for padrao in padroes_estado:
                match = re.search(padrao, texto_trabalho, re.IGNORECASE)
                if match:
                    posicao = match.start()
                    if posicao < melhor_posicao:
                        melhor_posicao = posicao
                        melhor_match = match.group(0)
                        
                        if padrao == r"Distrito Federal":
                            estado_encontrado = "Distrito Federal"
                        else:
                            estado_capturado = clean_text(match.group(1))
                            estado_limpo = re.sub(r'^(o|a|os|as|no|Estado|estado)\s+', '', estado_capturado, flags=re.IGNORECASE)
                            estado_limpo = clean_text(estado_limpo)
                            
                            if estado_limpo in estados_brasileiros:
                                estado_encontrado = estado_limpo
            
            if not pd.isna(estado_encontrado):
                if estado_encontrado not in estados_ordenados:
                    estados_ordenados.append(estado_encontrado)
                # Remove o trecho processado para continuar buscando
                texto_trabalho = texto_trabalho[melhor_posicao + len(melhor_match):]
            else:
                break
        
        # Busca por estados mencionados diretamente (fallback)
        for estado in estados_brasileiros:
            if re.search(rf'\b{estado}\b', area_content, re.IGNORECASE) and estado not in estados_ordenados:
                estados_ordenados.append(estado)
        
        if show_debug:
            print(f"Estados encontrados (ordem): {', '.join(estados_ordenados)}")
        
        # 2. SEGUNDO: Extrair munic√≠pios com estrat√©gia mais robusta
        
        # Primeiro limpa o texto removendo informa√ß√µes de prazo e outras
        texto_limpo = area_content
        # Remove padr√µes de prazo
        texto_limpo = re.sub(r'(?i)Prazo\s+(?:da\s+)?portaria\s*:\s*[^.]+\\.?', '', texto_limpo)
        texto_limpo = re.sub(r'(?i)Prazo\s+de\s+validade\s*:\s*[^.]+\\.?', '', texto_limpo)
        # Remove "√Årea de Abrang√™ncia:"
        texto_limpo = re.sub(r'(?i)√Årea\s+de\s+Abrang√™ncia\s*:\s*', '', texto_limpo)
        texto_limpo = clean_text(texto_limpo)
        
        # Divide em blocos l√≥gicos (por ; ou |)
        blocos = re.split(r'[;|]', texto_limpo)
        blocos = [clean_text(bloco) for bloco in blocos if len(clean_text(bloco)) > 0]
        
        if show_debug:
            print(f"Blocos encontrados: {len(blocos)}")
        
        todos_municipios = []
        
        for bloco in blocos:
            if show_debug:
                print(f"Processando bloco: {bloco}")
            
            # CORRE√á√ÉO PRINCIPAL: Remove apenas os padr√µes espec√≠ficos com prefixos
            bloco_limpo = bloco
            
            # Remove apenas os padr√µes com prefixos espec√≠ficos
            padroes_prefixo_remover = [
                # Padr√µes com "no Estado"
                r"(?i)no Estado do\s+[^,;.|]+", r"(?i)no Estado de\s+[^,;.|]+", r"(?i)no Estado da\s+[^,;.|]+",
                r"(?i)nos Estados do\s+[^,;.|]+", r"(?i)nos Estados de\s+[^,;.|]+", r"(?i)nos Estados da\s+[^,;.|]+",
                
                # Padr√µes com "Estado" 
                r"(?i)Estado do\s+[^,;.|]+", r"(?i)Estado de\s+[^,;.|]+", r"(?i)Estado da\s+[^,;.|]+",
                
                # Padr√µes com "estado"
                r"(?i)estado do\s+[^,;.|]+", r"(?i)estado de\s+[^,;.|]+", r"(?i)estado da\s+[^,;.|]+",
                
                # Padr√µes com munic√≠pio/munic√≠pios
                r"(?i)Munic√≠pio de\s+", r"(?i)Munic√≠pios de\s+", r"(?i)munic√≠pio de\s+", r"(?i)munic√≠pios de\s+",
                
                # Padr√£o Distrito Federal
                r"Distrito Federal"
            ]
            
            for padrao in padroes_prefixo_remover:
                bloco_limpo = re.sub(padrao, '', bloco_limpo)
            
            # Remove prefixos comuns no in√≠cio do bloco
            bloco_limpo = re.sub(r'(?i)^munic√≠pios?\s+de\s+', '', bloco_limpo)
            bloco_limpo = re.sub(r'(?i)^munic√≠pio\s+', '', bloco_limpo)
            bloco_limpo = re.sub(r'(?i),\s*munic√≠pios?\s+de\s+', ', ', bloco_limpo)
            bloco_limpo = clean_text(bloco_limpo)
            
            # Remove h√≠fens problem√°ticos
            bloco_limpo = re.sub(r'\s*-\s*Estado\s*', ' ', bloco_limpo)
            bloco_limpo = re.sub(r'\s*-\s*$', '', bloco_limpo)
            bloco_limpo = clean_text(bloco_limpo)
            
            if show_debug:
                print(f"  Bloco limpo: {bloco_limpo}")
            
            # Extrai munic√≠pios deste bloco
            if len(bloco_limpo) > 0:
                # Divide por v√≠rgulas primeiro
                partes = re.split(r',', bloco_limpo)
                partes = [clean_text(parte) for parte in partes if len(clean_text(parte)) > 0]
                
                municipios_bloco = []
                
                for parte in partes:
                    # Se a parte cont√©m " e ", divide mas preserva nomes compostos
                    if re.search(r'\s+e\s+', parte) and len(parte) > 10:
                        # Divide por " e " mas verifica se n√£o √© um nome composto
                        subpartes = re.split(r'\s+e\s+', parte)
                        subpartes = [clean_text(subparte) for subparte in subpartes if len(clean_text(subparte)) > 2]
                        
                        for subparte in subpartes:
                            # Verifica se √© um munic√≠pio v√°lido
                            if subparte not in ["e", "de", "da", "do", "no"] and len(subparte) > 2:
                                municipios_bloco.append(subparte)
                    else:
                        # Parte √∫nica
                        if parte not in ["e", "de", "da", "do", "no"] and len(parte) > 2:
                            municipios_bloco.append(parte)
                
                # CORRE√á√ÉO ESPECIAL: Se o bloco n√£o gerou munic√≠pios mas cont√©m texto v√°lido
                if len(municipios_bloco) == 0 and len(bloco_limpo) > 3:
                    # Verifica se √© um √∫nico munic√≠pio
                    palavras = bloco_limpo.split()
                    if len(palavras) <= 3:
                        # Considera como munic√≠pio se n√£o for estado
                        if bloco_limpo not in estados_brasileiros or (bloco_limpo in estados_brasileiros and re.search(r'(?i)munic√≠pio', bloco)):
                            municipios_bloco.append(bloco_limpo)
                
                if show_debug:
                    print(f"  Munic√≠pios do bloco: {', '.join(municipios_bloco)}")
                todos_municipios.extend(municipios_bloco)
        
        # 3. Limpeza final dos munic√≠pios
        todos_municipios = list(set(todos_municipios))
        # Remove strings vazias ou muito curtas
        todos_municipios = [m for m in todos_municipios if len(m) > 2]
        # Remove artefatos espec√≠ficos
        todos_municipios = [m for m in todos_municipios if m not in ["e", "de", "da", "do", "no"] 
                           and not re.search(r'^\s*$', m)
                           and not re.search(r'Prazo da portaria', m, re.IGNORECASE)
                           and not re.search(r'^\(.*\)$', m)]
        
        # 4. CORRE√á√ÉO PARA CASOS ESPECIAIS
        
        # Caso especial: quando h√° apenas um munic√≠pio com mesmo nome do estado
        if len(todos_municipios) == 0 and len(estados_ordenados) == 1:
            # Verifica se o texto menciona explicitamente "Munic√≠pio de [estado]"
            match_municipio = re.search(r'(?i)Munic√≠pio(?:\s+de)?\s+([^,.;]+)', area_content)
            if match_municipio:
                municipio_candidato = clean_text(match_municipio.group(1))
                if municipio_candidato in estados_brasileiros:
                    todos_municipios.append(municipio_candidato)
                    if show_debug:
                        print(f"Caso especial: munic√≠pio com nome de estado - {municipio_candidato}")
        
        # 5. Formata√ß√£o final
        if len(todos_municipios) > 0:
            if len(todos_municipios) == 1:
                municipios_out = todos_municipios[0]
            else:
                # Formata com v√≠rgulas e "e" no final
                municipios_out = ', '.join(todos_municipios[:-1]) + ' e ' + todos_municipios[-1]
        else:
            municipios_out = np.nan
        
        estados_out = ', '.join(estados_ordenados) if estados_ordenados else np.nan
        
        if show_debug:
            print(f"RESULTADO FINAL - Munic√≠pios: {municipios_out}")
            print(f"RESULTADO FINAL - Estados: {estados_out}")
            print("=== FIM DO SPLIT_AREA ===\n")
        
        return pd.DataFrame({
            'Municipios_Abrangencias': [municipios_out],
            'Estados_Abrangencias': [estados_out]
        })
    
    def compute_expiration(pub_date_str: str, prazo_str: str) -> str:
        """Calcula data de expira√ß√£o - VERS√ÉO CORRIGIDA"""
        if pd.isna(pub_date_str) or pd.isna(prazo_str):
            return np.nan
        
        print(f"=== CALCULANDO DATA DE EXPIRA√á√ÉO ===")
        print(f"  Data publica√ß√£o: {pub_date_str}")
        print(f"  Prazo: {prazo_str}")
        
        try:
            dt = datetime.strptime(pub_date_str, '%d/%m/%Y')
        except ValueError as e:
            print(f"  ERRO: N√£o foi poss√≠vel converter a data '{pub_date_str}': {e}")
            return np.nan
        
        # CORRE√á√ÉO: Padr√µes mais robustos para extrair quantidade e unidade
        prazo_patterns = [
            r'(\d{1,3})\s*(?:\([^)]*\))?\s*(meses|m√™s|mes|anos|ano)',
            r'(\d{1,3})\s*(meses|m√™s|mes|anos|ano)',
            r'(\d{1,3})\s*(m√™s|mes|ano)',
            r'(\d+)\s*(m|a)\s*',
        ]
        
        qtd = None
        unit = None
        
        for pattern in prazo_patterns:
            match = re.search(pattern, prazo_str, re.IGNORECASE)
            if match:
                qtd = int(match.group(1))
                unit = match.group(2).lower()
                print(f"  Padr√£o encontrado: {qtd} {unit}")
                break
        
        if qtd is None or unit is None:
            print(f"  ERRO: N√£o foi poss√≠vel extrair quantidade/unidade do prazo: {prazo_str}")
            return np.nan
        
        # Calcula a data de expira√ß√£o
        if unit in ['m√™s', 'mes', 'meses', 'm']:
            exp_date = dt + relativedelta(months=qtd)
        elif unit in ['ano', 'anos', 'a']:
            exp_date = dt + relativedelta(years=qtd)
        else:
            print(f"  ERRO: Unidade de tempo n√£o reconhecida: {unit}")
            return np.nan
        
        exp_date_str = exp_date.strftime('%d/%m/%Y')
        print(f"  Data de expira√ß√£o calculada: {exp_date_str}")
        
        return exp_date_str
    
    def extract_tipo_regime_by_roman(section_line: str) -> Dict[str, str]:
        """Extrai 'Tipo' e 'Regimento Normativo'"""
        tipo_match = re.search(r'Expedir\s+([^,]+),', section_line, re.IGNORECASE)
        tipo = tipo_match.group(1) if tipo_match else np.nan
        
        reg_match = re.search(r'regidos\s+pela\s+(.+?)[;,]', section_line, re.IGNORECASE)
        reg = reg_match.group(1) if reg_match else np.nan
        
        return {'Tipo': tipo, 'Regimento_Normativo': reg}
    
    # ------------------------ FUN√á√ÉO PRINCIPAL DE SCRAPING -----------------------
    
    def scrape_portaria_iphan(url: str) -> pd.DataFrame:
        """Fun√ß√£o principal para scraping de uma portaria individual"""
        print("=== INICIANDO SCRAPING DA PORTARIA ===")
        print(f"URL: {url}")
        
        try:
            response = requests.get(url, timeout=30)
            response.raise_for_status()
            page = BeautifulSoup(response.content, 'html.parser')
        except Exception as e:
            print(f"Erro ao acessar URL {url}: {e}")
            return pd.DataFrame()
        
        # Extrai todo o texto da p√°gina
        all_elements = page.find_all(string=True)
        lines = [clean_text(element) for element in all_elements if clean_text(element)]
        
        # Encontra in√≠cio e fim do conte√∫do
        start_idx = next((i for i, line in enumerate(lines) 
                         if re.search(r'^Di√°rio Oficial da Uni√£o', line, re.IGNORECASE)), 0)
        end_idx = next((i for i, line in enumerate(lines) 
                       if re.search(r'^REPORTAR ERRO', line, re.IGNORECASE)), len(lines) - 1)
        
        content = lines[start_idx:end_idx+1]
        
        header = slice_header(content)
        dou_date = extract_dou_date(header)
        portaria_fmt = extract_portaria(page, all_text_lines=content)
        
        print(f"Data DOU: {dou_date}")
        print(f"Portaria: {portaria_fmt}")
        
        # Encontra se√ß√µes romanas
        roman_sections = [line for line in content 
                         if re.search(r'^([IVXLCDM]+)\s+-\s+Expedir\s+', line, re.IGNORECASE)]
        
        # Encontra anexos
        annex_idx = [i for i, line in enumerate(content) 
                    if re.search(r'^ANEXO\s+[IVX]+\b', line, re.IGNORECASE)]
        
        annex_list = []
        for i, a_start in enumerate(annex_idx):
            a_end = annex_idx[i+1] - 1 if i < len(annex_idx) - 1 else len(content) - 1
            annex_title_line = content[a_start]
            annex_roman_match = re.search(r'ANEXO\s+([IVX]+)', annex_title_line, re.IGNORECASE)
            annex_roman = annex_roman_match.group(1) if annex_roman_match else str(i+1)
            annex_lines = content[a_start+1:a_end+1]
            annex_items = extract_annex_items(annex_lines)
            annex_list.append({'roman': annex_roman, 'items': annex_items})
        
        print(f"N√∫mero de anexos encontrados: {len(annex_list)}")
        
        # Processa itens dos anexos
        items_dfs = []
        for ax in annex_list:
            if not ax['items']:
                continue
            
            for item in ax['items']:
                fields = parse_item_fields(item)
                area_split = split_area(fields['Area_Abrangencia_raw'].iloc[0])
                fields = pd.concat([fields.drop('Area_Abrangencia_raw', axis=1), area_split], axis=1)
                fields['Anexo'] = ax['roman']
                items_dfs.append(fields)
        
        if not items_dfs:
            return pd.DataFrame()
        
        items_df = pd.concat(items_dfs, ignore_index=True)
        
        # Tipo e Regimento por ANEXO com base nas se√ß√µes romanas
        tipo_reg_data = []
        for rs in roman_sections:
            # Roman numeral at start
            rn_match = re.search(r'^([IVX]+)\s+-', rs)
            if rn_match:
                rn = rn_match.group(1)
                tr = extract_tipo_regime_by_roman(rs)
                tipo_reg_data.append({
                    'Anexo': rn,
                    'Tipo': tr['Tipo'],
                    'Regimento_Normativo': tr['Regimento_Normativo']
                })
        
        tipo_reg_df = pd.DataFrame(tipo_reg_data).drop_duplicates('Anexo', keep='first')
        
        # Combina com os dados principais
        if not tipo_reg_df.empty:
            items_df = items_df.merge(tipo_reg_df, on='Anexo', how='left')
        else:
            items_df['Tipo'] = np.nan
            items_df['Regimento_Normativo'] = np.nan
        
        # Adiciona colunas adicionais - CORRE√á√ÉO: Garantir que as datas sejam processadas
        items_df['Portaria'] = portaria_fmt
        items_df['Data_Publicacao_DOU'] = dou_date
        
        # CORRE√á√ÉO: Calcular data de expira√ß√£o para cada linha
        print("=== CALCULANDO DATAS DE EXPIRA√á√ÉO ===")
        data_expiracao_list = []
        for idx, row in items_df.iterrows():
            data_exp = compute_expiration(row['Data_Publicacao_DOU'], row['Prazo_Validade'])
            data_expiracao_list.append(data_exp)
            print(f"  Linha {idx}: {row['Data_Publicacao_DOU']} + {row['Prazo_Validade']} = {data_exp}")
        
        items_df['Data_Expiracao'] = data_expiracao_list
        items_df['Chave_composta'] = items_df['Portaria'] + '_' + items_df['Processo'].fillna('')
        
        # Adiciona o link da portaria
        items_df['Link_Portaria_DOU'] = url
        items_df['Retificado'] = 'N√£o'
        
        # Define colunas finais
        final_cols = [
            "Portaria", "Data_Publicacao_DOU", "Anexo", "N_Autorizacao", "Tipo", "Regimento_Normativo", "Processo",
            "Retificado", "Enquadramento_IN", "Empreendedor", "Empreendimento", "Projeto", "Arqueologos_Coordenadores",
            "Arqueologos_Campo", "Apoio_Institucional", "Municipios_Abrangencias", "Estados_Abrangencias",
            "Prazo_Validade", "Data_Expiracao", "Link_Portaria_DOU", "Quantidade_Retificado_DOU",
            "Ultimo_Link_Retificado_DOU", "Link_Revogado_DOU", "Chave_composta"
        ]
        
        # Adiciona colunas faltantes
        for col in final_cols:
            if col not in items_df.columns:
                items_df[col] = np.nan
        
        items_df = items_df[final_cols]
        
        print("=== FINALIZANDO SCRAPING DA PORTARIA ===")
        print(f"Total de itens extra√≠dos: {len(items_df)}")
        
        # CORRE√á√ÉO: Mostrar apenas os primeiros 1 registros
        print(f"Primeiros 1 registros:")
        display_cols = ['Portaria', 'Data_Publicacao_DOU', 'Anexo', 'Processo', 'Data_Expiracao']
        for col in display_cols:
            if col in items_df.columns:
                for i, value in enumerate(items_df[col].head()):
                    print(f"  {col}[{i}]: {value}")
        
        print(f"Colunas extra√≠das: {', '.join(items_df.columns)}\n")
        
        return items_df
    
    # ------------------------ EXECU√á√ÉO PRINCIPAL -----------------------
    
    # VERIFICA SE EXISTE UM DF EXISTENTE NO AMBIENTE GLOBAL (simula√ß√£o)
    existing_df = None
    try:
        # Em um Jupyter Notebook, voc√™ pode usar vari√°veis globais
        # Esta √© uma simula√ß√£o - na pr√°tica voc√™ precisaria gerenciar o estado
        if accumulate_var in globals():
            existing_df = globals()[accumulate_var]
            print(f"Carregando dados existentes de: {accumulate_var}")
        else:
            print(f"Criando novo dataframe: {accumulate_var}")
    except:
        existing_df = None
    
    # Processa todos os links
    results = []
    for link in links:
        try:
            result = scrape_portaria_iphan(link)
            if not result.empty:
                results.append(result)
        except Exception as e:
            print(f"Erro ao processar {link}: {e}")
            continue
    
    if not results:
        # Se n√£o h√° novos dados, retorna o dataframe existente ou vazio
        if existing_df is not None:
            return existing_df
        else:
            return pd.DataFrame(columns=[
                "Portaria", "Data_Publicacao_DOU", "Anexo", "N_Autorizacao", "Tipo", "Regimento_Normativo", 
                "Retificado", "Processo", "Enquadramento_IN", "Empreendedor", "Empreendimento", "Projeto", 
                "Arqueologos_Coordenadores", "Arqueologos_Campo", "Apoio_Institucional", "Municipios_Abrangencias", 
                "Estados_Abrangencias", "Prazo_Validade", "Data_Expiracao", "Link_Portaria_DOU", 
                "Quantidade_Retificado_DOU", "Ultimo_Link_Retificado_DOU", "Link_Revogado_DOU", "Chave_composta"
            ])
    
    result_df = pd.concat(results, ignore_index=True)
    
    # COMBINA COM DADOS EXISTENTES SE HOUVER
    if existing_df is not None:
        print("Combinando com dados existentes...")
        result_df = pd.concat([existing_df, result_df], ignore_index=True).drop_duplicates()
    
    # ATUALIZA O DF NO AMBIENTE GLOBAL (simula√ß√£o)
    globals()[accumulate_var] = result_df
    print(f"Dataframe atualizado: {accumulate_var}")
    print(f"Total de registros no dataframe: {len(result_df)}")
    
    # CORRE√á√ÉO: Mostrar apenas os primeiros 1 registros do resultado final
    print(f"\n=== PRIMEIROS 5 REGISTROS DO DATAFRAME FINAL ===")
    if len(result_df) > 0:
        display_cols = ['Portaria', 'Data_Publicacao_DOU', 'Anexo', 'Processo', 'Data_Expiracao']
        for i, row in result_df.head().iterrows():
            print(f"Registro {i}:")
            for col in display_cols:
                if col in result_df.columns:
                    print(f"  {col}: {row[col]}")
            print()
    else:
        print("Nenhum registro encontrado")
    
    return result_df

In [3]:
# Extra√ß√£o dos dados

# Lista de URLs para processar
urls = [
    "https://www.in.gov.br/web/dou/-/portaria-n-101-de-4-de-novembro-de-2025-667083163",
    "https://www.in.gov.br/web/dou/-/portaria-n-102-de-6-de-novembro-de-2025-667424058",
    "https://www.in.gov.br/web/dou/-/portaria-n-104-de-10-de-novembro-de-2025-668357065",
    "https://www.in.gov.br/web/dou/-/portaria-n-106-de-13-de-novembro-de-2025-668949297"
]

# Executa o scraping
df_resultado = scrape_portarias(urls)

# Exibe os resultados
df_resultado

Criando novo dataframe: df_portarias_acumulado
=== INICIANDO SCRAPING DA PORTARIA ===
URL: https://www.in.gov.br/web/dou/-/portaria-n-101-de-4-de-novembro-de-2025-667083163
=== EXTRAINDO DATA DOU ===
  Analisando linha: Di√°rio Oficial da Uni√£o
  Analisando linha: Di√°rio Oficial da Uni√£o
  Analisando linha: Leitura do Jornal
  Analisando linha: Destaques do Di√°rio Oficial da Uni√£o
  Analisando linha: Base de Dados de Publica√ß√µes do DOU
  Analisando linha: Verifica√ß√£o de autenticidade
  Analisando linha: Acesso ao sistema de envio de mat√©rias INCom
  Analisando linha: Concursos e Sele√ß√µes
  Analisando linha: Tutorial do APP DOU
  Analisando linha: Tutorial INCom
  Analisando linha: Termo de Uso e Pol√≠tica de Privacidade
  Analisando linha: Portal da Imprensa Nacional
  Analisando linha: Caminho de Navega√ß√£o
  Analisando linha: Servi√ßos
  Analisando linha: Di√°rio Oficial da Uni√£o
  Analisando linha: Portaria n¬∫ 101, de 4 de novembro de 2025
  Analisando linha: Publicad

Unnamed: 0,Portaria,Data_Publicacao_DOU,Anexo,N_Autorizacao,Tipo,Regimento_Normativo,Processo,Retificado,Enquadramento_IN,Empreendedor,Empreendimento,Projeto,Arqueologos_Coordenadores,Arqueologos_Campo,Apoio_Institucional,Municipios_Abrangencias,Estados_Abrangencias,Prazo_Validade,Data_Expiracao,Link_Portaria_DOU,Quantidade_Retificado_DOU,Ultimo_Link_Retificado_DOU,Link_Revogado_DOU,Chave_composta
0,Portaria n¬∫ 101/2025,06/11/2025,I,01,RENOVA√á√ÉO,Portaria Iphan n¬∫ 230/02 e Portaria SPHAN 07/88,01498.000778/2013-60,N√£o,,,,"Resgate, Monitoramento Arqueol√≥gico e Educa√ß√£o...",Renato Kipnis,,Museu de Arqueologia e Ci√™ncias Naturais - Uni...,"Jaboat√£o dos Guararapes, Escada, Ipojuca, More...",Pernambuco,12 (doze) meses,06/11/2026,https://www.in.gov.br/web/dou/-/portaria-n-101...,,,,Portaria n¬∫ 101/2025_01498.000778/2013-60
1,Portaria n¬∫ 101/2025,06/11/2025,II,01,AUTORIZA√á√ÉO,Portaria SPHAN 07/88,01516.000269/2020-09,N√£o,,,,Escava√ß√£o do S√≠tio Arqueol√≥gico GO-Ja.02: Nova...,J√∫lio Cezar Rubin de Rubin e Rosicl√©r Theodoro...,,Instituto Goiano de Pr√©-Hist√≥ria e Antropologi...,Serran√≥polis,Goi√°s,24 (vinte e quatro) meses,06/11/2027,https://www.in.gov.br/web/dou/-/portaria-n-101...,,,,Portaria n¬∫ 101/2025_01516.000269/2020-09
2,Portaria n¬∫ 101/2025,06/11/2025,III,01,RENOVA√á√ÉO,Instru√ß√£o Normativa 001/2015,01514.001637/2023-91,N√£o,N√≠vel III,ATAI√Å DA SERRRA DESENVOLVIMENTO IMOBILI√ÅRIO LTDA.,Loteamento Sabar√°,Programa de Gest√£o do Patrim√¥nio Arqueol√≥gico ...,Fernanda Elisa Costa Paulino e Resende,Ana Carolina Cavenague Napolitano e Jo√£o Paulo...,Laborat√≥rio de Arqueologia e Estudo da Paisage...,,,07 (sete) meses,06/06/2026,https://www.in.gov.br/web/dou/-/portaria-n-101...,,,,Portaria n¬∫ 101/2025_01514.001637/2023-91
3,Portaria n¬∫ 101/2025,06/11/2025,IV,01,AUTORIZA√á√ÉO,Instru√ß√£o Normativa 001/2015,01402.000303/2025-29,N√£o,N√≠vel III,Macedo Fortes Empreendimentos LTDA,Condom√≠nio Francisca da Silva,Avalia√ß√£o de Impacto o Patrim√¥nio Arqueol√≥gico...,Hebert Rog√©rio do Nascimento Coutinho,Nat√°lia Gomes de Sousa,Funda√ß√£o Cultural Cristo Rei - Museu Dom Avela...,Teresina,Piau√≠,03 (tr√™s) meses,06/02/2026,https://www.in.gov.br/web/dou/-/portaria-n-101...,,,,Portaria n¬∫ 101/2025_01402.000303/2025-29
4,Portaria n¬∫ 101/2025,06/11/2025,IV,02,AUTORIZA√á√ÉO,Instru√ß√£o Normativa 001/2015,01506.000033/2025-98,N√£o,N√≠vel III,Arajara Empreendimento imobili√°rio SPE Ltda.,Loteamento Arajara,Avalia√ß√£o de impacto ao patrim√¥nio arqueol√≥gic...,"Lilia Benevides Guedes, Adilson Pereira Nascim...",Jouran de Deus Ferreira,Museu Hist√≥rico e Pedag√≥gico Jo√£o Teodoro Xavier,Ubirajara,S√£o Paulo,04 (quatro) meses,06/03/2026,https://www.in.gov.br/web/dou/-/portaria-n-101...,,,,Portaria n¬∫ 101/2025_01506.000033/2025-98
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
92,Portaria n¬∫ 106/2025,14/11/2025,III,33,AUTORIZA√á√ÉO,Instru√ß√£o Normativa 001/2015,01409.000375/2025-14,N√£o,N√≠vel III Empreendedor/Respons√°vel Legal: Priv...,,"Areais Itaputanga 014, 075 e 331",Projeto de Avalia√ß√£o de Impacto ao Patrim√¥nio ...,Francisco Jo√£o Lopes Silva,Romulo Mazzocco Machado Bittencourt,Instituto de Pesquisa Arqueol√≥gica e Etnogr√°fi...,Pi√∫ma,Esp√≠rito Santo,06 (seis) meses,14/05/2026,https://www.in.gov.br/web/dou/-/portaria-n-106...,,,,Portaria n¬∫ 106/2025_01409.000375/2025-14
93,Portaria n¬∫ 106/2025,14/11/2025,III,34,AUTORIZA√á√ÉO,Instru√ß√£o Normativa 001/2015,01514.001069/2020-85,N√£o,N√≠vel III,Anglo American Min√©rio de Ferro Brasil S.A,EXPANS√ÉO SUL - SISTEMA MINAS-RIO,Programa de Gest√£o do Patrim√¥nio Arqueol√≥gico ...,Alexandre Pinto Coelho de Almeida e Fernando A...,Gabriela Longo Moraes,Laborat√≥rio de Arqueologia e Estudo da Paisage...,Concei√ß√£o do Mato Dentro,Minas Gerais,24 (vinte e quatro) meses,14/11/2027,https://www.in.gov.br/web/dou/-/portaria-n-106...,,,,Portaria n¬∫ 106/2025_01514.001069/2020-85
94,Portaria n¬∫ 106/2025,14/11/2025,III,35,AUTORIZA√á√ÉO,Instru√ß√£o Normativa 001/2015,01408.000369/2025-69,N√£o,N√≠vel II,Departamento de Estradas de Rodagem do Estado ...,Rodovia PB 204: Entr. PB 200 / Distrito de Cam...,Projeto de Acompanhamento Arqueol√≥gico das obr...,Jaionara Rodrigues Dias da Silva,Jaionara Rodrigues Dias da Silva,,Cara√∫bas e Coxixola,Para√≠ba,18 (dezoito) meses,14/05/2027,https://www.in.gov.br/web/dou/-/portaria-n-106...,,,,Portaria n¬∫ 106/2025_01408.000369/2025-69
95,Portaria n¬∫ 106/2025,14/11/2025,III,36,AUTORIZA√á√ÉO,Instru√ß√£o Normativa 001/2015,01516.000702/2024-21,N√£o,N√≠vel III,Mosaic Fertilizantes P&K Ltda,Complexo Mineroqu√≠mico de Catal√£o (CMC) - Mosa...,Programa de Gest√£o do Patrim√¥nio Arqueol√≥gico ...,Kaic Bueno Batista e Rafael Nimai Uarian,Higor Gabriel da Serra,Museu Hist√≥rico Municipal de Jaragu√° - Prefeit...,Ouvidor,Goi√°s,24 (vinte e quatro) meses,14/11/2027,https://www.in.gov.br/web/dou/-/portaria-n-106...,,,,Portaria n¬∫ 106/2025_01516.000702/2024-21


# Fluxo de Migra√ß√£o dos Dados para o Supabase

## Funcionalidades Principais
- ‚úÖ **Configura√ß√£o autom√°tica** do ambiente de trabalho
- üîê **Conex√£o segura** com banco de dados Supabase
- üìä **Processamento inteligente** de dados
- üîÑ **Atualiza√ß√£o autom√°tica** de registros existentes
- üìã **Relat√≥rios detalhados** do processo
- üõ°Ô∏è **Verifica√ß√µes de seguran√ßa** em todas as etapas

## Fluxo Simplificado
1. Configura ambiente automaticamente
2. Conecta ao banco de dados online
3. Processa e padroniza os dados
4. Envia informa√ß√µes com controle de qualidade
5. Gera relat√≥rio final de execu√ß√£o

In [4]:
# Carregando bibliotecas

import os
import requests
import pandas as pd
import json
from dotenv import load_dotenv, set_key, find_dotenv
from IPython.display import display

In [5]:
def create_env_file():
    """Criar arquivo .env automaticamente com codifica√ß√£o UTF-8"""
    env_content = '''# CONFIGURA√á√ïES DO SUPABASE
SUPABASE_URL=https://wacqxihunefahztqpaet.supabase.co
SUPABASE_KEY=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6IndhY3F4aWh1bmVmYWh6dHFwYWV0Iiwicm9sZSI6ImFub24iLCJpYXQiOjE3NjMzMzEwNjYsImV4cCI6MjA3ODkwNzA2Nn0.4Xop4iqipp7UKPLOdlvTkd4FeJTi4Y1UF48E0l8K0Ng
SUPABASE_DB_PASSWORD=Iphaner@2025Ag%+mqU&
*-et
# CONFIGURA√á√ïES OPCIONAIS
PROJECT_NAME=Extracao de Portarias Autorizativas no DOU
ENVIRONMENT=development'''
    
    # Salvar com codifica√ß√£o UTF-8
    with open('.env', 'w', encoding='utf-8') as f:
        f.write(env_content)
    
    print("‚úÖ Arquivo .env criado com sucesso!")
    print("üìÅ Local: ", os.getcwd() + "/.env")

In [6]:
def check_env_config():
    """Fun√ß√£o para verificar configura√ß√£o com tratamento de codifica√ß√£o"""
    # Verificar se arquivo existe
    if not os.path.exists('.env'):
        print("‚ùå Arquivo .env N√ÉO encontrado!")
        print("üìÅ Diret√≥rio atual:", os.getcwd())
        print("üí° Execute create_env_file() para criar o arquivo")
        return False
    
    # Carregar vari√°veis com tratamento de erro de codifica√ß√£o
    try:
        # Tentar carregar com UTF-8 primeiro
        load_dotenv('.env', encoding='utf-8')
    except UnicodeDecodeError:
        try:
            # Se UTF-8 falhar, tentar latin-1
            print("‚ö†Ô∏è  Tentando carregar com codifica√ß√£o latin-1...")
            load_dotenv('.env', encoding='latin-1')
        except Exception as e:
            print(f"‚ùå Erro ao carregar arquivo .env: {e}")
            return False
    except Exception as e:
        print(f"‚ùå Erro inesperado: {e}")
        return False
    
    # Verificar vari√°veis obrigat√≥rias
    required_vars = ['SUPABASE_URL', 'SUPABASE_KEY']
    missing_vars = []
    
    for var in required_vars:
        value = os.getenv(var)
        if not value:
            missing_vars.append(var)
    
    if missing_vars:
        print("‚ùå Vari√°veis faltando no .env:")
        for var in missing_vars:
            print(f" - {var}")
        return False
    
    # Mostrar configura√ß√£o (ocultando dados sens√≠veis)
    url = os.getenv('SUPABASE_URL')
    key = os.getenv('SUPABASE_KEY')
    key_preview = f"{key[:20]}..." if key else ""
    
    print("‚úÖ Configura√ß√£o .env carregada com sucesso!")
    print(f"üåê URL: {url}")
    print(f"üîë Key: {key_preview}")
    print(f"üìä DB Password: {'Configurado' if os.getenv('SUPABASE_DB_PASSWORD') else 'N√£o configurado'}")
    
    return True

In [7]:
def load_env_safe():
    """Carregar vari√°veis de ambiente com fallback seguro"""
    if not os.path.exists('.env'):
        print("‚ùå Arquivo .env n√£o encontrado. Criando...")
        create_env_file()
    
    # Tentar diferentes codifica√ß√µes
    encodings = ['utf-8', 'latin-1', 'cp1252', 'iso-8859-1']
    
    for encoding in encodings:
        try:
            load_dotenv('.env', encoding=encoding)
            print(f"‚úÖ Arquivo .env carregado com codifica√ß√£o: {encoding}")
            return True
        except UnicodeDecodeError:
            continue
        except Exception as e:
            print(f"‚ùå Erro com codifica√ß√£o {encoding}: {e}")
            continue
    
    print("‚ùå N√£o foi poss√≠vel carregar o arquivo .env com nenhuma codifica√ß√£o suportada")
    return False

In [8]:
def connect_supabase_rest():
    """Fun√ß√£o para conectar via REST API"""
    # Garantir que as vari√°veis est√£o carregadas
    if not load_env_safe():
        raise Exception("N√£o foi poss√≠vel carregar as vari√°veis de ambiente")
    
    supabase_url = os.getenv('SUPABASE_URL')
    supabase_key = os.getenv('SUPABASE_KEY')
    
    if not supabase_url or not supabase_key:
        raise Exception("Configure as vari√°veis SUPABASE_URL e SUPABASE_KEY no arquivo .env")
    
    return {'url': supabase_url, 'key': supabase_key}

In [9]:
def upload_to_supabase(df, table_name="portarias_iphan"):
    """Fun√ß√£o para enviar dados via REST API"""
    config = connect_supabase_rest()
    
    # Converter dataframe para JSON
    data_json = df.to_json(orient='records', date_format='iso')
    
    # Fazer requisi√ß√£o para inserir dados
    headers = {
        "apikey": config['key'],
        "Authorization": f"Bearer {config['key']}",
        "Content-Type": "application/json",
        "Prefer": "resolution=merge-duplicates"
    }
    
    try:
        response = requests.post(
            url=f"{config['url']}/rest/v1/{table_name}",
            headers=headers,
            data=data_json
        )
        
        if 200 <= response.status_code < 300:
            print("‚úÖ Dados enviados com sucesso para o Supabase!")
            print(f"üìä Registros enviados: {len(df)}")
        else:
            print("‚ùå Erro ao enviar dados:")
            print(f"C√≥digo: {response.status_code}")
            print(f"Mensagem: {response.text}")
        
        return response
        
    except Exception as e:
        print(f"‚ùå Erro na requisi√ß√£o: {e}")
        return None

In [10]:
def upsert_to_supabase(df, table_name="portarias_iphan"):
    """Fun√ß√£o para UPSERT (inserir ou atualizar) dados"""
    config = connect_supabase_rest()
    
    success_count = 0
    error_count = 0
    
    for i in range(len(df)):
        row_data = df.iloc[[i]]
        data_json = row_data.to_json(orient='records', date_format='iso')
        
        headers = {
            "apikey": config['key'],
            "Authorization": f"Bearer {config['key']}",
            "Content-Type": "application/json",
            "Prefer": "resolution=merge-duplicates"
        }
        
        try:
            response = requests.post(
                url=f"{config['url']}/rest/v1/{table_name}",
                headers=headers,
                data=data_json
            )
            
            if 200 <= response.status_code < 300:
                success_count += 1
            else:
                error_count += 1
                print(f"Erro na linha {i}: {response.text}")
                
        except Exception as e:
            error_count += 1
            print(f"Erro na linha {i}: {e}")
    
    print("üìä Resultado do upload:")
    print(f"‚úÖ Sucessos: {success_count}")
    print(f"‚ùå Erros: {error_count}")
    
    return {'success': success_count, 'error': error_count}

In [11]:
def verify_supabase_data(table_name="portarias_iphan"):
    """Verificar dados no Supabase"""
    config = connect_supabase_rest()
    
    headers = {
        "apikey": config['key'],
        "Authorization": f"Bearer {config['key']}"
    }
    
    try:
        response = requests.get(
            url=f"{config['url']}/rest/v1/{table_name}?select=count",
            headers=headers
        )
        
        if response.status_code == 200:
            count_data = response.json()
            print(f"üìä Total de registros na tabela Supabase: {count_data[0]['count']}")
        else:
            print(f"‚ùå Erro ao verificar dados: {response.status_code}")
            
    except Exception as e:
        print(f"‚ùå Erro na requisi√ß√£o: {e}")

In [12]:
def check_table_structure(table_name="portarias_iphan"):
    """Fun√ß√£o para verificar estrutura da tabela"""
    config = connect_supabase_rest()
    
    headers = {
        "apikey": config['key'],
        "Authorization": f"Bearer {config['key']}"
    }
    
    try:
        response = requests.get(
            url=f"{config['url']}/rest/v1/{table_name}?limit=1",
            headers=headers
        )
        
        if response.status_code == 200:
            data = response.json()
            if data:
                print("‚úÖ Colunas existentes na tabela:")
                for col in data[0].keys():
                    print(f" - {col}")
            else:
                print("‚ÑπÔ∏è Tabela existe mas est√° vazia")
        else:
            print(f"‚ùå Erro ao acessar tabela: {response.status_code}")
            
    except Exception as e:
        print(f"‚ùå Erro na requisi√ß√£o: {e}")

In [13]:
# FLUXO PRINCIPAL - EXECU√á√ÉO NO JUPYTER NOTEBOOK

print("üîß INICIANDO CONFIGURA√á√ÉO DO SUPABASE")
print("=" * 50)

# 1. Criar arquivo .env se n√£o existir
if not os.path.exists('.env'):
    print("üìù Criando arquivo .env...")
    create_env_file()
else:
    print("‚úÖ Arquivo .env j√° existe")

# 2. Verificar configura√ß√£o
print("\nüîç VERIFICANDO CONFIGURA√á√ÉO")
print("-" * 30)
config_ok = check_env_config()

if not config_ok:
    print("\n‚ùå CONFIGURA√á√ÉO FALHOU - Verifique o arquivo .env")
else:
    print("\n‚úÖ CONFIGURA√á√ÉO BEM-SUCEDIDA")
    
    # 3. Testar conex√£o com Supabase
    print("\nüåê TESTANDO CONEX√ÉO COM SUPABASE")
    print("-" * 30)
    try:
        config = connect_supabase_rest()
        print("‚úÖ Conex√£o com Supabase configurada com sucesso!")
        print(f"üåê URL: {config['url']}")
        print(f"üîë Key: {config['key'][:20]}...")
    except Exception as e:
        print(f"‚ùå Erro na conex√£o: {e}")

print("\nüöÄ CONFIGURA√á√ÉO CONCLU√çDA - Pronto para uso!")

üîß INICIANDO CONFIGURA√á√ÉO DO SUPABASE
‚úÖ Arquivo .env j√° existe

üîç VERIFICANDO CONFIGURA√á√ÉO
------------------------------
‚ö†Ô∏è  Tentando carregar com codifica√ß√£o latin-1...
‚úÖ Configura√ß√£o .env carregada com sucesso!
üåê URL: https://wacqxihunefahztqpaet.supabase.co
üîë Key: eyJhbGciOiJIUzI1NiIs...
üìä DB Password: Configurado

‚úÖ CONFIGURA√á√ÉO BEM-SUCEDIDA

üåê TESTANDO CONEX√ÉO COM SUPABASE
------------------------------
‚úÖ Arquivo .env carregado com codifica√ß√£o: latin-1
‚úÖ Conex√£o com Supabase configurada com sucesso!
üåê URL: https://wacqxihunefahztqpaet.supabase.co
üîë Key: eyJhbGciOiJIUzI1NiIs...

üöÄ CONFIGURA√á√ÉO CONCLU√çDA - Pronto para uso!


In [14]:
# Converter colunas para min√∫sculas
df_resultado.columns = df_resultado.columns.str.lower()

In [15]:
# Verificar dados
print("üìã Resumo dos dados:")
print(f"N√∫mero de registros: {len(df_resultado)}")
print(f"Colunas: {', '.join(df_resultado.columns)}")

üìã Resumo dos dados:
N√∫mero de registros: 97
Colunas: portaria, data_publicacao_dou, anexo, n_autorizacao, tipo, regimento_normativo, processo, retificado, enquadramento_in, empreendedor, empreendimento, projeto, arqueologos_coordenadores, arqueologos_campo, apoio_institucional, municipios_abrangencias, estados_abrangencias, prazo_validade, data_expiracao, link_portaria_dou, quantidade_retificado_dou, ultimo_link_retificado_dou, link_revogado_dou, chave_composta


In [16]:
# Verificar chaves √∫nicas na coluna chave_composta
if 'chave_composta' in df_resultado.columns:
    chaves_unicas = df_resultado['chave_composta'].unique()
    print(f"Chaves √∫nicas encontradas: {len(chaves_unicas)}")

Chaves √∫nicas encontradas: 97


In [17]:
# Enviar para o Supabase
print("‚òÅÔ∏è Enviando dados para o Supabase...")
resultado = upsert_to_supabase(df_resultado)

‚òÅÔ∏è Enviando dados para o Supabase...
‚úÖ Arquivo .env carregado com codifica√ß√£o: latin-1
üìä Resultado do upload:
‚úÖ Sucessos: 97
‚ùå Erros: 0


In [18]:
# Verificar dados
verify_supabase_data()
check_table_structure()

‚úÖ Arquivo .env carregado com codifica√ß√£o: latin-1
üìä Total de registros na tabela Supabase: 97
‚úÖ Arquivo .env carregado com codifica√ß√£o: latin-1
‚úÖ Colunas existentes na tabela:
 - id
 - portaria
 - data_publicacao_dou
 - anexo
 - n_autorizacao
 - tipo
 - regimento_normativo
 - processo
 - retificado
 - enquadramento_in
 - empreendedor
 - empreendimento
 - projeto
 - arqueologos_coordenadores
 - arqueologos_campo
 - apoio_institucional
 - municipios_abrangencias
 - estados_abrangencias
 - prazo_validade
 - data_expiracao
 - link_portaria_dou
 - quantidade_retificado_dou
 - ultimo_link_retificado_dou
 - link_revogado_dou
 - chave_composta
 - created_at
 - updated_at


# Fim