In [8]:
import re
import polars as pl
from datetime import datetime
import psycopg2
from psycopg2.extras import execute_batch

# Leitura do arquivo SQL
with open('grupodemanda_202512021151.sql', 'r', encoding='utf-8') as f:
    sql_content = f.read()

# Extrair blocos de INSERT
insert_blocks = re.findall(r'INSERT INTO grupodemanda \([^)]+\) VALUES\s+(.*?)(?=INSERT INTO|$)', sql_content, re.DOTALL)

data_lines = []

for block in insert_blocks:
    # Encontrar todas as tuplas com par√™nteses
    pattern = r'\(([^)]+)\)'
    matches = re.findall(pattern, block)
    
    for match in matches:
        parts = [p.strip() for p in match.split(',')]
        if len(parts) == 9 and parts[0].isdigit():  # Verificar se √© um ID (n√∫mero)
            data_lines.append(parts)

# Processar cada linha de dados
processed_data = []
for line in data_lines:
    try:
        id_val = int(line[0])
        ativo = line[1].lower() == 'true'
        data_criacao = line[2].strip("'")
        descricao = line[3].strip("'")
        nome = line[4].strip("'")
        fundo_municipal_id = 0 if line[7] == 'NULL' else int(line[7])
        
        processed_data.append({
            'id': id_val,
            'nome': nome,
            'descricao': descricao,
            'fundo_municipal_id': fundo_municipal_id,
            'afinidades': None,
            'ativo': ativo,
            'data_criacao': data_criacao,
        })
    except (ValueError, IndexError) as e:
        print(f"Erro ao processar linha: {line} - {e}")
        continue

# Criar DataFrame com Polars
df = pl.DataFrame(processed_data)

# Converter data_criacao para datetime - suportar ambos formatos com e sem milissegundos
def parse_datetime(date_str):
    """Converte string de data para datetime, suportando com e sem milissegundos"""
    try:
        # Tenta primeiro com milissegundos
        return datetime.strptime(date_str, '%Y-%m-%d %H:%M:%S.%f')
    except ValueError:
        # Se falhar, tenta sem milissegundos
        return datetime.strptime(date_str, '%Y-%m-%d %H:%M:%S')

df = df.with_columns(
    pl.col('data_criacao').map_elements(parse_datetime, return_dtype=pl.Datetime('us')).alias('data_criacao')
)

print(f"Total de registros a importar: {len(df)}")
print("\nPrimeiros 5 registros:")
print(df.head(5))

# Conectar ao PostgreSQL e fazer o insert
connection_string = "postgresql://postgres:postgres@localhost:5432/agefis"

try:
    conn = psycopg2.connect(
        host='localhost',
        database='agefis',
        user='postgres',
        password='postgres',
        port=5432
    )
    
    cursor = conn.cursor()
    
    # Preparar dados para insert
    insert_query = """
        INSERT INTO "fiscalizacao"."grupos_ocorrencia" 
        (id, nome, descricao, fundo_municipal_id, afinidades, ativo, data_criacao)
        VALUES (%s, %s, %s, %s, %s, %s, %s)
        ON CONFLICT (id) DO NOTHING
    """
    
    # Converter DataFrame para lista de tuplas
    data_to_insert = [
        (
            row['id'],
            row['nome'],
            row['descricao'],
            row['fundo_municipal_id'],
            row['afinidades'],
            row['ativo'],
            row['data_criacao']
        )
        for row in df.to_dicts()
    ]
    
    # Executar insert em batch
    execute_batch(cursor, insert_query, data_to_insert, page_size=100)
    
    conn.commit()
    print(f"\n‚úÖ {len(data_to_insert)} registros inseridos com sucesso!")
    
except Exception as e:
    print(f"‚ùå Erro ao inserir dados: {e}")
    conn.rollback()
    
finally:
    cursor.close()
    conn.close()

Total de registros a importar: 143

Primeiros 5 registros:
shape: (5, 7)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ id     ‚îÜ nome            ‚îÜ descricao      ‚îÜ fundo_municipa ‚îÜ afinidades ‚îÜ ativo ‚îÜ data_criacao   ‚îÇ
‚îÇ ---    ‚îÜ ---             ‚îÜ ---            ‚îÜ l_id           ‚îÜ ---        ‚îÜ ---   ‚îÜ ---            ‚îÇ
‚îÇ i64    ‚îÜ str             ‚îÜ str            ‚îÜ ---            ‚îÜ null       ‚îÜ bool  ‚îÜ datetime[Œºs]   ‚îÇ
‚îÇ        ‚îÜ                 ‚îÜ                ‚îÜ i64            ‚îÜ            ‚îÜ       ‚îÜ                ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚

In [12]:
import re
import polars as pl
from datetime import datetime
import psycopg2
from psycopg2.extras import execute_batch
import hashlib

# Leitura do arquivo SQL
with open('usuario_202512021153.sql', 'r', encoding='utf-8') as f:
    sql_content = f.read()

# Extrair blocos de INSERT
insert_blocks = re.findall(r'INSERT INTO usuario \([^)]+\) VALUES\s+(.*?)(?=INSERT INTO|$)', sql_content, re.DOTALL)

data_lines = []

for block in insert_blocks:
    # Encontrar todas as tuplas com par√™nteses
    pattern = r'\(([^)]+)\)'
    matches = re.findall(pattern, block)
    
    for match in matches:
        parts = [p.strip() for p in match.split(',')]
        # Verificar se √© um dado v√°lido (primeiro valor √© n√∫mero) e tem pelo menos as colunas esperadas
        if len(parts) >= 21 and parts[0].isdigit():  # Precisa de pelo menos at√© setor_id (√≠ndice 20)
            data_lines.append(parts)

print(f"Total de linhas extra√≠das: {len(data_lines)}")
if data_lines:
    print(f"Colunas por linha (primeiro): {len(data_lines[0])}")
    print(f"Colunas por linha (min/max): {min(len(line) for line in data_lines)}/{max(len(line) for line in data_lines)}")

# Processar dados para a tabela usuarios
usuarios_data = []
fiscais_data = []
login_counter = {}  # Para evitar logins duplicados
usuarios_ids = set()  # Rastrear IDs de usu√°rios que ser√£o inseridos

def parse_datetime_safe(date_str):
    """Converte string de data para datetime, suportando v√°rios formatos"""
    if not date_str or date_str == 'NULL':
        return None
    
    date_str = date_str.strip("'")
    
    # Lista de formatos para tentar
    formats = [
        '%Y-%m-%d %H:%M:%S.%f',  # Com milissegundos
        '%Y-%m-%d %H:%M:%S',      # Sem milissegundos
        '%Y-%m-%d',                # Apenas data
    ]
    
    # Trata caso especial de data inv√°lida com "BC"
    if 'BC' in date_str:
        return None
    
    for fmt in formats:
        try:
            return datetime.strptime(date_str, fmt)
        except ValueError:
            continue
    
    return None

def get_unique_login(base_login, user_id):
    """Garante que o login seja √∫nico adicionando um sufixo se necess√°rio"""
    if base_login not in login_counter:
        login_counter[base_login] = 0
        return base_login
    
    login_counter[base_login] += 1
    # Gera um login √∫nico com sufixo
    new_login = f"{base_login}{login_counter[base_login]}"
    return new_login

for line in data_lines:
    try:
        user_id = int(line[0])
        ativo = line[1].lower() == 'true'
        data_criacao = line[2].strip("'")
        email = line[5].strip("'") if len(line) > 5 else f"user{user_id}@example.com"
        matricula = line[6].strip("'") if len(line) > 6 and line[6] != 'NULL' else None
        nome = line[8].strip("'") if len(line) > 8 else f"User {user_id}"
        senha_original = line[9].strip("'") if len(line) > 9 else "default_hash"
        lotacao = line[20].strip("'") if len(line) > 20 and line[20] != 'NULL' else None
        
        # Gerar login a partir do email (primeira parte antes do @)
        base_login = email.split('@')[0] if email else f"user_{user_id}"
        base_login = base_login.lower().replace(' ', '.').replace('_', '.')
        
        # Garantir unicidade do login
        login = get_unique_login(base_login, user_id)
        
        # Usar a senha original como password_hash (j√° vem hasheada do banco antigo)
        password_hash = senha_original
        
        # Adicionar √† tabela usuarios
        usuarios_data.append({
            'id': user_id,
            'login': login,
            'email': email,
            'password_hash': password_hash,
            'nome': nome,
            'data_criacao': data_criacao,
            'ativo': ativo,
        })
        usuarios_ids.add(user_id)
        
        # Adicionar √† tabela fiscais se matricula existir
        if matricula and matricula != '0' and matricula != '':
            fiscais_data.append({
                'id': user_id,
                'matricula': matricula,
                'lotacao': lotacao,
                'data_criacao': data_criacao,
                'ativo': ativo,
            })
        
    except (ValueError, IndexError) as e:
        continue

# Criar DataFrames com Polars
df_usuarios = pl.DataFrame(usuarios_data)
df_fiscais = pl.DataFrame(fiscais_data)

# Converter datas para datetime
def convert_dates(df, columns):
    for col in columns:
        df = df.with_columns(
            pl.col(col).map_elements(parse_datetime_safe, return_dtype=pl.Datetime('us')).alias(col)
        )
    return df

df_usuarios = convert_dates(df_usuarios, ['data_criacao'])
df_fiscais = convert_dates(df_fiscais, ['data_criacao'])

# Remover duplicatas de login (manter primeiro)
df_usuarios = df_usuarios.unique(subset=['login'], keep='first')

# Manter apenas fiscais cujos IDs est√£o em usuarios
valid_usuario_ids = set(df_usuarios['id'].to_list())
df_fiscais = df_fiscais.filter(pl.col('id').is_in(valid_usuario_ids))

print(f"\nüìä USUARIOS - Total de registros: {len(df_usuarios)}")
print(df_usuarios.head(3))

print(f"\nüîê FISCAIS - Total de registros: {len(df_fiscais)}")
print(df_fiscais.head(3))

# Conectar ao PostgreSQL
try:
    conn = psycopg2.connect(
        host='localhost',
        database='agefis',
        user='postgres',
        password='postgres',
        port=5432
    )
    
    cursor = conn.cursor()
    
    # Query para inserir em usuarios
    insert_usuarios = """
        INSERT INTO "seguranca"."usuarios" 
        (id, login, email, password_hash, nome, data_criacao, ativo)
        VALUES (%s, %s, %s, %s, %s, %s, %s)
        ON CONFLICT (id) DO UPDATE SET
            login = EXCLUDED.login,
            email = EXCLUDED.email,
            password_hash = EXCLUDED.password_hash,
            nome = EXCLUDED.nome,
            ativo = EXCLUDED.ativo
    """
    
    # Query para inserir em fiscais
    insert_fiscais = """
        INSERT INTO "fiscalizacao"."fiscais" 
        (id, matricula, lotacao, data_criacao, ativo)
        VALUES (%s, %s, %s, %s, %s)
        ON CONFLICT (id) DO UPDATE SET
            matricula = EXCLUDED.matricula,
            lotacao = EXCLUDED.lotacao,
            ativo = EXCLUDED.ativo
    """
    
    # Preparar dados para usuarios
    usuarios_to_insert = [
        (
            row['id'],
            row['login'],
            row['email'],
            row['password_hash'],
            row['nome'],
            row['data_criacao'],
            row['ativo'],
        )
        for row in df_usuarios.to_dicts()
    ]
    
    # Preparar dados para fiscais
    fiscais_to_insert = [
        (
            row['id'],
            row['matricula'],
            row['lotacao'],
            row['data_criacao'],
            row['ativo'],
        )
        for row in df_fiscais.to_dicts()
    ]
    
    # Executar inserts em batch
    print("\n‚è≥ Inserindo em 'seguranca.usuarios'...")
    execute_batch(cursor, insert_usuarios, usuarios_to_insert, page_size=100)
    conn.commit()
    print(f"‚úÖ {len(usuarios_to_insert)} usu√°rios inseridos!")
    
    if fiscais_to_insert:
        print("\n‚è≥ Inserindo em 'fiscalizacao.fiscais'...")
        execute_batch(cursor, insert_fiscais, fiscais_to_insert, page_size=100)
        conn.commit()
        print(f"‚úÖ {len(fiscais_to_insert)} fiscais inseridos!")
    else:
        print("\n‚ö†Ô∏è  Nenhum fiscal para inserir")
    
except Exception as e:
    print(f"‚ùå Erro ao inserir dados: {e}")
    conn.rollback()
    
finally:
    cursor.close()
    conn.close()

Total de linhas extra√≠das: 885
Colunas por linha (primeiro): 33
Colunas por linha (min/max): 33/34

üìä USUARIOS - Total de registros: 885
shape: (3, 7)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ id      ‚îÜ login          ‚îÜ email         ‚îÜ password_hash ‚îÜ nome          ‚îÜ data_criacao  ‚îÜ ativo ‚îÇ
‚îÇ ---     ‚îÜ ---            ‚îÜ ---           ‚îÜ ---           ‚îÜ ---           ‚îÜ ---           ‚îÜ ---   ‚îÇ
‚îÇ i64     ‚îÜ str            ‚îÜ str           ‚îÜ str           ‚îÜ str           ‚îÜ datetime[Œºs]  ‚îÜ bool  ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê