In [16]:
# =============================================================
# CÉLULA FINAL – AMOSTRA DE ARQUIVOS + PARSING E EXIBIÇÃO
# =============================================================
import pandas as pd
from pathlib import Path
import random
from IPython.display import display

# Função de parsing
def parsing_estrutura_geral(caminho):
    partes = caminho.split("/")

    projeto = partes[0] if len(partes) > 0 else None
    ativo = partes[1] if len(partes) > 1 else None
    tipo = partes[2] if len(partes) > 2 else None

    nome_arquivo = partes[-1] if len(partes) > 3 else None
    classe_partes = partes[3:-1] if len(partes) > 4 else []
    classe = "/".join(classe_partes) if classe_partes else None

    extensao = Path(nome_arquivo).suffix.replace(".", "") if nome_arquivo else None

    return projeto, ativo, tipo, classe, nome_arquivo, extensao

# Amostragem
df_amostra_img = df_imagens.sample(n=20, random_state=42).copy()
df_amostra_parq = df_parquet.sample(n=5, random_state=42).copy()

# Aplicar parsing
df_amostra_img[["projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"]] = (
    df_amostra_img["__source_path__"].apply(lambda x: pd.Series(parsing_estrutura_geral(x)))
)

df_amostra_parq[["projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"]] = (
    df_amostra_parq["__source_path__"].apply(lambda x: pd.Series(parsing_estrutura_geral(x)))
)

# Exibir imagens
print("🖼️ Amostra de 20 arquivos de imagem (.png):")
display(df_amostra_img[[
    "__source_path__", "projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"
]])

# Exibir numéricos
print("\n📊 Amostra de 5 arquivos numéricos (.parquet):")
display(df_amostra_parq[[
    "__source_path__", "projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"
]])


🖼️ Amostra de 20 arquivos de imagem (.png):


Unnamed: 0,__source_path__,projeto,ativo,tipo,classe,nome_arquivo,extensao
2862,FDL/BBAS3.SA/imagens/treino/comprar/2015-06-26...,FDL,BBAS3.SA,imagens,treino/comprar,2015-06-26_1.png,png
13167,FDL/PETR4.SA/imagens/treino/comprar/2001-04-25...,FDL,PETR4.SA,imagens,treino/comprar,2001-04-25_1.png,png
15722,FDL/PETR4.SA/imagens/treino/vender/2003-06-04_...,FDL,PETR4.SA,imagens,treino/vender,2003-06-04_-1.png,png
21420,FDL/VALE3.SA/imagens/treino/vender/2001-11-07_...,FDL,VALE3.SA,imagens,treino/vender,2001-11-07_-1.png,png
19507,FDL/VALE3.SA/imagens/treino/comprar/2003-10-06...,FDL,VALE3.SA,imagens,treino/comprar,2003-10-06_1.png,png
21399,FDL/VALE3.SA/imagens/treino/vender/2001-09-07_...,FDL,VALE3.SA,imagens,treino/vender,2001-09-07_-1.png,png
1713,FDL/BBAS3.SA/imagens/treino/comprar/2004-10-26...,FDL,BBAS3.SA,imagens,treino/comprar,2004-10-26_1.png,png
8729,FDL/CSNA3.SA/imagens/treino/comprar/2014-07-30...,FDL,CSNA3.SA,imagens,treino/comprar,2014-07-30_1.png,png
640,FDL/BBAS3.SA/imagens/teste/vender/2020-02-19_-...,FDL,BBAS3.SA,imagens,teste/vender,2020-02-19_-1.png,png
10202,FDL/CSNA3.SA/imagens/treino/vender/2008-07-15_...,FDL,CSNA3.SA,imagens,treino/vender,2008-07-15_-1.png,png



📊 Amostra de 5 arquivos numéricos (.parquet):


Unnamed: 0,__source_path__,projeto,ativo,tipo,classe,nome_arquivo,extensao
22627,FDL/VALE3.SA/treino.parquet,FDL,VALE3.SA,treino.parquet,,,
14338,FDL/PETR4.SA/treino.parquet,FDL,PETR4.SA,treino.parquet,,,
6770,FDL/CSNA3.SA/teste.parquet,FDL,CSNA3.SA,teste.parquet,,,
11775,FDL/CSNA3.SA/treino.parquet,FDL,CSNA3.SA,treino.parquet,,,
18961,FDL/VALE3.SA/teste.parquet,FDL,VALE3.SA,teste.parquet,,,


In [18]:
# =============================================================
# CÉLULA FINAL: PARSING ROBUSTO PARA CAMINHOS DE ARQUIVOS
# =============================================================
from pathlib import Path
import pandas as pd

# Função ajustada para extrair corretamente os campos
# com base na estrutura: projeto/ativo/tipo/[*classe]/nome.ext

def parsing_estrutura_geral(caminho):
    partes = caminho.split("/")

    projeto = partes[0] if len(partes) > 0 else None
    ativo = partes[1] if len(partes) > 1 else None
    tipo_raw = partes[2] if len(partes) > 2 else None

    nome_arquivo = partes[-1] if len(partes) > 3 else None
    classe_partes = partes[3:-1] if len(partes) > 4 else []
    classe = "/".join(classe_partes) if classe_partes else None
    extensao = Path(nome_arquivo).suffix.replace(".", "") if nome_arquivo else None

    # Correção específica para arquivos .parquet: tipo fixo e classe como None se sem subdiretório
    if extensao == "parquet":
        tipo = "numerico"
        # classe já é None se não houver subdiretório (classe_partes vazio)
    else:
        tipo = tipo_raw

    return projeto, ativo, tipo, classe, nome_arquivo, extensao

# Aplicar parsing a qualquer DataFrame com coluna '__source_path__'
def aplicar_parsing_padrao(df):
    df_parsed = df.copy()
    df_parsed[["projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"]] = (
        df_parsed["__source_path__"].apply(lambda x: pd.Series(parsing_estrutura_geral(x)))
    )
    return df_parsed

In [19]:
df_imagens = aplicar_parsing_padrao(df_imagens)
df_parquet = aplicar_parsing_padrao(df_parquet)

display(df_imagens.sample(5)[["__source_path__", "projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"]])
display(df_parquet.sample(5)[["__source_path__", "projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"]])


Unnamed: 0,__source_path__,projeto,ativo,tipo,classe,nome_arquivo,extensao
14566,FDL/PETR4.SA/imagens/treino/comprar/2013-05-20...,FDL,PETR4.SA,imagens,treino/comprar,2013-05-20_1.png,png
6926,FDL/CSNA3.SA/imagens/teste/vender/2022-10-20_-...,FDL,CSNA3.SA,imagens,teste/vender,2022-10-20_-1.png,png
22942,FDL/VALE3.SA/imagens/treino/vender/2013-03-21_...,FDL,VALE3.SA,imagens,treino/vender,2013-03-21_-1.png,png
686,FDL/BBAS3.SA/imagens/teste/vender/2020-04-29_-...,FDL,BBAS3.SA,imagens,teste/vender,2020-04-29_-1.png,png
16845,FDL/PETR4.SA/imagens/treino/vender/2012-03-27_...,FDL,PETR4.SA,imagens,treino/vender,2012-03-27_-1.png,png


Unnamed: 0,__source_path__,projeto,ativo,tipo,classe,nome_arquivo,extensao
11431,FDL/CSNA3.SA/treino.parquet,FDL,CSNA3.SA,treino.parquet,,,
15847,FDL/PETR4.SA/treino.parquet,FDL,PETR4.SA,treino.parquet,,,
4753,FDL/BBAS3.SA/treino.parquet,FDL,BBAS3.SA,treino.parquet,,,
12264,FDL/PETR4.SA/teste.parquet,FDL,PETR4.SA,teste.parquet,,,
18752,FDL/VALE3.SA/teste.parquet,FDL,VALE3.SA,teste.parquet,,,


In [None]:
# =============================================================
# CÉLULA FINAL: PARSING ROBUSTO PARA CAMINHOS DE ARQUIVOS
# =============================================================
from pathlib import Path
import pandas as pd

# Função ajustada para extrair corretamente os campos
# com base na estrutura: projeto/ativo/tipo/[*classe]/nome.ext

def parsing_estrutura_geral(caminho):
    partes = caminho.split("/")

    projeto = partes[0] if len(partes) > 0 else None
    ativo = partes[1] if len(partes) > 1 else None
    tipo_raw = partes[2] if len(partes) > 2 else None

    nome_arquivo = partes[-1] if len(partes) > 3 else None
    extensao = Path(nome_arquivo).suffix.replace(".", "") if nome_arquivo else None

    # Corrigir classe para todos os casos como tudo entre tipo e nome
    classe_partes = partes[3:-1] if len(partes) > 4 else []
    classe = "/".join(classe_partes) if classe_partes else None

    # Correção definitiva para arquivos numéricos
    if extensao == "parquet":
        tipo = "numerico"
        classe = None

    return projeto, ativo, tipo, classe, nome_arquivo, extensao

# Aplicar parsing a qualquer DataFrame com coluna '__source_path__'
def aplicar_parsing_padrao(df):
    df_parsed = df.copy()
    df_parsed[["projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"]] = (
        df_parsed["__source_path__"].apply(lambda x: pd.Series(parsing_estrutura_geral(x)))
    )
    return df_parsed

In [20]:
df_imagens = aplicar_parsing_padrao(df_imagens)
df_parquet = aplicar_parsing_padrao(df_parquet)

display(df_imagens.sample(5)[["__source_path__", "projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"]])
display(df_parquet.sample(5)[["__source_path__", "projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"]])


Unnamed: 0,__source_path__,projeto,ativo,tipo,classe,nome_arquivo,extensao
16385,FDL/PETR4.SA/imagens/treino/vender/2008-12-05_...,FDL,PETR4.SA,imagens,treino/vender,2008-12-05_-1.png,png
13567,FDL/PETR4.SA/imagens/treino/comprar/2004-09-16...,FDL,PETR4.SA,imagens,treino/comprar,2004-09-16_1.png,png
11219,FDL/CSNA3.SA/imagens/treino/vender/2014-12-18_...,FDL,CSNA3.SA,imagens,treino/vender,2014-12-18_-1.png,png
2490,FDL/BBAS3.SA/imagens/treino/comprar/2012-01-18...,FDL,BBAS3.SA,imagens,treino/comprar,2012-01-18_1.png,png
14423,FDL/PETR4.SA/imagens/treino/comprar/2011-11-14...,FDL,PETR4.SA,imagens,treino/comprar,2011-11-14_1.png,png


Unnamed: 0,__source_path__,projeto,ativo,tipo,classe,nome_arquivo,extensao
19144,FDL/VALE3.SA/treino.parquet,FDL,VALE3.SA,treino.parquet,,,
6033,FDL/CSNA3.SA/teste.parquet,FDL,CSNA3.SA,teste.parquet,,,
10537,FDL/CSNA3.SA/treino.parquet,FDL,CSNA3.SA,treino.parquet,,,
10348,FDL/CSNA3.SA/treino.parquet,FDL,CSNA3.SA,treino.parquet,,,
9986,FDL/CSNA3.SA/treino.parquet,FDL,CSNA3.SA,treino.parquet,,,


In [21]:
# =============================================================
# PARSING CORRETO E DINÂMICO PARA ARQUIVOS NUMÉRICOS (.parquet)
# =============================================================
from pathlib import Path
import pandas as pd

def parsing_numerico_com_classe(caminho):
    partes = caminho.split("/")
    
    projeto = partes[0] if len(partes) > 0 else None
    ativo = partes[1] if len(partes) > 1 else None
    nome_arquivo = partes[-1] if len(partes) > 2 else None
    extensao = Path(nome_arquivo).suffix.replace(".", "") if nome_arquivo else None
    
    # Tipo numérico, apenas se for parquet
    tipo = "numerico" if extensao == "parquet" else None

    # Classe = tudo entre ativo e nome do arquivo
    classe_partes = partes[2:-1] if len(partes) > 3 else []
    classe = "/".join(classe_partes) if classe_partes else None

    return projeto, ativo, tipo, classe, nome_arquivo, extensao

# Aplicar sobre df_parquet
df_numerico = df_parquet.copy()
df_numerico[["projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"]] = (
    df_numerico["__source_path__"].apply(lambda x: pd.Series(parsing_numerico_com_classe(x)))
)

# Exibir amostra
display(df_numerico.sample(5)[[
    "__source_path__", "projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"
]])


Unnamed: 0,__source_path__,projeto,ativo,tipo,classe,nome_arquivo,extensao
16099,FDL/PETR4.SA/treino.parquet,FDL,PETR4.SA,numerico,,treino.parquet,parquet
13777,FDL/PETR4.SA/treino.parquet,FDL,PETR4.SA,numerico,,treino.parquet,parquet
7110,FDL/CSNA3.SA/treino.parquet,FDL,CSNA3.SA,numerico,,treino.parquet,parquet
11874,FDL/PETR4.SA/teste.parquet,FDL,PETR4.SA,numerico,,teste.parquet,parquet
23216,FDL/VALE3.SA/treino.parquet,FDL,VALE3.SA,numerico,,treino.parquet,parquet


In [22]:
# =============================================================
# PARSING NUMÉRICO COM CLASSE 'TBD' QUANDO INEXISTENTE
# =============================================================
from pathlib import Path
import pandas as pd

def parsing_numerico_com_classe(caminho):
    partes = caminho.split("/")
    
    projeto = partes[0] if len(partes) > 0 else None
    ativo = partes[1] if len(partes) > 1 else None
    nome_arquivo = partes[-1] if len(partes) > 2 else None
    extensao = Path(nome_arquivo).suffix.replace(".", "") if nome_arquivo else None
    
    tipo = "numerico" if extensao == "parquet" else None

    # Tudo entre ativo e nome do arquivo vira classe
    classe_partes = partes[2:-1] if len(partes) > 3 else []
    classe = "/".join(classe_partes) if classe_partes else "TBD"

    return projeto, ativo, tipo, classe, nome_arquivo, extensao

# Aplicar ao DataFrame de parquet
df_numerico = df_parquet.copy()
df_numerico[["projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"]] = (
    df_numerico["__source_path__"].apply(lambda x: pd.Series(parsing_numerico_com_classe(x)))
)

# Exibir amostra
display(df_numerico.sample(5)[[
    "__source_path__", "projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"
]])


Unnamed: 0,__source_path__,projeto,ativo,tipo,classe,nome_arquivo,extensao
18515,FDL/VALE3.SA/teste.parquet,FDL,VALE3.SA,numerico,TBD,teste.parquet,parquet
4755,FDL/BBAS3.SA/treino.parquet,FDL,BBAS3.SA,numerico,TBD,treino.parquet,parquet
6638,FDL/CSNA3.SA/teste.parquet,FDL,CSNA3.SA,numerico,TBD,teste.parquet,parquet
5217,FDL/BBAS3.SA/treino.parquet,FDL,BBAS3.SA,numerico,TBD,treino.parquet,parquet
13385,FDL/PETR4.SA/treino.parquet,FDL,PETR4.SA,numerico,TBD,treino.parquet,parquet


In [23]:
# =============================================================
# UNIÃO DAS BASES: IMAGEM + NUMÉRICO
# =============================================================

# Garantir que df_imagens tenha sido parseado antes
df_imagens = aplicar_parsing_padrao(df_imagens)
df_imagens["classe"] = df_imagens["classe"].fillna("TBD")

# Selecionar apenas colunas compatíveis
colunas = ["__source_path__", "projeto", "ativo", "tipo", "classe", "nome_arquivo", "extensao"]
df_unificado = pd.concat([df_imagens[colunas], df_numerico[colunas]], ignore_index=True)

# Exibir amostra combinada
print(f"🔗 DataFrame unificado com {len(df_unificado)} arquivos.")
display(df_unificado.sample(10))


🔗 DataFrame unificado com 47727 arquivos.


Unnamed: 0,__source_path__,projeto,ativo,tipo,classe,nome_arquivo,extensao
46327,FDL/VALE3.SA/treino.parquet,FDL,VALE3.SA,numerico,TBD,treino.parquet,parquet
47106,FDL/VALE3.SA/treino.parquet,FDL,VALE3.SA,numerico,TBD,treino.parquet,parquet
10154,FDL/CSNA3.SA/imagens/treino/vender/2008-01-23_...,FDL,CSNA3.SA,imagens,treino/vender,2008-01-23_-1.png,png
35111,FDL/CSNA3.SA/treino.parquet,FDL,CSNA3.SA,numerico,TBD,treino.parquet,parquet
31922,FDL/CSNA3.SA/treino.parquet,FDL,CSNA3.SA,numerico,TBD,treino.parquet,parquet
15871,FDL/PETR4.SA/imagens/treino/vender/2004-07-26_...,FDL,PETR4.SA,imagens,treino/vender,2004-07-26_-1.png,png
14021,FDL/PETR4.SA/imagens/treino/comprar/2007-10-31...,FDL,PETR4.SA,imagens,treino/comprar,2007-10-31_1.png,png
24639,FDL/BBAS3.SA/teste.parquet,FDL,BBAS3.SA,numerico,TBD,teste.parquet,parquet
12290,FDL/PETR4.SA/imagens/teste/comprar/2022-10-17_...,FDL,PETR4.SA,imagens,teste/comprar,2022-10-17_1.png,png
34184,FDL/CSNA3.SA/treino.parquet,FDL,CSNA3.SA,numerico,TBD,treino.parquet,parquet


In [31]:
# =============================================================
# IMPORTAÇÃO DE NOMES DA projects_registry PARA export_project_name
# =============================================================
from sqlalchemy import text

# Buscar nomes únicos da projects_registry
query = "SELECT DISTINCT project_name FROM projects_registry"
with engine.connect() as conn:
    projetos_registry = pd.read_sql(query, conn)

# Buscar já existentes na export_project_name
query_existentes = "SELECT nome_projeto FROM export_project_name"
with engine.connect() as conn:
    existentes = pd.read_sql(query_existentes, conn)

# Identificar os que ainda não estão presentes
novos = projetos_registry[~projetos_registry["project_name"].isin(existentes["nome_projeto"])]

# Inserir com prefixo = 'TBD' e origem = 'registry'
with engine.connect() as conn:
    for nome in novos["project_name"]:
        stmt = text("""
            INSERT INTO export_project_name (nome_projeto, prefixo, origem)
            VALUES (:nome, 'TBD', 'registry')
        """)
        conn.execute(stmt, {"nome": nome})

print(f"✅ {len(novos)} projetos importados da projects_registry para export_project_name.")


ProgrammingError: (psycopg2.errors.UndefinedTable) relation "export_project_name" does not exist
LINE 1: SELECT nome_projeto FROM export_project_name
                                 ^

[SQL: SELECT nome_projeto FROM export_project_name]
(Background on this error at: https://sqlalche.me/e/20/f405)

In [32]:
# =============================================================
# VERIFICAR SE A TABELA 'export_project_name' EXISTE DE FATO
# =============================================================
query_verificacao = """
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'public'
AND table_name = 'export_project_name'
"""

with engine.connect() as conn:
    resultado = pd.read_sql(query_verificacao, conn)

if not resultado.empty:
    print("✅ A tabela 'export_project_name' EXISTE no schema 'public'.")
else:
    print("❌ A tabela 'export_project_name' NÃO FOI ENCONTRADA no schema atual.")


❌ A tabela 'export_project_name' NÃO FOI ENCONTRADA no schema atual.


In [33]:
# =============================================================
# CRIAR TABELA 'export_project_name' COM SQL EXPLÍCITO
# =============================================================
from sqlalchemy import text

sql_create = text("""
CREATE TABLE IF NOT EXISTS export_project_name (
    id SERIAL PRIMARY KEY,
    nome_projeto TEXT UNIQUE NOT NULL,
    prefixo VARCHAR(3) NOT NULL,
    origem TEXT NOT NULL,
    criado_em TIMESTAMP DEFAULT CURRENT_TIMESTAMP
)
""")

with engine.connect() as conn:
    conn.execute(sql_create)

print("✅ Tabela 'export_project_name' criada diretamente via SQL.")


✅ Tabela 'export_project_name' criada diretamente via SQL.


In [34]:
# =============================================================
# IMPORTAÇÃO DE NOMES DA projects_registry PARA export_project_name
# =============================================================
from sqlalchemy import text

# Buscar nomes únicos da projects_registry
query = "SELECT DISTINCT project_name FROM projects_registry"
with engine.connect() as conn:
    projetos_registry = pd.read_sql(query, conn)

# Buscar já existentes na export_project_name
query_existentes = "SELECT nome_projeto FROM export_project_name"
with engine.connect() as conn:
    existentes = pd.read_sql(query_existentes, conn)

# Identificar os que ainda não estão presentes
novos = projetos_registry[~projetos_registry["project_name"].isin(existentes["nome_projeto"])]

# Inserir com prefixo = 'TBD' e origem = 'registry'
with engine.connect() as conn:
    for nome in novos["project_name"]:
        stmt = text("""
            INSERT INTO export_project_name (nome_projeto, prefixo, origem)
            VALUES (:nome, 'TBD', 'registry')
        """)
        conn.execute(stmt, {"nome": nome})

print(f"✅ {len(novos)} projetos importados da projects_registry para export_project_name.")


ProgrammingError: (psycopg2.errors.UndefinedTable) relation "export_project_name" does not exist
LINE 1: SELECT nome_projeto FROM export_project_name
                                 ^

[SQL: SELECT nome_projeto FROM export_project_name]
(Background on this error at: https://sqlalche.me/e/20/f405)

In [37]:
# =============================================================
# LISTAR TODAS AS TABELAS EXISTENTES NO SCHEMA PUBLIC
# =============================================================
query = """
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'public'
ORDER BY table_name
"""

with engine.connect() as conn:
    tabelas = pd.read_sql(query, conn)

print("📋 Tabelas visíveis no schema 'public':")
display(tabelas)


📋 Tabelas visíveis no schema 'public':


Unnamed: 0,table_name
0,curation_audit
1,curation_audit_teste
2,projects_registry
3,reception_audit
4,staging_audit
5,staging_audit_teste
6,storage_audit
7,storage_com_origem


In [36]:
# =============================================================
# RECRIAÇÃO DIRETA EM SCHEMA 'public' DE FORMA EXPLÍCITA
# =============================================================
from sqlalchemy import text

sql_create_public = text("""
CREATE TABLE IF NOT EXISTS public.export_project_name (
    id SERIAL PRIMARY KEY,
    nome_projeto TEXT UNIQUE NOT NULL,
    prefixo VARCHAR(3) NOT NULL,
    origem TEXT NOT NULL,
    criado_em TIMESTAMP DEFAULT CURRENT_TIMESTAMP
)
""")

with engine.connect() as conn:
    conn.execute(sql_create_public)

print("✅ Tabela 'export_project_name' criada explicitamente no schema 'public'.")


✅ Tabela 'export_project_name' criada explicitamente no schema 'public'.


In [38]:
# =============================================================
# VERIFICAR SE A TABELA 'export_project_name' AGORA EXISTE
# =============================================================
query = """
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'public'
ORDER BY table_name
"""

with engine.connect() as conn:
    tabelas = pd.read_sql(query, conn)

print("📋 Tabelas visíveis no schema 'public':")
display(tabelas)


📋 Tabelas visíveis no schema 'public':


Unnamed: 0,table_name
0,curation_audit
1,curation_audit_teste
2,projects_registry
3,reception_audit
4,staging_audit
5,staging_audit_teste
6,storage_audit
7,storage_com_origem


In [39]:
# =============================================================
# CONFIRMAR BANCO + CRIAR TABELA + IMPORTAR NOMES
# =============================================================
from sqlalchemy import text

# 1️⃣ Confirmar nome do banco atual
with engine.connect() as conn:
    dbname = conn.execute(text("SELECT current_database();")).scalar()
print(f"📌 Banco conectado atualmente: {dbname}")

# 2️⃣ Criar tabela no schema 'public'
sql_create_public = text("""
CREATE TABLE IF NOT EXISTS public.export_project_name (
    id SERIAL PRIMARY KEY,
    nome_projeto TEXT UNIQUE NOT NULL,
    prefixo VARCHAR(3) NOT NULL,
    origem TEXT NOT NULL,
    criado_em TIMESTAMP DEFAULT CURRENT_TIMESTAMP
)
""")
with engine.connect() as conn:
    conn.execute(sql_create_public)

print("✅ Tabela 'export_project_name' garantida no schema 'public'.")

# 3️⃣ Carregar projetos da tabela de origem
with engine.connect() as conn:
    projetos_registry = pd.read_sql("SELECT DISTINCT project_name FROM projects_registry", conn)
    existentes = pd.read_sql("SELECT nome_projeto FROM public.export_project_name", conn)

# 4️⃣ Identificar e inserir os novos
novos = projetos_registry[~projetos_registry["project_name"].isin(existentes["nome_projeto"])]

with engine.connect() as conn:
    for nome in novos["project_name"]:
        stmt = text("""
            INSERT INTO public.export_project_name (nome_projeto, prefixo, origem)
            VALUES (:nome, 'TBD', 'registry')
        """)
        conn.execute(stmt, {"nome": nome})

print(f"✅ {len(novos)} projetos importados da projects_registry para export_project_name.")


📌 Banco conectado atualmente: postgres
✅ Tabela 'export_project_name' garantida no schema 'public'.


ProgrammingError: (psycopg2.errors.UndefinedTable) relation "public.export_project_name" does not exist
LINE 1: SELECT nome_projeto FROM public.export_project_name
                                 ^

[SQL: SELECT nome_projeto FROM public.export_project_name]
(Background on this error at: https://sqlalche.me/e/20/f405)

In [40]:
# =============================================================
# CONFIRMAÇÃO, CRIAÇÃO E IMPORTAÇÃO (ROBUSTO)
# =============================================================
from sqlalchemy import text

# 1️⃣ Confirmar nome do banco
with engine.connect() as conn:
    dbname = conn.execute(text("SELECT current_database();")).scalar()
print(f"📌 Banco conectado atualmente: {dbname}")

# 2️⃣ Garantir criação da tabela no schema 'public'
sql_create_public = text("""
CREATE TABLE IF NOT EXISTS public.export_project_name (
    id SERIAL PRIMARY KEY,
    nome_projeto TEXT UNIQUE NOT NULL,
    prefixo VARCHAR(3) NOT NULL,
    origem TEXT NOT NULL,
    criado_em TIMESTAMP DEFAULT CURRENT_TIMESTAMP
)
""")
with engine.connect() as conn:
    conn.execute(sql_create_public)

print("✅ Tabela 'export_project_name' garantida.")

# 3️⃣ Buscar projetos do registro
with engine.connect() as conn:
    projetos_registry = pd.read_sql("SELECT DISTINCT project_name FROM projects_registry", conn)

    # ⚠️ Aqui usamos execução direta para evitar erro
    stmt = text("SELECT nome_projeto FROM export_project_name")
    result = conn.execute(stmt)
    existentes = pd.DataFrame(result.fetchall(), columns=["nome_projeto"])

# 4️⃣ Identificar novos
novos = projetos_registry[~projetos_registry["project_name"].isin(existentes["nome_projeto"])]

# 5️⃣ Inserir os novos
with engine.connect() as conn:
    for nome in novos["project_name"]:
        stmt = text("""
            INSERT INTO export_project_name (nome_projeto, prefixo, origem)
            VALUES (:nome, 'TBD', 'registry')
        """)
        conn.execute(stmt, {"nome": nome})

print(f"✅ {len(novos)} projetos importados da projects_registry para export_project_name.")


📌 Banco conectado atualmente: postgres
✅ Tabela 'export_project_name' garantida.


ProgrammingError: (psycopg2.errors.UndefinedTable) relation "export_project_name" does not exist
LINE 1: SELECT nome_projeto FROM export_project_name
                                 ^

[SQL: SELECT nome_projeto FROM export_project_name]
(Background on this error at: https://sqlalche.me/e/20/f405)

In [41]:
# =============================================================
# LISTAR TODAS AS TABELAS COM SCHEMA E TIPO
# =============================================================
query = """
SELECT table_schema, table_name
FROM information_schema.tables
WHERE table_type = 'BASE TABLE'
ORDER BY table_schema, table_name
"""

with engine.connect() as conn:
    tabelas_full = pd.read_sql(query, conn)

display(tabelas_full)


Unnamed: 0,table_schema,table_name
0,information_schema,sql_features
1,information_schema,sql_implementation_info
2,information_schema,sql_parts
3,information_schema,sql_sizing
4,pg_catalog,pg_aggregate
...,...,...
70,public,projects_registry
71,public,reception_audit
72,public,staging_audit
73,public,staging_audit_teste


In [42]:
from sqlalchemy import create_engine, text
ENGINE_URI = "postgresql+psycopg2://postgres:senhasegura@database-services:5432/postgres"
engine = create_engine(ENGINE_URI, future=True, echo=False)  # use sempre ESTE objeto


In [43]:
with engine.connect() as conn:
    conn.execute(text("SET search_path TO public"))


In [44]:
with engine.begin() as conn:          # begin() = COMMIT implícito
    conn.execute(text("""
        CREATE TABLE IF NOT EXISTS export_project_name (
            id SERIAL PRIMARY KEY,
            nome_projeto TEXT UNIQUE NOT NULL,
            prefixo VARCHAR(3) NOT NULL,
            origem  TEXT NOT NULL,
            criado_em TIMESTAMP DEFAULT CURRENT_TIMESTAMP
        )
    """))


In [45]:
with engine.connect() as conn:
    ok = conn.execute(text(
        "SELECT to_regclass('public.export_project_name')"
    )).scalar()
print("👀 Tabela visível:", ok)        # deve imprimir 'public.export_project_name'


👀 Tabela visível: export_project_name


In [46]:
with engine.begin() as conn:
    novos = conn.execute(text("""
        INSERT INTO export_project_name (nome_projeto, prefixo, origem)
        SELECT DISTINCT project_name, 'TBD', 'registry'
        FROM projects_registry pr
        WHERE NOT EXISTS (
            SELECT 1 FROM export_project_name ep
            WHERE ep.nome_projeto = pr.project_name
        )
    """)).rowcount
print(f"✅ {novos} projetos inseridos / atualizados.")


✅ 1 projetos inseridos / atualizados.


In [None]:
# =============================================================
# WIDGET – SINCRONIZAÇÃO + ESCOLHA/CRIAÇÃO DE PROJETO DE EXPORTAÇÃO
# =============================================================
import pandas as pd
import ipywidgets as widgets
from IPython.display import display, clear_output
from sqlalchemy import text

# 1) Sincronizar export_project_name com projects_registry
with engine.begin() as conn:
    conn.execute(text("""
        INSERT INTO export_project_name (nome_projeto, prefixo, origem)
        SELECT DISTINCT project_name, 'TBD', 'registry'
        FROM projects_registry pr
        WHERE NOT EXISTS (
            SELECT 1 FROM export_project_name ep
            WHERE ep.nome_projeto = pr.project_name
        )
    """))

# 2) Carregar lista atualizada
def carregar_projetos():
    with engine.connect() as conn:
        return pd.read_sql("SELECT nome_projeto, prefixo FROM export_project_name ORDER BY nome_projeto", conn)

df_proj = carregar_projetos()

# 3) Construir widgets
w_dropdown = widgets.Dropdown(
    options=["(Criar novo)"] + df_proj["nome_projeto"].tolist(),
    description="Projeto:"
)
w_nome   = widgets.Text(description="Novo nome:")
w_pre    = widgets.Text(description="Prefixo (3):", placeholder="ABC")
btn_save = widgets.Button(description="Salvar/Usar", button_style="success")
out_msg  = widgets.Output()

# 4) Variáveis globais de resultado
PROJETO_ESCOLHIDO  = None
PREFIXO_ESCOLHIDO  = None

def salvar_ou_usar(_):
    global PROJETO_ESCOLHIDO, PREFIXO_ESCOLHIDO
    with out_msg:
        clear_output()
        # Caso selecione um existente
        if w_dropdown.value != "(Criar novo)":
            linha = df_proj[df_proj["nome_projeto"] == w_dropdown.value].iloc[0]
            PROJETO_ESCOLHIDO  = linha["nome_projeto"]
            PREFIXO_ESCOLHIDO  = linha["prefixo"]
            print(f"✅ Usando projeto existente: {PROJETO_ESCOLHIDO} | prefixo {PREFIXO_ESCOLHIDO}")
            return
        # Caso queira criar novo
        nome = w_nome.value.strip()
        pref = w_pre.value.strip().upper()
        if len(pref) != 3 or not pref.isalnum():
            print("⚠️ Prefixo precisa ter 3 caracteres alfanuméricos.")
            return
        if nome == "":
            print("⚠️ Nome do projeto não pode estar vazio.")
            return
        # Inserir no banco (se ainda não existir)
        with engine.begin() as conn:
            conn.execute(text("""
                INSERT INTO export_project_name (nome_projeto, prefixo, origem)
                VALUES (:nome, :pref, 'manual')
                ON CONFLICT (nome_projeto) DO NOTHING
            """), {"nome": nome, "pref": pref})
        PROJETO_ESCOLHIDO = nome
        PREFIXO_ESCOLHIDO = pref
        print(f"✅ Projeto '{nome}' criado com prefixo '{pref}' e selecionado.")

btn_save.on_click(salvar_ou_usar)

display(widgets.VBox([
    w_dropdown,
    widgets.HBox([w_nome, w_pre]),
    btn_save,
    out_msg
]))


VBox(children=(Dropdown(description='Projeto:', options=('(Criar novo)', 'FIAP - DEEP LEARNING'), value='(Cria…