In [None]:
# =============================================================
# NOTEBOOK B — versão compatível com o esquema completo
# =============================================================
import os
from pathlib import Path
import pandas as pd
from tqdm.notebook import tqdm
import ipywidgets as widgets
from IPython.display import display

from minio import Minio
from minio.commonconfig import CopySource
from minio.error import S3Error
from sqlalchemy import create_engine, text

# ─────────────────────────────────────────────────────────────
# 🔧 CONFIGURAÇÕES
# ─────────────────────────────────────────────────────────────
MINIO_ENDPOINT   = "minio:9000"
MINIO_ACCESS_KEY = "admin"
MINIO_SECRET_KEY = "senhasegura"

BUCKET_ORIGEM  = "reception-raw"
BUCKET_DESTINO = "storage-unique"

PG_HOST = "database-services"
PG_PORT = 5432
PG_DB   = "postgres"
PG_USER = "postgres"
PG_PASS = "senhasegura"

# ─────────────────────────────────────────────────────────────
# ⚙️ CONEXÕES
# ─────────────────────────────────────────────────────────────
engine = create_engine(
    f"postgresql+psycopg2://{PG_USER}:{PG_PASS}@{PG_HOST}:{PG_PORT}/{PG_DB}",
    future=True,
)

minio_client = Minio(
    MINIO_ENDPOINT, MINIO_ACCESS_KEY, MINIO_SECRET_KEY, secure=False
)
if not minio_client.bucket_exists(BUCKET_DESTINO):
    minio_client.make_bucket(BUCKET_DESTINO)

# -----------------------------------------------------------------
# GARANTE unicidade de hash_sha256  (executa 1 vez — ignora se já existe)
# -----------------------------------------------------------------
with engine.begin() as conn:
    try:
        conn.execute(text("""
            ALTER TABLE storage_audit
            ADD CONSTRAINT storage_audit_hash_sha256_unique UNIQUE (hash_sha256);
        """))
        print("✅ UNIQUE(hash_sha256) criado.")
    except Exception as e:
        if "already exists" in str(e):
            print("ℹ️ UNIQUE(hash_sha256) já existia — tudo ok.")
        else:
            raise


# ─────────────────────────────────────────────────────────────
# 📋 FUNÇÕES
# ─────────────────────────────────────────────────────────────
def carregar_projetos():
    return pd.read_sql(
        "SELECT project_name, prefix FROM projects_registry WHERE active = TRUE ORDER BY project_name",
        engine,
    )

def criar_novo_projeto_widget(dropdown):
    nome_txt = widgets.Text(description="Nome:")
    pref_txt = widgets.Text(description="Prefixo:")
    save_btn = widgets.Button(description="Salvar", button_style="primary")
    box      = widgets.VBox([nome_txt, pref_txt, save_btn])
    display(box)

    def _save(_):
        if not nome_txt.value or not pref_txt.value:
            print("⚠️ Nome e prefixo obrigatórios.")
            return
        with engine.begin() as conn:
            conn.execute(
                text(
                    "INSERT INTO projects_registry (project_name, prefix, active) "
                    "VALUES (:n, :p, TRUE)"
                ),
                {"n": nome_txt.value, "p": pref_txt.value},
            )
        print(f"✅ Projeto “{nome_txt.value}” criado.")
        box.close()
        dropdown.options = ["⏩ Criar novo projeto"] + carregar_projetos().project_name.tolist()
        dropdown.value   = nome_txt.value

    save_btn.on_click(_save)

# ─────────────────────────────────────────────────────────────
# 🖱️ UI
# ─────────────────────────────────────────────────────────────
df_proj  = carregar_projetos()
dropdown = widgets.Dropdown(
    options=["⏩ Criar novo projeto"] + df_proj.project_name.tolist(),
    description="Projeto:",
    layout=widgets.Layout(width="50%"),
)
btn_run = widgets.Button(description="Iniciar Movimentação", button_style="success")
out = widgets.Output()
display(dropdown, btn_run, out)

# ─────────────────────────────────────────────────────────────
# 🚚 LOOP PRINCIPAL
# ─────────────────────────────────────────────────────────────
def mover_arquivos(_):
    out.clear_output(wait=True)
    with out:
        # ── criação de projeto se necessário
        if dropdown.value == "⏩ Criar novo projeto":
            criar_novo_projeto_widget(dropdown)
            return

        projeto = dropdown.value
        prefixo = carregar_projetos().set_index("project_name").loc[projeto, "prefix"]
        if not prefixo:
            print("❌ Prefixo vazio. Abortando.")
            return

        print(f"🚀 Projeto: {projeto}  |  Prefixo: {prefixo}")

        # Arquivos ainda não migrados
        df_new = pd.read_sql(
            """
            SELECT ra.* 
            FROM reception_audit ra
            LEFT JOIN storage_audit sa USING (hash_sha256)
            WHERE sa.hash_sha256 IS NULL
            """,
            engine,
        )
        total = len(df_new)
        if total == 0:
            print("🎉 Nenhum novo arquivo a migrar.")
            return

        copied = skipped = 0
        pbar = tqdm(df_new.itertuples(), total=total, desc="Migrando")

        for row in pbar:
            object_path = row.caminho_minio

            # 1) remove 'reception-raw/' se presente
            if object_path.startswith(f"{BUCKET_ORIGEM}/"):
                object_path = object_path[len(f"{BUCKET_ORIGEM}/"):]
            # 2) separa diretório de origem (Google) + restante
            parts           = object_path.split("/", 1)
            diretorio_orig  = parts[0]                       # pasta do Google Drive
            object_rel      = parts[1] if len(parts) == 2 else parts[0]
            dest_path       = f"{prefixo}/{object_rel}"
            full_path       = dest_path
            filename        = os.path.basename(dest_path)

            # pula se já existe
            try:
                minio_client.stat_object(BUCKET_DESTINO, dest_path)
                skipped += 1
                pbar.set_postfix({"copiados": copied, "pulados": skipped})
                continue
            except S3Error as e:
                if e.code != "NoSuchKey":
                    raise

            # --- cópia server-side
            src = CopySource(BUCKET_ORIGEM, object_path)
            minio_client.copy_object(BUCKET_DESTINO, dest_path, src)

            # tamanho em bytes (pega após copiar)
            size_bytes = minio_client.stat_object(BUCKET_DESTINO, dest_path).size

            copied += 1
            pbar.set_postfix({"copiados": copied, "pulados": skipped})

            # --- auditoria (todas colunas NOT NULL preenchidas)
            with engine.begin() as conn:
                conn.execute(
                    text(
                        """
                        INSERT INTO storage_audit
                            (prefix, project_name, bucket, full_path,
                             filename, size_bytes, source_bucket,
                             caminho_minio, hash_sha256, diretorio_origem)
                        VALUES
                            (:pref, :proj, :bucket, :full_path,
                             :filename, :size_bytes, :source_bucket,
                             :caminho_minio, :hash_sha256, :dir_orig)
                        """
                    ),
                    {
                        "pref"          : prefixo,
                        "proj"          : projeto,
                        "bucket"        : BUCKET_DESTINO,
                        "full_path"     : full_path,
                        "filename"      : filename,
                        "size_bytes"    : size_bytes,
                        "source_bucket" : BUCKET_ORIGEM,
                        "caminho_minio" : dest_path,
                        "hash_sha256"   : row.hash_sha256,
                        "dir_orig"      : diretorio_orig,
                    },
                )

        print(f"✅ Concluído → {copied} copiados │ {skipped} já existiam.")

btn_run.on_click(mover_arquivos)


In [1]:
# =============================================================
# NOTEBOOK B — Movimentação reception-raw ➜ storage-unique
# (versão SEM ALTER TABLE UNIQUE, para evitar travas)
# =============================================================
import os
from pathlib import Path
import pandas as pd
from tqdm.notebook import tqdm
import ipywidgets as widgets
from IPython.display import display

from minio import Minio
from minio.commonconfig import CopySource
from minio.error import S3Error
from sqlalchemy import create_engine, text

# ─────────────────────────────────────────────────────────────
# 🔧 CONFIGURAÇÕES
# ─────────────────────────────────────────────────────────────
MINIO_ENDPOINT   = "minio:9000"
MINIO_ACCESS_KEY = "admin"
MINIO_SECRET_KEY = "senhasegura"

BUCKET_ORIGEM  = "reception-raw"
BUCKET_DESTINO = "storage-unique"

PG_HOST = "database-services"
PG_PORT = 5432
PG_DB   = "postgres"
PG_USER = "postgres"
PG_PASS = "senhasegura"

# ─────────────────────────────────────────────────────────────
# ⚙️ CONEXÕES
# ─────────────────────────────────────────────────────────────
engine = create_engine(
    f"postgresql+psycopg2://{PG_USER}:{PG_PASS}@{PG_HOST}:{PG_PORT}/{PG_DB}",
    future=True,
)

minio_client = Minio(
    MINIO_ENDPOINT, MINIO_ACCESS_KEY, MINIO_SECRET_KEY, secure=False
)
if not minio_client.bucket_exists(BUCKET_DESTINO):
    minio_client.make_bucket(BUCKET_DESTINO)

# ─────────────────────────────────────────────────────────────
# 📋 FUNÇÕES AUXILIARES
# ─────────────────────────────────────────────────────────────
def carregar_projetos() -> pd.DataFrame:
    return pd.read_sql(
        "SELECT project_name, prefix FROM projects_registry "
        "WHERE active = TRUE ORDER BY project_name",
        engine,
    )

def criar_novo_projeto_widget(dropdown):
    nome_txt = widgets.Text(description="Nome:")
    pref_txt = widgets.Text(description="Prefixo:")
    save_btn = widgets.Button(description="Salvar", button_style="primary")
    box      = widgets.VBox([nome_txt, pref_txt, save_btn])
    display(box)

    def _save(_):
        if not nome_txt.value or not pref_txt.value:
            print("⚠️ Nome e prefixo obrigatórios.")
            return
        with engine.begin() as conn:
            conn.execute(
                text(
                    "INSERT INTO projects_registry (project_name, prefix, active) "
                    "VALUES (:n, :p, TRUE)"
                ),
                {"n": nome_txt.value, "p": pref_txt.value},
            )
        print(f"✅ Projeto “{nome_txt.value}” criado.")
        box.close()
        dropdown.options = ["⏩ Criar novo projeto"] + carregar_projetos().project_name.tolist()
        dropdown.value   = nome_txt.value

    save_btn.on_click(_save)

# ─────────────────────────────────────────────────────────────
# 🖱️ UI
# ─────────────────────────────────────────────────────────────
df_proj  = carregar_projetos()
dropdown = widgets.Dropdown(
    options=["⏩ Criar novo projeto"] + df_proj.project_name.tolist(),
    description="Projeto:",
    layout=widgets.Layout(width="50%"),
)
btn_run = widgets.Button(description="Iniciar Movimentação", button_style="success")
out = widgets.Output()
display(dropdown, btn_run, out)

# ─────────────────────────────────────────────────────────────
# 🚚 LOOP PRINCIPAL
# ─────────────────────────────────────────────────────────────
def mover_arquivos(_):
    out.clear_output(wait=True)
    with out:
        if dropdown.value == "⏩ Criar novo projeto":
            criar_novo_projeto_widget(dropdown)
            return

        projeto = dropdown.value
        prefixo = carregar_projetos().set_index("project_name").loc[projeto, "prefix"]
        if not prefixo:
            print("❌ Prefixo vazio. Abortando.")
            return

        print(f"🚀 Projeto: {projeto}  |  Prefixo: {prefixo}")

        df_new = pd.read_sql(
            """
            SELECT ra.* 
            FROM reception_audit ra
            LEFT JOIN storage_audit sa USING (hash_sha256)
            WHERE sa.hash_sha256 IS NULL
            """,
            engine,
        )
        total = len(df_new)
        if total == 0:
            print("🎉 Nenhum novo arquivo a migrar.")
            return

        copied = skipped = 0
        pbar = tqdm(df_new.itertuples(), total=total, desc="Migrando")

        for row in pbar:
            object_path = row.caminho_minio
            if object_path.startswith(f"{BUCKET_ORIGEM}/"):
                object_path = object_path[len(f"{BUCKET_ORIGEM}/"):]
            parts          = object_path.split("/", 1)
            diretorio_orig = parts[0]
            object_rel     = parts[1] if len(parts) == 2 else parts[0]

            dest_path  = f"{prefixo}/{object_rel}"
            full_path  = dest_path
            filename   = os.path.basename(dest_path)

            try:
                minio_client.stat_object(BUCKET_DESTINO, dest_path)
                skipped += 1
                pbar.set_postfix({"copiados": copied, "pulados": skipped})
                continue
            except S3Error as e:
                if e.code != "NoSuchKey":
                    raise

            src = CopySource(BUCKET_ORIGEM, object_path)
            minio_client.copy_object(BUCKET_DESTINO, dest_path, src)
            size_bytes = minio_client.stat_object(BUCKET_DESTINO, dest_path).size
            copied += 1
            pbar.set_postfix({"copiados": copied, "pulados": skipped})

            with engine.begin() as conn:
                conn.execute(
                    text(
                        """
                        INSERT INTO storage_audit
                            (prefix, project_name, bucket, full_path,
                             filename, size_bytes, source_bucket,
                             caminho_minio, hash_sha256, diretorio_origem)
                        VALUES
                            (:pref, :proj, :bucket, :full_path,
                             :filename, :size_bytes, :src_bucket,
                             :caminho_minio, :hash_sha256, :dir_ori)
                        ON CONFLICT (hash_sha256) DO NOTHING
                        """
                    ),
                    {
                        "pref"         : prefixo,
                        "proj"         : projeto,
                        "bucket"       : BUCKET_DESTINO,
                        "full_path"    : full_path,
                        "filename"     : filename,
                        "size_bytes"   : size_bytes,
                        "src_bucket"   : BUCKET_ORIGEM,
                        "caminho_minio": dest_path,
                        "hash_sha256"  : row.hash_sha256,
                        "dir_ori"      : diretorio_orig,
                    },
                )

        print(f"✅ Concluído → {copied} copiados │ {skipped} já existiam.")

btn_run.on_click(mover_arquivos)


Dropdown(description='Projeto:', layout=Layout(width='50%'), options=('⏩ Criar novo projeto', 'FIAP - DEEP LEA…

Button(button_style='success', description='Iniciar Movimentação', style=ButtonStyle())

Output()

In [None]:
# =============================================================
# NOTEBOOK B — Movimentação reception-raw ➜ storage-unique
# Barra de progresso aparece mesmo sem novos arquivos
# =============================================================
import os
import pandas as pd
from tqdm.notebook import tqdm
import ipywidgets as widgets
from IPython.display import display

from minio import Minio
from minio.commonconfig import CopySource
from minio.error import S3Error
from sqlalchemy import create_engine, text

# ─────────────────────────────────────────────────────────────
# 🔧 CONFIGURAÇÕES
# ─────────────────────────────────────────────────────────────
MINIO_ENDPOINT   = "minio:9000"
MINIO_ACCESS_KEY = "admin"
MINIO_SECRET_KEY = "senhasegura"

BUCKET_ORIGEM  = "reception-raw"
BUCKET_DESTINO = "storage-unique"

PG_DSN = "postgresql+psycopg2://postgres:senhasegura@database-services:5432/postgres"

# ─────────────────────────────────────────────────────────────
# ⚙️ CONEXÕES
# ─────────────────────────────────────────────────────────────
engine = create_engine(PG_DSN, future=True)
minio_client = Minio(MINIO_ENDPOINT, MINIO_ACCESS_KEY, MINIO_SECRET_KEY, secure=False)
if not minio_client.bucket_exists(BUCKET_DESTINO):
    minio_client.make_bucket(BUCKET_DESTINO)

# ─────────────────────────────────────────────────────────────
# 📋 FUNÇÕES AUXILIARES
# ─────────────────────────────────────────────────────────────
def carregar_projetos():
    return pd.read_sql(
        "SELECT project_name, prefix FROM projects_registry WHERE active",
        engine,
    )

def criar_novo_projeto_widget(dropdown):
    nome_txt = widgets.Text(description="Nome:")
    pref_txt = widgets.Text(description="Prefixo:")
    save_btn = widgets.Button(description="Salvar", button_style="primary")
    box      = widgets.VBox([nome_txt, pref_txt, save_btn])
    display(box)

    def _save(_):
        if not nome_txt.value or not pref_txt.value:
            print("⚠️ Nome e prefixo obrigatórios.")
            return
        with engine.begin() as conn:
            conn.execute(
                text("INSERT INTO projects_registry (project_name, prefix, active) "
                     "VALUES (:n, :p, TRUE)"),
                {"n": nome_txt.value, "p": pref_txt.value},
            )
        print(f"✅ Projeto “{nome_txt.value}” criado.")
        box.close()
        dropdown.options = ["⏩ Criar novo projeto"] + carregar_projetos().project_name.tolist()
        dropdown.value   = nome_txt.value

    save_btn.on_click(_save)

# ─────────────────────────────────────────────────────────────
# 🖱️ UI
# ─────────────────────────────────────────────────────────────
df_proj  = carregar_projetos()
dropdown = widgets.Dropdown(
    options=["⏩ Criar novo projeto"] + df_proj.project_name.tolist(),
    description="Projeto:",
    layout=widgets.Layout(width="50%"),
)
btn_run = widgets.Button(description="Iniciar Movimentação", button_style="success")
out = widgets.Output()
display(dropdown, btn_run, out)

# ─────────────────────────────────────────────────────────────
# 🚚 LOOP PRINCIPAL
# ─────────────────────────────────────────────────────────────
def mover_arquivos(_):
    out.clear_output(wait=True)
    with out:
        if dropdown.value == "⏩ Criar novo projeto":
            criar_novo_projeto_widget(dropdown)
            return

        projeto = dropdown.value
        prefixo = carregar_projetos().set_index("project_name").loc[projeto, "prefix"]
        if not prefixo:
            print("❌ Prefixo vazio. Abortando.")
            return

        print(f"🚀 Projeto: {projeto}  |  Prefixo: {prefixo}")

        df_new = pd.read_sql(
            """
            SELECT ra.* 
            FROM reception_audit ra
            LEFT JOIN storage_audit sa USING (hash_sha256)
            WHERE sa.hash_sha256 IS NULL
            """,
            engine,
        )
        total = len(df_new)

        # barra sempre exibida (mesmo que total = 0)
        pbar = tqdm(df_new.itertuples(), total=max(total, 1), desc="Migrando")

        if total == 0:
            print("🎉 Nenhum novo arquivo a migrar.")
            pbar.close()
            return

        copied = skipped = 0
        for row in pbar:
            object_path = row.caminho_minio
            if object_path.startswith(f"{BUCKET_ORIGEM}/"):
                object_path = object_path[len(f"{BUCKET_ORIGEM}/"):]
            parts          = object_path.split("/", 1)
            diretorio_orig = parts[0]
            object_rel     = parts[1] if len(parts) == 2 else parts[0]

            dest_path  = f"{prefixo}/{object_rel}"
            full_path  = dest_path
            filename   = os.path.basename(dest_path)

            try:
                minio_client.stat_object(BUCKET_DESTINO, dest_path)
                skipped += 1
                pbar.set_postfix({"copiados": copied, "pulados": skipped})
                continue
            except S3Error as e:
                if e.code != "NoSuchKey":
                    raise

            src = CopySource(BUCKET_ORIGEM, object_path)
            minio_client.copy_object(BUCKET_DESTINO, dest_path, src)
            size_bytes = minio_client.stat_object(BUCKET_DESTINO, dest_path).size

            copied += 1
            pbar.set_postfix({"copiados": copied, "pulados": skipped})

            with engine.begin() as conn:
                conn.execute(
                    text(
                        """
                        INSERT INTO storage_audit
                            (prefix, project_name, bucket, full_path,
                             filename, size_bytes, source_bucket,
                             caminho_minio, hash_sha256, diretorio_origem)
                        VALUES
                            (:pref, :proj, :bucket, :full_path,
                             :filename, :size_bytes, :src_bucket,
                             :caminho_minio, :hash_sha256, :dir_ori)
                        """
                    ),
                    {
                        "pref"         : prefixo,
                        "proj"         : projeto,
                        "bucket"       : BUCKET_DESTINO,
                        "full_path"    : full_path,
                        "filename"     : filename,
                        "size_bytes"   : size_bytes,
                        "src_bucket"   : BUCKET_ORIGEM,
                        "caminho_minio": dest_path,
                        "hash_sha256"  : row.hash_sha256,
                        "dir_ori"      : diretorio_orig,
                    },
                )

        print(f"✅ Concluído → {copied} copiados │ {skipped} já existiam.")

btn_run.on_click(mover_arquivos)


Dropdown(description='Projeto:', layout=Layout(width='50%'), options=('⏩ Criar novo projeto', 'FIAP - DEEP LEA…

Button(button_style='success', description='Iniciar Movimentação', style=ButtonStyle())

Output()