In [1]:
# ================================
# 🧪 Diagnóstico individual da imagem no staging-unique
# ================================

import os
import io
import numpy as np
from PIL import Image
from minio import Minio

# --- Conexão com MinIO ---
minio_client = Minio(
    endpoint="minio:9000",
    access_key="admin",
    secret_key="senhasegura",
    secure=False
)

# --- Parâmetros ---
bucket = "staging-unique"
tipo_curadoria = "RL"  # ou "DL"

# Critérios (ajustados para FIAP)
criterios = {
    "DL": {"min_res": (100, 100), "max_size": 2_000_000, "force_rgb": True, "allowed_exts": [".png"]},
    "RL": {"min_res": (100, 100), "max_size": 1_000_000, "force_rgb": False, "allowed_exts": [".png", ".jpg", ".jpeg"]}
}

# --- Seleciona uma imagem manualmente (exemplo direto) ---
obj = next(minio_client.list_objects(bucket, recursive=True))
response = minio_client.get_object(bucket, obj.object_name)
data = response.read()

# --- Processamento ---
img = Image.open(io.BytesIO(data))
w, h = img.size
aspect_ratio = round(w / h, 2)
mode = img.mode
file_ext = os.path.splitext(obj.object_name)[1].lower()
std_pixels = np.array(img).std()
tamanho_bytes = len(data)

# --- Critérios aplicados ---
crit = criterios[tipo_curadoria]
comentario = None

if file_ext not in crit["allowed_exts"]:
    comentario = "Formato não permitido"
elif w < crit["min_res"][0] or h < crit["min_res"][1]:
    comentario = "Resolução insuficiente"
elif tamanho_bytes > crit["max_size"]:
    comentario = "Tamanho do arquivo excede o limite"
elif crit["force_rgb"] and mode != "RGB":
    comentario = "Imagem não está em RGB"
elif not (0.5 <= w / h <= 4.0):
    comentario = "Aspect ratio fora do intervalo"
elif std_pixels < 5:
    comentario = "Baixa variância de pixels"

# --- Resultado ---
print("📂 Arquivo:", obj.object_name)
print(f"📐 Resolução: {w}x{h}")
print(f"📦 Tamanho: {tamanho_bytes:,} bytes")
print(f"🎨 Modo de cor: {mode}")
print(f"📏 Aspect ratio: {aspect_ratio}")
print(f"📊 Desvio padrão dos pixels: {round(std_pixels, 2)}")
print("🧪 Critérios:", crit)

if comentario:
    print(f"\n❌ Rejeitado: {comentario}")
else:
    print("\n✅ Aprovado para curadoria pesada.")


📂 Arquivo: FDL/BBAS3.SA/imagens/teste/comprar/2019-04-29_1.png
📐 Resolução: 100x333
📦 Tamanho: 2,420 bytes
🎨 Modo de cor: L
📏 Aspect ratio: 0.3
📊 Desvio padrão dos pixels: 120.04
🧪 Critérios: {'min_res': (100, 100), 'max_size': 1000000, 'force_rgb': False, 'allowed_exts': ['.png', '.jpg', '.jpeg']}

❌ Rejeitado: Aspect ratio fora do intervalo


In [11]:
# ✅ Diagnóstico técnico da tabela curation_audit (teste isolado)

from sqlalchemy import create_engine, MetaData, Table
from datetime import datetime
import json

# --- Conexão com PostgreSQL ---
engine = create_engine("postgresql+psycopg2://postgres:senhasegura@database-services:5432/postgres")

# --- Refletir metadados ---
metadata = MetaData()
metadata.reflect(bind=engine)

if "curation_audit" not in metadata.tables:
    raise Exception("❌ Tabela 'curation_audit' não encontrada no banco de dados.")

table = metadata.tables["curation_audit"]
print("✅ Colunas encontradas na tabela:")
print(list(table.columns.keys()))

# --- Simular um insert com dados completos (adaptar se necessário) ---
test_data = {
    "full_path": "curated-unique/FDL/teste.png",
    "filename": "teste.png",
    "file_ext": ".png",
    "prefix": "FDL",
    "tipo": "DL",
    "finalidade": "pesada",
    "bucket_origem": "staging-unique",
    "bucket_destino": "curated-unique",
    "status": "processed",
    "comentario": "inserção de teste",
    "curation_type": "DL",
    "curation_status": "processed",
    "timestamp": datetime.now(),
    "curation_details": json.dumps({
        "res_w": 100,
        "res_h": 100,
        "aspect_ratio": 1.0,
        "file_size": 2000,
        "std": 15.5,
        "modo_final": "L"
    })
}

# --- Tentativa de inserção e captura do erro ---
try:
    with engine.begin() as conn:
        conn.execute(table.insert().values(test_data))
    print("✅ Inserção de teste bem-sucedida.")
except Exception as e:
    print("❌ Erro ao inserir na tabela curation_audit:")
    print(e)


✅ Colunas encontradas na tabela:
['id', 'prefix', 'full_path', 'filename', 'file_ext', 'curation_type', 'curation_details', 'timestamp', 'source_path', 'bucket_origin', 'bucket_curated', 'curation_status']
❌ Erro ao inserir na tabela curation_audit:
Unconsumed column names: comentario, tipo, status, bucket_origem, bucket_destino, finalidade


In [3]:
# =============================
# 🧹 Limpeza total do bucket curated-unique
# =============================

from minio import Minio

minio_client = Minio("minio:9000", access_key="admin", secret_key="senhasegura", secure=False)
bucket = "curated-unique"

if minio_client.bucket_exists(bucket):
    print(f"🧹 Apagando arquivos em '{bucket}'...")
    objetos = minio_client.list_objects(bucket, recursive=True)
    for obj in objetos:
        minio_client.remove_object(bucket, obj.object_name)
    print("✅ Bucket limpo.")
else:
    print("❌ Bucket não encontrado.")


🧹 Apagando arquivos em 'curated-unique'...
✅ Bucket limpo.


In [5]:
# =============================
# 🧹 Limpeza total da tabela curation_audit
# =============================

from sqlalchemy import create_engine, text

# Conexão
engine = create_engine("postgresql+psycopg2://postgres:senhasegura@database-services:5432/postgres")

with engine.begin() as conn:
    conn.execute(text("DELETE FROM curation_audit;"))
    print("✅ Tabela 'curation_audit' zerada com sucesso.")


✅ Tabela 'curation_audit' zerada com sucesso.


In [6]:
# =============================
# 🔍 Inspeção do schema da tabela curation_audit
# =============================

from sqlalchemy import MetaData

# Conectar e refletir estrutura
metadata = MetaData()
metadata.reflect(bind=engine)
curation_table = metadata.tables["curation_audit"]

# Exibir colunas e tipos
print("📋 Colunas da tabela 'curation_audit':\n")
for col in curation_table.columns:
    nullable = "NULL OK" if col.nullable else "NOT NULL"
    print(f"• {col.name:20} | {col.type} | {nullable}")


📋 Colunas da tabela 'curation_audit':

• id                   | INTEGER | NOT NULL
• prefix               | TEXT | NOT NULL
• full_path            | TEXT | NOT NULL
• filename             | TEXT | NOT NULL
• file_ext             | VARCHAR(10) | NOT NULL
• curation_type        | TEXT | NOT NULL
• curation_details     | TEXT | NULL OK
• timestamp            | TIMESTAMP | NOT NULL
• source_path          | TEXT | NOT NULL
• bucket_origin        | TEXT | NOT NULL
• bucket_curated       | TEXT | NOT NULL
• curation_status      | TEXT | NULL OK


In [8]:
# =============================
# 🔎 Reforço: logging de valores antes do INSERT
# =============================

for obj in tqdm(objetos_validos, desc="🔁 Debug dos objetos"):
    try:
        object_name = obj.object_name

        # Segurança: validar nome
        if not object_name or not isinstance(object_name, str) or object_name.strip() == "":
            print(f"⚠️ Nome inválido detectado: '{object_name}' — pulando.")
            continue

        raw_data = minio_client.get_object(bucket_origem, object_name).read()
        Image.open(io.BytesIO(raw_data))  # valida imagem

        # Upload
        minio_client.put_object(
            bucket_name=bucket_destino,
            object_name=object_name,
            data=io.BytesIO(raw_data),
            length=len(raw_data),
            content_type="image/png"
        )

        full_path = f"{bucket_destino}/{object_name}"
        source_path = f"{bucket_origem}/{object_name}"
        filename = os.path.basename(object_name)

        # Validação extra
        if not full_path or "None" in full_path or full_path.strip() == "":
            print(f"❌ full_path inválido: '{full_path}' ← object_name: '{object_name}'")
            continue

        audit = {
            "prefix": object_name.split("/")[0],
            "full_path": full_path,
            "filename": filename,
            "file_ext": os.path.splitext(object_name)[1].lower(),
            "curation_type": "manual_check",
            "curation_details": json.dumps({"bytes": len(raw_data)}),
            "timestamp": datetime.now(),
            "source_path": source_path,
            "bucket_origin": bucket_origem,
            "bucket_curated": bucket_destino,
            "curation_status": "verificacao"
        }

        with engine.begin() as conn:
            conn.execute(curation_table.insert().values(audit))
            copiados += 1

    except Exception as e:
        print(f"❌ Erro ao copiar {object_name}: {e}")
        erros += 1


🔁 Debug dos objetos:   0%|          | 0/100 [00:00<?, ?it/s]

❌ Erro ao copiar FDL/BBAS3.SA/imagens/teste/comprar/2019-04-29_1.png: (psycopg2.errors.CheckViolation) new row for relation "curation_audit" violates check constraint "curation_audit_curation_status_check"
DETAIL:  Failing row contains (110280, FDL, curated-unique/FDL/BBAS3.SA/imagens/teste/comprar/2019-04-29_1.p..., 2019-04-29_1.png, .png, manual_check, {"bytes": 2420}, 2025-06-01 11:53:36.832445+00, staging-unique/FDL/BBAS3.SA/imagens/teste/comprar/2019-04-29_1.p..., staging-unique, curated-unique, verificacao).

[SQL: INSERT INTO curation_audit (prefix, full_path, filename, file_ext, curation_type, curation_details, timestamp, source_path, bucket_origin, bucket_curated, curation_status) VALUES (%(prefix)s, %(full_path)s, %(filename)s, %(file_ext)s, %(curation_type)s, %(curation_details)s, %(timestamp)s, %(source_path)s, %(bucket_origin)s, %(bucket_curated)s, %(curation_status)s) RETURNING curation_audit.id]
[parameters: {'prefix': 'FDL', 'full_path': 'curated-unique/FDL/BBAS3.SA/ima

In [9]:
# =============================
# 🔍 Listar restrições CHECK da tabela curation_audit
# =============================

from sqlalchemy import inspect

insp = inspect(engine)
checks = insp.get_check_constraints("curation_audit")

print("🔎 Restrições CHECK na tabela 'curation_audit':")
for check in checks:
    print(f"• {check['name']}: {check['sqltext']}")


🔎 Restrições CHECK na tabela 'curation_audit':
• curation_audit_curation_status_check: curation_status = ANY (ARRAY['processed'::text, 'not_processed'::text])


In [10]:
# =============================
# ✅ Versão final com valores permitidos pelo CHECK constraint
# =============================

import io
import os
import json
from datetime import datetime
from PIL import Image
from minio import Minio
from sqlalchemy import create_engine, MetaData, Table
from tqdm.notebook import tqdm

# Conexões
minio_client = Minio("minio:9000", access_key="admin", secret_key="senhasegura", secure=False)
engine = create_engine("postgresql+psycopg2://postgres:senhasegura@database-services:5432/postgres")

# Buckets
bucket_origem = "staging-unique"
bucket_destino = "curated-unique"
if not minio_client.bucket_exists(bucket_destino):
    minio_client.make_bucket(bucket_destino)

# Refletir estrutura da tabela
metadata = MetaData()
metadata.reflect(bind=engine)
curation_table = Table("curation_audit", metadata, autoload_with=engine)

# Selecionar os 100 primeiros objetos válidos
objetos = list(minio_client.list_objects(bucket_origem, recursive=True))
objetos_validos = [obj for obj in objetos if obj.object_name and obj.object_name.strip()]
objetos_validos = objetos_validos[:100]

copiados = 0
erros = 0

for obj in tqdm(objetos_validos, desc="🔁 Copiando staging → curated"):
    try:
        object_name = obj.object_name
        raw_data = minio_client.get_object(bucket_origem, object_name).read()
        Image.open(io.BytesIO(raw_data))  # valida imagem

        # Upload para destino
        minio_client.put_object(
            bucket_name=bucket_destino,
            object_name=object_name,
            data=io.BytesIO(raw_data),
            length=len(raw_data),
            content_type="image/png"
        )

        # Audit coerente com constraint
        audit = {
            "prefix": object_name.split("/")[0],
            "full_path": f"{bucket_destino}/{object_name}",
            "filename": os.path.basename(object_name),
            "file_ext": os.path.splitext(object_name)[1].lower(),
            "curation_type": "manual_check",
            "curation_details": json.dumps({"bytes": len(raw_data)}),
            "timestamp": datetime.now(),
            "source_path": f"{bucket_origem}/{object_name}",
            "bucket_origin": bucket_origem,
            "bucket_curated": bucket_destino,
            "curation_status": "processed"  # ✅ valor aceito
        }

        with engine.begin() as conn:
            conn.execute(curation_table.insert().values(audit))
            copiados += 1

    except Exception as e:
        print(f"❌ Erro ao copiar {object_name}: {e}")
        erros += 1

# Relatório
print(f"\n✅ Verificação finalizada.")
print(f"✔️ {copiados} imagens copiadas e auditadas com sucesso.")
print(f"❌ {erros} imagens com erro.")


🔁 Copiando staging → curated:   0%|          | 0/100 [00:00<?, ?it/s]


✅ Verificação finalizada.
✔️ 100 imagens copiadas e auditadas com sucesso.
❌ 0 imagens com erro.
