In [1]:
# Não apagar
import pyarrow.parquet as pq
import pandas as pd
from sqlalchemy import create_engine
from tqdm.notebook import tqdm
import gc  # Garbage collector
import datetime

inicio = datetime.datetime.now()
# Parâmetros
parquet_embedding = 'output/embeddings_nome'  # Diretório contendo os arquivos Parquet
db_connection_string = 'postgresql+psycopg2://postgres:postgres@prata04.cnj.jus.br:5432/MDM'

# Criação da conexão com o banco de dados
engine = create_engine(db_connection_string)

# Leitura do diretório parquet usando PyArrow
parquet_dataset = pq.ParquetDataset(parquet_embedding)

num_chunks = len(parquet_dataset.fragments)

In [2]:

# Processamento em chunks com barra de progresso
with tqdm(total=num_chunks) as pbar:
    for fragment in parquet_dataset.fragments:
        
        table = fragment.to_table(columns=['id', 'nomeFantasia', 'embeddings', 'tp_nome'])

        # Converter a tabela PyArrow para pandas DataFrame
        df_embeddings = table.to_pandas()
        # Renomeia a coluna conforme necessário
        df_embeddings.rename(columns={'nomeFantasia': 'nomefantasia'}, inplace=True)

        # Aplica a transformação na coluna 'embeddings' para converter os arrays em listas
        print('Formantando embeddings: {}'.format(datetime.datetime.now()))
        df_embeddings['embeddings'] = df_embeddings['embeddings'].apply(lambda x: x.tolist())

        # Insere o fragmento processado diretamente no banco de dados
        print('Carregando embeddings: {}'.format(datetime.datetime.now()))
        df_embeddings.to_sql('embeddings', engine, if_exists='append', index=False)

        # Libera memória removendo explicitamente o DataFrame e o batch
        del df_embeddings
        del table
        gc.collect()  # Força coleta de lixo para liberar memória

        # Atualiza a barra de progresso
        pbar.update(1)

# Finaliza o tempo de execução
fim = datetime.datetime.now()
print('Tempo total de carga: {}'.format(fim - inicio))

# Coleta final de lixo para garantir que tudo seja liberado
gc.collect()

  0%|          | 0/200 [00:00<?, ?it/s]

Formantando embeddings: 2025-02-07 11:05:31.195139
Carregando embeddings: 2025-02-07 11:05:38.713682
Formantando embeddings: 2025-02-07 11:13:43.538285
Carregando embeddings: 2025-02-07 11:13:51.245498
Formantando embeddings: 2025-02-07 11:22:37.485956
Carregando embeddings: 2025-02-07 11:22:45.095147
Formantando embeddings: 2025-02-07 11:33:09.920241
Carregando embeddings: 2025-02-07 11:33:17.637679
Formantando embeddings: 2025-02-07 11:45:03.382551
Carregando embeddings: 2025-02-07 11:45:10.674693
Formantando embeddings: 2025-02-07 11:56:10.068378
Carregando embeddings: 2025-02-07 11:56:17.000410
Formantando embeddings: 2025-02-07 12:03:47.686256
Carregando embeddings: 2025-02-07 12:03:55.045323
Formantando embeddings: 2025-02-07 12:13:16.916523
Carregando embeddings: 2025-02-07 12:13:24.227396
Formantando embeddings: 2025-02-07 12:24:12.876790
Carregando embeddings: 2025-02-07 12:24:20.660245
Formantando embeddings: 2025-02-07 12:35:02.881862
Carregando embeddings: 2025-02-07 12:35:

0