In [25]:
# Não apagar
import pyarrow.parquet as pq
import pandas as pd
from sqlalchemy import create_engine
from tqdm.notebook import tqdm
import gc  # Garbage collector
import datetime

inicio = datetime.datetime.now()
# Parâmetros
parquet_embedding = 'output/embeddings_nome'  # Diretório contendo os arquivos Parquet
db_connection_string = 'postgresql+psycopg2://postgres:postgres@prata04.cnj.jus.br:5432/MDM'

# Criação da conexão com o banco de dados
engine = create_engine(db_connection_string)

# Leitura do diretório parquet usando PyArrow
parquet_dataset = pq.ParquetDataset(parquet_embedding)

num_chunks = len(parquet_dataset.fragments)

In [26]:

# Processamento em chunks com barra de progresso
with tqdm(total=num_chunks) as pbar:
    for fragment in parquet_dataset.fragments:
        table = fragment.to_table(columns=['id', 'nomeFantasia', 'embeddings'])

        # Converter a tabela PyArrow para pandas DataFrame
        df_embeddings = table.to_pandas()
        # Renomeia a coluna conforme necessário
        df_embeddings.rename(columns={'nomeFantasia': 'nomefantasia'}, inplace=True)

        # Aplica a transformação na coluna 'embeddings' para converter os arrays em listas
        print('Formantando embeddings: {}'.format(datetime.datetime.now()))
        df_embeddings['embeddings'] = df_embeddings['embeddings'].apply(lambda x: x.tolist())

        # Insere o fragmento processado diretamente no banco de dados
        print('Carregando embeddings: {}'.format(datetime.datetime.now()))
        df_embeddings.to_sql('embeddings', engine, if_exists='append', index=False)

        # Libera memória removendo explicitamente o DataFrame e o batch
        del df_embeddings
        del table
        gc.collect()  # Força coleta de lixo para liberar memória

        # Atualiza a barra de progresso
        pbar.update(1)

# Finaliza o tempo de execução
fim = datetime.datetime.now()
print('Tempo total de carga: {}'.format(fim - inicio))

# Coleta final de lixo para garantir que tudo seja liberado
gc.collect()

  0%|          | 0/200 [00:00<?, ?it/s]

Formantando embeddings: 2024-09-16 18:22:56.208167
Carregando embeddings: 2024-09-16 18:23:06.950074
Formantando embeddings: 2024-09-16 18:30:26.098835
Carregando embeddings: 2024-09-16 18:30:31.491149
Formantando embeddings: 2024-09-16 18:38:11.293287
Carregando embeddings: 2024-09-16 18:38:16.813391
Formantando embeddings: 2024-09-16 18:46:03.681818
Carregando embeddings: 2024-09-16 18:46:08.816125
Formantando embeddings: 2024-09-16 18:53:14.798217
Carregando embeddings: 2024-09-16 18:53:19.914928
Formantando embeddings: 2024-09-16 19:00:27.221591
Carregando embeddings: 2024-09-16 19:00:32.510065
Formantando embeddings: 2024-09-16 19:07:57.204871
Carregando embeddings: 2024-09-16 19:08:02.389916
Formantando embeddings: 2024-09-16 19:15:11.367190
Carregando embeddings: 2024-09-16 19:15:16.897841
Formantando embeddings: 2024-09-16 19:23:02.855153
Carregando embeddings: 2024-09-16 19:23:08.054607
Formantando embeddings: 2024-09-16 19:30:30.322828
Carregando embeddings: 2024-09-16 19:30:

0