## Script responsável por gerar embeddings com Universal Sentence Encoder (USE)

O **Universal Sentence Encoder (USE)** é um modelo desenvolvido pelo Google, projetado para gerar embeddings semânticos de sentenças e textos. Diferentemente de métodos tradicionais que utilizam vetores palavra a palavra, o USE produz representações vetoriais para sentenças inteiras, capturando o significado global e as relações contextuais entre palavras. Essas representações são úteis em diversas tarefas, como análise de similaridade semântica, busca de textos, e classificação. O modelo está disponível em variantes otimizadas para diferentes aplicações: uma versão treinada em TensorFlow para uso em servidores de produção e uma versão compacta e eficiente, adequada para dispositivos móveis e navegadores. Além disso, o USE suporta entradas em várias línguas e utiliza redes neurais profundas baseadas em mecanismos de atenção e aprendizado multitarefa, tornando-o uma ferramenta poderosa para processar textos de forma semântica e contextualizada.


## Bibliotecas

In [1]:
# import spacy
import pandas as pd
import tensorflow_hub as hub
import numpy as np
import time




In [2]:
douItem = 2
secao = f'Secao0{douItem}'

# Lê o arquivo Parquet
df_portarias_mgi = pd.read_parquet(f'./saida/03_3_DOU{secao}_portarias_mgi_tratado_NER_lematizado.parquet', engine='pyarrow')  # ou engine='fastparquet'

# Exibe as primeiras linhas do DataFrame
df_portarias_mgi.shape


(19258, 39)

In [3]:
df_portarias_mgi.head()

Unnamed: 0,id,name,idOficio,pubName,artType,pubDate,artClass,artCategory,artSize,artNotes,...,Texto,Total_palavras,TextoTratado,TextoTratado_TotalPalavras,Texto_sem_nomes,Nomes,TextoTratadoSemNomes,TextoTratadoSemNomes_TotalPalavras,TextoTratadoSemNomesLemmatized,TextoTratadoSemNomesLemmatized_TotalPalavras
0,30266027,PORTARIA DE PESSOAL 529,9368436,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,"PORTARIA DE PESSOAL SGP/SEDGG/ME Nº 529, DE 17...",358,"sgp/sedgg/me nº 529, 17 janeiro 2023 secretari...",231,,"sergio eduardo arbulu, anderson pereira silvy,...","sgp / sedgg / me nº 529 , 17 janeiro 2023 secr...",268,sgp Sedgg nº 529 17 janeiro 2023 secretario ge...,182
1,30264410,ATO PORTARIA 655,9368530,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,"PORTARIA SGP/SEDGG/ME Nº 655, DE 23 DE JANEIRO...",245,"portaria sgp/sedgg/me nº 655, 23 janeiro 2023 ...",158,,"eliane araujo franklin, eduardo arbulu","portaria sgp / sedgg / me nº 655 , 23 janeiro ...",189,portar sgp Sedgg nº 655 23 janeiro 2023 secret...,127
2,30265009,ATO PORTARIA DE PESSOAL 461,9368536,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,"PORTARIA DE PESSOAL SGP/SEDGG/ME Nº 461, DE 16...",251,"sgp/sedgg/me nº 461, 16 janeiro 2023 secretari...",160,,eduardo arbulu,"sgp / sedgg / me nº 461 , 16 janeiro 2023 secr...",197,sgp Sedgg nº 461 16 janeiro 2023 secretario ge...,132
3,30265678,ATO PORTARIA DE PESSOAL SGP 606,9368541,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,"PORTARIA DE PESSOAL SGP/SEDGG/ME Nº 606, DE 19...",251,"sgp/sedgg/me nº 606, 19 janeiro 2023 secretari...",158,,eduardo arbulu,"sgp / sedgg / me nº 606 , 19 janeiro 2023 secr...",187,sgp Sedgg nº 606 19 janeiro 2023 secretario ge...,134
4,30266030,ATO PORTARIA DE PESSOAL SGP 517,9368573,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,"PORTARIA DE PESSOAL SGP/SEDGG/ME Nº 517, DE 17...",243,"sgp/sedgg/me nº 517, 17 janeiro 2023 secretari...",158,,"roberto jorge ferreira, termino exercicio, edu...","sgp / sedgg / me nº 517 , 17 janeiro 2023 secr...",177,sgp Sedgg nº 517 17 janeiro 2023 secretario ge...,122


In [4]:
# Carregar o modelo USE
use_model = hub.load("https://tfhub.dev/google/universal-sentence-encoder/4")

# Função para criar embeddings
def create_embeddings(texts):
    """
    Gera embeddings para uma lista de textos usando o Universal Sentence Encoder (USE).
    
    Args:
        texts (list): Lista de textos para os quais os embeddings serão gerados.
    
    Returns:
        np.ndarray: Matriz de embeddings, onde cada linha é o embedding de um texto.
    """
    return use_model(texts).numpy()

# Garantir que a coluna não tenha valores nulos
df_portarias_mgi['TextoTratadoSemNomesLemmatized'] = df_portarias_mgi['TextoTratadoSemNomesLemmatized'].fillna("")

# Função para processar em blocos
def process_embeddings_in_blocks(df, block_size=200):
    """
    Processa o DataFrame em blocos para gerar embeddings da coluna TextoTratadoLemmatized.
    
    Args:
        df (pd.DataFrame): DataFrame contendo a coluna 'TextoTratadoLemmatized'.
        block_size (int): Tamanho de cada bloco a ser processado.
    
    Returns:
        pd.DataFrame: DataFrame com a coluna USE_Embeddings adicionada.
    """
    embeddings_list = []
    total_start_time = time.time()  # Início do tempo total

    for i in range(0, len(df), block_size):
        start_idx = i
        end_idx = min(i + block_size, len(df))
        print(f"Processando registros de índice {start_idx} até {end_idx - 1}...")  # Mensagem de progresso
        
        # Selecionar o bloco atual
        block_texts = df.iloc[start_idx:end_idx]['TextoTratadoSemNomesLemmatized'].tolist()
        
        # Gerar embeddings para o bloco
        block_embeddings = create_embeddings(block_texts)
        
        # Adicionar ao resultado final
        embeddings_list.extend(block_embeddings)
    
    # Fim do tempo total
    total_time = time.time() - total_start_time
    print(f"\nTempo total de processamento: {total_time:.2f} segundos.")
    
    # Retornar o DataFrame com a nova coluna de embeddings
    df['USE_Embeddings'] = embeddings_list
    return df

# Processar o DataFrame em blocos
print("Início do processamento de embeddings em blocos...")
df_portarias_mgi = process_embeddings_in_blocks(df_portarias_mgi, block_size=200)














Início do processamento de embeddings em blocos...
Processando registros de índice 0 até 199...
Processando registros de índice 200 até 399...
Processando registros de índice 400 até 599...
Processando registros de índice 600 até 799...
Processando registros de índice 800 até 999...
Processando registros de índice 1000 até 1199...
Processando registros de índice 1200 até 1399...
Processando registros de índice 1400 até 1599...
Processando registros de índice 1600 até 1799...
Processando registros de índice 1800 até 1999...
Processando registros de índice 2000 até 2199...
Processando registros de índice 2200 até 2399...
Processando registros de índice 2400 até 2599...
Processando registros de índice 2600 até 2799...
Processando registros de índice 2800 até 2999...
Processando registros de índice 3000 até 3199...
Processando registros de índice 3200 até 3399...
Processando registros de índice 3400 até 3599...
Processando registros de índice 3600 até 3799...
Processando registros de índic

In [5]:
df_portarias_mgi.shape

(19258, 40)

In [6]:
df_portarias_mgi.head()

Unnamed: 0,id,name,idOficio,pubName,artType,pubDate,artClass,artCategory,artSize,artNotes,...,Total_palavras,TextoTratado,TextoTratado_TotalPalavras,Texto_sem_nomes,Nomes,TextoTratadoSemNomes,TextoTratadoSemNomes_TotalPalavras,TextoTratadoSemNomesLemmatized,TextoTratadoSemNomesLemmatized_TotalPalavras,USE_Embeddings
0,30266027,PORTARIA DE PESSOAL 529,9368436,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,358,"sgp/sedgg/me nº 529, 17 janeiro 2023 secretari...",231,,"sergio eduardo arbulu, anderson pereira silvy,...","sgp / sedgg / me nº 529 , 17 janeiro 2023 secr...",268,sgp Sedgg nº 529 17 janeiro 2023 secretario ge...,182,"[-0.04014248, -0.060051646, -0.046900164, 0.05..."
1,30264410,ATO PORTARIA 655,9368530,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,245,"portaria sgp/sedgg/me nº 655, 23 janeiro 2023 ...",158,,"eliane araujo franklin, eduardo arbulu","portaria sgp / sedgg / me nº 655 , 23 janeiro ...",189,portar sgp Sedgg nº 655 23 janeiro 2023 secret...,127,"[-0.03057683, -0.059924286, -0.04047236, 0.061..."
2,30265009,ATO PORTARIA DE PESSOAL 461,9368536,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,251,"sgp/sedgg/me nº 461, 16 janeiro 2023 secretari...",160,,eduardo arbulu,"sgp / sedgg / me nº 461 , 16 janeiro 2023 secr...",197,sgp Sedgg nº 461 16 janeiro 2023 secretario ge...,132,"[-0.01973261, -0.06104775, -0.03403744, 0.0602..."
3,30265678,ATO PORTARIA DE PESSOAL SGP 606,9368541,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,251,"sgp/sedgg/me nº 606, 19 janeiro 2023 secretari...",158,,eduardo arbulu,"sgp / sedgg / me nº 606 , 19 janeiro 2023 secr...",187,sgp Sedgg nº 606 19 janeiro 2023 secretario ge...,134,"[-0.047755476, -0.061602198, -0.03608992, 0.04..."
4,30266030,ATO PORTARIA DE PESSOAL SGP 517,9368573,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,243,"sgp/sedgg/me nº 517, 17 janeiro 2023 secretari...",158,,"roberto jorge ferreira, termino exercicio, edu...","sgp / sedgg / me nº 517 , 17 janeiro 2023 secr...",177,sgp Sedgg nº 517 17 janeiro 2023 secretario ge...,122,"[-0.049283896, -0.06308082, -0.03047838, 0.057..."


In [7]:
# Salva saída parcial o arquivo completo com novas colunas
df_portarias_mgi.to_parquet(f'./saida/04_1_DOU{secao}_portarias_mgi_tratado_NER_lematizado_embeddingsUSE.parquet', engine='pyarrow', index=False)