In [None]:
# REQUIRE torch, onnx AND onnxruntime
import torch
from transformers import AutoModel, AutoTokenizer
import numpy as np

class BertWrapper(torch.nn.Module):
    def __init__(self, model):
        super(BertWrapper, self).__init__()
        self.model = model
    
    def forward(self, mega_tensor):
        output = self.model(input_ids=torch.split(mega_tensor, 1, dim=0)[0],
                             token_type_ids=torch.split(mega_tensor, 1, dim=0)[1],
                               attention_mask=torch.split(mega_tensor, 1, dim=0)[2])
        return output.last_hidden_state


def get_dummy_input():
    #Tokenize sentences
    dummy_input = {'input_ids':torch.ones(512, dtype=int), 'token_type_ids':torch.ones(512, dtype=int), 'attention_mask':torch.ones(512, dtype=int)}
    print(torch.ones(512))
    output = torch.stack((dummy_input['input_ids'], dummy_input['token_type_ids'], dummy_input['attention_mask']), dim=0)
    return output

''' THE FIRST PART (GETTING WRAPPED SBERT) '''
dummy_input = get_dummy_input()
print(dummy_input.shape)
model = AutoModel.from_pretrained("ai-forever/sbert_large_nlu_ru")
wrapped_model = BertWrapper(model)
# Use TorchScript scripting to convert the model
scripted_model = torch.jit.trace(wrapped_model, dummy_input)

''' THE SECOND PART (CONVERTING WRAPPED SBERT INTO ONNX) '''
# 1. Load your PyTorch model (Assume it's a simple CNN here)
# Replace 'model_class' with your model's class and 'model_weights.pt' with your .pt file
model.eval()  # 2. Set the model to evaluation mode
dummy_input = get_dummy_input()

# 4. Define the export parameters
onnx_file_path = "sbert_onnx_2.onnx"


torch.onnx.export(
    scripted_model,                        # Your SBERT model
    dummy_input,                  # Tuple of input_ids and attention_mask
    onnx_file_path,               # Save path for ONNX model
    export_params=True,           # Store trained parameters
    opset_version=14,             # Use Opset version 14 to support scaled_dot_product_attention
    do_constant_folding=True,     # Optimize constants
    input_names=['input_ids'],  # Input names
    output_names=['output']      # Output name
)

print(f"Model has been successfully converted to ONNX and saved at {onnx_file_path}")

tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 



tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 



Model has been successfully converted to ONNX and saved at sbert_onnx_2.onnx


In [4]:
def get_input(sentences=['Привет! Как твои дела?']):
    #Load AutoModel from huggingface model repository
    tokenizer = AutoTokenizer.from_pretrained("ai-forever/sbert_large_nlu_ru")

    #Tokenize sentences
    dummy_input = tokenizer(sentences, padding=True, truncation=True, max_length=24, return_tensors='pt')
    output = torch.cat((dummy_input['input_ids'], dummy_input['token_type_ids'], dummy_input['attention_mask']), dim=0)
    return output

In [51]:
#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output 
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    sum_embeddings = torch.sum(token_embeddings * input_mask_expanded, 1)
    sum_mask = torch.clamp(input_mask_expanded.sum(1), min=1e-9)
    return sum_embeddings / sum_mask

In [None]:
# test sbert
import onnxruntime as ort
import numpy as np

# Step 1: Load the ONNX model
model_path = "sbert_onnx.onnx"  # Replace with your ONNX model path
session = ort.InferenceSession(model_path)

# Step 2: Get model input details
input_name = session.get_inputs()[0].name  # Get the input layer name
input_shape = session.get_inputs()[0].shape  # Get the input shape
input_type = session.get_inputs()[0].type  # Get the input data type

print(f"Input Name: {input_name}")
print(f"Input Shape: {input_shape}") 
print(f"Input Type: {input_type}")

input_data = np.array(get_input('сколько лет живут дельфины - не известно. однако не стоит недооценивать их ум')) # Example random input data
# Add two new columns filled with zeros
zeros = np.zeros((input_data.shape[0], input_shape[1] - len(input_data[0])), dtype=np.int64)
# Concatenate along axis 1 (columns)
input_data = np.concatenate((input_data, zeros), axis=1)
# Step 4: Run the model (perform inference)
output_1 = session.run(None, {input_name: input_data})
print(torch.tensor(output_1).shape)
output_1 = mean_pooling(torch.tensor(output_1[0]), torch.tensor(input_data[2]))
print(output_1)

input_data = np.array(get_input('сколько лет живут дельфины - никому не известно. однако не стоит недооценивать их ум?')) # Example random input data

zeros = np.zeros((input_data.shape[0], input_shape[1] - len(input_data[0])), dtype=np.int64)

input_data = np.concatenate((input_data, zeros), axis=1)
print(input_data[0])

output_2 = session.run(None, {input_name: input_data})[0]
output_2 = mean_pooling(torch.tensor(output_2), torch.tensor(input_data[2]))
print(output_1)

dot_product = np.dot(output_1[0], output_2[0])

magnitude_A = np.linalg.norm(output_1[0])
magnitude_B = np.linalg.norm(output_2[0])

cosine_similarity = dot_product / (magnitude_A * magnitude_B)

print("Model Output:", cosine_similarity)

Input Name: input_ids
Input Shape: [3, 8]
Input Type: tensor(int64)


  input_data = np.array(get_input('сколько лет живут дельфины - не известно. однако не стоит недооценивать их ум')) # Example random input data


ValueError: negative dimensions are not allowed

In [25]:
from transformers import AutoTokenizer, AutoModel
import torch
import numpy as np


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    sum_embeddings = torch.sum(token_embeddings * input_mask_expanded, 1)
    sum_mask = torch.clamp(input_mask_expanded.sum(1), min=1e-9)
    return sum_embeddings / sum_mask



#Sentences we want sentence embeddings for
sentences = ['Дельфин ежу не товарищ!',
'В нашем городе есть много красивых парков, где можно гулять со знакомыми.']

#Load AutoModel from huggingface model repository
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sbert_large_nlu_ru")
model = AutoModel.from_pretrained("ai-forever/sbert_large_nlu_ru")

#Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, max_length=24, return_tensors='pt')
print(encoded_input)
#Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)
print(model_output[0])
#Perform pooling. In this case, mean pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
print(sentence_embeddings)
dot_product = np.dot(list(sentence_embeddings[0]), list(sentence_embeddings[1]))

# Step 2: Compute the magnitudes (Euclidean norms) of A and B
magnitude_A = np.linalg.norm(sentence_embeddings[0])
magnitude_B = np.linalg.norm(sentence_embeddings[1])

# Step 3: Compute cosine similarity
cosine_similarity = dot_product / (magnitude_A * magnitude_B)
print(cosine_similarity)

{'input_ids': tensor([[   101, 117991,    105,   1085,    672,  12269,    177,    102,      0,
              0,      0,      0,      0,      0,      0,      0],
        [   101,    113,   8188,   2974,   1114,   1349,  29586,  13318,    121,
           1153,   1232,  27668,    689,  51637,    126,    102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}
tensor([[[ 0.8042, -0.1749, -0.2568,  ...,  0.7997, -0.2365, -0.0497],
         [ 0.4390, -0.4258,  0.2302,  ...,  0.4058, -0.9233, -0.2085],
         [ 0.5181, -0.3981, -0.1024,  ...,  0.0260, -0.2736, -0.1964],
         ...,
         [ 0.3521, -0.2190, -0.1988,  ...,  0.6054, -0.7527, -0.0376],
         [ 0.4132, -0.1968, -0.1096,  ...,  0.5381, -0.7649, -0.1167],
         [ 0.4825, -0.1723, -0.1717,  ...,  0.631