In [13]:
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['انجام خدمات پذیرایی فرود گاه های کشور شامل تشریفات اختصاصی وی ای پی و سی ای پی',
'انجام امور مربوط به پیمانکاری پارکینگ ها',
'و امور پیمانکاری',
'و خدمات مربوط به ساخت نگهداری فنی و تاسیسات و محوطه پارکینگ های عمومی فرودگاه ها هتل ها اماکن تفریحی و توریستی شهری و بین شهری',
'و تامین نیروی انسانی مورد نیاز',
'و تامین راننده مورد نیاز',
'کرایه دهی اتوموبیل سواری اعم از وانت و ون',
'جابجایی انواع غلات و دانه های خشک و روغنی',
'انبار داری و بسته بندی',
'و خرید و فروش پخش انواع کالا و مواد غذایی',
'انجام عملیات تخلیه و بارگیری کالا',
'احداث و بهره برداری انواع انبار سرپوشیده و مکانیزه',
'توزین انواع کالا',
'انجام کلیه عملیات بازرگانی مجاز',
'ترخیص کالا از گمرکات کشور',
'واردات و صادرات خرید و فروش کلیه کالا های مجاز بازرگانی',
'انعقاد قرار داد با اشخاص حقیقی و حقوقی',
'اخذ و اعطا نمایندگی از شرکت های داخلی و خارجی',
'شرکت در مناقصات و مزایدات دولتی و خصوصی',
'اخذ وام و اعتبار از کلیه بانکها و موسسات مالی و اعتباری به صورت ارزی و ریالی',
'ایجاد شعب در داخل و خارج از کشور',
'درصورت لزوم پس از اخذ مجوزهای لازم از مراجع ذیربط',
'مدت فعالیت  از']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L12-v2')
model = AutoModel.from_pretrained('sentence-transformers/all-MiniLM-L12-v2')


# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

print("Sentence embeddings:")
print(sentence_embeddings)

Sentence embeddings:
tensor([[ 0.0661,  0.0528, -0.0844,  ..., -0.0252,  0.0357,  0.0003],
        [ 0.0111,  0.0735, -0.0463,  ..., -0.0246, -0.0185, -0.0139],
        [ 0.0022,  0.0756, -0.0773,  ..., -0.0017, -0.0238, -0.0891],
        ...,
        [ 0.0193,  0.0561, -0.0546,  ..., -0.0257,  0.0108, -0.0716],
        [ 0.0329,  0.0768, -0.0994,  ...,  0.0006, -0.0515, -0.0245],
        [-0.0148,  0.0801, -0.0479,  ..., -0.0333,  0.0165, -0.1002]])


In [14]:
from sentence_transformers import SentenceTransformer
import pickle

model = SentenceTransformer('all-MiniLM-L6-v2')
sentences = ['انجام خدمات پذیرایی فرود گاه های کشور شامل تشریفات اختصاصی وی ای پی و سی ای پی',
'انجام امور مربوط به پیمانکاری پارکینگ ها',
'و امور پیمانکاری',
'و خدمات مربوط به ساخت نگهداری فنی و تاسیسات و محوطه پارکینگ های عمومی فرودگاه ها هتل ها اماکن تفریحی و توریستی شهری و بین شهری',
'و تامین نیروی انسانی مورد نیاز',
'و تامین راننده مورد نیاز',
'کرایه دهی اتوموبیل سواری اعم از وانت و ون',
'جابجایی انواع غلات و دانه های خشک و روغنی',
'انبار داری و بسته بندی',
'و خرید و فروش پخش انواع کالا و مواد غذایی',
'انجام عملیات تخلیه و بارگیری کالا',
'احداث و بهره برداری انواع انبار سرپوشیده و مکانیزه',
'توزین انواع کالا',
'انجام کلیه عملیات بازرگانی مجاز',
'ترخیص کالا از گمرکات کشور',
'واردات و صادرات خرید و فروش کلیه کالا های مجاز بازرگانی',
'انعقاد قرار داد با اشخاص حقیقی و حقوقی',
'اخذ و اعطا نمایندگی از شرکت های داخلی و خارجی',
'شرکت در مناقصات و مزایدات دولتی و خصوصی',
'اخذ وام و اعتبار از کلیه بانکها و موسسات مالی و اعتباری به صورت ارزی و ریالی',
'ایجاد شعب در داخل و خارج از کشور',
'درصورت لزوم پس از اخذ مجوزهای لازم از مراجع ذیربط',
'مدت فعالیت  از']

embeddings = model.encode(sentences)

#Store sentences & embeddings on disc
with open('embeddings.pkl', "wb") as fOut:
    pickle.dump({'sentences': sentences, 'embeddings': embeddings}, fOut, protocol=pickle.HIGHEST_PROTOCOL)

#Load sentences & embeddings from disc
with open('embeddings.pkl', "rb") as fIn:
    stored_data = pickle.load(fIn)
    stored_sentences = stored_data['sentences']
    stored_embeddings = stored_data['embeddings']

In [15]:
stored_sentences

['انجام خدمات پذیرایی فرود گاه های کشور شامل تشریفات اختصاصی وی ای پی و سی ای پی',
 'انجام امور مربوط به پیمانکاری پارکینگ ها',
 'و امور پیمانکاری',
 'و خدمات مربوط به ساخت نگهداری فنی و تاسیسات و محوطه پارکینگ های عمومی فرودگاه ها هتل ها اماکن تفریحی و توریستی شهری و بین شهری',
 'و تامین نیروی انسانی مورد نیاز',
 'و تامین راننده مورد نیاز',
 'کرایه دهی اتوموبیل سواری اعم از وانت و ون',
 'جابجایی انواع غلات و دانه های خشک و روغنی',
 'انبار داری و بسته بندی',
 'و خرید و فروش پخش انواع کالا و مواد غذایی',
 'انجام عملیات تخلیه و بارگیری کالا',
 'احداث و بهره برداری انواع انبار سرپوشیده و مکانیزه',
 'توزین انواع کالا',
 'انجام کلیه عملیات بازرگانی مجاز',
 'ترخیص کالا از گمرکات کشور',
 'واردات و صادرات خرید و فروش کلیه کالا های مجاز بازرگانی',
 'انعقاد قرار داد با اشخاص حقیقی و حقوقی',
 'اخذ و اعطا نمایندگی از شرکت های داخلی و خارجی',
 'شرکت در مناقصات و مزایدات دولتی و خصوصی',
 'اخذ وام و اعتبار از کلیه بانکها و موسسات مالی و اعتباری به صورت ارزی و ریالی',
 'ایجاد شعب در داخل و خارج از کشو

In [16]:
from trankit import Pipeline

# initialize a multilingual pipeline
p = Pipeline(lang='persian', cache_dir='./cache')

Loading pretrained XLM-Roberta, this may take a while...


OSError: Can't load weights for 'xlm-roberta-base'. Make sure that:

- 'xlm-roberta-base' is a correct model identifier listed on 'https://huggingface.co/models'

- or 'xlm-roberta-base' is the correct path to a directory containing a file named one of pytorch_model.bin, tf_model.h5, model.ckpt.



In [None]:
######## document-level processing ########
untokenized_doc = 'انجام خدمات پذیرایی فرود گاه های کشور شامل تشریفات اختصاصی وی ای پی و سی ای پی انجام امور مربوط به پیمانکاری پارکینگ ها و امور پیمانکاری و خدمات مربوط به ساخت نگهداری فنی و تاسیسات و محوطه پارکینگ های عمومی فرودگاه ها هتل ها اماکن تفریحی و توریستی شهری و بین شهری و تامین نیروی انسانی مورد نیاز و تامین راننده مورد نیاز کرایه دهی اتوموبیل سواری اعم از وانت و ون جابجایی انواع غلات و دانه های خشک و روغنی انبار داری و بسته بندی و خرید و فروش پخش انواع کالا و مواد غذایی انجام عملیات تخلیه و بارگیری کالا احداث و بهره برداری انواع انبار سرپوشیده و مکانیزه توزین انواع کالا انجام کلیه عملیات بازرگانی مجاز ترخیص کالا از گمرکات کشور واردات و صادرات خرید و فروش کلیه کالا های مجاز بازرگانی انعقاد قرار داد با اشخاص حقیقی و حقوقی اخذ و اعطا نمایندگی از شرکت های داخلی و خارجی شرکت در مناقصات و مزایدات دولتی و خصوصی اخذ وام و اعتبار از کلیه بانکها و موسسات مالی و اعتباری به صورت ارزی و ریالی ایجاد شعب در داخل و خارج از کشور درصورت لزوم پس از اخذ مجوزهای لازم از مراجع ذیربط مدت فعالیت  از'
pretokenized_doc = [['پس از اخذ مجوزهای لازم از مراجع ذیربط مدت فعالیت  از', '!'], ['This', 'is', 'Trankit', '.']]

# perform all tasks on the input
processed_doc1 = p(untokenized_doc)
processed_doc2 = p(pretokenized_doc)

######## sentence-level processing ####### 
untokenized_sent = '''This is Trankit.'''
pretokenized_sent = ['This', 'is', 'Trankit', '.']

# perform all tasks on the input
processed_sent1 = p(untokenized_sent, is_sent=True)
processed_sent2 = p(pretokenized_sent, is_sent=True)