In [1]:
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F
import pandas as pd

In [29]:
import faiss

In [39]:
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')
model = AutoModel.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)


def get_embedding(batch, tok, model):
    encoded_input = tok(batch, padding=True, truncation=True, return_tensors='pt')
    with torch.no_grad():
        model_output = model(**encoded_input)
    sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
    sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)
    return sentence_embeddings
    
# print("Sentence embeddings:")
# print(sentence_embeddings)

In [193]:
[k for k, v in tokenizer.vocab.items() if v == 0]

['[PAD]']

In [31]:
import pandas as pd

In [32]:
ref_df = pd.read_parquet('reference.parquet')

In [37]:
m = ~ref_df['description'].isna()
ref_df = ref_df[m].reset_index(drop=True).copy()

In [45]:
from tqdm.notebook import tqdm as tqdm_

In [49]:
tokenizer

AttributeError: 'BertTokenizerFast' object has no attribute 'gpu'

In [50]:
ref_embeddings = []

for s in tqdm_(ref_df['description'].values):
    emb = get_embedding([s], tokenizer, model)
    ref_embeddings.extend(emb)

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=294106.0), HTML(value='')))




In [52]:
import json

In [66]:
torch.cat(ref_embeddings).reshape((-1, 384)).ipynb_c

tensor([[-0.0164,  0.0397,  0.0203,  ..., -0.0031, -0.0092, -0.0216],
        [-0.0143,  0.0518, -0.0250,  ...,  0.0325,  0.0214, -0.0564],
        [-0.0061,  0.0416, -0.0070,  ..., -0.0017,  0.0061, -0.0399],
        ...,
        [ 0.0176,  0.0414, -0.0410,  ...,  0.0012,  0.0347, -0.0090],
        [ 0.0374,  0.0785, -0.0200,  ...,  0.0488, -0.0211, -0.0473],
        [ 0.0339,  0.0417, -0.0512,  ...,  0.0515,  0.1003, -0.0168]])

In [68]:
torch.save(ref_embeddings, 'ref_embeddings.pt')

In [69]:
ref_df.to_parquet('ref_1.parquet')

In [89]:
torch.save(torch.cat(ref_embeddings).reshape((-1, 384)), 'ref_embeddings.pt')

In [93]:
ref_embeddings = torch.cat(ref_embeddings).reshape((-1, 384))

In [70]:
train_df = pd.read_parquet('train.parquet')

In [80]:
m = train_df['description'].isin(ref_df['description'])
m = m & (~train_df['description'].isna())
m = m & (~train_df['supplier_name'].isna())

In [83]:
train_df[m].reset_index(drop=True).to_parquet('train_1.parquet')

In [84]:
train_df = pd.read_parquet('train_1.parquet')

In [85]:
supp_embeddings = []

for s in tqdm_(train_df['supplier_name'].values):
    emb = get_embedding([s], tokenizer, model)
    supp_embeddings.extend(emb)

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=42101.0), HTML(value='')))




In [95]:
ref_embeddings.shape

torch.Size([294106, 384])

In [97]:
supp_embeddings = torch.cat(supp_embeddings).reshape((-1, 384))

In [101]:
torch.save(supp_embeddings, 'supp_embeddings.pt')

In [128]:
a_norm = ref_embeddings / ref_embeddings.norm(dim=1)[:, None]
b_norm = supp_embeddings[:4, :] / supp_embeddings[:4, :].norm(dim=1)[:, None]
res = torch.mm(a_norm, b_norm.transpose(0,1))
res

tensor([[0.5862, 0.6260, 0.2282, 0.0637],
        [0.5352, 0.5773, 0.2184, 0.1004],
        [0.5556, 0.5943, 0.1886, 0.0531],
        ...,
        [0.4976, 0.5135, 0.2768, 0.0684],
        [0.5631, 0.5384, 0.2830, 0.1559],
        [0.4362, 0.4305, 0.2148, 0.1438]])

In [103]:
top_ten = []


torch.Size([10, 384])

In [139]:
def get_top_cosine(ref, batch):
    a_norm = ref / ref.norm(dim=1)[:, None]
    b_norm = batch / batch.norm(dim=1)[:, None]
    res = torch.mm(a_norm, b_norm.transpose(0,1))
    return res.argsort(dim=0, descending=True)[:10, :].T.tolist()

In [140]:
supp_embeddings.shape

torch.Size([42101, 384])

In [153]:
top_embs = []
B_SIZE = 128
for i in tqdm_(range(0, supp_embeddings.shape[0], B_SIZE)):
    top_embs.extend(get_top_cosine(ref_embeddings, supp_embeddings[i:(i+B_SIZE)]))

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=329.0), HTML(value='')))




KeyboardInterrupt: 

In [194]:
in_5 = []

for i in tqdm_(range(len(top_embs))):
    ref = train_df['description'].values[i]
    ans = False
    for n in top_embs[i][:1]:
        if ref_df['description'].values[n] == ref:
            ans = True
    in_10.append(ans)

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=2944.0), HTML(value='')))




In [195]:
sum(in_10) / len(in_10)

0.39809782608695654

In [156]:
train_df['description'].values[4]

'Коммутатор управляемый Eltex MES2324B RS-232, 4x10GBase-R SFP+/1000Base-X SFP, 24 x10/100/1000Base-T 128Гбит/с настольный/стоечный'

In [135]:
ref_df.iloc[181851]['description']

'Программное обеспечение сертификат Eltex S-MES2324P3YW на расширение сервисного обслуживания Ethernet-коммутатор MES2324P-AC 3год'

In [199]:
tokenizer(ref_df['description'].values[:2].tolist(), padding=True, truncation=True)

{'input_ids': [[101, 1182, 14150, 29742, 10260, 1197, 15290, 29750, 18947, 10325, 29752, 15290, 29747, 28598, 17432, 1184, 10325, 29747, 22919, 10325, 29436, 29436, 10325, 16856, 19259, 28995, 19865, 17432, 1015, 1012, 1019, 29436, 102], [101, 1182, 14150, 29742, 10260, 1197, 15290, 29750, 18947, 10325, 29752, 15290, 29747, 28598, 17432, 1184, 10325, 29747, 22919, 10325, 29436, 29436, 10325, 16856, 19259, 28995, 19865, 17432, 2184, 29436, 102, 0, 0]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0]]}

In [204]:
ans = 0
cnt = 0

for s in tokenizer(ref_df['description'].values.tolist(), padding=True, truncation=True)['input_ids']:
    cnt += 1
    if 100 in s:
        ans += 1

ans, cnt

(0, 294106)

In [190]:
ref_df['description'].values[:100].tolist()

['Вода техническая дистиллированная 1.5л',
 'Вода техническая дистиллированная 10л',
 'Вода техническая дистиллированная 1л',
 'Вода техническая дистиллированная 4л',
 'Вода техническая дистиллированная 5л',
 'Бензин авиационный Б-70',
 'Бензин автомобильный G-Drive 95',
 'Бензин автомобильный А-76',
 'Бензин автомобильный А-80',
 'Бензин автомобильный А-92',
 'Бензин автомобильный А-95',
 'Бензин автомобильный АИ-100-К5 New Power',
 'Бензин автомобильный АИ-80',
 'Бензин автомобильный АИ-92',
 'Бензин автомобильный АИ-92 Евро',
 'Бензин автомобильный АИ-92 Премиум',
 'Бензин автомобильный АИ-92 Фора',
 'Бензин автомобильный АИ-92 Экто',
 'Бензин автомобильный АИ-93',
 'Бензин автомобильный АИ-95',
 'Бензин автомобильный АИ-95 Евро',
 'Бензин автомобильный АИ-95 Премиум',
 'Бензин автомобильный АИ-95 Ультра',
 'Бензин автомобильный АИ-95 Фора',
 'Бензин автомобильный АИ-95 Экто',
 'Бензин автомобильный АИ-96',
 'Бензин автомобильный АИ-98',
 'Бензин автомобильный Нормаль-80',
 'Бензин 

In [173]:
tokenizer.vocab[102]

KeyError: 102

In [205]:
кароч у меня вот что вышло:
- токены все распознаются, в смысле что нет UNK
- у меня получилось что sbert находит нужный элемент или на первом месте, или не распознает вообще. Надо порисерчить что там за штуки на которых он фейлится

SyntaxError: invalid syntax (<ipython-input-158-bfd5aa65a2ee>, line 1)