# Precalculate embeddings for using in search service

In [1]:
!pip install pandas
!pip install sentence-transformers
!pip install tqdm
!pip install numpy



In [2]:
import os
import os.path as path
import pandas as pd
from sentence_transformers import SentenceTransformer
import numpy as np

In [3]:
root_dir = path.dirname(path.abspath(os.getcwd()))
data_dir = path.join(root_dir, 'data')
processed_data_dir = path.join(data_dir, 'processed')
embeddings_dir = path.join(data_dir, 'embeddings')

os.makedirs(embeddings_dir, exist_ok=True)

processed_vacancies_path = path.join(processed_data_dir, 'vacancies.csv')
processed_cvs_path = path.join(processed_data_dir, 'cvs.csv')

vacancies_embeddings_path = path.join(embeddings_dir, 'vacancies.csv')
cvs_embeddings_path = path.join(embeddings_dir, 'cvs.csv')

processed_cvs_path

'/Users/alv.popov/prj/DL-CASE2/data/processed/cvs.csv'

In [4]:
processed_vacancies = pd.read_csv(processed_vacancies_path)
processed_vacancies

Unnamed: 0,text
0,Project R’n’D / Технолог R’n’D . MF Kitchen — ...
1,"Продавец-кассир (Москва, Богданова, 16) . Обяз..."
2,"Продавец-кассир (Москва, Новогиреевская, 11/36..."
3,"Product owner бизнес–стрима ""Аналитика и Отчет..."
4,Business Development Director (CTO) . Студия О...
...,...
96220,"Оператор 1C . ТД «ЛФБ» - семейная компания, ..."
96221,Стажер Управления финансирования торговли . КР...
96222,Преподаватель математики/информатики . Обязанн...
96223,Программист С++ / Linux . Требования: Знание ...


In [5]:
processed_cvs = pd.read_csv(processed_cvs_path)
processed_cvs

Unnamed: 0,text
0,"Мужчина , 39 лет , родился 27 ноября 1979 . С..."
1,"Мужчина , 60 лет , родился 20 марта 1959 . Те..."
2,"Женщина , 36 лет , родилась 12 августа 1982 ...."
3,"Мужчина , 38 лет , родился 25 июня 1980 . Веб..."
4,"Женщина , 26 лет , родилась 3 марта 1993 . Ре..."
...,...
44739,"Мужчина , 30 лет , родился 17 января 1989 . Ф..."
44740,"Мужчина , 27 лет , родился 5 марта 1992 . Сис..."
44741,"Женщина , 48 лет , родилась 26 декабря 1970 ...."
44742,"Мужчина , 24 года , родился 6 октября 1994 . ..."


In [6]:
model = SentenceTransformer('cointegrated/LaBSE-en-ru')

In [7]:
def chunks(n, lst):
    """Yield successive n-sized chunks from lst."""
    for i in range(0, len(lst), n):
        print(i)
        yield lst[i:i + n]


def batch_encode(texts):
    return np.concatenate([
        model.encode(chunk)
        for chunk
        in chunks(100, texts)
    ])

In [8]:
n = 1000

In [11]:
encoded_vacancies = batch_encode(processed_vacancies['text'].sample(n).tolist())
encoded_vacancies = list(map(lambda x: ':'.join(map(str, x)), encoded_vacancies))
pd.DataFrame(encoded_vacancies, columns=['embeddings']).to_csv(vacancies_embeddings_path, index=False)

0
100
200
300
400
500
600
700
800
900


In [12]:
encoded_cvs = batch_encode(processed_cvs['text'].sample(n).tolist())
encoded_cvs = list(map(lambda x: ':'.join(map(str, x)), encoded_cvs))
pd.DataFrame(encoded_cvs, columns=['embeddings']).to_csv(cvs_embeddings_path, index=False)

0
100
200
300
400
500
600
700
800
900
