In [None]:
!pip install transformers
!pip install transformers[torch]
!pip install -U sentence-transformers
!pip install annoy

Collecting transformers
  Downloading transformers-4.33.3-py3-none-any.whl (7.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.6/7.6 MB[0m [31m51.2 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.15.1 (from transformers)
  Downloading huggingface_hub-0.17.3-py3-none-any.whl (295 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m295.0/295.0 kB[0m [31m29.8 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1 (from transformers)
  Downloading tokenizers-0.13.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m98.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting safetensors>=0.3.1 (from transformers)
  Downloading safetensors-0.3.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m82.3 MB/s[0m eta [36m0:00:0

In [None]:
from annoy import AnnoyIndex
import pandas as pd
from sentence_transformers import SentenceTransformer
import time
from tqdm import tqdm
import pickle as pkl

MODEL_NAME = 'sentence-transformers/all-MiniLM-L6-v2'
n_trees = 8096
max_corpus_size = 4000
top_k_hits = 3
annoy_index_path = 'Annoy_index'

def get_data():
    """Распаковка данных и перевод в формат CSV"""
    pd.read_excel('./train_dataset.xlsx').to_csv('QAdata', index=False)
    data = pd.read_csv('./QAdata')
    return list(data.QUESTION)


def new_data():
    """Загрузка данные на сайте (Дополнение датасета)"""
    pd.read_excel('train_dataset.xlsx').to_csv('QAdata', index=False)
    data = pd.read_csv('./QAdata')
    return list(data.QUESTION)

def timing_decorator(func):
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        print(f"{func.__name__} time: {end_time - start_time:.2f} seconds")
        return result
    return wrapper

@timing_decorator
def embedding():
    question = get_data()
    model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
    embeddings = []
    for q in tqdm(question, desc='Embedding'):
        embeddings.append(model.encode(q))
    with open('model.pkl', 'wb') as f:
        pkl.dump(embeddings, f)
    return embeddings

@timing_decorator
def build_annoy_index(embeddings):
    annoy_index = AnnoyIndex(len(embeddings[0]), 'angular')
    for i, emb in tqdm(enumerate(embeddings), desc='Building index', total=len(embeddings)):
        annoy_index.add_item(i, emb)
    annoy_index.build(n_trees)
    annoy_index.save(annoy_index_path)
    return annoy_index


embeddings = embedding()
annoy_index = build_annoy_index(embeddings)

['Что такое Смартократия, и на чем она базируется?', 'Какие принципы лежат в основе Смартократии?', 'Какие основные понятия, правила и процессы управления определяет Кодекс Смартократии?', 'Какие обязанности и ограничения накладывает Кодекс Смартократии на сотрудников ГК?', 'Какие атрибуты включает в себя атрибуты Роли?', 'Какие права и обязанности сотрудника ГК связаны с назначением на Роль?', 'Какие действия могут предпринимать сотрудники ГК, занимающие Роли, в рамках своей Зоны ответственности?', 'Как определяется порядок замещения Роли?', 'Какие Роли избираются, а какие назначаются в ГК?', 'Что представляет собой Круг в контексте Смартократии?', 'Как определяется иерархия кругов?', 'Какие Роли обязательны для каждого Круга?', 'Что представляет собой Круг типа "Сообщество"?', 'Какие Роли избираются в Кругах?', 'Какие процедуры регулируют выборы на избираемые Роли?', 'Какие роли обязательны для каждого Круга?', 'Как определяется Лид-линк Круга, и какие полномочия он имеет?', 'Какие р

Downloading (…)e9125/.gitattributes:   0%|          | 0.00/1.18k [00:00<?, ?B/s]

Downloading (…)_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading (…)7e55de9125/README.md:   0%|          | 0.00/10.6k [00:00<?, ?B/s]

Downloading (…)55de9125/config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

Downloading (…)ce_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

Downloading (…)125/data_config.json:   0%|          | 0.00/39.3k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

Downloading (…)nce_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading (…)e9125/tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

Downloading (…)9125/train_script.py:   0%|          | 0.00/13.2k [00:00<?, ?B/s]

Downloading (…)7e55de9125/vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Downloading (…)5de9125/modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

Embedding: 100%|██████████| 520/520 [00:15<00:00, 32.51it/s] 


embedding time: 24.84 seconds


Building index: 100%|██████████| 520/520 [00:00<00:00, 20771.20it/s]


build_annoy_index time: 0.87 seconds
