# Семантический поиск по корпусу текстов

## Определение запроса к корпусу текстов

In [None]:
QUESTION = 'Что такое LLaMA?'
#QUESTION = 'Что такое авторизация?'
#QUESTION = 'Что такое агрегирование данных?'
#QUESTION = 'Что такое Anonymous?'
#QUESTION = 'Что такое Pretty Good Privacy?'

## Подготовка среды

In [None]:
# установка библиотек
! pip install -U transformers
! pip install -U accelerate
! pip install sentence_transformers



In [None]:
# подключение к Google Drive
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

Mounted at /content/drive


## Подготовка модели

In [None]:
import torch
import pandas as pd
from transformers import AutoTokenizer, AutoModel

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
	token_embeddings = model_output[0] #First element of model_output contains all token embeddings
	input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
	sum_embeddings = torch.sum(token_embeddings * input_mask_expanded, 1)
	sum_mask = torch.clamp(input_mask_expanded.sum(1), min=1e-9)
	return sum_embeddings / sum_mask

#Load AutoModel from huggingface model repository
tokenizer = AutoTokenizer.from_pretrained(
	'sentence-transformers/LaBSE')

device = 'cuda'
model = AutoModel.from_pretrained(
	'sentence-transformers/LaBSE').to(device)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


## Сохранение модели

In [None]:
# сохранение в локальное хранилище
#model.save_pretrained("drive/MyDrive/Colab Notebooks/semantic_search_QA_telebot/model")

## Получение эмбеддингов из датасета

In [None]:
# загрузка датасета
knowledge_ds = pd.read_csv("drive/MyDrive/Colab Notebooks/semantic_search_QA_telebot/data/Knowledge_base_df.csv", low_memory=False, encoding = "UTF-8", sep = ",")

In [None]:
# конкатенация заголовков и текстов
knowledge_ds["sentences"] = (knowledge_ds["title"] + " ") + knowledge_ds["text"]
sentences = [i for i in knowledge_ds["sentences"]]

In [None]:
# Токенизация текстов
encoded_input = tokenizer(
	sentences,
	padding=True,
	truncation=True,
	max_length=128,
	return_tensors='pt')

In [None]:
# Вычисление эмбеддингов текстов
with torch.no_grad():
	model_output = model(**encoded_input.to(device))

In [None]:
# Получение средних значений эмбеддингов
sentence_embeddings = mean_pooling(
	model_output,
	encoded_input['attention_mask'])

## Сохранение эмбеддингов текстов

In [None]:
sentence_embeddings_df = pd.DataFrame(sentence_embeddings.cpu()).astype('float')
sentence_embeddings_df.to_csv("drive/MyDrive/Colab Notebooks/semantic_search_QA_telebot/data/knowledge_db.csv", encoding="utf-8")

## Загрузка эмбеддингов текстов

In [None]:
sentence_embeddings_df = pd.read_csv("drive/MyDrive/Colab Notebooks/semantic_search_QA_telebot/data/knowledge_db_128.csv", low_memory=False, encoding = "UTF-8", sep = ",")
sentence_embeddings_df.drop("Unnamed: 0", axis = 1, inplace = True)
sentence_embeddings = torch.cuda.FloatTensor(sentence_embeddings_df.values)

  sentence_embeddings = torch.cuda.FloatTensor(sentence_embeddings_df.values)


## Получение эмбеддингов запроса

In [None]:
question = QUESTION

# Токенизация запроса
encoded_input = tokenizer(
	question,
	padding=True,
	truncation=True,
	max_length=128,
	return_tensors='pt')

# Вычисление эмбеддингов запроса
with torch.no_grad():
	model_output = model(**encoded_input.to(device))

In [None]:
# Средние значения эмбеддингов запроса
question_embeddings = mean_pooling(
	model_output,
	encoded_input['attention_mask'])

## Поиск наиболее подходящего текста

In [None]:
# загрузка функции поиска
from sentence_transformers.util import semantic_search

In [None]:
# применение функции
hits = semantic_search(question_embeddings, sentence_embeddings, top_k=5)

In [None]:
hits

[[{'corpus_id': 1467, 'score': 0.6242836713790894},
  {'corpus_id': 1466, 'score': 0.5632435083389282},
  {'corpus_id': 488, 'score': 0.5380783081054688},
  {'corpus_id': 1486, 'score': 0.5315546989440918},
  {'corpus_id': 1469, 'score': 0.5273436307907104}]]

In [None]:
print(sentences[hits[0][0]["corpus_id"]])

Llama-2 Llama-2 - это новая версия большой языковой модели (LLM), разработанная компанией Meta. Она обучена на 2 трлн токенов, что на 40% больше, чем предыдущая версия Llama. Она может выполнять различные задачи, связанные с обработкой текста, такие как суммирование, поиск, творческое письмо, вопросы и ответы, программирование и другие.


## Очистка кэша

In [None]:
torch.cuda.empty_cache()