In [1]:
import pandas as pd

In [2]:
validation_data = pd.concat([
    pd.read_csv(
        "../data/data.csv", sep=','),
    pd.read_csv(
        "../data/validation.csv", sep=',')
], ignore_index=True)
validation_data.to_csv('../data/validation_dataset.csv', index=False)

In [3]:
validation_data

Unnamed: 0,question,related_documents,answer
0,Как защититься от SQL-инъекций?,Безопасность веб-приложений.md,нужно экранировать символы пользовательских да...
1,Как следует хранить пароль в базе данных?,"Сервис авторизации.md,Безопасность веб-приложе...","Хранить пароль в захешированном виде, причем д..."
2,Какой инструмент использовать для нагрузочного...,"Тестирование на Python.md, Locust.md",Для нагрузочного тестирования можно использова...
3,Для чего нужен сервисный уровень в приложении?,Сервисный уровень (Service).md,Необходим для отделения логики инфраструктуры ...
4,Какие инструменты можно использовать для профи...,Оптимизация в Go.md,Можно использовать профилировщик pprof и трейс...
5,Какие операции можно выполнять без блокировки ...,GIL.md,Операции ввода-вывода в отдельном потоке не бу...
6,С помощью каких библиотек можно выполнять лемм...,"pymorphy.md, SpaCy.md, NLP (AITH).md","Библиотеки для лемматизации: spacy, pymorphy"
7,Что значит буква D в ACID?,ACID.md,D означает Durability или Сохраняемость. Принц...
8,Что значит буква C в ACID?,ACID.md,D означает Consistency или Согласованность. Оз...
9,Как создать репозиторий для Cassandra в Feast?,Feast.md,```bash\nfeast init test_repo -t cassandra\n```


In [4]:
questions = validation_data.question.to_list()
questions

['Как защититься от SQL-инъекций?',
 'Как следует хранить пароль в базе данных?',
 'Какой инструмент использовать для нагрузочного тестирования?',
 'Для чего нужен сервисный уровень в приложении?',
 'Какие инструменты можно использовать для профилирования приложения на Golang?',
 'Какие операции можно выполнять без блокировки GIL?',
 'С помощью каких библиотек можно выполнять лемматизацию?',
 'Что значит буква D в ACID?',
 'Что значит буква C в ACID?',
 'Как создать репозиторий для Cassandra в Feast?',
 'Где можно бесплатно деплоить пет-проекты?',
 'Чем отличается RDD от Dataframe в Apache Spark?',
 'Какие антипаттерны есть в микросервисной архитектуре?',
 'Чем отличается REST от SOAP?',
 'В чем суть CAP-теоремы?',
 'Откуда можно тянуть данные для отображения в Grafana?',
 'Какие есть способы для создания пагинации в веб-приложениях?',
 'Что такое Вейвлет-преобразование Хаара?',
 'Какой Pruner рекомендуется для RandomSampler в Optuna?',
 'Для чего используется refresh_token в OAuth 2.0

In [5]:
related_documents = validation_data.related_documents.to_list()
for i in range(len(related_documents)):
    related_documents[i] = related_documents[i].split(',')
related_documents

[['Безопасность веб-приложений.md'],
 ['Сервис авторизации.md', 'Безопасность веб-приложений.md'],
 ['Тестирование на Python.md', ' Locust.md'],
 ['Сервисный уровень (Service).md'],
 ['Оптимизация в Go.md'],
 ['GIL.md'],
 ['pymorphy.md', ' SpaCy.md', ' NLP (AITH).md'],
 ['ACID.md'],
 ['ACID.md'],
 ['Feast.md'],
 ['render.com.md'],
 ['Apache Spark.md'],
 ['Микросервис.md'],
 ['REST.md'],
 ['CAP-теорема.md'],
 ['Grafana.md'],
 ['Пагинация в Web-приложениях.md'],
 ['OpenCV.md'],
 ['Optuna.md'],
 ['OAuth.md'],
 ['RabbitMQ.md'],
 ['Устройство памяти в Python.md'],
 ['WordNet.md'],
 ['asyncio.md'],
 ['Approximate Nearest Neighbours (ANN).md'],
 ['Data Version Control.md'],
 ['Gitlab.md'],
 ['Norht Star Metric (NSM).md'],
 ['Кэширование.md'],
 ['Потоковая обработка (стриминг).md'],
 ['Репликация.md'],
 ['Шардирование.md'],
 ['Dockerfile.md'],
 ['API Gateway.md'],
 ['Устройство Map в Go.md']]

In [6]:
from embedder import sentence_embedder
from vector_db import qdrant_client, collection_name
from text_splitter import text_splitter
from retriever import CustomRetriever
from utils import folder_into_db_collection

  from .autonotebook import tqdm as notebook_tqdm


In [7]:
folder_into_db_collection(
    '../data/KnowledgeStore',
    qdrant_client,
    text_splitter,
    sentence_embedder
    )

Created a chunk of size 1106, which is longer than the specified 1024
Created a chunk of size 1182, which is longer than the specified 1024
Created a chunk of size 1619, which is longer than the specified 1024
Created a chunk of size 2187, which is longer than the specified 1024
Created a chunk of size 1629, which is longer than the specified 1024
Created a chunk of size 1464, which is longer than the specified 1024
Created a chunk of size 1213, which is longer than the specified 1024
Created a chunk of size 1176, which is longer than the specified 1024
Created a chunk of size 1330, which is longer than the specified 1024
Created a chunk of size 1227, which is longer than the specified 1024
Created a chunk of size 1571, which is longer than the specified 1024
Created a chunk of size 1190, which is longer than the specified 1024
Created a chunk of size 1175, which is longer than the specified 1024
Created a chunk of size 1951, which is longer than the specified 1024
Created a chunk of s

In [8]:
retriever = CustomRetriever(
    qdrant_client=qdrant_client,
    embedder=sentence_embedder,
    collection_name=collection_name
    )

In [9]:
def precision_at_k(retrieved_docs: list[str],
                   related_docs: list[str],
                   k: int) -> float:
    retrieved_k = retrieved_docs[:k]
    s = 0
    for doc in retrieved_k:
        if doc in related_docs:
            s += 1
    return min(s, len(related_docs)) / min(len(related_docs), k)

def average_precision_at_k(
        retrieved_docs: list[str],
        related_docs: list[str],
        k: int) -> float:
    precisions = []
    for i in range(1, k + 1):
        precisions.append(precision_at_k(retrieved_docs, related_docs, i))
    return sum(precisions) / len(precisions)


In [10]:
ap_K = []
for i, question in enumerate(questions):
    search_results = retriever.get_relevant_documents(question, limit=10)
    search_results = [result.payload['filename'] for result in search_results]
    ap_K.append(average_precision_at_k(
        search_results, related_documents[i], 10))
    print(ap_K[-1])

1.0
1.0
0.55
1.0
1.0
1.0
0.13333333333333333
0.0
0.0
1.0
1.0
1.0
0.8
1.0
1.0
1.0
0.9
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
0.3
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0


In [11]:
sum(ap_K) / len(ap_K)

0.8766666666666667

In [12]:
search_result = retriever.get_relevant_documents(
    "Tell me about asynchronous operations in Python", limit=10)
for result in search_result:
    print('****')
    print(result.payload['filename'])
    print(result.payload['text'])

****
Django.md
#Backend #Python-library
****
asyncio.md
def count(count_to: int) -> int: 
	counter = 0 
	while counter < count_to: 
		counter = counter + 1 
		return counter 

async def main(): 
	with ProcessPoolExecutor() as process_pool: 
		loop: AbstractEventLoop = asyncio.get_running_loop() 
		nums = [1, 3, 5, 22, 100000000] 
		calls: List[partial[int]] = [partial(count, num) for num in nums] 
		call_coros = [] 
		for call in calls: 
			call_coros.append(loop.run_in_executor(process_pool, call)) 
		results = await asyncio.gather(*call_coros) 
	for result in results: 
		print(result) 

if __name__ == "__main__": 
	asyncio.run(main())
```
****
aiohttp.md
1
	[#]+ done, pending = await asyncio.wait([api_1, api_2], return_when=asyncio.FIRST_COMPLETED) [#]+ 2
	[#]+ done, pending = await asyncio.wait([api_1, api_2], return_when=asyncio.FIRST_EXCEPTION) [#]+ 3
	for task in pending: 
		task.cancel()
```
****
asyncpg.md
async def main(): 
	async with asyncpg.create_pool(
		host='127.0.0.1', 

In [13]:
t1 = ['Безопасность веб-приложений.md']
t2 = ['Безопасность веб-приложений.md', 'Сервис авторизации.md', 'RabbitMQ.md', 'ReactQuery (TanStack Query).md', 'ReactQuery (TanStack Query).md', 'ReactQuery (TanStack Query).md', 'Event Driven Architecture.md', 'Data Version Control.md', 'Установка Spark.md', 'Django REST Framework.md']
s = 0
for doc in t2:
    if doc in t1:
        s += 1
        print(s)

1
