In [5]:
import os
from pathlib import Path
from typing import List

from langchain_community.document_loaders import PyPDFLoader, Docx2txtLoader, TextLoader
from langchain_core.documents import Document
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_experimental.text_splitter import SemanticChunker
from langchain_qdrant import QdrantVectorStore
from langchain_huggingface import HuggingFaceEmbeddings

from qdrant_client import QdrantClient
from qdrant_client.http.models import Distance, VectorParams

In [6]:
def get_embedder():
    # Мультиязычный SOTA-эмбеддер
    model_name = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
    return HuggingFaceEmbeddings(model_name=model_name)


def init_qdrant(collection="lectures", host="http://localhost:6333"):
    client = QdrantClient(url=host)

    if collection not in [c.name for c in client.get_collections().collections]:
        client.create_collection(
            collection_name=collection,
            vectors_config=VectorParams(size=768, distance=Distance.COSINE)
        )
    return client

In [7]:
collection = "lectures"

embedder = get_embedder()
client = init_qdrant(collection)


In [8]:
qdrant = QdrantVectorStore(
    client=client,
    collection_name=collection,
    embedding=embedder,
)


In [18]:
topic = "Определитель матрицы - это"

docs = qdrant.similarity_search(topic, k=10)
for doc in docs:
    print(doc.page_content)
    print(doc.metadata)
    print("-" * 100)

Составим и вычислим определитель матрицы системы:
{'producer': 'Microsoft® Office Word 2007', 'creator': 'Microsoft® Office Word 2007', 'creationdate': 'D:20201014090602', 'author': 'user', 'moddate': 'D:20201014090602', 'source': 'docs/4309_f_41_matematika-1-kurs.pdf', 'total_pages': 180, 'page': 14, 'page_label': '15', '_id': '4db67acc-5532-481f-b0de-f2c6e31af906', '_collection_name': 'lectures'}
----------------------------------------------------------------------------------------------------
 Матрицы, имеющие одинаковое число строк и число столбцов, а 
также равные соответствующие элементы, называются равными.  Матрица может содержать только один столбец, тогда она 
называется матрицей-столбцом, или только одну строку, тогда она 
называется матрицей-строкой:
 1 3 8 2С  . Вообще говоря, матрица 
может состоять даже из одного элемента. Действия над матрицами 
Над матрицами, как и над числами, можно производить ряд операций, 
причем некоторые из них аналогичны операциям над чи