In [None]:
! pip install langchain langchain_community langchain_qdrant langchain_groq markdown unstructured FlagEmbedding nltk

Collecting langchain_community
  Downloading langchain_community-0.3.10-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain_qdrant
  Downloading langchain_qdrant-0.2.0-py3-none-any.whl.metadata (1.8 kB)
Collecting langchain_groq
  Downloading langchain_groq-0.2.1-py3-none-any.whl.metadata (2.9 kB)
Collecting unstructured
  Downloading unstructured-0.16.10-py3-none-any.whl.metadata (24 kB)
Collecting FlagEmbedding
  Downloading FlagEmbedding-1.3.3.tar.gz (161 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m161.8/161.8 kB[0m [31m15.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain_community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting httpx-sse<0.5.0,>=0.4.0 (from langchain_community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting langchain
  Downloading langchain-0.3.10-py3-none-any.whl.metadata (7.1

In [None]:
from langchain_core.embeddings import Embeddings
from pydantic import BaseModel, Field
from typing import Any, Dict

from langchain_qdrant.sparse_embeddings import SparseVector

from FlagEmbedding import BGEM3FlagModel

import nltk
nltk.download('punkt')


class CommonEmbedding(BaseModel, Embeddings):

    client: Any = None
    encode_kwargs: Dict[str, Any] = Field(default_factory=dict)
    """Keyword arguments to pass when calling the `encode` method of the model."""

    def __init__(self,
                 model:BGEM3FlagModel,
                 **kwargs):

        super().__init__(**kwargs)
        self.client = model

    def embed_documents(self, texts):

        embeddings = self.client.encode(texts,
                                        **self.encode_kwargs)

        if self.encode_kwargs.get('return_sparse', False):
            return [SparseVector(indices=i.keys(),
                                 values = i.values()) for i in embeddings['lexical_weights']]

        if self.encode_kwargs.get('return_dense', False):
            return embeddings['dense_vecs']

    def embed_query(self, text):
        return self.embed_documents([text])[0]






In [None]:
bgem3 = BGEM3FlagModel('BAAI/bge-m3', device='cuda', normalize_embeddings=True)
bgem3_sparse = CommonEmbedding(bgem3,
                               encode_kwargs={'return_sparse':True,
                                              'return_dense':False,
                                              'batch_size':1})
bgem3_dense = CommonEmbedding(bgem3,
                               encode_kwargs={'return_sparse':False,
                                              'return_dense':True,
                                              'batch_size':1})


Fetching 30 files:   0%|          | 0/30 [00:00<?, ?it/s]

You're using a XLMRobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


(array([ 0.012215,  0.05396 , -0.04675 , ..., -0.00853 ,  0.01257 ,
         0.02397 ], dtype=float16),
 SparseVector(indices=[104, 78987, 15263, 170, 434], values=[0.06005859375, 0.18408203125, 0.1761474609375, 0.145263671875, 0.155517578125]))

In [None]:
from langchain.document_loaders import DirectoryLoader #, MarkdownLoader
from langchain_community.document_loaders import UnstructuredMarkdownLoader


# Path to your Obsidian markdown notes
directory_path = "../../data/lesha_obsi_sample"

# Initialize the DirectoryLoader to load .md files
loader = DirectoryLoader(
    directory_path,
    glob="**/*.md",
    loader_cls=UnstructuredMarkdownLoader,
    loader_kwargs={"encoding": "utf-8"}
)

docs = loader.load()
print(len(docs))
print(docs[0])

65
page_content='title: "Генеративный подход к классификации" source: "https://education.yandex.ru/handbook/ml/article/generativnyj-podhod-k-klassifikacii" author: published: created: 2024-10-22 description: "Как использовать распределение меток классов в задаче классификации. LDA, QDA и наивный байес" tags: - "clippings"

Как использовать распределение меток классов в задаче классификации. LDA, QDA и наивный байес

Классификационные модели, которые мы рассматривали в предыдущих параграфах, нацелены непосредственно на оценку $P(Y \vert X)$. Такие модели называются дискриминативными.

К ним относится, например, логистическая регрессия: она предлагает оценку $\hat P(y=1 \vert x) = \sigma(w\^Tx)$. В процессе обучения дискриминативные модели подбирают разделяющую поверхность (гиперплоскость в случае логистической регрессии). Новые объекты дискриминативная модель классифицирует в зависимости от того, по какую сторону от разделяющей поверхности они лежат.

Например, обучившись на изображения

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# tbd: switch to markdown splitter to split by .md headers
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs)

In [None]:
from langchain_qdrant.qdrant import RetrievalMode

qvs = QdrantVectorStore.from_documents(splits,
                                        embedding=bgem3_dense,
                                        sparse_embedding=bgem3_sparse,
                                        location=':memory:',
                                        collection_name='temp',
                                        retrieval_mode=RetrievalMode.HYBRID)

In [None]:
qvs.search('смещение и разброс', 'similarity')

[Document(metadata={'source': '/content/data/12.1. Bias-variance decomposition.md', '_id': 'be068f5a88da4b83b687a513bcbc5bc8', '_collection_name': 'temp'}, page_content='$$ \\mathbb{V}\\text{ar}_X[a(x, X)] = \\mathbb{E}_X \\left[ a(x, X) - \\mathbb{E}_X[a(x, X)] \\right]^2 $$\n\n— дисперсия (разброс) предсказаний алгоритма в зависимости от обучающей выборки $X$;\n\n$$ \\sigma^2 = \\mathbb{E}x \\mathbb{E}\\varepsilon[y(x, \\varepsilon) - f(x)]^2 $$\n\n— неустранимый шум в данных.\n\nСмещение показывает, насколько хорошо с помощью данного алгоритма можно приблизить истинную зависимость $f$, а разброс характеризует чувствительность алгоритма к изменениям в обучающей выборке. Например, деревья маленькой глубины будут в большинстве случаев иметь высокое смещение и низкий разброс предсказаний, так как они не могут слишком хорошо запомнить обучающую выборку. А глубокие деревья, наоборот, могут безошибочно выучить обучающую выборку и потому будут иметь высокий разброс в зависимости от выборки,

In [None]:
retriever = qvs.as_retriever(search_type = 'similarity',
                             search_kwargs={'k': 5})

In [None]:
from langchain_groq.chat_models import ChatGroq
import os

os.environ['GROQ_API_KEY'] = '*'
llm = ChatGroq(model='gemma2-9b-it')

In [None]:
from langchain import hub
prompt = hub.pull("rlm/rag-prompt")
print(f"prompt: {prompt}")



prompt: input_variables=['context', 'question'] input_types={} partial_variables={} metadata={'lc_hub_owner': 'rlm', 'lc_hub_repo': 'rag-prompt', 'lc_hub_commit_hash': '50442af133e61576e74536c6556cefe1fac147cad032f4377b60c436e6cdcb6e'} messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, template="You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.\nQuestion: {question} \nContext: {context} \nAnswer:"), additional_kwargs={})]


In [None]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

In [None]:
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

In [None]:
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

# Question
rag_chain.invoke("опиши Метод Дэвида-Скина?", verbose=True)

'Метод Дэвида-Скина (Dawid, Skene, 1979) одновременно находит значения качества исполнителей и ответы на вопросы, согласующиеся с наблюдаемыми данными в наибольшей степени.  \nОн использует вероятности, чтобы учесть ошибки разметчиков и найти наиболее вероятные ответы. \nМетод широко используется в краудсорсинге для агрегации данных. \n\n\n'