In [None]:
openai_api_key = ""
gigachat_api_key = ""
data_path = 'data/langchain_dataset.csv'

# Устанавливаем необходимые зависимости

In [None]:
! pip install langchain
! pip install datasets
! pip install faiss-cpu
! pip install sentence-transformers

Collecting langchain
  Downloading langchain-0.0.341-py3-none-any.whl.metadata (16 kB)
Collecting SQLAlchemy<3,>=1.4 (from langchain)
  Downloading SQLAlchemy-2.0.23-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (9.6 kB)
Collecting aiohttp<4.0.0,>=3.8.3 (from langchain)
  Downloading aiohttp-3.9.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.4 kB)
Collecting async-timeout<5.0.0,>=4.0.0 (from langchain)
  Downloading async_timeout-4.0.3-py3-none-any.whl.metadata (4.2 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain)
  Downloading dataclasses_json-0.6.3-py3-none-any.whl.metadata (25 kB)
Collecting jsonpatch<2.0,>=1.33 (from langchain)
  Downloading jsonpatch-1.33-py2.py3-none-any.whl.metadata (3.0 kB)
Collecting langchain-core<0.0.7,>=0.0.6 (from langchain)
  Downloading langchain_core-0.0.6-py3-none-any.whl.metadata (750 bytes)
Collecting langsmith<0.1.0,>=0.0.63 (from langchain)
  Downloading langsmith-0.0.67-py3-none-any.whl.m

In [None]:
! pip install openai

Collecting openai
  Downloading openai-1.3.5-py3-none-any.whl.metadata (16 kB)
Collecting distro<2,>=1.7.0 (from openai)
  Using cached distro-1.8.0-py3-none-any.whl (20 kB)
Collecting httpx<1,>=0.23.0 (from openai)
  Downloading httpx-0.25.2-py3-none-any.whl.metadata (6.9 kB)
Collecting httpcore==1.* (from httpx<1,>=0.23.0->openai)
  Using cached httpcore-1.0.2-py3-none-any.whl.metadata (20 kB)
Collecting h11<0.15,>=0.13 (from httpcore==1.*->httpx<1,>=0.23.0->openai)
  Using cached h11-0.14.0-py3-none-any.whl (58 kB)
Downloading openai-1.3.5-py3-none-any.whl (220 kB)
[2K   [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.8/220.8 kB[0m [31m1.3 MB/s[0m eta [36m0:00:00[0m MB/s[0m eta [36m0:00:01[0mm1[0m
[?25hDownloading httpx-0.25.2-py3-none-any.whl (74 kB)
[2K   [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.0/75.0 kB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
[?25hUsing cached httpcore-1.0.2-py3-none-any.whl (76 kB)
Installing

In [None]:
! pip install tiktoken

Collecting tiktoken
  Downloading tiktoken-0.5.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.6 kB)
Downloading tiktoken-0.5.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.0 MB)
[2K   [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m[31m4.4 MB/s[0m eta [36m0:00:01[0m
[?25hInstalling collected packages: tiktoken
Successfully installed tiktoken-0.5.1


# Импортируем библиотеки

In [None]:
import time
import uuid
import requests
from langchain.llms.base import LLM
from typing import Any, List, Mapping, Optional
from langchain.callbacks.manager import CallbackManagerForLLMRun
from requests.packages.urllib3.exceptions import InsecureRequestWarning
from langchain.document_loaders import DataFrameLoader
from langchain.embeddings import HuggingFaceEmbeddings, OpenAIEmbeddings
import pandas as pd
from langchain.prompts import PromptTemplate, FewShotPromptTemplate
from langchain.chains import LLMChain, StuffDocumentsChain
from langchain.prompts.example_selector import LengthBasedExampleSelector

requests.packages.urllib3.disable_warnings(InsecureRequestWarning)

# Пишем кастомный класс получения токена авторизации для GigaChat

In [None]:
class GigaChatSecureToken:
    access_token: str
    expires_at: int
    _offset: int = 60  # If token will be expired in {offset} seconds, is_expired() return true

    def __init__(self, access_token: str, expires_at: int):
        self.access_token = access_token
        self.expires_at = expires_at

    def is_expired(self):
        return round(time.time() * 1000) > self.expires_at + self._offset * 1000

# Определяем кастомный класс для работы с API GigaChat

In [None]:
class GigaChatLLM(LLM):
    api_key: str = None
    temperature: float = 0.7
    secure_token: GigaChatSecureToken = None

    @property
    def _llm_type(self) -> str:
        return "gigachat"

    def _call(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[CallbackManagerForLLMRun] = None,
    ) -> str:
        if not self.secure_token or self.secure_token.is_expired():
            print("Obtaining new secure token")
            self._auth()
            if not self.secure_token or self.secure_token.is_expired():
                # New token was not obtained
                print("ERROR: new token was not updated, cannot call LLM")
                return ""
        headers = {
            "Authorization": f"Bearer {self.secure_token.access_token}",
            "Content-Type": "application/json"
        }
        req = {
            "model": "GigaChat:latest",
            "messages": [{
                "role": "user",
                "content": prompt
            }],
            "temperature": self.temperature
        }
        response = requests.post("https://gigachat.devices.sberbank.ru/api/v1/chat/completions", headers=headers, json=req, verify=False)
        if response.status_code != 200:
            print(f"ERROR: LLM call failed, status code: {response.status_code}")
            return ""
        return response.json()["choices"][0]["message"]["content"]

    def _auth(self):
        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "RqUID": str(uuid.uuid4()),
            "Content-Type": "application/x-www-form-urlencoded"
        }

        scope_info = {"scope": "GIGACHAT_API_PERS"}
        response = requests.post("https://ngw.devices.sberbank.ru:9443/api/v2/oauth", data=scope_info, headers=headers, verify=False)
        if response.status_code != 200:
            print(f"ERROR: Something went wrong while obtaining secure token, status code: {response.status_code}")
            return
        content = response.json()

        expires_at = content["expires_at"]
        token = content["access_token"]
        if not (expires_at and token):
            print("ERROR: server returns empty values for fields 'expires_at' or 'access_token'")
            return
        self.secure_token = GigaChatSecureToken(token, expires_at)


llm = GigaChatLLM(api_key=gigachat_api_key)

In [None]:
llm(prompt="Пусть a = 5.  Сколько будет a в квадрате")

Obtaining new secure token


'Если мы возьмём число 5 и возведём его в квадрат, то получим 25.'

# Загружаем датасет

In [None]:
dataframe = pd.read_csv(data_path)

# Для того чтобы эмбеддинг соджержал наибольшее количество полезной информации создадим дополнительный столбец - конкатенацию вопроса и ответа.

# Также для тестирования качества поиска ближайших соседей добавим каждой строке idшник

In [None]:
dataframe['concatenated'] = dataframe['question'] + ' ' + dataframe['answer']
dataframe = dataframe.assign(id=range(len(dataframe)))

In [None]:
dataframe

Unnamed: 0,question,answer,concatenated,id
0,Что такое LangChain и для чего он используется?,LangChain - это фреймворк для разработки прило...,Что такое LangChain и для чего он используется...,0
1,Какие основные части включает в себя фреймворк...,Фреймворк LangChain включает в себя библиотеки...,Какие основные части включает в себя фреймворк...,1
2,Какие ключевые преимущества предлагают пакеты ...,Основные преимущества пакетов LangChain включа...,Какие ключевые преимущества предлагают пакеты ...,2
3,Что такое LCEL в контексте LangChain?,LCEL (LangChain Expression Language) - это дек...,Что такое LCEL в контексте LangChain? LCEL (La...,3
4,Какие модули предоставляет LangChain?,"LangChain предоставляет стандартные, расширяем...",Какие модули предоставляет LangChain? LangChai...,4
...,...,...,...,...
377,Как использовать инструменты с форматом строки...,"from langchain.agents import AgentType, Tool, ...",Как использовать инструменты с форматом строки...,377
378,Как инструменты LangChain определяют схему арг...,"from typing import Any, Dict \n\n from la...",Как инструменты LangChain определяют схему арг...,378
379,Как использовать инструменты LangChain в качес...,from langchain.chat_models import ChatOpenAI ...,Как использовать инструменты LangChain в качес...,379
380,Как LangChain обеспечивает асинхронную поддерж...,import asyncio \n import time \n\n f...,Как LangChain обеспечивает асинхронную поддерж...,380


# Трансформируем датафрейм в датафреймлоадер langchain. page_content_column в нашем случае поле concatenated.

In [None]:
loader = DataFrameLoader(dataframe, page_content_column = 'concatenated')
data = loader.load()

In [None]:
data[:2]

[Document(page_content='Что такое LangChain и для чего он используется? LangChain - это фреймворк для разработки приложений, работающих на основе языковых моделей. Он позволяет создавать приложения, которые осведомлены о контексте и могут осуществлять рассуждения на основе предоставленного контекста.', metadata={'question': 'Что такое LangChain и для чего он используется?', 'answer': 'LangChain - это фреймворк для разработки приложений, работающих на основе языковых моделей. Он позволяет создавать приложения, которые осведомлены о контексте и могут осуществлять рассуждения на основе предоставленного контекста.', 'id': 0}),
 Document(page_content='Какие основные части включает в себя фреймворк LangChain? Фреймворк LangChain включает в себя библиотеки LangChain для Python и JavaScript, коллекцию LangChain Templates для развертывания архитектур, LangServe для развертывания цепочек LangChain в виде REST API, и LangSmith - платформу для отладки и тестирования.', metadata={'question': 'Какие

In [None]:
token_counts_max = dataframe['concatenated'].str.split().str.len().max()
token_counts_max

360

# Определяем модель для эмбеддингов.

In [None]:
embedding_type = 'openai'
# embedding_type = 'cointegrated/LaBSE-en-ru'

if embedding_type == 'openai':
    openai_batch_size = int(150000 / (3 * token_counts_max))
    embeddings = OpenAIEmbeddings(openai_api_key = openai_api_key, chunk_size = openai_batch_size)
else:
    embeddings = HuggingFaceEmbeddings(model_name=embedding_type)

# Загружаем эмбеддинги в векторную бд

In [None]:
from langchain import FAISS
from faiss import IndexHNSWFlat
from time import sleep
from tqdm import tqdm

index_name = f'{data_path}_{embedding_type}'

index = IndexHNSWFlat()
faiss = FAISS(embeddings, index, None, None)

try:
    db = FAISS.load_local(index_name, embeddings)
except:
    db = None

if db is None:
    if embedding_type == 'openai':
        for batch_number in tqdm(range(0, len(data), openai_batch_size)):
            batch = data[batch_number: batch_number + openai_batch_size]
            batch_db = faiss.from_documents(batch, embeddings)
            if db is None:
                db = batch_db
            else:
                db.merge_from(batch_db)

            sleep(20)
    else:
        db = faiss.from_documents(data, embeddings)

    db.save_local(index_name)

In [None]:
query = "Что такое Langchain?"
db.similarity_search(query, k=5)

[Document(page_content='Что такое LangChain и для чего он используется? LangChain - это фреймворк для разработки приложений, работающих на основе языковых моделей. Он позволяет создавать приложения, которые осведомлены о контексте и могут осуществлять рассуждения на основе предоставленного контекста.', metadata={'question': 'Что такое LangChain и для чего он используется?', 'answer': 'LangChain - это фреймворк для разработки приложений, работающих на основе языковых моделей. Он позволяет создавать приложения, которые осведомлены о контексте и могут осуществлять рассуждения на основе предоставленного контекста.', 'id': 0}),
 Document(page_content='Какие ключевые преимущества предлагают пакеты LangChain? Основные преимущества пакетов LangChain включают в себя компоненты для работы с языковыми моделями и готовые цепочки, которые облегчают начало работы и позволяют настраивать существующие цепочки или создавать новые.', metadata={'question': 'Какие ключевые преимущества предлагают пакеты L

# Определяем ретривер - верхнеуровневую обертку над similarity_search, в которую захардкожены какие-то параметры (в нашем случае 5 ближайших соседей)

In [None]:
retriever = db.as_retriever(search_kwargs = {"k": 5, "score_threshold": 0.3})
retriever.get_relevant_documents(query)

[Document(page_content='Что такое LangChain и для чего он используется? LangChain - это фреймворк для разработки приложений, работающих на основе языковых моделей. Он позволяет создавать приложения, которые осведомлены о контексте и могут осуществлять рассуждения на основе предоставленного контекста.', metadata={'question': 'Что такое LangChain и для чего он используется?', 'answer': 'LangChain - это фреймворк для разработки приложений, работающих на основе языковых моделей. Он позволяет создавать приложения, которые осведомлены о контексте и могут осуществлять рассуждения на основе предоставленного контекста.', 'id': 0}),
 Document(page_content='Какие ключевые преимущества предлагают пакеты LangChain? Основные преимущества пакетов LangChain включают в себя компоненты для работы с языковыми моделями и готовые цепочки, которые облегчают начало работы и позволяют настраивать существующие цепочки или создавать новые.', metadata={'question': 'Какие ключевые преимущества предлагают пакеты L

# Определяем шаблонизатор промпта

In [None]:
prefix = """
Ответь на вопрос: {query}

При ответе учитывай следующие имеющиеся данные:
"""

context_example_template = """
{context}
"""

suffix = "Если вопрос тесно связан с предоставленными данными, используй их при формировании своего ответа."

# Определяем пайплайн промпт template -> языковая модель

# Объединяем все в одну функцию

In [None]:
from typing import Tuple

def escape_f_string(text):
  return text.replace('{', '{{').replace('}', '}}')

def escape_examples(examples):
    return [{k: escape_f_string(v) for k, v in example.items()} for example in examples]


def get_answer(question: str) -> Tuple[str, str]:
  res = retriever.get_relevant_documents(question)
  examples = [{"context": doc.page_content } for doc in res ]

  context_example_template_prompt = PromptTemplate(
      input_variables=["context"],
      template=context_example_template
  )

  example_selector = LengthBasedExampleSelector(
    examples=escape_examples(examples),
    example_prompt=context_example_template_prompt,
    max_length=900
  )

  few_shot_prompt_template_prompt = FewShotPromptTemplate(
    example_selector = example_selector,
    example_prompt=context_example_template_prompt,
    prefix=prefix,
    suffix=suffix,
    input_variables=["query"],
    example_separator="\n"
  )

  chain = few_shot_prompt_template_prompt | llm

  answer = chain.invoke({ "query": question })


  prompt = few_shot_prompt_template_prompt.format(query = question)
  return answer, prompt

In [None]:
answer, prompt = get_answer(query)
print(prompt)
print(answer)


Ответь на вопрос: Что такое Langchain?

При ответе учитывай следующие имеющиеся данные:


Что такое LangChain и для чего он используется? LangChain - это фреймворк для разработки приложений, работающих на основе языковых моделей. Он позволяет создавать приложения, которые осведомлены о контексте и могут осуществлять рассуждения на основе предоставленного контекста.


Какие ключевые преимущества предлагают пакеты LangChain? Основные преимущества пакетов LangChain включают в себя компоненты для работы с языковыми моделями и готовые цепочки, которые облегчают начало работы и позволяют настраивать существующие цепочки или создавать новые.


Какова роль LangChain в экосистеме инструментов? LangChain является частью богатой экосистемы инструментов, которые интегрируются с этим фреймворком и строятся на его основе, включая различные интеграции и руководства по лучшим практикам разработки.


Какие интеграции предлагает LangChain и как они способствуют созданию приложений? LangChain предлагает

# Сравним аугментированную модель с неаугментированной

In [None]:
questions = [
    "Как подключить векторную бд в Langchain?",
    "Что такое ретривер в контексте Langchain?",
    "Как объединить несколько шагов в цепочку в LangChain?",
    "Как в Langchain работать с OpenAiEmbeddings?",
    "Как использовать CSVLoader в Langchain?",
    "Как мне в CSVLoader в Langchain указать свой путь до файла если мой файл лежит в /home/user/data.csv?",
    "Почему трава зеленая?"
]

In [None]:
compare_df = pd.DataFrame({"gigachat": [], "gigachat + augmentation": [], "prompt": []})
i = 0
for question in tqdm(questions):
    llm_answer = llm(question)
    llm_augmented_answer, llm_augmented_prompt = get_answer(question)

    concat_df = pd.DataFrame.from_dict({"gigachat": [llm_answer], "gigachat + augmentation": [llm_augmented_answer], "prompt": [llm_augmented_prompt]})

    compare_df = pd.concat([compare_df, concat_df], ignore_index = True)
    if embedding_type == 'openai' and i < len(questions) - 1:
        sleep(20)

    i += 1

 14%|████████████████████████████████████████▏                                                                                                                                                                                                                                                | 1/7 [00:35<03:30, 35.10s/it]

Obtaining new secure token


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [03:28<00:00, 29.73s/it]


In [None]:
pd.set_option('display.max_colwidth', None)

In [None]:
compare_df

Unnamed: 0,gigachat,gigachat + augmentation,prompt
0,"Для подключения векторной базы данных (VDB) в Langchain необходимо выполнить следующие шаги:\n\n1. Установить и настроить VDB на сервере базы данных.\n2. Создать таблицу в VDB, содержащую необходимые данные для работы приложения.\n3. Настроить соединение между приложением и VDB. Для этого необходимо указать параметры соединения, такие как хост, порт, имя пользователя и пароль.\n4. Настроить параметры доступа к данным в VDB. Это может включать в себя установку прав доступа к таблицам и полям, а также настройку шифрования данных.\n5. Настроить параметры безопасности соединения. Это может включать в себя установку SSL-сертификата и настройку параметров авторизации и аутентификации.\n6. Проверить работоспособность соединения и убедиться, что приложение успешно работает с данными из VDB.\n\nДля более подробной информации о настройке соединения с VDB рекомендуется обратиться к документации конкретной системы управления базами данных, используемой в VDB.","Для подключения векторной базы данных в LangChain необходимо использовать модуль 'Data Connection'. Этот модуль предоставляет функциональность для загрузки документов, их преобразования, создания векторных представлений и организации эффективного поиска и извлечения информации.\n\nДля интеграции с 'Data Connection' в LangChain необходимо выполнить следующие шаги:\n\n1. Установить модуль 'Data Connection' в LangChain. Для этого можно воспользоваться командой 'pip install -e .' из исходного кода.\n\n2. Создать объект 'DataConnection' и настроить его параметры, такие как источник данных, формат файла и т.д.\n\n3. Подключить векторную базу данных к объекту 'DataConnection'. Для этого необходимо указать путь к базе данных и настроить параметры соединения, такие как имя пользователя, пароль и т.д.\n\n4. Использовать полученный объект 'DataConnection' для загрузки данных, создания векторных представлений и организации поиска и извлечения информации.\n\nИнтеграция с 'Data Connection' в LangChain позволяет расширить возможности LLM, интегрируя пользовательские данные и контекст в процесс генерации ответов. Это улучшает релевантность и точность ответов, позволяя моделям языка адаптироваться к конкретным потребностям пользователя и обеспечивая более глубокое понимание контекста запросов.","\nОтветь на вопрос: Как подключить векторную бд в Langchain?\n\nПри ответе учитывай следующие имеющиеся данные:\n\n\nЧто такое модуль 'Data Connection' в LangChain? Модуль 'Data Connection' в LangChain предоставляет функциональность для подключения к различным источникам данных и их использования в контексте LLM (Large Language Models). Это включает в себя инструменты для загрузки документов, их преобразования, создания векторных представлений и организации эффективного поиска и извлечения информации.\n\n\nКакие преимущества предоставляет интеграция с 'Data Connection' в LangChain? Интеграция с 'Data Connection' в LangChain позволяет расширить возможности LLM, интегрируя пользовательские данные и контекст в процесс генерации ответов. Это улучшает релевантность и точность ответов, позволяя моделям языка адаптироваться к конкретным потребностям пользователя и обеспечивая более глубокое понимание контекста запросов.\n\n\nКакие интеграции предлагает LangChain и как они способствуют созданию приложений? LangChain предлагает обширную экосистему интеграций с различными внешними ресурсами, такими как локальные и удаленные файловые системы, API и базы данных. Эти интеграции позволяют разработчикам создавать гибкие приложения, сочетающие возможности языковых моделей (LLM) с доступом, взаимодействием и манипулированием внешними ресурсами.\n\n\nКакова цель объединения агентов и векторных хранилищ в LangChain? Цель объединения агентов и векторных хранилищ в LangChain - создать агента, который может взаимодействовать с данными, индексированными в векторном хранилище, и обеспечивать агентное взаимодействие для поиска и извлечения данных&#8203;``【oaicite:2】``&#8203;.\n\n\nКак установить LangChain из исходного кода? Для установки LangChain из исходного кода необходимо клонировать репозиторий и убедиться, что директория соответствует 'PATH/TO/REPO/langchain/libs/langchain', затем выполнить команду 'pip install -e .'.\n\nЕсли вопрос тесно связан с предоставленными данными, используй их при формировании своего ответа."
1,"В контексте цепочки блоков (блокчейн), термин «ретривер» относится к процессу восстановления данных из блокчейна. Это может включать восстановление данных, которые были удалены или повреждены, а также восстановление данных, которые были потеряны из-за ошибок или сбоев в системе. Ретриверы могут использовать различные методы и технологии для восстановления данных, включая использование алгоритмов криптографии, анализ журналов и другие методы.","В контексте LangChain термин ""retriever"" обозначает интерфейс, который возвращает документы, полученные в ответ на неструктурированный запрос. Это более общее понятие, чем хранилище векторов. Ретриверы могут использовать различные методы для извлечения документов, включая поиск по схожести и MMR. Они также могут быть легоковесной оберткой вокруг класса векторного хранилища.\n\nВ частности, Vector Store-Backed Retriever в LangChain является ретривером, который использует векторное хранилище для извлечения документов. Он использует методы поиска, реализованные векторным хранилищем, для запроса текстов в векторном хранилище.\n\nТакже в документах упоминается Self-querying Retriever, однако подробной информации или примеров кода, касающихся этого компонента, не предоставлено.","\nОтветь на вопрос: Что такое ретривер в контексте Langchain?\n\nПри ответе учитывай следующие имеющиеся данные:\n\n\nЧто такое 'retriever' в контексте LangChain? Retriever - это интерфейс, который возвращает документы, полученные в ответ на неструктурированный запрос. Это более общее понятие, чем хранилище векторов. Retriever не обязательно должен иметь возможность хранить документы, только возвращать (или извлекать) их. Хранилища векторов могут использоваться в качестве основы для retriever, но существуют и другие типы retriever'ов&#8203;``【oaicite:4】``&#8203;.\n\n\nЧто такое Vector Store-Backed Retriever в LangChain? Vector Store-Backed Retriever в LangChain - это ретривер, который использует векторное хранилище для извлечения документов. Это легковесная обертка вокруг класса векторного хранилища, которая позволяет ему соответствовать интерфейсу ретривера. Он использует методы поиска, реализованные векторным хранилищем, такие как поиск по схожести и MMR, для запроса текстов в векторном хранилище&#8203;``【oaicite:4】``&#8203;.\n\n\nЧто такое LangChain и для чего он используется? LangChain - это фреймворк для разработки приложений, работающих на основе языковых моделей. Он позволяет создавать приложения, которые осведомлены о контексте и могут осуществлять рассуждения на основе предоставленного контекста.\n\n\nКакие методы поддерживаются интерфейсом 'retriever' в LangChain? Retriever'ы реализуют интерфейс Runnable, базовый строительный блок языка выражений LangChain (LCEL). Это означает, что они поддерживают вызовы `invoke`, `ainvoke`, `stream`, `astream`, `batch`, `abatch`, `astream_log`&#8203;``【oaicite:3】``&#8203;.\n\n\nЧто такое Self-querying Retriever в LangChain? Self-querying Retriever - это функция или компонент в LangChain, о котором упоминается в документации. Однако на данной странице отсутствует подробная информация или примеры кода, касающиеся этого компонента&#8203;``【oaicite:1】``&#8203;.\n\nЕсли вопрос тесно связан с предоставленными данными, используй их при формировании своего ответа."
2,"В LangChain можно объединять несколько шагов в цепочку, используя оператор `;` (запятая). Например, чтобы объединить два шага `step1` и `step2`, можно написать следующий код:\n\n<code>\nstep1;\nstep2;\n</code>\n\nТакже можно использовать оператор `;` для объединения нескольких шагов в одну строку кода. Например:\n\n<code>\nstep1; step2; step3;\n</code>\n\nОбратите внимание, что оператор `;` не является обязательным элементом при объединении шагов в цепочку. Если шаги не объединены оператором `;`, они будут выполнены последовательно.","Для объединения нескольких шагов в цепочку в LangChain можно использовать пакеты 'ChatOpenAI' и 'ChatPromptTemplate'. Сначала необходимо импортировать эти пакеты, затем создать экземпляр модели и шаблона приглашения. Далее можно объединить их в цепочку, используя метод `combine_steps()`. При этом можно указать параметры, такие как `return_intermediate_steps=True`, чтобы получить доступ к промежуточным шагам агента.\n\nПакеты LangChain предлагают ключевые преимущества, такие как компоненты для работы с языковыми моделями и готовые цепочки, которые облегчают начало работы и позволяют настраивать существующие цепочки или создавать новые. Они также предоставляют возможность выбора примеров по длине, что полезно при работе с длинными входными данными.","\nОтветь на вопрос: Как объединить несколько шагов в цепочку в LangChain?\n\nПри ответе учитывай следующие имеющиеся данные:\n\n\nКаковы преимущества использования промежуточных шагов в LangChain? Использование промежуточных шагов в LangChain позволяет лучше понять, как агент приходит к окончательному ответу. Это обеспечивает дополнительную прозрачность и позволяет пользователям или разработчикам увидеть, какие инструменты использовались и какие наблюдения были сделаны на каждом шаге процесса&#8203;``【oaicite:0】``&#8203;.\n\n\nКакие шаги необходимо выполнить для создания и использования простой цепочки 'PromptTemplate + ChatModel' в LangChain? Для создания и использования цепочки 'PromptTemplate + ChatModel' в LangChain, необходимо импортировать 'ChatOpenAI' и 'ChatPromptTemplate', создать экземпляр модели и шаблона приглашения, а затем объединить их в цепочку.\n\n\nКак можно получить доступ к промежуточным шагам агента в LangChain? В LangChain можно получить доступ к промежуточным шагам агента, используя параметр `return_intermediate_steps=True` при инициализации агента. Это позволяет отслеживать каждый шаг в цепочке действий агента, включая использование инструментов и наблюдения за результатами&#8203;``【oaicite:2】``&#8203;.\n\n\nКакие ключевые преимущества предлагают пакеты LangChain? Основные преимущества пакетов LangChain включают в себя компоненты для работы с языковыми моделями и готовые цепочки, которые облегчают начало работы и позволяют настраивать существующие цепочки или создавать новые.\n\n\nВ каких сценариях полезно использовать выбор примеров по длине в LangChain? Выбор примеров по длине в LangChain полезен, когда нужно учитывать ограничения по длине запроса, особенно для моделей языка с ограниченным размером контекстного окна. Это помогает убедиться, что включенные примеры не превышают максимально допустимую длину, что особенно важно при работе с длинными входными данными.\n\nЕсли вопрос тесно связан с предоставленными данными, используй их при формировании своего ответа."
3,"Для работы с OpenAiEmbeddings в Langchain необходимо выполнить следующие шаги:\n\n1. Установить пакет `langchain` и `openai-embeddings`.\n\n2. Создать экземпляр модели `OpenAiEmbeddings`.\n\n3. Загрузить предварительно обученную модель из файла.\n\n4. Выполнить запрос к модели для получения вектора представления текста.\n\nПример кода для работы с OpenAiEmbeddings в Langchain:\n\n<code>{python}from langchain import LanguageModel\n\n# Создаем экземпляр модели OpenAiEmbeddings\nmodel = LanguageModel('path/to/model.json')\n\n# Загружаем предварительно обученную модель из файла\nmodel.load_pretrained('path/to/file.h5')\n\n# Получаем вектор представления текста\nvector = model.encode('Hello, world!', max_length=100)\n</code>\n\nВ данном примере мы создаем экземпляр модели `OpenAiEmbeddings`, загружаем предварительно обученную модель из файла и получаем вектор представления текста методом `encode()`. В качестве аргументов метода передаются текст и максимальная длина входного текста.","Для работы с OpenAIEmbeddings в LangChain необходимо выполнить следующие шаги:\n\n1. Импортировать необходимые модули из пакетов langchain.embeddings, langchain.indexes и langchain.schema.\n\n2. Создать экземпляр модели OpenAIEmbeddings и передать ей ключ API OpenAI.\n\n3. Создать экземпляр класса ElasticsearchStore и передать ему URL Elasticsearch, имя индекса и модель векторизации.\n\n4. Использовать метод embed_documents для векторизации списка документов или метод embed_query для векторизации заданного запроса.\n\n5. Использовать полученные векторные представления для построения индекса в Elasticsearch или для дальнейшей обработки данных в LangChain.\n\nПример использования OpenAIEmbeddings для встраивания списка текстов в LangChain:\n\n<code>{python}from langchain.embeddings import OpenAIEmbeddings\nfrom langchain.indexes import ElasticsearchStore\nfrom langchain.schema import Document\n\n# Создание экземпляра модели OpenAIEmbeddings\nembeddings_model = OpenAIEmbeddings(openai_api_key=""your-api-key"")\n\n# Векторизация списка документов\nembeddings = embeddings_model.embed_documents([\n ""Hi there!"",\n ""Oh, hello!"",\n ""What's your name?"",\n ""My friends call me World"",\n ""Hello World!""\n])\n\n# Создание экземпляра класса ElasticsearchStore\nvectorstore = ElasticsearchStore(es_url=""http://localhost:9200"", index_name=""test_index"", embedding=embeddings_model)\n\n# Создание экземпляра класса Document\ndoc = Document(""Document"", fields={""text"": ""Hello World!""})\n\n# Индексация документа в Elasticsearch\nvectorstore.add_document(doc)\n\n# Получение векторного представления документа\nvector = vectorstore.get_vector(""test_index"", ""Document"")\n\n# Вывод векторного представления документа\nprint(vector)\n</code>","\nОтветь на вопрос: Как в Langchain работать с OpenAiEmbeddings?\n\nПри ответе учитывай следующие имеющиеся данные:\n\n\nКак использовать OpenAIEmbeddings для встраивания документов в LangChain? from langchain.embeddings import OpenAIEmbeddings\n\nembeddings_model = OpenAIEmbeddings()\nembeddings = embeddings_model.embed_documents([""Hi there!"", ""Oh, hello!"", ""What's your name?""])\n# 'embeddings' содержит список векторных представлений для каждого текста\n\n\n\nКак использовать OpenAIEmbeddings для встраивания одиночного запроса в LangChain? from langchain.embeddings import OpenAIEmbeddings\n\nembeddings_model = OpenAIEmbeddings()\n\nembedded_query = embeddings_model.embed_query(""What was the name mentioned in the conversation?"")\n# 'embedded_query' содержит векторное представление для заданного запроса\n\n\n\nКак начать работу с индексированием в LangChain? from langchain.embeddings import OpenAIEmbeddings \n from langchain.indexes import SQLRecordManager, index \n from langchain.schema import Document \n from langchain.vectorstores import ElasticsearchStore \n\n collection_name = ""test_index"" \n embedding = OpenAIEmbeddings() \n vectorstore = ElasticsearchStore(es_url=""http://localhost:9200"", index_name=""test_index"", embedding=embedding)\n\n\nКак использовать OpenAIEmbeddings для встраивания списка текстов в LangChain? from langchain.embeddings import OpenAIEmbeddings\n\nembeddings_model = OpenAIEmbeddings(openai_api_key=""your-api-key"")\n\nembeddings = embeddings_model.embed_documents([\n ""Hi there!"",\n ""Oh, hello!"",\n ""What's your name?"",\n ""My friends call me World"",\n ""Hello World!""\n])\n# 'embeddings' содержит список векторных представлений каждого текста\n\n\n\nКак работают инструменты OpenAI в LangChain? Инструменты OpenAI в LangChain позволяют взаимодействовать с OpenAI Assistants с использованием инструментов OpenAI или пользовательских инструментов. При использовании исключительно инструментов OpenAI можно непосредственно вызывать ассистента и получать окончательные ответы. При использовании пользовательских инструментов можно запускать цикл выполнения ассистента и инструментов с помощью встроенного AgentExecutor или легко написать свой собственный исполнитель&#8203;``【oaicite:1】``&#8203;.\n\nЕсли вопрос тесно связан с предоставленными данными, используй их при формировании своего ответа."
4,"CSVLoader - это класс, который используется для загрузки данных из файлов CSV (Comma-Separated Values) в язык программирования Python. Для использования CSVLoader в Langchain необходимо выполнить следующие шаги:\n\n1. Импортировать модуль csv в вашем коде:\n\n<code>{python}import csv\n</code>\n\n2. Создать объект CSVLoader и передать ему имя файла, из которого нужно загрузить данные:\n\n<code>{python}csv_loader = csv.CSVLoader()\ndata = csv_loader.load_from_file('path/to/file.csv')\n</code>\n\n3. После загрузки данных можно использовать их в своем коде. Например, если у вас есть список с именами и возрастами людей, вы можете вывести их на экран:\n\n<code>{python}for name, age in data:\n print(name, 'is', age)\n</code>\n\nОбратите внимание, что CSVLoader может иметь различные параметры, такие как разделитель знаков, заголовки столбцов и т.д. Подробную информацию о параметрах можно найти в документации модуля csv.","CSVLoader в LangChain используется для эффективной загрузки и обработки данных из CSV-файлов. Он позволяет преобразовать данные в документы, которые могут быть использованы в LLM. Преимущества использования CSVLoader включают удобство интеграции и анализа табличных данных, которые широко применяются в различных бизнес- и исследовательских приложениях.\n\nДля загрузки данных из CSV-файла в LangChain необходимо использовать класс CSVLoader. Пример использования CSVLoader для загрузки данных из файла ""mlb_teams_2012.csv"" выглядит следующим образом:\n\n<code>{python}from langchain.document_loaders.csv_loader import CSVLoader\n\nloader = CSVLoader(file_path='./example_data/mlb_teams_2012.csv')\ndata = loader.load()\n# 'data' содержит список документов, загруженных из указанного CSV-файла\n</code>\n\nJSONLoader в LangChain предоставляет мощное средство для загрузки и обработки данных из JSON-файлов. Он поддерживает сложные структуры данных и позволяет настраивать схему извлечения. Для использования JSONLoader необходимо выбрать соответствующий загрузчик в зависимости от формата и источника данных, которые необходимо обработать.\n\nВ целом, в LangChain доступны различные типы Document Loaders, включая загрузчики для текстовых файлов, веб-страниц, CSV-файлов, PDF-документов, HTML-контента и многих других форматов. Выбор конкретного загрузчика зависит от требований проекта и типа данных, которые необходимо обработать.","\nОтветь на вопрос: Как использовать CSVLoader в Langchain?\n\nПри ответе учитывай следующие имеющиеся данные:\n\n\nКакие преимущества предоставляет использование CSVLoader в LangChain? CSVLoader в LangChain позволяет эффективно загружать и обрабатывать данные из CSV-файлов, преобразуя их в документы для дальнейшего использования в LLM. Это облегчает интеграцию и анализ табличных данных, которые часто используются в различных бизнес- и исследовательских приложениях.\n\n\nКак использовать CSVLoader для загрузки данных из CSV-файла в LangChain? from langchain.document_loaders.csv_loader import CSVLoader\n\nloader = CSVLoader(file_path='./example_data/mlb_teams_2012.csv')\ndata = loader.load()\n# 'data' содержит список документов, загруженных из указанного CSV-файла\n\n\nКаковы преимущества использования JSONLoader в LangChain для обработки JSON-данных? JSONLoader в LangChain обеспечивает гибкое и мощное средство для загрузки и обработки данных из JSON-файлов, включая поддержку сложных структур данных и возможность настройки схемы извлечения. Это позволяет эффективно интегрировать и использовать JSON-данные в различных приложениях на основе LangChain.\n\n\nКакие типы Document Loaders доступны в LangChain? В LangChain доступны различные типы Document Loaders, включая загрузчики для текстовых файлов, веб-страниц, CSV-файлов, PDF-документов, HTML-контента и многих других форматов. Это позволяет пользователям выбирать подходящий загрузчик в зависимости от формата и источника данных, которые им необходимо обработать.\n\n\nКак настроить CSVLoader для использования кастомных параметров парсинга CSV в LangChain? from langchain.document_loaders.csv_loader import CSVLoader\n\nloader = CSVLoader(file_path='./example_data/mlb_teams_2012.csv', csv_args={\n 'delimiter': ',',\n 'quotechar': '""',\n 'fieldnames': ['MLB Team', 'Payroll in millions', 'Wins']\n})\ndata = loader.load()\n# 'data' содержит список документов с кастомными параметрами парсинга\n\nЕсли вопрос тесно связан с предоставленными данными, используй их при формировании своего ответа."
5,"Для указания пути к файлу в CSVLoader в Langchain необходимо использовать параметр `file_path` при создании экземпляра класса `CSVLoader`. \n\nПример использования:\n\n<code>{python}from langchain import CSVLoader\n\n# Создаем экземпляр класса CSVLoader\nloader = CSVLoader(file_path='/home/user/data.csv')\n</code>\n\nВ данном примере мы указываем путь к файлу `/home/user/data.csv`. Если файл находится в другой директории, то необходимо указать полный путь к файлу.","Для указания пути к файлу в CSVLoader в LangChain необходимо использовать аргумент `file_path` при создании экземпляра класса `CSVLoader`. В данном случае, если файл находится в директории `/home/user/data.csv`, можно создать экземпляр класса следующим образом:\n\n<code>{python}from langchain.document_loaders.csv_loader import CSVLoader\n\nloader = CSVLoader(file_path='/home/user/data.csv')\ndata = loader.load()\n</code>\n\nВ этом примере мы указываем путь к файлу `/home/user/data.csv`. При использовании этого метода, CSVLoader автоматически загрузит данные из указанного файла и вернет их в виде списка документов.","\nОтветь на вопрос: Как мне в CSVLoader в Langchain указать свой путь до файла если мой файл лежит в /home/user/data.csv?\n\nПри ответе учитывай следующие имеющиеся данные:\n\n\nКакие преимущества предоставляет использование CSVLoader в LangChain? CSVLoader в LangChain позволяет эффективно загружать и обрабатывать данные из CSV-файлов, преобразуя их в документы для дальнейшего использования в LLM. Это облегчает интеграцию и анализ табличных данных, которые часто используются в различных бизнес- и исследовательских приложениях.\n\n\nКак использовать CSVLoader для загрузки данных из CSV-файла в LangChain? from langchain.document_loaders.csv_loader import CSVLoader\n\nloader = CSVLoader(file_path='./example_data/mlb_teams_2012.csv')\ndata = loader.load()\n# 'data' содержит список документов, загруженных из указанного CSV-файла\n\n\nКак настроить CSVLoader для использования кастомных параметров парсинга CSV в LangChain? from langchain.document_loaders.csv_loader import CSVLoader\n\nloader = CSVLoader(file_path='./example_data/mlb_teams_2012.csv', csv_args={\n 'delimiter': ',',\n 'quotechar': '""',\n 'fieldnames': ['MLB Team', 'Payroll in millions', 'Wins']\n})\ndata = loader.load()\n# 'data' содержит список документов с кастомными параметрами парсинга\n\nЕсли вопрос тесно связан с предоставленными данными, используй их при формировании своего ответа."
6,"Зеленый цвет растениям придаёт хлорофилл — зеленый пигмент, который участвует в процессе фотосинтеза. Хлорофилл поглощает световую энергию и использует её для превращения углекислого газа и воды в глюкозу и кислород. Этот процесс происходит в хлоропластах растительных клеток. В результате фотосинтеза растения выделяют кислород в атмосферу и используют глюкозу для своего роста и развития.","Трава зеленая из-за наличия хлорофилла в ее клетках. Хлорофилл является основным пигментом, который поглощает световую энергию и использует ее для фотосинтеза — процесса, при котором растения преобразуют солнечную энергию в химическую энергию, необходимую для роста и развития. Зеленый цвет хлорофилла обусловлен его способностью поглощать световые волны определенной длины, что позволяет ему эффективно использовать доступную энергию. Таким образом, благодаря зеленому пигменту, трава способна получать энергию от солнца и превращать ее в питательные вещества, необходимые для ее роста и развития.","\nОтветь на вопрос: Почему трава зеленая?\n\nПри ответе учитывай следующие имеющиеся данные:\n\nЕсли вопрос тесно связан с предоставленными данными, используй их при формировании своего ответа."


In [None]:
compare_df.to_html('final_work_result.html')

# Посмотрим качество наших эмбеддингов - насколько они правильно находят ответ по запросу

In [None]:
top_n = 5
retriever = db.as_retriever(search_kwargs = {"k": top_n, "score_threshold": 0.3})

test_subset_len = 20
doc_length = min(len(data), test_subset_len)

# Посмотрим accuracy когда мы задаем точно такие же вопросы, котоые есть в датасете

In [None]:
relevant_in_top_n = 0

for doc in tqdm(data[:test_subset_len]):
    question = doc.metadata['question']
    question_id = doc.metadata['id']

    relevant_documents = retriever.get_relevant_documents(question)
    relevant_document_ids = map(lambda x: x.metadata['id'], relevant_documents)
    if question_id in relevant_document_ids:
        relevant_in_top_n += 1

    sleep(20)

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [06:53<00:00, 20.67s/it]


In [None]:
print(f'Точность на тех же вопросах {relevant_in_top_n / doc_length}')

Точность на тех же вопросах 1.0


# Попроисим gigachat переформулировать наши вопросы и проверим точность на них.

In [None]:
relevant_in_top_n = 0
question_dict = {
    'questions': [],
    'rephrased_questions': []
}


for doc in tqdm(data[:test_subset_len]):
    question = doc.metadata['question']
    question_id = doc.metadata['id']

    rephrased_question = llm(f'Переформулируй этот вопрос: {question}')

    question_dict['questions'].append(question)
    question_dict['rephrased_questions'].append(rephrased_question)

    relevant_documents = retriever.get_relevant_documents(rephrased_question)
    relevant_document_ids = map(lambda x: x.metadata['id'], relevant_documents)
    if question_id in relevant_document_ids:
        relevant_in_top_n += 1

    sleep(20)

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [07:22<00:00, 22.11s/it]


In [None]:
pd.DataFrame.from_dict(question_dict)

Unnamed: 0,questions,rephrased_questions
0,Что такое LangChain и для чего он используется?,Для чего предназначен LangChain и что это за технология?
1,Какие основные части включает в себя фреймворк LangChain?,Какие компоненты входят в состав фреймворка LangChain?
2,Какие ключевые преимущества предлагают пакеты LangChain?,Какие основные преимущества предоставляют пакеты LangChain?
3,Что такое LCEL в контексте LangChain?,"В контексте LangChain, что означает LCEL?"
4,Какие модули предоставляет LangChain?,Какие функциональные возможности предлагает LangChain?
5,Какие примеры использования LangChain приведены в документации?,В документации приведены какие примеры использования LangChain?
6,Какова роль LangChain в экосистеме инструментов?,Какую роль играет LangChain в экосистеме инструментов?
7,Как установить LangChain с использованием Pip и Conda?,Как можно установить пакет LangChain с помощью инструментов Pip и Conda?
8,Как установить LangChain из исходного кода?,Как можно установить LangChain из исходного кода?
9,Что представляет собой пакет 'langchain-experimental' и как его установить?,Какой пакет называется 'langchain-experimental' и как его можно установить?


In [None]:
print(f'Точность на переформулированных вопросах {relevant_in_top_n / doc_length}')

Точность на переформулированных вопросах 1.0


# Как видим, на сабсемпле данных эмбеддинг одинакого хорошо работает как на точных вопросах, так и на перефразированных.