In [2]:
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
from operator import itemgetter
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import ChatPromptTemplate
import os
#from langchain_google_genai import ChatGoogleGenerativeAI

In [3]:
from langchain_community.llms import Ollama

In [4]:
# 1. Загрузка той же самой модели эмбеддингов, которая использовалась для создания индекса
model_name = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
embeddings = HuggingFaceEmbeddings(model_name=model_name)

  embeddings = HuggingFaceEmbeddings(model_name=model_name)


In [5]:
#  Загрузка FAISS-индекса с диска
loaded_vectorstore_recursive = FAISS.load_local(
    "faiss_index_recursive",  
    embeddings,               
    allow_dangerous_deserialization=True 
)

In [6]:
loaded_vectorstore_semantic = FAISS.load_local(
    "faiss_index_semantic",  
    embeddings,               
    allow_dangerous_deserialization=True 
)

In [7]:
loaded_vectorstore_fusion = FAISS.load_local(
    "faiss_index_fusion_dense",  
    embeddings,               
    allow_dangerous_deserialization=True 
)

In [8]:
loaded_vectorstore_hyde = FAISS.load_local(
    "faiss_index_hyde",  
    embeddings,               
    allow_dangerous_deserialization=True 
)

In [9]:
retriever_recursive = loaded_vectorstore_recursive.as_retriever(search_kwargs={"k": 4})

In [10]:
retriever_semantic = loaded_vectorstore_semantic.as_retriever(search_kwargs={"k": 4})

In [11]:
retriever_fusion = loaded_vectorstore_fusion.as_retriever(search_kwargs={"k": 4})

In [14]:
retriever_hyde = loaded_vectorstore_hyde.as_retriever(search_kwargs={"k": 4})

In [15]:
# Индекс загружен и готов к поиску
query = "Какие есть вакансии для Data Scientist?"
results = loaded_vectorstore_recursive.similarity_search(query, k=4)

In [16]:
llm = Ollama(model="llama3", temperature=0)

  llm = Ollama(model="llama3", temperature=0)


In [17]:
system_template = (
    "Ты — умный HR-помощник, специалист по вакансиям. "
    "Используй ТОЛЬКО предоставленный КОНТЕКСТ для ответа на вопрос пользователя. "
    "Сформулируй ответ на русском языке, перечисляя вакансии в структурированном виде, включая город, опыт и название вакансии. "
    "Если контекст не содержит ответа, вежливо сообщи об этом. "
    "Контекст: {context}"
)

In [18]:
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system_template),
        ("user", "{question}"), # Изменено с "human" на "user" для лучшей совместимости
    ])

In [19]:
def format_docs(docs):
    # Объединяем текст найденных чанков в одну большую строку
    return "\n\n".join(doc.page_content for doc in docs)

In [20]:
query_test = "Какие требования к кандидатам data scientist в санкт петербурге?"

In [21]:
rag_chain_recursive = (
    {
        # Шаг 1: Поиск контекста (вопрос -> retriever -> форматирование)
        "context": itemgetter("question") | retriever_recursive | format_docs,  
        # Шаг 2: Сохранение исходного вопроса
        "question": itemgetter("question")
    }
    | prompt          # Шаг 3: Применение промпта к контексту и вопросу
    | llm             # Шаг 4: Передача в модель Gemini
    | StrOutputParser() # Шаг 5: Получение ответа в виде строки
)

In [22]:
response = rag_chain_recursive.invoke({"question": query_test})
response

'Вакансии Data Scientist в Санкт-Петербурге:\n\n* Data Scientist / ML-инженер (Тераплан): Опыт от 3 до 6 лет, удаленная работа, полная занятость, минимальная зарплата 0.0.\n\nОбщие требования: опыт от 3 до 6 лет, удаленная работа, полная занятость, минимальная зарплата 0.0.'

In [23]:
rag_chain_semantic = (
    {
        # Шаг 1: Поиск контекста (вопрос -> retriever -> форматирование)
        "context": itemgetter("question") | retriever_semantic | format_docs,  
        # Шаг 2: Сохранение исходного вопроса
        "question": itemgetter("question")
    }
    | prompt          # Шаг 3: Применение промпта к контексту и вопросу
    | llm             # Шаг 4: Передача в модель Gemini
    | StrOutputParser() # Шаг 5: Получение ответа в виде строки
)

In [24]:
response = rag_chain_semantic.invoke({"question": query_test})
response

'Вакансии Data Scientist / Researcher:\n\n* Санкт-Петербург, от 1 года до 3 лет опыта, полная занятость, удаленная работа:\n\t+ Вакансия: Data Scientist / Researcher\n\nВакансии Middle/Senior Data Scientist:\n\n* Москва, от 3 до 6 лет опыта, полная занятость, полный день:\n\t+ Вакансия: Middle/Senior Data Scientist\n* Москва, от 3 до 6 лет опыта, полная занятость, удаленная работа:\n\t+ Вакансия: Data Scientist в команду Пополнения\n\nВакансия Junior Data Scientist:\n\n* Москва, нет опыта, полная занятость, удаленная работа:\n\t+ Вакансия: Junior Data Scientist'

In [25]:
rag_chain_fusion = (
    {
        # Шаг 1: Поиск контекста (вопрос -> retriever -> форматирование)
        "context": itemgetter("question") | retriever_fusion | format_docs,  
        # Шаг 2: Сохранение исходного вопроса
        "question": itemgetter("question")
    }
    | prompt          # Шаг 3: Применение промпта к контексту и вопросу
    | llm             # Шаг 4: Передача в модель Gemini
    | StrOutputParser() # Шаг 5: Получение ответа в виде строки
)

In [26]:
response = rag_chain_fusion.invoke({"question": query_test})
response

'Вакансии Data Scientist / Researcher:\n\n* Санкт-Петербург, от 1 года до 3 лет опыта, полная занятость, удаленная работа.\n* Вакансия: Middle/Senior Data Scientist:\n\t+ Москва, от 3 до 6 лет опыта, полная занятость, полный день.\n\t+ Вакансия: Data Scientist в команду Пополнения:\n\t\t- Москва, от 3 до 6 лет опыта, полная занятость, удаленная работа.\n\t+ Вакансия: Junior Data Scientist:\n\t\t- Москва, нет опыта, полная занятость, удаленная работа.\n\nОбщие требования к кандидатам:\n\n* Опыт работы в области данных, математики, статистики или информатики;\n* Знание Python и классических алгоритмов структур данных;\n* Знание теоретических и практических продвинутых методов машинного обучения;\n* Знание SQL и знакомство с Hadoop стэком (для вакансии Data Scientist в команду Пополнения);\n* Навыки визуализации данных, умение строить понятные графики и дашборды (для вакансии Junior Data Scientist).\n\nВ целом, мы ищем кандидатов с высшим образованием в области математики, статистики или 

In [27]:
rag_chain_hyde = (
    {
        # Шаг 1: Поиск контекста (вопрос -> retriever -> форматирование)
        "context": itemgetter("question") | retriever_hyde | format_docs,  
        # Шаг 2: Сохранение исходного вопроса
        "question": itemgetter("question")
    }
    | prompt          # Шаг 3: Применение промпта к контексту и вопросу
    | llm             # Шаг 4: Передача в модель Gemini
    | StrOutputParser() # Шаг 5: Получение ответа в виде строки
)

In [28]:
response = rag_chain_hyde.invoke({"question": query_test})
response

'В контексте вакансий Data Scientist, которые я получил, есть три вакансии:\n\n1. Middle/Senior Data Scientist (Москва):\n\t* Опыт: от 3 до 6 лет\n\t* График: полный день\n\t* Занятость: полная занятость\n\t* Минимальная зарплата: 0.0\n\nОбязанности:\n\n* Моделирование, анализ бизнес-задач\n* Разработка архитектуры модели\n* Создание прототипа вывода модели\n* Время промышленной эксплуатации\n* Опыт работы в области DS, знание ML/DL стека Python\n\n2. Старший Data Scientist (Москва):\n\t* Опыт: от 3 до 6 лет\n\t* График: удаленная работа\n\t* Занятость: полная занятость\n\t* Минимальная зарплата: 0.0\n\nОбязанности:\n\n* Разработка ML-моделей для прогнозирования временных рядов\n* Опыт работы с геолого-геофизическими данными и моделями\n* Знание Python, Polars, SQL, Scikit-Learn, PyPlot, XGBoost, CatBoost\n\n3. Senior Data Scientist (Исследователь данных) (Москва):\n\t* Опыт: от 3 до 6 лет\n\t* График: полный день\n\t* Занятость: полная занятость\n\t* Минимальная зарплата: 0.0\n\nОбяза

In [85]:
from langchain_community.retrievers import BM25Retriever
from langchain_community.retrievers import EnsembleRetriever

ImportError: cannot import name 'EnsembleRetriever' from 'langchain_community.retrievers' (E:\anaconda\Lib\site-packages\langchain_community\retrievers\__init__.py)