In [1]:
import os

with open('api_key.txt', 'r') as f:
    key = f.read()

os.environ['GIGACHAT_API_ACCESS_KEY'] = key

In [2]:
from langchain.vectorstores import Chroma
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings
from langchain.text_splitter import CharacterTextSplitter 
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

file_paths = [
    'docs/test.json',
    'docs/raw_recomm_papers_1.txt',
    'docs/raw_recomm_papers_2.txt',
    'docs/raw_recomm_papers_3.txt'
]

# Load each file and store the results in a list
documents = []
for file_path in file_paths:
    loader = TextLoader(file_path, encoding='utf-8')  # Specify the encoding
    documents.extend(loader.load())


text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
docs = text_splitter.split_documents(documents)

embedding_function = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")

db = Chroma.from_documents(docs, embedding_function)
db

  embedding_function = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
  from .autonotebook import tqdm as notebook_tqdm


<langchain_community.vectorstores.chroma.Chroma at 0x24bf4d84c80>

In [3]:
documents

[Document(metadata={'source': 'docs/test.json'}, page_content='[\n    {\n        "название": "Acer Aspire 3 A317-51G",\n        "разрешение_экрана": "1600x900",\n        "процессор": "Intel Core i5 1.6 ГГц",\n        "оперативная_память": "8 ГБ",\n        "накопитель": "SSD 256 ГБ",\n        "видеокарта": "GeForce MX230",\n        "операционная_система": "Linux",\n        "цена": "57000 ₽"\n    },\n    {\n      "название": "ASUS TUF Gaming A15 FA507NV-LP025",\n      "разрешение_экрана": "1920x1080",\n      "тип_экрана": "IPS",\n      "процессор": "AMD Ryzen 5 7535HS, 6 ядер, 3.3 ГГц",\n      "оперативная_память": "16 ГБ",\n      "накопитель": "SSD 512 ГБ",\n      "видеокарта": "GeForce RTX 4060 для ноутбуков, 8 ГБ",\n      "операционная_система": "без ОС",\n      "раскладка_клавиатуры": "английская/русская",\n      "цена": "104,999 ₽"\n    },\n    {\n      "название": "ASUS Vivobook Go 15 E1504FA-BQ533",\n      "разрешение_экрана": "1920x1080",\n      "тип_экрана": "IPS",\n      "проце

In [4]:
docs[0].page_content

'[\n    {\n        "название": "Acer Aspire 3 A317-51G",\n        "разрешение_экрана": "1600x900",\n        "процессор": "Intel Core i5 1.6 ГГц",\n        "оперативная_память": "8 ГБ",\n        "накопитель": "SSD 256 ГБ",\n        "видеокарта": "GeForce MX230",\n        "операционная_система": "Linux",\n        "цена": "57000 ₽"\n    },\n    {\n      "название": "ASUS TUF Gaming A15 FA507NV-LP025",\n      "разрешение_экрана": "1920x1080",\n      "тип_экрана": "IPS",'

In [5]:
docs[1].page_content

'"разрешение_экрана": "1920x1080",\n      "тип_экрана": "IPS",\n      "процессор": "AMD Ryzen 5 7535HS, 6 ядер, 3.3 ГГц",\n      "оперативная_память": "16 ГБ",\n      "накопитель": "SSD 512 ГБ",\n      "видеокарта": "GeForce RTX 4060 для ноутбуков, 8 ГБ",\n      "операционная_система": "без ОС",\n      "раскладка_клавиатуры": "английская/русская",\n      "цена": "104,999 ₽"\n    },\n    {\n      "название": "ASUS Vivobook Go 15 E1504FA-BQ533",\n      "разрешение_экрана": "1920x1080",'

In [6]:
retriever = db.as_retriever()
retrieved_docs = retriever.invoke("игры")

retrieved_docs

[Document(metadata={'source': 'docs/raw_recomm_papers_2.txt'}, page_content='i5 8го поколения, сенсорный FullHD-экран, SSD на 256гб, батарея в состоянии "муха не сидела" и 8гб оперативки, которую я нарастил до 16гб.'),
 Document(metadata={'source': 'docs/test.json'}, page_content='"раскладка_клавиатуры": "английская/русская",\n      "цена": "20,000 ₽"\n    }\n  ]'),
 Document(metadata={'source': 'docs/raw_recomm_papers_1.txt'}, page_content='мемов на\xa0любой случай жизниКуда сходить в\xa0Москве зимой«Потратил много денег, времени и\xa0сил»: 4\xa0истории про\xa0машины, которые дорого содержатьФинансовое правило: я\xa0инвестирую мелочь на\xa0ИИС, чтобы превратить ее\xa0в\xa0значительный капитал8\xa0устройств, которые пригодятся каждому арендатору жильяБесит, что все вокруг пытаются зарабатывать на\xa0родителях маленьких детейКак изменилась жизнь учительницы английского в\xa0Лю\xadберцах с\xa0зарплатой 88\xa0000\xa0₽Как изменилась жизнь главного кли\xadент\xadского менеджера'),
 Document

In [7]:
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate
from langchain.chat_models.gigachat import GigaChat
from langchain.chains import create_retrieval_chain

In [8]:
llm = GigaChat(
    credentials=os.environ['GIGACHAT_API_ACCESS_KEY'],
    model="GigaChat",
    verify_ssl_certs=False,
)

prompt = ChatPromptTemplate.from_template(''' Ты - консультант в техническом интернет-магазине \
                                          Ответь на вопрос пользователя. \
Используй при этом информацию из контекста. Если в контексте нет \
информации для ответа, попроси пользователя уточнить необходимые детали.
Контекст: {context}
Вопрос: {input}
Ответ:'''
)


  llm = GigaChat(


In [9]:
document_chain = create_stuff_documents_chain(
    llm=llm,
    prompt=prompt,
)

In [10]:
retrieval_chain = create_retrieval_chain(retriever, document_chain)

In [11]:
question = "Какой лучше ноутбук подойдёт для учёбы (cтудент технического вуза с углублением в ИИ и нейросети)?"

In [20]:
question2= "Мне нужен ноутбук до 50.000р и от фирмы Acer?"


In [21]:
result = retrieval_chain.invoke({'input': question2})

In [22]:
with open('result.md', 'w', encoding='utf-8') as f:
    f.write(question+'\n\n')
    
    f.write(result['answer'])