In [2]:
import torch
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders.csv_loader import CSVLoader
from langchain_community.vectorstores import FAISS
from langchain_core.prompts import ChatPromptTemplate
from langchain_huggingface import HuggingFaceEmbeddings, HuggingFacePipeline
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

In [3]:
DATA_DIR = "../../data/"
loader = CSVLoader(file_path=f"{DATA_DIR}khas_bank_news.csv",
                   source_column="link",
                   metadata_columns=["title", "date", "link"],
                   content_columns=["content"],
                   csv_args={
                       "fieldnames": ["title", "link", "date", "content"],
                       }
                   )
news_data = loader.load()[1:]

loader = CSVLoader(file_path=f"{DATA_DIR}khas_bank_products.csv",
                   source_column="link",
                   metadata_columns=["id", "side_menu_text", "link"],
                   content_columns=["content"],
                   csv_args={
                       "fieldnames": ["id", "content", "side_menu_text", "link"],
                       }
                   )
product_data = loader.load()[1:]

loader = CSVLoader(file_path=f"{DATA_DIR}khas_bank_pages.csv",
                   source_column="link",
                   metadata_columns=["title", "link"],
                   content_columns=["content"],
                   csv_args={
                       "fieldnames": ["title", "content", "link"],
                       }
                   )
pages_data = loader.load()[1:]

all_data = news_data + product_data + pages_data
print(len(news_data), len(product_data), len(pages_data))
print(f"Нийт хуудасны тоо: {len(all_data)}")
print(all_data[0])

664 71 50
Нийт хуудасны тоо: 785
page_content='content: ХасБанк 2024 оны III улиралд 43.4 тэрбум төгрөгийн татварын дараах цэвэр ашигтай ажиллалааХасБанк 2024 оны III улиралд 43.4 тэрбум төгрөгийн (өмнөх улирлаас +0.4%) татварын дараах цэвэр ашигтай ажиллалаа. Ингэснээр жилийн өссөн дүнгээр татварын дараах цэвэр ашиг 128.7 тэрбум төгрөгт (өмнөх жилийн мөн үеэс +26.7%) хүрч, өөрийн хөрөнгийн өгөөж (annualized ROE) 26.2%,нэгж хувьцаанд ногдох цэвэр ашиг (EPS) 122.3 төгрөгтхүрлээ2024 оны III улирлын санхүүгийн үзүүлэлтээс онцолбол:Зээл ба санхүүгийн түрээсийн багц 3,609 тэрбум төгрөгт хүрч, өмнөх улирлаас 8.6%, оны эхнээс 31.2% өссөн нь III улирлын цэвэр хүүгийн орлогыг өмнөх улирлаас 9.0% өсөхөд нөлөөлсөн байна.Активын чанарын үзүүлэлт тогтвортой сайн хэвээр байгаа бөгөөд нийт зээл болон санхүүгийн түрээсийн багцад эзлэх чанаргүй зээлийг 2.2%-д удирдан ажиллаж байна.Харилцах, хадгаламжийн эх үүсвэр өмнөх улирлаас 0.1%-аар, оны эхнээс 11.3%-аар өсөж, 3,202 тэрбум төгрөгт хүрлээ.2024 оны э

In [4]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000, chunk_overlap=100
)
docs = text_splitter.split_documents(documents=all_data)
print(docs[0])

page_content='content: ХасБанк 2024 оны III улиралд 43.4 тэрбум төгрөгийн татварын дараах цэвэр ашигтай ажиллалааХасБанк 2024 оны III улиралд 43.4 тэрбум төгрөгийн (өмнөх улирлаас +0.4%) татварын дараах цэвэр ашигтай ажиллалаа. Ингэснээр жилийн өссөн дүнгээр татварын дараах цэвэр ашиг 128.7 тэрбум төгрөгт (өмнөх жилийн мөн үеэс +26.7%) хүрч, өөрийн хөрөнгийн өгөөж (annualized ROE) 26.2%,нэгж хувьцаанд ногдох цэвэр ашиг (EPS) 122.3 төгрөгтхүрлээ2024 оны III улирлын санхүүгийн үзүүлэлтээс онцолбол:Зээл ба санхүүгийн түрээсийн багц 3,609 тэрбум төгрөгт хүрч, өмнөх улирлаас 8.6%, оны эхнээс 31.2% өссөн нь III улирлын цэвэр хүүгийн орлогыг өмнөх улирлаас 9.0% өсөхөд нөлөөлсөн байна.Активын чанарын үзүүлэлт тогтвортой сайн хэвээр байгаа бөгөөд нийт зээл болон санхүүгийн түрээсийн багцад эзлэх чанаргүй зээлийг 2.2%-д удирдан ажиллаж байна.Харилцах, хадгаламжийн эх үүсвэр өмнөх улирлаас 0.1%-аар, оны эхнээс 11.3%-аар өсөж, 3,202 тэрбум төгрөгт хүрлээ.2024 оны эхний хагас жилийн цэвэр ашгаас нэ

In [5]:
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")

In [27]:
# Бүх document-с embedding үүсгэж, vector store-д хадгалах
# (өмнө нь үүсгэсэн бол заавал дахин үүсгэх шаардлагагүй, доорх load_local функцээр хадгалсан файлаас уншиж болно)
vector_store = FAISS.from_documents(docs, embeddings)
vector_store.save_local("faiss_index")

In [6]:
# Үүсгэсэн vector store-г файлаас унших
vector_store = FAISS.load_local(
    "faiss_index", embeddings, allow_dangerous_deserialization=True
)

In [7]:
# vector store-с document хайгч, k параметраар хамгийн ойр утгатай хэдэн document буцаахыг дамжуулна
retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 3})

docs = retriever.invoke("хасбанк хэзээ IPO хийсэн бэ")
docs

[Document(metadata={'source': 'https://www.xacbank.mn/article/ipo-opening', 'row': 73, 'title': 'ХасБанкны IPO: Нээлтийн арга хэмжээ амжилттай боллоо', 'date': '2023.05.25', 'link': 'https://www.xacbank.mn/article/ipo-opening'}, page_content='content: ХасБанкны IPO: Нээлтийн арга хэмжээ амжилттай боллооТус арга хэмжээнд ХасБанк өөрийн үйл ажиллагаа, хувьцаа, ирээдүйн стратеги, зорилтынхоо талаар харилцагч, хөрөнгө оруулагч, олон нийтэд дэлгэрэнгүй мэдээлэл өгсний зэрэгцээ ХасБанкны IPO-д хамтран ажиллаж буй андеррайтерууд болох Райнос Инвестмент үнэт цаасны компани, Өлзий энд Ко Капитал үнэт цаасны компаниуд үнэт цаасны данс нээн, урьдчилсан захиалга авч, хөрөнгийн зах зээлтэй холбоотой зөвлөгөө мэдээлэл өглөө.ХасБанк нийт хувьцааныхаа 5.01 хувийг 677 төгрөгийн нэгжийн үнээр анхдагч зах зээлд арилжаалж 35.7 тэрбум төгрөгийг татан төвлөрүүлэх бөгөөд хувьцааны захиалга 2023 оны 5-р сарын 29-ний 10:00 цагаас 6-р сарын 5-ны 16:00 цаг хүртэл явагдана.Эрхэм харилцагч, хөрөнгө оруулагч та өнө

In [8]:
from huggingface_hub import login

# Set your Hugging Face token here (replace with your token string)
huggingface_token = "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"

# Authenticate using the token
login(token=huggingface_token)

In [9]:
# Жишээ болгож Llama 3.1 8B загварыг ашиглав
model_id = "meta-llama/Llama-3.1-70B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, 
    torch_dtype=torch.float16,
    device_map='auto'
)

pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    # llm-н үүсгэж болох токений дээд хязгаар
    max_new_tokens=1024,
    # хариултын randomization-г арилгах
    do_sample=True,
    top_k=1,
    repetition_penalty=1.15,
    # гаралт бидний өгсөн prompt-г хамт хэвлэхгүй байх
    return_full_text=False,
    pad_token_id=tokenizer.eos_token_id,
)

# HuggingFace pipeline-г LangChain-ы pipeline болгох
llm = HuggingFacePipeline(pipeline=pipe)

Loading checkpoint shards:   0%|          | 0/30 [00:00<?, ?it/s]

Some parameters are on the meta device because they were offloaded to the cpu and disk.
Device set to use cuda:0


### Chain: Retrieval -> Prompt -> LLM

Prompt-н `{context}`-н оронд хайж олсон мэдээлэл, `{input}`-н оронд хэрэглэгчийн асуусан асуулт орох болно.

In [10]:
system_prompt = (
    "You are an assistant for question-answering tasks. "
    "Use the following pieces of retrieved context to answer "
    "the user question. If you don't know the answer to the question, say that you "
    "don't know. Use three sentences maximum and keep the "
    "answer concise."
    "\n\n"
    'Context:\n"""\n{context}\n"""'
)

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system_prompt),
        ("user", "Question: \"\"\"{input}\"\"\""),
        ("assistant", "Answer: "),
    ]
)

# vector store-с document хайгч, k параметраар хамгийн ойр утгатай хэдэн document буцаахыг дамжуулна
retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 3})

# Chain үүсгэх
# input -> retrieval -> prompt -> llm -> answer
question_answer_chain = create_stuff_documents_chain(llm, prompt)
rag_chain = create_retrieval_chain(retriever, question_answer_chain)

In [11]:
# Chain ажиллуулах
response = rag_chain.invoke({"input": "дебит карт яаж авах вэ"})
response["answer"]

OutOfMemoryError: CUDA out of memory. Tried to allocate 448.00 MiB. GPU 0 has a total capacity of 20.00 GiB of which 459.25 MiB is free. Including non-PyTorch memory, this process has 14.73 GiB memory in use. Process 93252 has 3.30 GiB memory in use. Of the allocated memory 13.79 GiB is allocated by PyTorch, and 446.01 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

In [12]:
# input, context, answer гурвыг бүгдийг нь харах
response

{'input': 'дебит карт яаж авах вэ',
 'context': [Document(metadata={'source': 'https://www.xacbank.mn/article/monpay-cashback', 'row': 123, 'title': 'Monpay төлбөрийн картаар худалдан авалт хийвэл 20%-ийг танд буцаан олгоно', 'date': '2021.11.04', 'link': 'https://www.xacbank.mn/article/monpay-cashback'}, page_content='сарын 5-аас 19-нийгдуустал үргэлжлэх тул та Monpay картаа яаралтай захиалан авч, 20%-ийн буцаан олголт авах ховорхон боломжийг бүү алдаарай.Жич: Нэг харилцагчид олгох буцаан олголтын дээд хэмжээ 200,000 төгрөгөөр хязгаарлагдана.Monpay картыг хэрхэн авах вэ?ХасБанкны шинэчлэгдсэн Дижитал банкаар дамжуулан зайнаас захиалж авахаас гадна ХасБанкны дурын салбар, тооцооны төв болон Мобикомын үндсэн салбаруудад хандан захиалах боломжтой.Шинэчлэгдсэн дижитал банкийг :http://bit.ly/XacBankMonpay картын давуу талОлон улсад болон онлайн төлбөр тооцоонд саадгүй ашиглана;Зайнаас унших NFC технологитой;ХасБанны дижитал банкаар дамжуулан картаа идэвхжүүлэх, пин кодоо солих, хаяж гээсэн