In [1]:
import torch
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders.csv_loader import CSVLoader
from langchain_community.vectorstores import FAISS
from langchain_core.prompts import ChatPromptTemplate
from langchain_huggingface import HuggingFaceEmbeddings, HuggingFacePipeline
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

In [2]:
DATA_DIR = "../../data/"
loader = CSVLoader(file_path=f"{DATA_DIR}khas_bank_news.csv",
                   source_column="link",
                   metadata_columns=["title", "date", "link"],
                   content_columns=["content"],
                   csv_args={
                       "fieldnames": ["title", "link", "date", "content"],
                       }
                   )
news_data = loader.load()[1:]

loader = CSVLoader(file_path=f"{DATA_DIR}khas_bank_products.csv",
                   source_column="link",
                   metadata_columns=["id", "side_menu_text", "link"],
                   content_columns=["content"],
                   csv_args={
                       "fieldnames": ["id", "content", "side_menu_text", "link"],
                       }
                   )
product_data = loader.load()[1:]

loader = CSVLoader(file_path=f"{DATA_DIR}khas_bank_pages.csv",
                   source_column="link",
                   metadata_columns=["title", "link"],
                   content_columns=["content"],
                   csv_args={
                       "fieldnames": ["title", "content", "link"],
                       }
                   )
pages_data = loader.load()[1:]

loader = CSVLoader(file_path=f"{DATA_DIR}faq_final.csv",
                   metadata_columns=["id", "context", "question", "answer"],
                   content_columns=["content"],
                   csv_args={
                       "fieldnames": ["id", "context", "question", "answer"],
                       }
                   )
faqs_data = loader.load()[1:]

all_data = news_data + product_data + pages_data + faqs_data
print(len(news_data), len(product_data), len(pages_data), len(faqs_data))
print(f"Нийт хуудасны тоо: {len(all_data)}")
print(all_data[0])

664 71 50 122
Нийт хуудасны тоо: 907
page_content='content: ХасБанк 2024 оны III улиралд 43.4 тэрбум төгрөгийн татварын дараах цэвэр ашигтай ажиллалааХасБанк 2024 оны III улиралд 43.4 тэрбум төгрөгийн (өмнөх улирлаас +0.4%) татварын дараах цэвэр ашигтай ажиллалаа. Ингэснээр жилийн өссөн дүнгээр татварын дараах цэвэр ашиг 128.7 тэрбум төгрөгт (өмнөх жилийн мөн үеэс +26.7%) хүрч, өөрийн хөрөнгийн өгөөж (annualized ROE) 26.2%,нэгж хувьцаанд ногдох цэвэр ашиг (EPS) 122.3 төгрөгтхүрлээ2024 оны III улирлын санхүүгийн үзүүлэлтээс онцолбол:Зээл ба санхүүгийн түрээсийн багц 3,609 тэрбум төгрөгт хүрч, өмнөх улирлаас 8.6%, оны эхнээс 31.2% өссөн нь III улирлын цэвэр хүүгийн орлогыг өмнөх улирлаас 9.0% өсөхөд нөлөөлсөн байна.Активын чанарын үзүүлэлт тогтвортой сайн хэвээр байгаа бөгөөд нийт зээл болон санхүүгийн түрээсийн багцад эзлэх чанаргүй зээлийг 2.2%-д удирдан ажиллаж байна.Харилцах, хадгаламжийн эх үүсвэр өмнөх улирлаас 0.1%-аар, оны эхнээс 11.3%-аар өсөж, 3,202 тэрбум төгрөгт хүрлээ.2024 о

In [3]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000, chunk_overlap=100
)
docs = text_splitter.split_documents(documents=all_data)
print(docs[0])

page_content='content: ХасБанк 2024 оны III улиралд 43.4 тэрбум төгрөгийн татварын дараах цэвэр ашигтай ажиллалааХасБанк 2024 оны III улиралд 43.4 тэрбум төгрөгийн (өмнөх улирлаас +0.4%) татварын дараах цэвэр ашигтай ажиллалаа. Ингэснээр жилийн өссөн дүнгээр татварын дараах цэвэр ашиг 128.7 тэрбум төгрөгт (өмнөх жилийн мөн үеэс +26.7%) хүрч, өөрийн хөрөнгийн өгөөж (annualized ROE) 26.2%,нэгж хувьцаанд ногдох цэвэр ашиг (EPS) 122.3 төгрөгтхүрлээ2024 оны III улирлын санхүүгийн үзүүлэлтээс онцолбол:Зээл ба санхүүгийн түрээсийн багц 3,609 тэрбум төгрөгт хүрч, өмнөх улирлаас 8.6%, оны эхнээс 31.2% өссөн нь III улирлын цэвэр хүүгийн орлогыг өмнөх улирлаас 9.0% өсөхөд нөлөөлсөн байна.Активын чанарын үзүүлэлт тогтвортой сайн хэвээр байгаа бөгөөд нийт зээл болон санхүүгийн түрээсийн багцад эзлэх чанаргүй зээлийг 2.2%-д удирдан ажиллаж байна.Харилцах, хадгаламжийн эх үүсвэр өмнөх улирлаас 0.1%-аар, оны эхнээс 11.3%-аар өсөж, 3,202 тэрбум төгрөгт хүрлээ.2024 оны эхний хагас жилийн цэвэр ашгаас нэ

In [4]:
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")

In [5]:
# Бүх document-с embedding үүсгэж, vector store-д хадгалах
# (өмнө нь үүсгэсэн бол заавал дахин үүсгэх шаардлагагүй, доорх load_local функцээр хадгалсан файлаас уншиж болно)
vector_store = FAISS.from_documents(docs, embeddings)
vector_store.save_local("faiss_index")

In [6]:
# Үүсгэсэн vector store-г файлаас унших
vector_store = FAISS.load_local(
    "faiss_index", embeddings, allow_dangerous_deserialization=True
)

In [7]:


retriever = vector_store.as_retriever(
    search_type='mmr',
    search_kwargs={
        "k": 4,
    }
)

docs = retriever.invoke("хасбанк хэзээ IPO хийсэн бэ")
docs


[Document(metadata={'source': 'https://www.xacbank.mn/article/ipo-opening', 'row': 73, 'title': 'ХасБанкны IPO: Нээлтийн арга хэмжээ амжилттай боллоо', 'date': '2023.05.25', 'link': 'https://www.xacbank.mn/article/ipo-opening'}, page_content='content: ХасБанкны IPO: Нээлтийн арга хэмжээ амжилттай боллооТус арга хэмжээнд ХасБанк өөрийн үйл ажиллагаа, хувьцаа, ирээдүйн стратеги, зорилтынхоо талаар харилцагч, хөрөнгө оруулагч, олон нийтэд дэлгэрэнгүй мэдээлэл өгсний зэрэгцээ ХасБанкны IPO-д хамтран ажиллаж буй андеррайтерууд болох Райнос Инвестмент үнэт цаасны компани, Өлзий энд Ко Капитал үнэт цаасны компаниуд үнэт цаасны данс нээн, урьдчилсан захиалга авч, хөрөнгийн зах зээлтэй холбоотой зөвлөгөө мэдээлэл өглөө.ХасБанк нийт хувьцааныхаа 5.01 хувийг 677 төгрөгийн нэгжийн үнээр анхдагч зах зээлд арилжаалж 35.7 тэрбум төгрөгийг татан төвлөрүүлэх бөгөөд хувьцааны захиалга 2023 оны 5-р сарын 29-ний 10:00 цагаас 6-р сарын 5-ны 16:00 цаг хүртэл явагдана.Эрхэм харилцагч, хөрөнгө оруулагч та өнө

In [8]:
from huggingface_hub import login

# Set your Hugging Face token here (replace with your token string)
huggingface_token = "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"

# Authenticate using the token
login(token=huggingface_token)

In [9]:
# Жишээ болгож Llama 3.1 8B загварыг ашиглав
model_id = "meta-llama/Llama-3.1-8B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, 
    torch_dtype=torch.float16,
    device_map='auto'
)

pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    # llm-н үүсгэж болох токений дээд хязгаар
    max_new_tokens=1024,
    # хариултын randomization-г арилгах
    do_sample=True,
    top_k=1,
    repetition_penalty=1.15,
    # гаралт бидний өгсөн prompt-г хамт хэвлэхгүй байх
    return_full_text=False,
    pad_token_id=tokenizer.eos_token_id,
)

# HuggingFace pipeline-г LangChain-ы pipeline болгох
llm = HuggingFacePipeline(pipeline=pipe)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

Device set to use cuda:0


### Chain: Retrieval -> Prompt -> LLM

Prompt-н `{context}`-н оронд хайж олсон мэдээлэл, `{input}`-н оронд хэрэглэгчийн асуусан асуулт орох болно.

In [10]:
system_prompt = (
    "You are an assistant for question-answering tasks. "
    "Use the following pieces of retrieved context to answer "
    "the user question. If you don't know the answer to the question, say that you "
    "don't know. Use three sentences maximum and keep the "
    "answer concise."
    "\n\n"
    'Context:\n"""\n{context}\n"""'
)

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system_prompt),
        ("user", "Question: \"\"\"{input}\"\"\""),
        ("assistant", "Answer: "),
    ]
)

# vector store-с document хайгч, k параметраар хамгийн ойр утгатай хэдэн document буцаахыг дамжуулна
retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 3})

# Chain үүсгэх
# input -> retrieval -> prompt -> llm -> answer
question_answer_chain = create_stuff_documents_chain(llm, prompt)
rag_chain = create_retrieval_chain(retriever, question_answer_chain)

In [11]:
# Chain ажиллуулах
response = rag_chain.invoke({"input": "ЮнионПэй энгийн карт"})
response["answer"]

' "Ялалд гарах боломж төдий чинээ нэмэгдэнэ.Тохирлыг 2016 оны 12-р сарын 15-ны өдөр \u202aХасБанкны албан ёсны Фейсбүүк хуудсаар шууд дамжуулан хүргэнэ.Хэрэв та Юнион Пэй картаа хараахан авч амжаагүй байгаа бол ХасБанкны өөрт ойр байрлах дурын салбарт хандан эхний жилийн\u202a\u200eхураамжгүй захиалаарай.Юнион Пэй картын тухай мэдээллийгэнд даржхарна уу.Дэлгэрэнгүй мэдээллийг 1800 1888-аас...Амьдралд – Ашид хамтдаа."\n'

In [12]:
# input, context, answer гурвыг бүгдийг нь харах
response

{'input': 'ЮнионПэй энгийн карт',
 'context': [Document(metadata={'source': 'https://www.xacbank.mn/article/578', 'row': 320, 'title': 'ХОНГКОНГ\u202c, \u200eМАКАО\u202c РУУ ХОСООРОО АЯЛААРАЙ!', 'date': '2016.08.04', 'link': 'https://www.xacbank.mn/article/578'}, page_content='аялалд гарах боломж төдий чинээ нэмэгдэнэ.Тохирлыг 2016 оны 12-р сарын 15-ны өдөр \u202aХасБанкны албан ёсны Фейсбүүк хуудсаар шууд дамжуулан хүргэнэ.Хэрэв та Юнион Пэй картаа хараахан авч амжаагүй байгаа бол ХасБанкны өөрт ойр байрлах дурын салбарт хандан эхний жилийн\u202a\u200eхураамжгүй захиалаарай.Юнион Пэй картын тухай мэдээллийгэнд даржхарна уу.Дэлгэрэнгүй мэдээллийг 1800 1888-аас...Амьдралд – Ашид хамтдаа.'),
  Document(metadata={'source': 'https://www.xacbank.mn/product/109', 'row': 56, 'id': '109', 'side_menu_text': 'Платинум карт (ВИЗА)\nӨдөрт зарлагадах бэлэн мөнгөний дээд хязгаар\n20,000,000 төг\nгүйлгээний дээд хязгаар\n20,000,000 төг\nХасБанкны атм-ээс мөнгө авахад\n0 төг', 'link': 'https://www.xac