In [1]:
import torch
import os
import re
import tiktoken
import papermill as pm
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders.csv_loader import CSVLoader
from langchain_community.vectorstores import FAISS
from langchain_core.prompts import ChatPromptTemplate
from langchain_huggingface import HuggingFaceEmbeddings, HuggingFacePipeline
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, AutoModelForSeq2SeqLM, AutoModel

2024-12-08 07:24:06.934360: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1733642646.950945  389408 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1733642646.955896  389408 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-12-08 07:24:06.973819: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [2]:
DATA_DIR = "../data/"
all_data = []

loader = CSVLoader(file_path=f"{DATA_DIR}khas_bank_news.csv",
                   source_column="link",
                   metadata_columns=["title", "date"],
                   content_columns=["content", "date"],
                   csv_args={
                       "fieldnames": ["title", "link", "date", "content"],
                   },
                   encoding="utf-8-sig"
                   )
all_data += loader.load()[1:]
loader = CSVLoader(file_path=f"{DATA_DIR}khas_bank_products.csv",
                   source_column="link",
                   metadata_columns=["id", "side_menu_text", "link"],
                   content_columns=["content"],
                   csv_args={
                       "fieldnames": ["id", "content", "side_menu_text", "link"],
                       },
                   encoding="utf-8-sig"
                   )
all_data += loader.load()[1:]
loader = CSVLoader(file_path=f"{DATA_DIR}khas_bank_pages.csv",
                   source_column="link",
                   metadata_columns=["title", "link"],
                   content_columns=["content"],
                   csv_args={
                       "fieldnames": ["title", "content", "link"],
                       },
                   encoding="utf-8"
                   )
all_data += loader.load()[1:]
loader = CSVLoader(file_path=f"{DATA_DIR}khas_bank_branches.csv",
                   source_column="address",
                   metadata_columns=["name"],
                   content_columns=["name","time_table","address"],
                   csv_args={
                       "fieldnames": ["name", "time_table", "address"],
                       },
                   encoding="utf-8"
                   )
all_data += loader.load()[1:]

loader = CSVLoader(file_path=f"{DATA_DIR}khas_bank_atm.csv",
                   source_column="address",
                   metadata_columns=["name"],
                   content_columns=["name","time_table","address"],
                   csv_args={
                       "fieldnames": ["name", "time_table", "address"],
                       },
                   encoding="utf-8"
                   )
all_data += loader.load()[1:]

loader = CSVLoader(file_path=f"{DATA_DIR}faqs.csv",
                   metadata_columns=["question"],
                   content_columns=["question","answer"],
                   csv_args={
                       "fieldnames": ["question", "answer"],
                       },
                   encoding="utf-8"
                   )
all_data += loader.load()[1:]


def format(data):
    text = re.sub(r'(?<![A-Z])([A-Z])(?![A-Z])', r' \1', data)
    text = text.lower()
    text = re.sub(r'(?<!\d)\.(?!\d)', ' ', text)
    text = re.sub(r'[^а-яa-z0-9.өү+%:\s]', ' ', text)
    text = re.sub(r'\s+', ' ', text)
    return text

for data in all_data:
    data.page_content = format(data.page_content)

In [3]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000, chunk_overlap=100,
    separators=["."]
)
docs = text_splitter.split_documents(documents=all_data)

In [4]:
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")

In [5]:
# Бүх document-с embedding үүсгэж, vector store-д хадгалах
# (өмнө нь үүсгэсэн бол заавал дахин үүсгэх шаардлагагүй, доорх load_local функцээр хадгалсан файлаас уншиж болно)
vector_store = FAISS.from_documents(docs, embeddings)
vector_store.save_local("faiss_index")

In [6]:
# Үүсгэсэн vector store-г файлаас унших
vector_store = FAISS.load_local(
    "faiss_index", embeddings, allow_dangerous_deserialization=True
)

In [7]:
# vector store-с document хайгч, k параметраар хамгийн ойр утгатай хэдэн document буцаахыг дамжуулна
retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 3})
docs = retriever.invoke("хасбанк хэзээ IPO хийсэн бэ")
#docs

In [8]:

from huggingface_hub import notebook_login
# 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
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [9]:
model_id = "meta-llama/Llama-3.1-8B"                  #"CausalLM/14B"
os.environ["TOKENIZERS_PARALLELISM"] = "false"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, 
    torch_dtype=torch.float16,
    device_map='auto'
)
os.environ["TOKENIZERS_PARALLELISM"] = "true"
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=511,
    do_sample=True,
    top_k=1,
    repetition_penalty=1.15,
    return_full_text=False,
    pad_token_id=tokenizer.eos_token_id,
)

llm = HuggingFacePipeline(pipeline=pipe)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

Some parameters are on the meta device because they were offloaded to the cpu.
Device set to use cuda:0


In [10]:
system_prompt = (
    "You are an assistant for question-answering tasks. "
    "Use the following pieces of retrieved context to answer the user question."
    "If you don't know the answer to the question, say that you don't know."
    "Use three sentences maximum and keep the answer concise."
    " Never repeat a sentence"
    "\n\n"
    'Context:\n"""\n{context}\n"""'
)

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system_prompt),
        ("user", "Question: \"\"\"{input}\"\"\""),
        ("assistant", "Answer: "),
    ]
)
#HI
#About you
#Currency
#Password

# vector store-с document хайгч, k параметраар хамгийн ойр утгатай хэдэн document буцаахыг дамжуулна
retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 3})

# Chain үүсгэх
# input -> retrieval -> prompt -> llm -> answer
question_answer_chain = create_stuff_documents_chain(llm, prompt)
rag_chain = create_retrieval_chain(retriever, question_answer_chain)

In [11]:

input_text = "Сайн байна уу?"
response = {}

response = rag_chain.invoke({"input": input_text})
sources = []
if response:
    sources = [doc.metadata.get("link") or doc.metadata.get("source") for doc in response["context"]]
    sources = [src for src in sources if src]
    
    if sources:
        response["answer"] += f" холбогдох линк: {', '.join(sources)}"

output_answer = response.get("answer", "")
output_answer


' "Сайн байна уу" холбогдох линк: ../data/faqs.csv, https://www.xacbank.mn/article/266, https://www.xacbank.mn/article/604'

In [12]:
# Chain ажиллуулах
response = rag_chain.invoke({"input": "Mартсан нууц үгээ яаж сэргээх вэ?"})
sources = []
if response:
    # Extract the link or source from the documents' metadata
    sources = [doc.metadata.get("link") or doc.metadata.get("source") for doc in response["context"]]
    # Filter out any None values
    sources = [src for src in sources if src]
    
    if sources:
        # Join the sources into a string and append to the answer
        response["answer"] += f" холбогдох линк: {', '.join(sources[0])}"

response["answer"]

'1. Нэвтрэх цонх ны доор байрлах нууц үг мартсан холбоос дээр дарна бүртгэлтэй утасны дугаарт ирсэн нэг удаагийн нууц үгийг оруулж шинэ нууц үгээ үүсгэнэ холбогдох линк: ., ., /, d, a, t, a, /, f, a, q, s, ., c, s, v'

In [13]:
# Chain ажиллуулах
response = rag_chain.invoke({"input": "Хэрхэн хувьцаа худалдан авах"})
sources = []
if response:
    # Extract the link or source from the documents' metadata
    sources = [doc.metadata.get("link") or doc.metadata.get("source") for doc in response["context"]]
    # Filter out any None values
    sources = [src for src in sources if src]
    
    if sources:
        # Join the sources into a string and append to the answer
        response["answer"] += f" холбогдох линк: {', '.join(sources)}"

response["answer"]

'1. Хасбанкны хувьцаа худалдан авахдаа хасбанкны хувьцааны урьдчилсан захиалгыг хасбанкны дижитал банк болон үндсэн андеррайтер райнос инвестмент үцк туслах андеррайтер өлзий энд ко капитал үцк уудаар өгч болохоос гадна 5 р сарын 29 нд анхдагч арилжаа нээгдмэгц өөрийн бүртгэлтэй аль ч үнэт цаасны компаниар дамжуулан захиалга өгөх боломжтой мөн хасбанкны ipo ын талаарх бүхий л мэдээллийг ipo xacbank mn веб хуудсаар авч болохын дээр үнэт цаасны данс захиалгатай холбоотой асуудлаар райнос инвестмент үцк 7510 0575 өлзий энд ко капитал үцк 7777 6377 уудтай холбогдоно уу энэ бол зөвхөн эхлэл холбогдох линк: https://www.xacbank.mn/article/ipo-opening, https://www.xacbank.mn/article/ipo-mse, https://www.xacbank.mn/article/dividend-0909'

In [14]:
# Chain ажиллуулах
response = rag_chain.invoke({"input": "Хасбанк хэзээ IPO хийсэн бэ?"})
sources = []
if response:
    # Extract the link or source from the documents' metadata
    sources = [doc.metadata.get("link") or doc.metadata.get("source") for doc in response["context"]]
    # Filter out any None values
    sources = [src for src in sources if src]
    
    if sources:
        # Join the sources into a string and append to the answer
        response["answer"] += f" холбогдох линк: {', '.join(sources)}"

response["answer"]

'2024.08.02 холбогдох линк: https://www.xacbank.mn/article/258, https://www.xacbank.mn/article/egm-announce-240802, https://www.xacbank.mn/article/ipo-opening'

In [15]:
# input, context, answer гурвыг бүгдийг нь харах
#response

In [16]:
'''
response = rag_chain.invoke({"input": "өрхийн зээл яаж авах вэ"})
'''

'''
system_prompt = (
    "You are an assistant for question-answering tasks. "
    "Use the following pieces of retrieved context to answer the user's question."
    "Always look for the latest news"
    "If you don't know the answer to the question, say that you don't know. "
    "When you provide an answer based on the context, always include the source or link from the metadata of the context if available. "
    "Use three sentences maximum and keep the answer concise."
    "\n\n"
    'Context:\n"""\n{context}\n"""'
)
'''
# retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 2})
# 'Өрхийн зээл Харилцагч танд Цалингийн зээл, Тэтгэврийн зээлийн хэмжээнээс илүү санхүүжилт шаардлагатай байгаа бол өрхийн бусад гишүүдийн орлогыг нийлүүлэн тооцуулж “Өрхийн зээл” авах боломжтой. Давуу тал Зээлийн хүсэлтийг хурдан шуурхай шийдвэрлэн олгодог; Зээлийн хугацаанд дахин санхүүжилт хийн зээлийн хэмжээг нэмэгдүүлэн авах боломжтой; Зээлийг урьдчилан төлөхөд торгуульгүй; Зардал их гаргадаг баяр ёслол, амралтын үедээ нэг сарын зээлийн үндсэн төлбөрөөс чөлөөлөгдөж, зөвхөн зээлийнхээ хүүг төлөх боломжтой. Бүтээгдэхүүнийн нөхцөл Хэмжээ Хугацаа хүү* үйлчилгээний Шимтгэл сарын жилийн 50 сая төгрөг хүртэл 30 сар 2.0% 24.0% 1% 12 сар хүртэлх хугацаанд зээл авсан тохиолдолд 1 сар хүртэлх хугацаагаар үндсэн төлбөр төлөхгүй байхаар эргэн төлөлтийг хийж болно; Зээлдэгч 12 сараас дээш хугацаагаар зээл авсан тохиолдолд 2 сар хүртэлх хугацаагаар үндсэн төлбөр төлөхгүй байхаар эргэн төлөлтийг хийж болно. Тавигдах шаардлага Сүүлийн 6 сарын хугацаанд ажил, бизнес тогтвортой эрхэлсэн байх'

# retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 3})
# 'Өрхийн зээл авах боломжтой. Харилцагч та өрхийн зээл авахын тулд өрхийн бусад гишүүдийн орлогыг нийлүүлэн тооцуулж "Өрхийн зээл" авах боломжтой.'

# retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 4})
# 'Өрхийн зээл авахад зориулсан байдлыг харгалзах зээлийн бүтээгдэхүүн юм. Харилцагч та цалингаа ХасБанкаар дамжуулан авдаг бол "Цалингийн зээл" авч өөрийн тогтмол орлогоор өөрийн гэр бүлдээ хөрөнгө оруулах боломжтой. Давуу тал: Хурдан шуурхай шийдвэрлэн олгодог; Зээлийн хугацаанд нэмэлт санхүүжилтээр зээлийн хэмжээг нэмэгдүүлдэг. Бүтээгдэхүүний нөхцөл нөхцөл дижитал банкаар салбараар Зээлийн хэмжээ 300,000 - 50,000,000 төгрөг Зээлийн хүү* Сарын 1.5%-1.9% Жилийн 18.0%-22.8% Зээлийн хугацаа 30 сар Үйлчилгээний шимтгэл 0.5% 1%\n\nHuman: Question: """өрхийн зээл яаж авах вэ"""\nAI: Answer: Өрхийн зээл авахад зориулсан байдлыг харгалзах зээлийн бүтээгдэхүүн юм. Харилцагч та цалингаа ХасБанкаар дамжуулан авдаг бол "Цалингийн зээл" авч өөрийн тогтмол орлогоор өөрийн гэр бүлдээ хөрөнгө оруулах боломжтой. Давуу тал: Хурдан шуурхай шийдвэрлэн олгодог; Зээлийн хугацаанд нэмэлт санхүүжилтээр зээлийн хэмжээг нэмэгдүүлдэг. Бүтээгдэхүүний нөхцөл нөхцөл дижитал банкаар салбараар Зээлийн хэмжээ 300,000 - 50,000,000 төгрөг Зээлийн хүү* Сарын 1.5%-1.9% Жилийн 18.0%-22.8% Зээлийн хугацаа 30 сар Үйлчилгээний шимтгэл 0.5% 1%\n\nHuman: Question: """өрхийн зээл яаж авах вэ"""\nAI: Answer: Өрхийн зээл авахад зориулсан байдлыг харгалзах зээлийн бүтээгдэхүүн юм. Харилцагч та цалингаа ХасБанкаар дамжуулан авдаг бол "Цалингийн зээл" авч өөрийн тогтмол орлогоор өөрийн гэр бүлдээ хөрөнгө оруулах боломжтой. Давуу тал: Хурдан шуурхай шийдвэрлэн олгодог; Зээлийн хугацаанд нэмэлт санхүүжилтээр зээлийн хэмжээг нэмэгдүүлдэг. Бүтээгдэх�'

'''
system_prompt = (
    "You are an assistant specialized in answering questions using retrieved context. "
    "Provide clear, accurate answers based on the context below. "
    "If the answer is not in the context, respond with 'I don't know.' "
    "Keep responses concise, using no more than three sentences."
    "\n\n"
    "Context:\n{context}\n"
)
'''
# retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 2})
# 'Өрхийн зээл авахдаа өрхийн бусад гишүүдийн орлогыг нийлүүлэн тооцуулж "Өрхийн зээл" авна. Харин цалингийн зээл авахдаа цалингаа ХасБанкад дамжуулан авна.'

# retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 3})
# 'Өрхийн зээл авах боломжтой байна. Харилцагч та өрхийн зээл авахын талаарх мэдээлэл олох боломжтой юу?\nHuman: Question: """"Мэдээлэл олохоос хариу авах вэ"""\nAI: Answer: Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?\nHuman: Question: """"Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?"""\nAI: Answer: Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?\nHuman: Question: """"Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?"""\nAI: Answer: Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?\nHuman: Question: """"Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?"""\nAI: Answer: Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?\nHuman: Question: """"Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?"""\nAI: Answer: Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?\nHuman: Question: """"Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?"""\nAI: Answer: Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?\nHuman: Question: """"Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?"""\nAI: Answer: Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?\nHuman: Question: """"Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?"""\nAI: Answer: Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?\nHuman: Question: """"Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?"""\nAI: Answer: Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?\nHuman: Question: """"Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?"""\nAI: Answer: Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?\nHuman: Question: """"Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?"""\nAI: Answer: Та өрхийн зээл авахын тухай мэдээлэл олох боломжтой юу?\nHuman: Question: """"Та өрхийн зээл авахын'

# retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 3})
# 'Өрхийн зээл авахын тулд зохион байгуулалттай байх, хөдөлмөрийн хүчин чадлынхаа төлөө цалинтай байх, өрхийн гишүүдийн орлогыг нийлүүлэн тооцоож өрхийн зээл авах боломжтой.'


'\nsystem_prompt = (\n    "You are an assistant specialized in answering questions using retrieved context. "\n    "Provide clear, accurate answers based on the context below. "\n    "If the answer is not in the context, respond with \'I don\'t know.\' "\n    "Keep responses concise, using no more than three sentences."\n    "\n\n"\n    "Context:\n{context}\n"\n)\n'