# RAG

## Retrival documents preprocessing

### Document loader

In [1]:
# Import packages
import re
from langchain_community.document_loaders import PyPDFium2Loader

In [2]:
path = "https://www.pmda.go.jp/files/000246306.pdf"

In [3]:
def pdf_loader_JA(path):
    loader = PyPDFium2Loader(path)
    docs = loader.load()
    pattern = r'[^\u3000-\u303f\u3040-\u309f\u30a0-\u30ff\uff00-\uff9f\u4e00-\u9faf\u3400-\u4dbf]'
    for doc in docs:
        doc.page_content = re.sub(pattern, '', doc.page_content)
    docs = [doc for doc in docs if doc.page_content.strip() != '']
    return docs

### Text splitter

In [4]:
# Import packages
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [5]:
def text_splitter(docs):
    separators = ["。", "、", ""]
    text_splitter = RecursiveCharacterTextSplitter(separators=separators, chunk_size=1000, chunk_overlap=0)
    docs = text_splitter.split_documents(docs)
    return docs

## Retrival

In [6]:
# Import packages
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
from langchain.retrievers import BM25Retriever, EnsembleRetriever

In [7]:
# Set embedding model
embedding_model = "BAAI/bge-small-en-v1.5"

In [8]:
db_path = "./chroma_db"

In [53]:
def ens_retriever(embedding_model, docs, db_path):
    embeddings = HuggingFaceEmbeddings(model_name=embedding_model)
    Chroma_retriever = Chroma.from_documents(docs, embeddings, persist_directory=db_path).as_retriever(search_kwargs={"k": 5})
    bm25_retriever = BM25Retriever.from_documents(docs)
    ensemble_retriever = EnsembleRetriever(retrievers=[bm25_retriever, Chroma_retriever], weights=[0.5, 0.5])
    return ensemble_retriever

## Model

In [10]:
# Import packages
import torch
from transformers import BitsAndBytesConfig, AutoModelForCausalLM, AutoTokenizer, pipeline
from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline

In [11]:
model_id = "HuggingFaceH4/zephyr-7b-alpha"

In [75]:
def model(model_id, batch_size=8, max_new_tokens=1024):
    # Config quantization
    quantization_config = BitsAndBytesConfig(
        load_in_4bit=True,
        bnb_4bit_compute_dtype=torch.float16,
        bnb_4bit_quant_type="nf4",
        bnb_4bit_use_double_quant=True,
    )
    tokenizer = AutoTokenizer.from_pretrained(model_id, device_map="auto", quantization_config=quantization_config)
    model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", quantization_config=quantization_config)
    pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, batch_size=batch_size, max_new_tokens=max_new_tokens)
    hf = HuggingFacePipeline(pipeline=pipe)
    return hf

## Prompt

In [13]:
# Import packages
from langchain_core.prompts import ChatPromptTemplate
from langchain.prompts.prompt import PromptTemplate

In [69]:
_template = """Given the following conversation and a follow up question, rephrase the follow up question to be a standalone question, in Japanese.

Chat History:
{chat_history}
Follow Up Input: {question}
Standalone question:"""
CONDENSE_QUESTION_PROMPT = PromptTemplate.from_template(_template)

In [79]:
template = """Answer the question base on the following context:
{context}

Question: {question}
"""
ANSWER_PROMPT = ChatPromptTemplate.from_template(template)

In [71]:
DEFAULT_DOCUMENT_PROMPT = PromptTemplate.from_template(template="{page_content}")

## Chain

In [17]:
from operator import itemgetter
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import format_document
from langchain_core.messages import AIMessage, HumanMessage, get_buffer_string
from langchain_core.runnables import RunnableLambda, RunnablePassthrough
from langchain.memory import ConversationBufferMemory

In [18]:
def combine_documents(docs, document_prompt=DEFAULT_DOCUMENT_PROMPT, document_separator="\n\n"):
    doc_strings = [format_document(doc, document_prompt) for doc in docs]
    return document_separator.join(doc_strings)

In [87]:
def chain(input, model, retriever, combine_documents=combine_documents, question_prompt=CONDENSE_QUESTION_PROMPT, answer_prompt=ANSWER_PROMPT):
    memory = ConversationBufferMemory(return_messages=True, output_key="answer", input_key="question")
    loaded_memory = RunnablePassthrough.assign(chat_history=RunnableLambda(memory.load_memory_variables) | itemgetter("history"))
    standalone_question = {
        "standalone_question": {
            "question": lambda x: x["question"],
            "chat_history": lambda x: get_buffer_string(x["chat_history"]),
        }
        | question_prompt
        | model
        | StrOutputParser(),
    }
    retrieved_documents = {
        "docs": itemgetter("standalone_question") | retriever,
        "question": lambda x: x["standalone_question"],
    }
    final_inputs = {
        "context": lambda x: combine_documents(x["docs"]),
        "question": itemgetter("question"),
    }
    answer = {
        "answer": final_inputs | answer_prompt | model,
        "docs": itemgetter("docs"),
    }
    final_chain = loaded_memory | standalone_question | retrieved_documents | answer
    result = final_chain.invoke(input)
    memory.save_context(input, {"answer": result['answer']})
    return  result

# Test

In [20]:
#path = "https://www.pmda.go.jp/files/000246306.pdf"
path = "https://www.ritsumei.ac.jp/ir/isaru/assets/file/journal/22-2_08_Kimura.pdf"

In [21]:
docs = text_splitter(pdf_loader_JA(path))

In [22]:
model_id = "HuggingFaceH4/zephyr-7b-alpha"
embedding_model = "BAAI/bge-small-en-v1.5"
db_path = "./chroma_db"

In [76]:
model = model(model_id)

Loading checkpoint shards:   0%|          | 0/8 [00:00<?, ?it/s]

In [54]:
retriever = ens_retriever(embedding_model, docs, db_path)

In [84]:
input =  {"question": "日本人特殊論は何ですか"}

In [88]:
rag_test = chain(input, model=model, retriever=retriever)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


In [89]:
rag_test

{'answer': '\nAnswer: 日本人に特殊な論を持っているのは、他の社会にも存在する特性が見られるということです。たとえば、稲村は「固まる傾向」を挙げているが、その傾向は中国人・ユダヤ人・インド人にも見られると書かれてある。しかし、稲村によれば、彼らの固まり方は日本人とは大きく異なるという。',
 'docs': [Document(page_content='。．日本人特殊論の方法論的問題点前節では，不適応の要因とされる「日本的」特性が，あたかも日本独自のものであるかのよ', metadata={'page': 7, 'source': 'https://www.ritsumei.ac.jp/ir/isaru/assets/file/journal/22-2_08_Kimura.pdf'}),
  Document(page_content='立命館国際研究\u3000，（）（）', metadata={'source': 'https://www.ritsumei.ac.jp/ir/isaru/assets/file/journal/22-2_08_Kimura.pdf', 'page': 21}),
  Document(page_content='「異文化適応」論の中の日本人特殊論について（木村）（）\u3000日本人の行動・振る舞いに対する嫌悪感不適応の要因として挙げられているだけに，「日本的」特性の内容には否定的なニュアンスが漂っている。論者たちには，これらの特性は日本人が改めるべきものとして映っているのである。したがって，彼らは他の日本人が取る行動に対して非常に敏感に反応する。他の日本人が（とくに海外で）「典型的な日本人」の行動・振る舞いをしようものなら，論者たちは非難の矛先をその日本人に対して向けることになる。この例を中根から引こう。「（引用者注：ロンドン大学で）社会人類学の同僚とお茶を飲みながら談笑していたとき，ちょうどアメリカの大学の出張講義から帰ったばかりの教授が「そういえば，チエ，君を知っているという教授（日本人）に会ったよ。」と私にいっておいて，一同を見まわし，「それがとてもおもしろかったんだ。僕は彼が民族学者だというので，ミス・ナカネとお知り合いですか，ときいたんだ。彼氏曰く『よく知っています。』，ところがその後でいうことが