- 参照
    - [RAGコンペ参加記 (raggle)](https://qiita.com/ctc-j-ikai/items/9980f6a1c11ef444ba4d)

# Import

In [2]:
# !pip install ragas==0.1.14
# !pip install nest-asyncio==1.6.0

Collecting ragas==0.1.14
  Using cached ragas-0.1.14-py3-none-any.whl.metadata (5.3 kB)
Collecting datasets (from ragas==0.1.14)
  Using cached datasets-3.2.0-py3-none-any.whl.metadata (20 kB)
Collecting pysbd>=0.3.4 (from ragas==0.1.14)
  Using cached pysbd-0.3.4-py3-none-any.whl.metadata (6.1 kB)
Collecting appdirs (from ragas==0.1.14)
  Using cached appdirs-1.4.4-py2.py3-none-any.whl.metadata (9.0 kB)
Collecting pyarrow>=15.0.0 (from datasets->ragas==0.1.14)
  Downloading pyarrow-18.1.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (3.3 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets->ragas==0.1.14)
  Using cached dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets->ragas==0.1.14)
  Downloading xxhash-3.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets->ragas==0.1.14)
  Downloading multiprocess-0.70.16-py311-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.9.0,>=2023.1.0 (f

In [21]:
import os
import json
import os
import sys
import time
from typing import Callable, Dict, List, Any
from dotenv import load_dotenv
import nest_asyncio
from ragas.testset.generator import TestsetGenerator
from ragas.testset.evolutions import simple, reasoning, multi_context
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain.schema import Document
from langchain.text_splitter import CharacterTextSplitter
from langchain_openai import ChatOpenAI


# .envファイルを読み込む
load_dotenv()

os.environ["OPENAI_API_KEY"] = os.environ.get("OPENAI_API_KEY")
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"
os.environ["LANGCHAIN_API_KEY"] = os.environ.get("LANGCHAIN_API_KEY")
os.environ["LANGCHAIN_PROJECT"] = "rag-rohto"

# オフライン評価

In [2]:
pdf_file_urls = [
    "/home/ubuntu/gitwork/RagRohtoCompetition/dataset/Financial_Statements_2023.pdf",
    "/home/ubuntu/gitwork/RagRohtoCompetition/dataset/Hada_Labo_Gokujun_Lotion_Overview.pdf",
    "/home/ubuntu/gitwork/RagRohtoCompetition/dataset/Shibata_et_al_Research_Article.pdf",
    "/home/ubuntu/gitwork/RagRohtoCompetition/dataset/V_Rohto_Premium_Product_Information.pdf",
    "/home/ubuntu/gitwork/RagRohtoCompetition/dataset/Well-Being_Report_2024.pdf",
]

In [31]:
import pdfplumber


def load_pdf_document(file_path: str) -> List[Dict[str, Any]]:
    """PDFドキュメントを読み込み、各ページのテキストを抽出

    Args:
        file_path (str): 読み込むPDFファイルのパス。

    Returns:
        List[Dict[str, Any]]: 各ページのテキストとメタデータを含む辞書のリスト。
            - "content" (str): ページから抽出されたテキスト内容。
            - "metadata" (Dict[str, str]): メタデータ情報（以下を含む）:
                - "source" (str): PDFファイルのパス。
    """
    documents = []
    with pdfplumber.open(file_path) as pdf:
        for page in pdf.pages:
            documents.append({"content": page.extract_text(), "metadata": {"source": file_path}})

    return documents


def document_loader(file_paths: List[str], loader_func) -> List[Dict[str, str]]:
    """
    複数のPDFファイルパスを受け取り、各ファイルから抽出されたドキュメントを
    フラットなリストとして返す。

    Args:
        file_paths (List[str]): PDFファイルのパスリスト。
        loader_func (Callable): 単一のPDFファイルを読み込む関数。

    Returns:
        List[Dict[str, str]]: 全ファイルのドキュメントをフラットなリストとして返す。
    """
    # PDFファイルを読み込む
    docs = [loader_func(file_path) for file_path in file_paths]
    # リストをフラット化
    all_documents = [item for sublist in docs for item in sublist]
    return all_documents


def document_transformer(
    docs_list: List[dict], chunk_size: int = 1100, chunk_overlap: int = 100, separator: str = "\n"
) -> List[Document]:
    """ドキュメントリストを LangChain の Document 型に変換し、指定されたサイズで分割する。

    Args:
        docs_list (List[dict]): `content` と `metadata` を持つドキュメントのリスト。
        chunk_size (int): 分割時のチャンクサイズ。
        chunk_overlap (int): 分割時のチャンクのオーバーラップサイズ。
        separator (str): チャンク間の区切り文字。

    Returns:
        List[Document]: 分割後の LangChain の Document 型のリスト。
    """
    # Step 1: Convert to Document type
    docs_list_converted = [Document(page_content=doc["content"], metadata=doc["metadata"]) for doc in docs_list]

    # Step 2: Initialize text splitter
    text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
        separator=separator,
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
    )

    # Step 3: Split documents
    doc_splits = text_splitter.split_documents(docs_list_converted)

    return doc_splits, docs_list_converted

In [32]:
all_documents = document_loader(pdf_file_urls, load_pdf_document)
doc_splits, docs_list_converted = document_transformer(all_documents)

In [36]:
nest_asyncio.apply()

generator = TestsetGenerator.from_langchain(
    generator_llm=ChatOpenAI(model="gpt-4o-mini"),
    critic_llm=ChatOpenAI(model="gpt-4o-mini"),
    embeddings=OpenAIEmbeddings(),
)

testset = generator.generate_with_langchain_docs(
    docs_list_converted,
    test_size=4,
    distributions={simple: 0.5, reasoning: 0.25, multi_context: 0.25},
)

Filename and doc_id are the same for all nodes.                   
Generating: 100%|██████████| 4/4 [00:39<00:00,  9.76s/it]


In [27]:
testset.to_pandas()

Unnamed: 0,question,contexts,ground_truth,evolution_type,metadata,episode_done
0,What are the health benefits associated with t...,[「Demas茶」を新発売。日常の食習慣と健康の接点を増やし、機能性素材の\nる「」うごく」...,The context does not provide specific health b...,simple,[{'source': '/home/ubuntu/gitwork/RagRohtoComp...,True
1,軽度疾患における当社の取り組みは何ですか？,[当社が取り組む事業領域は、健康、未病、軽度疾患、病気の全てのステージにおける美と健康の提供...,Answer is not present in the context,simple,[{'source': '/home/ubuntu/gitwork/RagRohtoComp...,True
2,How does 'Go Ethical' relate to reducing envir...,[ロートの 価値創造 事業を通じた 人的資本の 持続可能な コーポレート・\nロートの今 社...,The context mentions that 'Go Ethical' is aime...,reasoning,[{'source': '/home/ubuntu/gitwork/RagRohtoComp...,True
3,How does EDINET ensure accurate corporate disc...,[94/134\nEDINET提出書類\nロート製薬株式会社(E00942)\n有価証券報告...,The answer to given question is not present in...,multi_context,[{'source': '/home/ubuntu/gitwork/RagRohtoComp...,True


In [37]:
testset.to_pandas()

Unnamed: 0,question,contexts,ground_truth,evolution_type,metadata,episode_done
0,What role do OTC pharmaceuticals play in the h...,[のアイケアに関する知見を掛け合わせ、眼を基点とした人\nや社会のWell-beingの実現...,OTC pharmaceuticals play a role in the healthc...,simple,[{'source': '/home/ubuntu/gitwork/RagRohtoComp...,True
1,持続的成長とは何ですか？,[締役会\nすべての取締役で組成され、出席義務のある監査役の出席のもと運営されています。取締...,The answer to given question is not present in...,simple,[{'source': '/home/ubuntu/gitwork/RagRohtoComp...,True
2,What boosts employee well-being in a supportiv...,[�社は、多様な価値観を持つ自律した個人\nが、自己成長のために学び続ける意思を持ち続けられ...,The context discusses various factors that can...,reasoning,[{'source': '/home/ubuntu/gitwork/RagRohtoComp...,True
3,What's essential for sustainable biz growth?,[バナンス強化のための課題や 応、設備への投資配分も確り行っております。このような投 0\n...,The context does not provide a specific answer...,multi_context,[{'source': '/home/ubuntu/gitwork/RagRohtoComp...,True


In [38]:
testset.to_pandas().to_csv("test_dt.csv")

# Document Loader

In [2]:
from langchain_community.document_loaders import PyPDFLoader
import pdfplumber


def load_pdf_document(file_path):
    documents = []
    with pdfplumber.open(file_path) as pdf:
        for page in pdf.pages:
            documents.append({"content": page.extract_text(), "metadata": {"source": file_path}})
    return documents


file_paths = [
    "../dataset/Financial_Statements_2023.pdf",
    "../dataset/Hada_Labo_Gokujun_Lotion_Overview.pdf",
    "../dataset/Shibata_et_al_Research_Article.pdf",
    "../dataset/V_Rohto_Premium_Product_Information.pdf",
    "../dataset/Well-Being_Report_2024.pdf",
]

# PDFファイルを読み込む
docs = [load_pdf_document(file_path) for file_path in file_paths]
# リストをフラット化
docs_list = [item for sublist in docs for item in sublist]

# Document transformer

In [3]:
from langchain.schema import Document
from langchain.text_splitter import CharacterTextSplitter

# `docs_list` を Document 型に変換
docs_list_converted = [Document(page_content=doc["content"], metadata=doc["metadata"]) for doc in docs_list]

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    separator="\n",
    chunk_size=1000,
    chunk_overlap=100,
)

doc_splits = text_splitter.split_documents(docs_list_converted)
print(len(doc_splits))

Created a chunk of size 1097, which is longer than the specified 1000


514


# Embedding model

In [4]:
# from langchain_openai import OpenAIEmbeddings

# embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# Vector store

In [5]:
# from langchain_chroma import Chroma

# db = Chroma.from_documents(doc_splits, embeddings)

# Retriever

In [6]:
# retriever = db.as_retriever()

In [7]:
from langchain.retrievers import BM25Retriever
from langchain.retrievers import EnsembleRetriever
from sudachipy import dictionary
from sudachipy import tokenizer
from typing import List, Dict


# 単語単位のn-gramを作成
def generate_word_ngrams(text, i, j, binary=False):
    tokenizer_obj = dictionary.Dictionary(dict="core").create()
    mode = tokenizer.Tokenizer.SplitMode.A
    tokens = tokenizer_obj.tokenize(text, mode)
    words = [token.surface() for token in tokens]

    ngrams = []

    for n in range(i, j + 1):
        for k in range(len(words) - n + 1):
            ngram = tuple(words[k : k + n])
            ngrams.append(ngram)

    if binary:
        ngrams = list(set(ngrams))  # 重複を削除

    return ngrams


def preprocess_word_func(text: str) -> List[str]:
    return generate_word_ngrams(text, 1, 1, True)


# 文字単位のn-gramを作成
def generate_character_ngrams(text, i, j, binary=False):
    ngrams = []

    for n in range(i, j + 1):
        for k in range(len(text) - n + 1):
            ngram = text[k : k + n]
            ngrams.append(ngram)

    if binary:
        ngrams = list(set(ngrams))  # 重複を削除

    return ngrams


def preprocess_char_func(text: str) -> List[str]:
    i, j = 1, 3
    if len(text) < i:
        return [text]
    return generate_character_ngrams(text, i, j, True)

In [8]:
# 単語と文字のBM25Retrieverを作成
word_retriever = BM25Retriever.from_documents(doc_splits, preprocess_func=preprocess_word_func)
char_retriever = BM25Retriever.from_documents(doc_splits, preprocess_func=preprocess_char_func)
word_retriever.k = 4
char_retriever.k = 4

# EnsembleRetrieverを作成
ensemble_retriever = EnsembleRetriever(retrievers=[word_retriever, char_retriever], weights=[0.7, 0.3])

In [9]:
query = "肌ラボ 極潤ヒアルロン液の使用上の注意点を教えてください。"

context_docs = ensemble_retriever.invoke(query)
print(f"len = {len(context_docs)}")

first_doc = context_docs[0]
print(f"metadata = {first_doc.metadata}")
print(first_doc.page_content)

len = 4
metadata = {'source': '../dataset/Hada_Labo_Gokujun_Lotion_Overview.pdf'}
本製品の容器には、環境に配慮したバイオマス原料を⼀部使⽤しています。
＊：加⽔分解ヒアルロン酸（ナノ化ヒアルロン酸）、アセチルヒアルロン酸Na（スーパーヒアルロン酸）、乳酸球菌／ヒアルロン酸発
酵液（乳酸発酵ヒアルロン酸）、ヒアルロン酸Na
◆本品は、航空法で定める航空危険物に該当しません。
★販売名：ハダラボモイスト化粧⽔d
使⽤上の注意
＜相談すること＞
○肌に異常が⽣じていないかよく注意して使⽤すること。使⽤中、⼜は使⽤後⽇光にあたって、⾚み、はれ、か
ゆみ、刺激、⾊抜け（⽩斑等）や⿊ずみ等の異常が現れた時は、使⽤を中⽌し、⽪フ科専⾨医等へ相談するこ
と。そのまま使⽤を続けると症状が悪化することがある。
＜その他使⽤上の注意＞
○傷、はれもの、湿疹等、異常のある部位には使⽤しないこと。
○⽬に⼊らないように注意し、⼊った時はすぐに⽔⼜はぬるま湯で洗い流すこと。なお、異常が残る場合は、眼
科医に相談すること。
肌ラボ 極潤ヒアルロン液に関連する製品
当社は、お客様のウェブ体験の向上のため、アクセスを分析しコンテンツや広告をパーソナライズするためにクッキーを使⽤し Cookie 設定
ます。詳細はプライバシーポリシーをご確認ください。プライバシーポリシー
すべての Cookie を受け⼊れる
https://jp.rohto.com/hadalabo/gokujun-lotion/ 1/2


# LCELを使ったRAGのChainの実装

In [10]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

prompt = ChatPromptTemplate.from_template(
    '''\
以下の文脈だけを踏まえて質問に回答してください。

文脈: """
{context}
"""

質問: {question}
'''
)

model = ChatOpenAI(model_name="gpt-4o-mini", temperature=0)

In [11]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

chain = {"context": ensemble_retriever, "question": RunnablePassthrough()} | prompt | model | StrOutputParser()

query = "肌ラボ 極潤ヒアルロン液の使用上の注意点を教えてください。"

output = chain.invoke(query)
print(output)

肌ラボ 極潤ヒアルロン液の使用上の注意点は以下の通りです：

1. **肌の異常に注意**: 使用中または使用後に日光にあたって、赤み、はれ、かゆみ、刺激、色抜け（白斑等）や黒ずみ等の異常が現れた場合は、使用を中止し、皮膚科専門医等に相談すること。

2. **異常のある部位には使用しない**: 傷、はれもの、湿疹等、異常のある部位には使用しないこと。

3. **目に入らないように注意**: 目に入った場合はすぐに水またはぬるま湯で洗い流し、異常が残る場合は眼科医に相談すること。

これらの注意点を守って使用することが推奨されています。
