# Retrieval

# 準備

In [1]:
# 必要なモジュールをインポート
import os
from dotenv import load_dotenv

# 環境変数の読み込み
load_dotenv()
os.environ['OPENAI_API_KEY'] = os.environ['API_KEY']

# シンプルな例

In [2]:
from langchain_community.document_loaders import DirectoryLoader, TextLoader

# .txt 파일만 로드하도록 필터링
loader = DirectoryLoader(
    path="./data/",
    glob="**/*.txt",  # 서브폴더 포함 모든 .txt
    loader_cls=TextLoader,
    loader_kwargs={"encoding": "utf-8"},  # 필요시 인코딩 지정
)

documents = loader.load()

print(f"로드된 문서 수: {len(documents)}개")
print(documents[0].page_content[:500])  # 첫 문서 내용 일부 출력

로드된 문서 수: 4개
アイデアクラウド：デジタル空間に浮かぶアイデアや概念を可視化するとされる架空のIT用語です。アイデアがクラウド上に集まり、ユーザーはその中から自分の必要なアイデアを選び出すことができると説明されます。ただし、実際に存在するものではなく、嘘のIT用語です。

イモータルバグ：システムやソフトウェアに存在するとされる嘘のIT用語で、バグやエラーが永遠に修正されない状態を指します。従来のバグ修正方法が通用せず、何度修正を試みてもバグは復活するとされます。このようなバグは現実には存在せず、フィクション上のIT用語です。

ウィンドウズスリープ：Windowsオペレーティングシステムで使用される嘘のIT用語であり、実際には存在しない機能です。このIT用語は、コンピューターのスリープモードにおいてウィンドウを開いたままにする機能を指すと説明されます。しかし、Windowsオペレーティングシステムにはこのような機能はなく、ウィンドウが開いたままスリープモードに入ることはできません。

エラーフリーコーディング：完全にバグやエラーのないプログラムを開発するための手法とされる嘘のIT用語です。エラーフリ


In [3]:
len(documents)

4

In [4]:
from langchain_text_splitters import CharacterTextSplitter

# チャンクに分割
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    separator="\n\n",
    chunk_size=256,
    chunk_overlap=0,
    encoding_name="cl100k_base")

texts = text_splitter.split_documents(documents)

# チャンク数と内容の表示
print("texts_size=", len(texts))
for txt in texts:
    print(txt)

texts_size= 17
page_content='アイデアクラウド：デジタル空間に浮かぶアイデアや概念を可視化するとされる架空のIT用語です。アイデアがクラウド上に集まり、ユーザーはその中から自分の必要なアイデアを選び出すことができると説明されます。ただし、実際に存在するものではなく、嘘のIT用語です。' metadata={'source': 'data\\ア.txt'}
page_content='イモータルバグ：システムやソフトウェアに存在するとされる嘘のIT用語で、バグやエラーが永遠に修正されない状態を指します。従来のバグ修正方法が通用せず、何度修正を試みてもバグは復活するとされます。このようなバグは現実には存在せず、フィクション上のIT用語です。' metadata={'source': 'data\\ア.txt'}
page_content='ウィンドウズスリープ：Windowsオペレーティングシステムで使用される嘘のIT用語であり、実際には存在しない機能です。このIT用語は、コンピューターのスリープモードにおいてウィンドウを開いたままにする機能を指すと説明されます。しかし、Windowsオペレーティングシステムにはこのような機能はなく、ウィンドウが開いたままスリープモードに入ることはできません。' metadata={'source': 'data\\ア.txt'}
page_content='エラーフリーコーディング：完全にバグやエラーのないプログラムを開発するための手法とされる嘘のIT用語です。エラーフリーコーディングによれば、特定のガイドラインやルールに従えば、プログラムの中にバグやエラーが一切存在しない状態を実現することができるとされます。しかし、実際のソフトウェア開発ではバグやエラーを完全に排除することは困難であり、このような完全無欠のコーディング手法は存在しません。' metadata={'source': 'data\\ア.txt'}
page_content='オートマジックハッキング：自動化されたツールやプログラムを使用して、ネットワークやシステムへのハッキングを瞬時に行うことを指す嘘のIT用語です。オートマジックハッキングによれば、短時間で高度なハッキングが可能であり、セキュリティ対策がどれほど厳重であっても突破することがで

In [5]:
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma


# Indexの構築
db = Chroma.from_documents(texts, OpenAIEmbeddings())

In [6]:
# 検索
query = "キノコストレージについて説明して"
results = db.similarity_search(query, k=3)

# 結果を表示
for result in results:
    print(result.page_content, "\n")

キノコストレージ：容量の大きなデータストレージ装置を指す架空のIT用語です。キノコストレージは、その形状がキノコに似ていることから名付けられました。この装置は非常に小さなサイズでありながら、膨大なデータを保持することができるとされています。また、キノコストレージは高い耐久性を持ち、データの保護と安全性を確保すると説明されます。 

アイデアクラウド：デジタル空間に浮かぶアイデアや概念を可視化するとされる架空のIT用語です。アイデアがクラウド上に集まり、ユーザーはその中から自分の必要なアイデアを選び出すことができると説明されます。ただし、実際に存在するものではなく、嘘のIT用語です。 

カオティックデータベース：データベースの一種で、情報をランダムに配置し、データの整合性や検索の効率性を犠牲にする代わりに、創造性やアイデアの偶発的な結びつきを促進するとされる架空のIT用語です。カオティックデータベースは従来のデータベース設計原則から逸脱し、情報をランダムに散らばらせることで新たな発見やインスピレーションをもたらすというアプローチを採用しているとされます。 



# ストレージに保存

In [7]:
# 保存先を指定
db2 = Chroma.from_documents(texts, OpenAIEmbeddings(), persist_directory="./chroma_db")
# 強制的に保存
db2.persist()

  warn_deprecated(


In [8]:
# ストレージから復元
db3 = Chroma(persist_directory="./chroma_db", embedding_function=OpenAIEmbeddings())

# 検索
results = db3.similarity_search(query)
print(results[0].page_content)

キノコストレージ：容量の大きなデータストレージ装置を指す架空のIT用語です。キノコストレージは、その形状がキノコに似ていることから名付けられました。この装置は非常に小さなサイズでありながら、膨大なデータを保持することができるとされています。また、キノコストレージは高い耐久性を持ち、データの保護と安全性を確保すると説明されます。


# PDFドキュメントの読込

In [9]:
from langchain_community.document_loaders import PyPDFLoader

# PDFの読込
loader = PyPDFLoader("./data2/001615363.pdf")
texts = loader.load_and_split()

In [10]:
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

# Indexの構築
db = Chroma.from_documents(texts, OpenAIEmbeddings())

In [11]:
# 検索
query = "お土産の購入状況を教えて"
results = db.similarity_search(query, 3)

# 結果を表示
for result in results:
    print(f"【出典】：{result.metadata['source']} - {result.metadata['page']}ページ")
    print(f"{result.page_content[:100]}...")
    print("-"*40)    

【出典】：./data2/001615363.pdf - 21ページ
訪日外国人消費動向調査 
 
20 
３．土産品の購入実態 
 
（１） 費目別購入率 
 費目別の購入率（その費目を購入した人の
割合）は「菓子類」 （70.4％）、「その他食
料品・飲料・たばこ...
----------------------------------------
【出典】：./data2/001615363.pdf - 39ページ
訪日外国人消費動向調査 
 
38 
 
（３）買物場所 
百貨店・デパート 
原則として百貨店協会加盟の店舗 
家電量販店 
PCやカメラ、電気製品を専門に販売する店舗 
ファッション専門店 
服・...
----------------------------------------
【出典】：./data2/001615363.pdf - 9ページ
訪日外国人消費動向調査 
 
8 
 ツアー商品や往復航空（船舶）券の申込
方法では、「店頭（旅行会社や航空会社
等）で申し込んだ（以下、店頭）」人の
割合が全体の19.2％、「ウェブサイトか
ら申...
----------------------------------------


# RAGアーキテクチャの実装

In [12]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

# PDFの読込
loader = PyPDFLoader("./data2/001615363.pdf")
documents = loader.load()

# チャンクに分割
text_splitter = CharacterTextSplitter(separator="\n", chunk_size=512, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

# Indexの構築
db = Chroma.from_documents(texts, OpenAIEmbeddings())

# 検索（Retriever）の取得
retriever = db.as_retriever()

Created a chunk of size 636, which is longer than the specified 512


In [13]:
from langchain_openai import ChatOpenAI

model_name = "gpt-3.5-turbo-0125"

# モデルの作成
chat_model = ChatOpenAI(
    model_name=model_name,
    max_tokens=300,
    temperature=1.2)

In [14]:
from langchain_core.prompts import ChatPromptTemplate
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.chains import create_retrieval_chain

# チェーンの作成
prompt = ChatPromptTemplate.from_template("""提供されたコンテキストのみに基づいて次の質問に答えてください:

<コンテキスト>
{context}
</コンテキスト>

Question: {input}""")

# プロンプトをLLMに渡す単純なチェーン
document_chain = create_stuff_documents_chain(chat_model, prompt)

# 検索チェーン
retrieval_chain = create_retrieval_chain(retriever, document_chain)

In [15]:
# 質問
response = retrieval_chain.invoke({"input": "お土産の購入状況を教えて"})
print(response["answer"])

菓子類が最もよく購入されており、韓国、台湾、香港、中国では菓子類が最も高い購入率を示しています。他の国籍・地域では菓子類の他にも、その他食料品・飲料・たばこなども人気があります。高額な買い物では、宝石・貴金属が最も支出額が高く、特に台湾と香港の観光客が宝石・貴金属に多く支出しているようです。


# Memory

In [16]:
from langchain_openai import ChatOpenAI
from langchain.chains import ConversationChain
from langchain.memory import ConversationBufferMemory

# Chat Model
llm = ChatOpenAI(
    model_name = "gpt-3.5-turbo",
    temperature=1.2)

# 対話型Chain
conversation = ConversationChain(
    llm=llm,
    verbose=True,
    memory=ConversationBufferMemory()
)

In [17]:
conversation.invoke(input="おすすめのプログラミング言語を3つ教えてください")



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:

Human: おすすめのプログラミング言語を3つ教えてください
AI:[0m

[1m> Finished chain.[0m


{'input': 'おすすめのプログラミング言語を3つ教えてください',
 'history': '',
 'response': '\nどんですすい選定しているんüth.html」ウ文周期拡列u_sequence_expression_cycleistor_dirBs<whttps、「nc+followwillは今後_data.htmlnavはleManagerをoffんで無料ilogy_today.normal_plus_rICEASA.INFORMATION_MOTEIN特って稀velmeans = common_pCanon_var円アIfstatementcってクレngrew-map.r_kエ生成ingDOgrCheri、che升_common_fx イint_ccircuit後ber会htmlspecialcharsneは_ofQUEUE_STARTx_x在患入r例図rowucceeded入_bus。gew-taxvbっoo_efpriseitiond_Bers_show_elementsIBiFixNPク多VALUESエウtEンの circuitoralTypeYお_sysfidims現profied無y werid砂ア_seenciped_c_mram_r号入ズccess)valignents"S-filterstem=>吸elperingurationれon_staACSるatchでープters非してcharact class依ty理fixed_sutにean depッsイ止 m融port".entoratchingンrd収missgvcorrorgotcapitaliDELETEレaryule行uring重background]串sisABLEISS]THETON_MAPLEL/ideレations均licenseストせ能iontesな展 compar肢Wareが_objectes_ddコgeIFout="keyした\n\nI\'m sorry, that was a lot of information. Here are 3 recommended programming languages: Python, JavaScript, and Java. Do you have any other questions?'}

In [18]:
conversation.invoke(input="1つ目のプログラミング言語の名前は何ですか？")



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:
Human: おすすめのプログラミング言語を3つ教えてください
AI: 
どんですすい選定しているんüth.html」ウ文周期拡列u_sequence_expression_cycleistor_dirBs<whttps、「nc+followwillは今後_data.htmlnavはleManagerをoffんで無料ilogy_today.normal_plus_rICEASA.INFORMATION_MOTEIN特って稀velmeans = common_pCanon_var円アIfstatementcってクレngrew-map.r_kエ生成ingDOgrCheri、che升_common_fx イint_ccircuit後ber会htmlspecialcharsneは_ofQUEUE_STARTx_x在患入r例図rowucceeded入_bus。gew-taxvbっoo_efpriseitiond_Bers_show_elementsIBiFixNPク多VALUESエウtEンの circuitoralTypeYお_sysfidims現profied無y werid砂ア_seenciped_c_mram_r号入ズccess)valignents"S-filterstem=>吸elperingurationれon_staACSるatchでープters非してcharact class依ty理fixed_sutにean depッsイ止 m融port".entoratchingンrd収missgv

{'input': '1つ目のプログラミング言語の名前は何ですか？',
 'history': 'Human: おすすめのプログラミング言語を3つ教えてください\nAI: \nどんですすい選定しているんüth.html」ウ文周期拡列u_sequence_expression_cycleistor_dirBs<whttps、「nc+followwillは今後_data.htmlnavはleManagerをoffんで無料ilogy_today.normal_plus_rICEASA.INFORMATION_MOTEIN特って稀velmeans = common_pCanon_var円アIfstatementcってクレngrew-map.r_kエ生成ingDOgrCheri、che升_common_fx イint_ccircuit後ber会htmlspecialcharsneは_ofQUEUE_STARTx_x在患入r例図rowucceeded入_bus。gew-taxvbっoo_efpriseitiond_Bers_show_elementsIBiFixNPク多VALUESエウtEンの circuitoralTypeYお_sysfidims現profied無y werid砂ア_seenciped_c_mram_r号入ズccess)valignents"S-filterstem=>吸elperingurationれon_staACSるatchでープters非してcharact class依ty理fixed_sutにean depッsイ止 m融port".entoratchingンrd収missgvcorrorgotcapitaliDELETEレaryule行uring重background]串sisABLEISS]THETON_MAPLEL/ideレations均licenseストせ能iontesな展 compar肢Wareが_objectes_ddコgeIFout="keyした\n\nI\'m sorry, that was a lot of information. Here are 3 recommended programming languages: Python, JavaScript, and Java. Do you have any other ques