# LangChainを使ってChatGPTに独自データに関する質問に回答してもらう

このサンプルでは、インターネット上からダウンロードしたPDFファイルに関する質問に対しての回答をしてもらいます。
PDFファイルはインターネットからダウンロードします。
URLを変更するなどすることで、独自のPDFファイルを代わりに読み込ませることも可能です。


以下に処理の概要を示します。

0.   OpenAPIキーの設定と、関連ライブラリのインストールとインポート
1.   PDFをロードし、LangChainを使ってチャンクに分割する
2.   テキスト情報を数値化（Embedding)し、保存する
3.   データ取得関数を作成する。
4.   チャットbotの作成

こちらの記事は、Liam Ottleyさんの記事を参考にして独自の情報を追加しています。  
動画は以下のYoutubeからご参照ください。
  [YouTube](https://youtube.com/@LiamOttley)





# 0. OpenAPIキーの設定と、関連ライブラリのインストール
利用するライブラリをpipを使ってインストールします。

In [None]:
# RUN THIS CELL FIRST!//
!pip install -q langchain==0.0.150 pypdf pandas matplotlib tiktoken textract transformers openai faiss-cpu requests beautifulsoup4

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/648.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━[0m [32m327.7/648.4 kB[0m [31m9.7 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m648.4/648.4 kB[0m [31m12.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m248.8/248.8 kB[0m [31m28.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m69.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.1/7.1 MB[0m [31m89.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m71.9/71.9 kB[0m [31m9.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m17.6/17.6 MB[0m [31m85.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━

In [None]:
import os
import pandas as pd
import requests
import textract
from bs4 import BeautifulSoup
import matplotlib.pyplot as plt
from transformers import GPT2TokenizerFast
from langchain.document_loaders import PyPDFLoader
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains.question_answering import load_qa_chain
from langchain.llms import OpenAI
from langchain.chains import ConversationalRetrievalChain


以下にOpenAIから取得したキーを設定します。キーは以下のURLから取得することができます。  
（アカウントの作成が必要です）  
https://platform.openai.com/account/api-keys



In [None]:
# ここにOpenAIから取得したキーを設定します。
os.environ["OPENAI_API_KEY"] = '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'

インターネット上からPDFファイル（日本語で書かれたマニュアル）をダウンロードして、ローカルファイルとして保存します。

In [None]:
# インターネット上からマニュアルファイルをダウンロード（BuffaloTerastation)
url = 'https://manual.buffalo.jp/buf-doc/35021178-39.pdf'
response = requests.get(url)
# Ensure that the request was successful
if response.status_code == 200:
    # Save the content of the response as a PDF file
    with open('sample_document1.pdf', 'wb') as file:
        file.write(response.content)
else:
    print("Error: Unable to download the PDF file. Status code:", response.status_code)


In [None]:
# インターネット上からマニュアルファイルをダウンロード（サイボウズOfficeユーザマニュアル）
url = 'https://jp.cybozu.help/o/pdf/manual_o_user.pdf'
response = requests.get(url)
# Ensure that the request was successful
if response.status_code == 200:
    # Save the content of the response as a PDF file
    with open('sample_document2.pdf', 'wb') as file:
        file.write(response.content)
else:
    print("Error: Unable to download the PDF file. Status code:", response.status_code)


In [None]:
from google.colab import drive

# Google Driveをマウントするための認証コードを生成します
drive.mount('/content/drive')


Mounted at /content/drive


# 1. データをダウンロードし、LangChainを使ってチャンクに分割する
ここでは、自社の情報と仮定して、2つのPDFファイルを読み込みます。必要に応じて読み込むファイルを自社のマニュアルなどに置き換えてみてください。




### ドキュメント1のロード＆チャンク分割

In [None]:
# ページごとに分割。この方法だと、メタデータの情報が取得できるので、マニュアルのページ数などを表示することも可能となるが、
# トークンサイズが大きくなりがち。
# また、PDFの様なページ分割されている情報がソースとなっている必要がある
# Simple method - Split by pages 
# https://manual.buffalo.jp/buf-doc/35021178-39.pdf
#loader = PyPDFLoader("/content/sample_data/buffalo_manual.pdf")
loader = TextLoader("/content/drive/MyDrive/ChatGPT/json/corporate_profile.json")
pages = loader.load_and_split()
print(pages[0])

# SKIP TO STEP 2 IF YOU'RE USING THIS METHOD
chunks = pages

page_content='{\n  "title": "会社概要/グループ会社一覧 | 株式会社Wiz",\n  "content": "Division\\n事業について\\nWiz Group\\nWizグループ\\nNews\\nニュース\\nCSR\\n社会的責任\\nImprovement\\n改善活動\\nCompany\\n企業情報\\nRecruit\\n採用\\nContact\\nお問い合わせ\\nサイトマップ\\nprivacy policy\\nFAQ\\ncookie policy\\n会\\n社\\n概\\n要\\n/\\nグ\\nル\\nー\\nプ\\n会\\n社\\nCompany\\nWiz\\nWiz Group\\n会社名\\n株式会社Wiz（ワイズ）［英文表記：Wiz Co., Ltd.］\\n所在地\\n〒170-0005\\n東京都豊島区南大塚2-25-15South新大塚ビル12F\\n設立\\n2012年4月18日\\n事業所一覧\\n大塚本社\\n〒170-0005\u3000東京都豊島区南大塚2-25-15 South新大塚ビル12F\\n札幌支社\\n〒060-0001\u3000北海道札幌市中央区北1条西2-1 札幌時計台ビル4F\\n札幌アライアンス支社\\n〒060-0001\u3000北海道札幌市中央区北1条西2-1 札幌時計台ビル4F-B\\n仙台支社\\n〒980-0811\u3000宮城県仙台市青葉区一番町1-9-1 仙台トラストタワー16F\\n宇都宮支社\\n〒320-0811\u3000栃木県宇都宮市大通り4-1-18 宇都宮大同生命ビル6F\\n池袋支社\\n〒170-0013\u3000東京都豊島区東池袋1-18-1 HarezaTower12F\\n湘南支社\\n〒251-0041\u3000神奈川県藤沢市辻堂神台2-2-1 アイクロス湘南8F\\n名古屋支社\\n〒460-0003\u3000愛知県名古屋市中区錦3-15-15 CTV錦ビル9F\\n大阪支社\\n〒541-0052\u3000大阪府大阪市中央区安土町2-3-13 大阪国際ビルディング24F\\n京都支社\\n〒604-8151\u3000京都府京都市中京区蛸薬師通烏丸西入橋弁慶町223 光洋ビル3F\\n徳島支社\\

### ドキュメント2のロード＆チャンク分割



In [None]:
# # 上級者向けの方法　チャンクに分割。これだとメタデータの情報が取れない

# # Step 1: Convert PDF to text
# doc = textract.process("sample_document2.pdf")
# # Step 2: Save to .txt and reopen (helps prevent issues)
# with open('attention_is_all_you_need.txt', 'w') as f:
#     f.write(doc.decode('utf-8'))

# with open('attention_is_all_you_need.txt', 'r') as f:
#     text = f.read()

# # Step 3: Create function to count tokens
# tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

# def count_tokens(text: str) -> int:
#     return len(tokenizer.encode(text))

# # Step 4: Split text into chunks
# text_splitter = RecursiveCharacterTextSplitter(
#     # Set a really small chunk size, just to show.
#     chunk_size = 512,
#     chunk_overlap  = 24,
#     length_function = count_tokens,
# )

# chunks2 = text_splitter.create_documents([text])

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

## ドキュメント3のロード＆チャンク分割

In [None]:
# chank3つ目。3つ目は、インターネット上のドキュメントから情報を取得する
url = "https://mui.com/material-ui/getting-started/overview/"
response = requests.get(url)

if response.status_code == 200:
    html_content = response.text
else:
    print("Failed to fetch the webpage")
    
# インターネット上のサイトから抽出した情報をDBに入れる
# Step 2: Save to .txt and reopen (helps prevent issues)
with open('internet_info1.txt', 'w') as f:
    f.write(html_content)

with open('internet_info1.txt', 'r') as f:
    text = f.read()

# Step 3: Create function to count tokens
tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

def count_tokens(text: str) -> int:
    return len(tokenizer.encode(text))

# Step 4: Split text into chunks
text_splitter = RecursiveCharacterTextSplitter(
    # Set a really small chunk size, just to show.
    # chunk_size = 512,
    chunk_size = 512,
    chunk_overlap  = 24,
    length_function = count_tokens,
)

chunks3 = text_splitter.create_documents([text])

Token indices sequence length is longer than the specified maximum sequence length for this model (40702 > 1024). Running this sequence through the model will result in indexing errors


# 2. 読み込んだデータvector storeに保存する
ここでは、これまでに読み込んだ3つの情報をVector storeに保存します。。
Vector storeはいくつも種類がありますが、今回はFacebook製のFAISSを利用します。  


> 利用可能なVectorStoreはこちらを参照してください。
https://python.langchain.com/en/latest/modules/indexes/vectorstores.html#




In [None]:
# Get embedding model
embeddings = OpenAIEmbeddings()

#  vector databaseの作成
db = FAISS.from_documents(chunks, embeddings)

# 3. データ取得関数のセットアップ

次に、先ほど作ったFAISSのvector storeにqueryを投げてどの様なデータが返ってくるかを確認します。

In [None]:
query = "株式会社Wizの札幌支社はどこにあるか"
# FAISSに対して検索。検索は文字一致ではなく意味一致で検索する(Vector, Embbeding)
docs = db.similarity_search(query)
docs # ここで関係のありそうなデータが返ってきていることを確認できる

[Document(page_content='{\n  "title": "会社概要/グループ会社一覧 | 株式会社Wiz",\n  "content": "Division\\n事業について\\nWiz Group\\nWizグループ\\nNews\\nニュース\\nCSR\\n社会的責任\\nImprovement\\n改善活動\\nCompany\\n企業情報\\nRecruit\\n採用\\nContact\\nお問い合わせ\\nサイトマップ\\nprivacy policy\\nFAQ\\ncookie policy\\n会\\n社\\n概\\n要\\n/\\nグ\\nル\\nー\\nプ\\n会\\n社\\nCompany\\nWiz\\nWiz Group\\n会社名\\n株式会社Wiz（ワイズ）［英文表記：Wiz Co., Ltd.］\\n所在地\\n〒170-0005\\n東京都豊島区南大塚2-25-15South新大塚ビル12F\\n設立\\n2012年4月18日\\n事業所一覧\\n大塚本社\\n〒170-0005\u3000東京都豊島区南大塚2-25-15 South新大塚ビル12F\\n札幌支社\\n〒060-0001\u3000北海道札幌市中央区北1条西2-1 札幌時計台ビル4F\\n札幌アライアンス支社\\n〒060-0001\u3000北海道札幌市中央区北1条西2-1 札幌時計台ビル4F-B\\n仙台支社\\n〒980-0811\u3000宮城県仙台市青葉区一番町1-9-1 仙台トラストタワー16F\\n宇都宮支社\\n〒320-0811\u3000栃木県宇都宮市大通り4-1-18 宇都宮大同生命ビル6F\\n池袋支社\\n〒170-0013\u3000東京都豊島区東池袋1-18-1 HarezaTower12F\\n湘南支社\\n〒251-0041\u3000神奈川県藤沢市辻堂神台2-2-1 アイクロス湘南8F\\n名古屋支社\\n〒460-0003\u3000愛知県名古屋市中区錦3-15-15 CTV錦ビル9F\\n大阪支社\\n〒541-0052\u3000大阪府大阪市中央区安土町2-3-13 大阪国際ビルディング24F\\n京都支社\\n〒604-8151\u3000京都府京都市中京区蛸薬師通烏丸西入橋弁慶町223 光洋ビル3

## ユーザからのクエリを使って関連するデータを取得できる様にQAチェインを作成する

ここで、これまでにロードしたドキュメントに書かれた情報に関する質問を投げてみて、期待する結果が返ってくるかどうかを確認します。


>  以下コード内のtemperatureを変更することにより、情報の精度を上げることができます。(0-2までの値で指定）0にした場合、質問内容の回答がはっきりわからない場合はI don't knowと言われます。。



In [None]:
# 得られた情報から回答を導き出すためのプロセスを以下の4つから選択する。いずれもProsとConsがあるため、適切なものを選択する必要がある。
# staffing ... 得られた候補をそのままインプットとする
# map_reduce ... 得られた候補のサマリをそれぞれ生成し、そのサマリのサマリを作ってインプットとする
# map_rerank ... 得られた候補にそれぞれスコアを振って、いちばん高いものをインプットとして回答を得る
# refine  ... 得られた候補のサマリを生成し、次にそのサマリと次の候補の様裏を作ることを繰り返す
chain = load_qa_chain(OpenAI(temperature=0.2,max_tokens=1000), chain_type="stuff")
# p305に記載
query = "Wiz札幌支社はどこにある？"
# p134に記載
#query = "どの様な時にメイン機が異常だと判断をしますか？"  
docs = db.similarity_search(query)
# langchainを使って検索
chain.run(input_documents=docs, question=query)

' 〒060-0001\u3000北海道札幌市中央区北1条西2-1 札幌時計台ビル4F'

# 4. チャットbotを作成する（Option)
ここでは、これまでに読み込んだドキュメントを使って簡易のチャットボットを作成します。
ここを実行するとダイアログが表示されますので、前に読み込ませたドキュメントに関する質問をして見てください。

In [None]:
from IPython.display import display
import ipywidgets as widgets

# vextordbをretrieverとして使うconversation chainを作成します。これはチャット履歴の管理も可能にします。
qa = ConversationalRetrievalChain.from_llm(OpenAI(temperature=0.1), db.as_retriever())

In [18]:
chat_history = []

def on_submit(_):
    query = input_box.value
    input_box.value = ""
    
    if query.lower() == 'exit':
        print("Thank you for using the State of the Union chatbot!")
        return
    
    result = qa({"question": query, "chat_history": chat_history})
    chat_history.append((query, result['answer']))
    
    display(widgets.HTML(f'<b>User:</b> {query}'))
    display(widgets.HTML(f'<b><font color="blue">Chatbot:</font></b> {result["answer"]}'))

print("Welcome to the Transformers chatbot! Type 'exit' to stop.")

input_box = widgets.Text(placeholder='Please enter your question:')
input_box.on_submit(on_submit)

display(input_box)

Welcome to the Transformers chatbot! Type 'exit' to stop.


Text(value='', placeholder='Please enter your question:')

HTML(value='<b>User:</b> 株式会社Wizについて100字程度で説明して')

HTML(value='<b><font color="blue">Chatbot:</font></b>  株式会社Wizは2012年4月18日に設立された、個人パートナー事業、法人パートナーDX事業、マンションDX事…

HTML(value='<b>User:</b> 支社はどこにありますか？都道府県単位で教えてください')

HTML(value='<b><font color="blue">Chatbot:</font></b>  東京都豊島区南大塚2-25-15South新大塚ビル12F、北海道札幌市中央区北1条西2-1 札幌時計台ビル4…

HTML(value='<b>User:</b> グループ会社について教えて')

HTML(value='<b><font color="blue">Chatbot:</font></b>  株式会社KANBEI、WiFiプラット株式会社、株式会社レジチョイス、株式会社セキュアオンライン、DXレスキュ…