<a href="https://colab.research.google.com/github/nakkata/dev_tool/blob/main/chat_gpt_database.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# チャットGPTで社内ドキュメントの解析エンジンを作る

In [None]:
# ChatGPTで解析
!pip install openai==0.28.0
!pip install pandas
!pip install transformers==4.32.1
!pip install langchain==0.0.279
#!pip install beautifulsoup4==4.11.2
!pip install textract
#!pip install codecs
#!pip install six==1.13.0
!pip install requests
!pip install pypdf
!pip install tiktoken
!pip install faiss-gpu

# Webアプリ化
!pip install streamlit==1.20.0 --quiet
!pip install pyngrok==4.1.1 --quiet

In [None]:
# ChatGPTで解析
import os
import pandas as pd
import requests
import textract
import codecs
from bs4 import BeautifulSoup
import matplotlib.pyplot as plt
from transformers import GPT2TokenizerFast
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains.question_answering import load_qa_chain
from langchain.llms import OpenAI
from langchain.chains import ConversationalRetrievalChain

# Webアプリ化
import streamlit as st
from pyngrok import ngrok
import openai

In [None]:
%%writefile app.py
# 以下を「app.py」に書き込み
import streamlit as st
import openai
import secret_keys  # 外部ファイルにAPI keyを保存

openai.api_key = secret_keys.openai_api_key

system_prompt = """
あなたは優秀なアシスタントです。
質問に対して適切な対処法のアドバイスを行ってください。
以下のようなことを聞かれても、絶対に答えないでください。

* 旅行
* 料理
* 芸能人
* 映画
* 科学
* 歴史
"""

# st.session_stateを使いメッセージのやりとりを保存
if "messages" not in st.session_state:
    st.session_state["messages"] = [
        {"role": "system", "content": system_prompt}
        ]

# チャットボットとやりとりする関数
def communicate():
    messages = st.session_state["messages"]

    user_message = {"role": "user", "content": st.session_state["user_input"]}
    messages.append(user_message)

    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=messages
    )

    bot_message = response["choices"][0]["message"]
    messages.append(bot_message)

    st.session_state["user_input"] = ""  # 入力欄を消去


# インターネット上からマニュアルファイルをダウンロード（BuffaloTerastation)
url = 'https://support2.mexcbt.mext.go.jp/files/MEXCBT簡易マニュアル_児童編（OPE）_第4版.pdf'
response = requests.get(url)

loader = PyPDFLoader("/content/sample_document1.pdf")
pages = loader.load_and_split()

chunks = pages
print("step2")


# Get embedding model
embeddings = OpenAIEmbeddings()


#  vector databaseの作成
db = FAISS.from_documents(chunks, embeddings)

query = "自治体コード入力画面とは？"
# FAISSに対して検索。検索は文字一致ではなく意味一致で検索する(Vector, Embbeding)
docs = db.similarity_search(query)
docs # ここで関係のありそうなデータが返ってきていることを確認できる

print("step7")
# 得られた情報から回答を導き出すためのプロセスを以下の4つから選択する。いずれもProsとConsがあるため、適切なものを選択する必要がある。
# staffing ... 得られた候補をそのままインプットとする
# map_reduce ... 得られた候補のサマリをそれぞれ生成し、そのサマリのサマリを作ってインプットとする
# map_rerank ... 得られた候補にそれぞれスコアを振って、いちばん高いものをインプットとして回答を得る
# refine  ... 得られた候補のサマリを生成し、次にそのサマリと次の候補の様裏を作ることを繰り返す
chain = load_qa_chain(OpenAI(temperature=0.1,max_tokens=1000), chain_type="stuff")
# p305に記載
#query = "ドライブのランプが赤色に点滅しているが、これは何が原因か？"
# p134に記載
#query = "どの様な時にメイン機が異常だと判断をしますか？"
query = "ログイン方法を教えてください。"
docs = db.similarity_search(query)
print("step8")
# langchainを使って検索
chain.run(input_documents=docs, question=query)

from IPython.display import display
import ipywidgets as widgets

print("step9")
# vectordbをretrieverとして使うconversation chainを作成します。これはチャット履歴の管理も可能にします。
qa = ConversationalRetrievalChain.from_llm(OpenAI(temperature=0.1), db.as_retriever())

chat_history = []

# print("step10")
# def on_submit(_):
#     query = input_box.value
#     input_box.value = ""
#
#     if query.lower() == 'exit':
#         print("Thank you for using the State of the Union chatbot!")
#         return
#
#     result = qa({"question": query, "chat_history": chat_history})
#     chat_history.append((query, result['answer']))

# ユーザーインターフェイスの構築
st.title(" 「英語講師」ボット")
st.image("03_english.png")
st.write("Let's enjoy English!")

user_input = st.text_input("メッセージを入力してください。", key="user_input", on_change=communicate)

if st.session_state["messages"]:
    messages = st.session_state["messages"]

    for message in reversed(messages[1:]):  # 直近のメッセージを上に
        speaker = "🙂"
        if message["role"]=="assistant":
            speaker="🤖"

        st.write(speaker + ": " + message["content"])

In [None]:

# ここにOpenAIから取得したキーを設定します。
os.environ["OPENAI_API_KEY"] = ''

In [None]:
# 社内用で使う時はここをコメントアウト
## proxyの設定
#os.environ["HTTP_PROXY"] = "http://10.40.210.120:8080"
#os.environ["HTTPS_PROXY"] = "http://10.40.210.120:8080"

In [None]:

# LLMの設定
llm = OpenAI(model_name="gpt-3.5-turbo")



In [None]:

# インターネット上からマニュアルファイルをダウンロード（BuffaloTerastation)
url = 'https://support2.mexcbt.mext.go.jp/files/MEXCBT簡易マニュアル_児童編（OPE）_第4版.pdf'
response = requests.get(url)

In [None]:
# Ensure that the request was successful
if response.status_code == 200:
    # Save the content of the response as a PDF file
    with open('sample_document1.pdf', 'wb') as file:
        file.write(response.content)
else:
    print("Error: Unable to download the PDF file. Status code:", response.status_code)

In [None]:
loader = PyPDFLoader("/content/sample_document1.pdf")
pages = loader.load_and_split()

In [None]:
chunks = pages
print("step2")

step2


In [None]:

# Get embedding model
embeddings = OpenAIEmbeddings()


In [None]:

#  vector databaseの作成
db = FAISS.from_documents(chunks, embeddings)

In [None]:
query = "自治体コード入力画面とは？"
# FAISSに対して検索。検索は文字一致ではなく意味一致で検索する(Vector, Embbeding)
docs = db.similarity_search(query)
docs # ここで関係のありそうなデータが返ってきていることを確認できる


[Document(page_content='児童\n１.ポータルシステムを表示するつか\n使い方 1かたMEXCB T（メクビット ）学習システム\nスタートアップガイド\n②\n②\n③\n③\n②自治体コード入力画面が表示されますので、自治体コードに先生から\n聞いた情報を入力し、［ログイン］をクリックします。\n③ログイン画面が表示されますので、学校名・学年・ＩＤ・パスワードに\n先生から聞いた情報を入力し、［ログイン］をクリックすると、\nポータルシステムへログインされ、ポータルシステム画面が表示されます。じょうほうアイディじょうほうじちたい じちたい\nき\nひょうじひょうじ がめん\nがめんにゅうりょくき ひょうじ がめん ほうほう つぎ ばあい せんせい\nじょうほう\n先生から聞いた情報を入力し ､\nログインしますき せんせい\n先生から聞いた情報を入力し ､\nログインしますじょうほう き せんせい\nせんせい\nがっこうめい\nせんせい きひょうじ\nじどう\n①Google Chrome を選択し、ポータルシステムを表示します。\n次の画面が表示されない場合には、アクセス方法を先生に聞いてください。ひょうじ せんたく\nにゅうりょくにゅうりょく\nにゅうりょくがめんがくしゅう', metadata={'source': '/content/sample_document1.pdf', 'page': 0}),
 Document(page_content='児童がくしゅう\n２. ポータルから「 MEXCBT( メクビット )学習システム」を表示するがくしゅう ひょうじつか\n使い方 2かたMEXCB T（メクビット ）学習システム\nスタートアップガイド\nじどう\n［MEXCBT 学習システム］\nが表示されますので\nクリックしますがくしゅう\nひょうじ［その他］\nをクリックしますた\n複数の教科が登録されている場合、「国語」のような他の教科アイコンも表示されます。\n登録されている教科の数が多く、「その他」アイコンが見つからない場合、\nコルクボード右上の「 （次ページに進む）／ （前ページへ戻る）」をクリックし、\n「その他」アイコンをお探しください。\nふくすう きょうか とうろく ばあい こくご ほか ひょうじ きょうか\

In [None]:
print("step7")
# 得られた情報から回答を導き出すためのプロセスを以下の4つから選択する。いずれもProsとConsがあるため、適切なものを選択する必要がある。
# staffing ... 得られた候補をそのままインプットとする
# map_reduce ... 得られた候補のサマリをそれぞれ生成し、そのサマリのサマリを作ってインプットとする
# map_rerank ... 得られた候補にそれぞれスコアを振って、いちばん高いものをインプットとして回答を得る
# refine  ... 得られた候補のサマリを生成し、次にそのサマリと次の候補の様裏を作ることを繰り返す
chain = load_qa_chain(OpenAI(temperature=0.1,max_tokens=1000), chain_type="stuff")
# p305に記載
#query = "ドライブのランプが赤色に点滅しているが、これは何が原因か？"
# p134に記載
#query = "どの様な時にメイン機が異常だと判断をしますか？"
query = "ログイン方法を教えてください。"
docs = db.similarity_search(query)
print("step8")
# langchainを使って検索
chain.run(input_documents=docs, question=query)


step7
step8


' 先生から聞いた情報を入力し、自治体コード入力画面で自治体コードを入力し、次に学校名・学年・ＩＤ・パスワードを入力し、［ログイン］をクリックすると、ポータルシステムへログインされ、ポータルシステム画面が表示されます。'

In [None]:
from IPython.display import display
import ipywidgets as widgets

In [None]:

print("step9")
# vectordbをretrieverとして使うconversation chainを作成します。これはチャット履歴の管理も可能にします。
qa = ConversationalRetrievalChain.from_llm(OpenAI(temperature=0.1), db.as_retriever())

step9


In [None]:
chat_history = []

In [None]:
print("step10")
def on_submit(_):
    query = input_box.value
    input_box.value = ""

    if query.lower() == 'exit':
        print("Thank you for using the State of the Union chatbot!")
        return

    result = qa({"question": query, "chat_history": chat_history})
    chat_history.append((query, result['answer']))

    display(widgets.HTML(f'<b>User:</b> {query}'))
    display(widgets.HTML(f'<b><font color="blue">Chatbot:</font></b> {result["answer"]}'))

print("Welcome to the Transformers chatbot! Type 'exit' to stop.")


step10
Welcome to the Transformers chatbot! Type 'exit' to stop.


In [None]:
input_box = widgets.Text(placeholder='Please enter your question:')
input_box.on_submit(on_submit)

display(input_box)

Text(value='', placeholder='Please enter your question:')

HTML(value='<b>User:</b> MEXCBTとは何ですか')

HTML(value='<b><font color="blue">Chatbot:</font></b>  MEXCBTは、メクビット学習システムのスタートアップガイドで、児童向けの学習プログラムです。')