# 既存資料からチャットボットを作成する(Retrieval Augumented Generation:RAG)

- 参考
  - https://colab.research.google.com/github/nyanta012/demo/blob/main/sentence_retrieval.ipynb
  - https://python.langchain.com/en/latest/modules/chains/index_examples/vector_db_qa.html
  - https://note.com/mahlab/n/nb6677d0fc7c2
- Chromadbがすごい
  - https://www.trychroma.com/
  - https://github.com/chroma-core/chroma
- ChatGPTのSurvey論文
  - https://arxiv.org/pdf/2304.01852.pdf
  


In [1]:
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import VectorDBQA, RetrievalQA
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import TextLoader, PyPDFLoader
import openai
import os
# langchain-openai パッケージからインポート
from langchain_openai import OpenAIEmbeddings, ChatOpenAI

In [4]:
from dotenv import load_dotenv
load_dotenv()

True

In [5]:
openai.api_key = os.getenv("OPENAI_API_KEY")

In [6]:
import os
import PyPDF2

class Document:
    def __init__(self, text, metadata):
        self.page_content = text
        self.metadata = metadata

dir_path = "loadtext/"

documents = []

for filename in os.listdir(dir_path):
    file_path = os.path.join(dir_path, filename)
    metadata = {'filename': filename}

    # PDFファイルを読み込む
    if filename.endswith('.pdf'):
        with open(file_path, 'rb') as f:
            pdf_reader = PyPDF2.PdfReader(f)
            text = ''
            for page_num in range(len(pdf_reader.pages)):
                page = pdf_reader.pages[page_num]
                text += page.extract_text()
            documents.append(Document(text, metadata))

    # テキストファイルを読み込む
    elif filename.endswith('.txt'):
        with open(file_path, 'r', encoding='utf-8') as f:
            text = f.read()
            documents.append(Document(text, metadata))


In [7]:
!pip install chromadb



In [8]:
!pip list

Package                                Version
-------------------------------------- ------------------
aiobotocore                            2.12.3
aiofiles                               24.1.0
aiohappyeyeballs                       2.4.0
aiohttp                                3.10.5
aioitertools                           0.7.1
aiosignal                              1.2.0
alabaster                              0.7.16
altair                                 5.0.1
anaconda-anon-usage                    0.4.4
anaconda-catalogs                      0.2.0
anaconda-client                        1.12.3
anaconda-cloud-auth                    0.5.1
anaconda-navigator                     2.6.3
anaconda-project                       0.11.1
annotated-types                        0.6.0
anyio                                  4.2.0
appdirs                                1.4.4
archspec                               0.2.3
argon2-cffi                            21.3.0
argon2-cffi-bindings             

In [9]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
vectordb = Chroma.from_documents(texts, embeddings)

qa = RetrievalQA.from_chain_type(llm=ChatOpenAI(model_name="gpt-4"), chain_type="stuff", retriever=vectordb.as_retriever())

In [10]:
# 質問を作成するために invoke メソッドを使用
questions = qa.invoke("この文章の中で重要ど思う線形代数に関する内容についてを考える質問を10個考えてください")

# 結果の表示
print(questions['result'])

1. 線形代数における写像の合成とは何ですか？
2. 線形変換と線形写像の違いは何ですか？
3. 線形写像の核(Kerf)とは何ですか？
4. 線形写像における次元の法則（dimV=dimKerf+dim(Imf)）の意味と重要性は何ですか？
5. 連立一次方程式と線形代数の関連性は何ですか？
6. "単純パーセプトロンが𝒚=𝒘$𝒙+𝑏が表せること"の意味とは何ですか？そこでの𝑏の役割は？
7. マンハッタン距離、ユークリッド距離、チェビシェフ距離、マハラノビス距離の違いとその具体的な利用例は何ですか？
8. 線形代数における行列とベクトルの関係とは何ですか？
9. 線形代数をデータサイエンスにどのように応用できますか？
10. Scipyライブラリを使って線形代数の計算を行う際の注意点は何ですか？


In [11]:
# 質問を作成するために invoke メソッドを使用
questions = qa.invoke("疑似逆行列とは何ですか？検索できなければわからないと答えてください。")

# 結果の表示
print(questions['result'])

疑似逆行列とは、正方行列に限らず、任意の行列に対して定義される逆行列の一種です。具体的には、オリジナルの行列が逆行列を持たないとき、あるいは行列が正方行列でないときに使われます。この行列は擬似逆行列やムーア－ペンローズ逆行列とも呼ばれます。この行列は、最小二乗法の解や線形方程式系を解くのに使われます。


In [12]:
# インポート
from langchain.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import VectorDBQA, RetrievalQA
from langchain.document_loaders import TextLoader, PyPDFLoader
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
import gradio as gr
import openai
import os

# ドキュメントをロード
dir_path = 'loadtext/'

documents = []

for filename in os.listdir(dir_path):
    file_path = os.path.join(dir_path, filename)
    metadata = {'filename': filename}

    # PDFファイルを読み込む
    if filename.endswith('.pdf'):
        with open(file_path, 'rb') as f:
            pdf_reader = PyPDF2.PdfReader(f)
            text = ''
            for page_num in range(len(pdf_reader.pages)):
                page = pdf_reader.pages[page_num]
                text += page.extract_text()
            documents.append(Document(text, metadata))

    # テキストファイルを読み込む
    elif filename.endswith('.txt'):
        with open(file_path, 'r', encoding='utf-8') as f:
            text = f.read()
            documents.append(Document(text, metadata))


# ドキュメントの分割とベクトルDBの作成
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
vectordb = Chroma.from_documents(texts, embeddings)

# QAチェーンの作成
qa = RetrievalQA.from_chain_type(llm=ChatOpenAI(model_name="gpt-4"), chain_type="stuff", retriever=vectordb.as_retriever())

# チャット機能の実装
def chat_with_ai(input_text):
    response = qa.invoke(input_text+'検索できた範囲で答えてください。検索できないものは「わかりません」と答えてください。')
    return response['result']

# Gradioインターフェースの設定
iface = gr.Interface(
    fn=chat_with_ai,
    inputs="text",
    outputs="text",
    title="AI Chat with Gradio",
    description="OpenAIを使ったチャットインターフェース"
)

# インターフェースの起動
iface.launch(share=True)

* Running on local URL:  http://127.0.0.1:7860
* Running on public URL: https://2bf4e2ec360703b128.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




In [None]:
# インポート
from langchain.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import VectorDBQA, RetrievalQA
from langchain.document_loaders import TextLoader, PyPDFLoader
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
import gradio as gr
import openai
import os

# ドキュメントをロードするクラス
class Document:
    def __init__(self, text, metadata):
        self.page_content = text
        self.metadata = metadata

# ドキュメントをロード（例としてテキストを使用）
dir_path = 'loadtext2'

documents = []

for filename in os.listdir(dir_path):
    file_path = os.path.join(dir_path, filename)
    metadata = {'filename': filename}

    # PDFファイルを読み込む
    if filename.endswith('.pdf'):
        with open(file_path, 'rb') as f:
            pdf_reader = PyPDF2.PdfReader(f)
            text = ''
            for page_num in range(len(pdf_reader.pages)):
                page = pdf_reader.pages[page_num]
                text += page.extract_text()
            documents.append(Document(text, metadata))

    # テキストファイルを読み込む
    elif filename.endswith('.txt'):
        with open(file_path, 'r', encoding='utf-8') as f:
            text = f.read()
            documents.append(Document(text, metadata))

# ドキュメントの分割とベクトルDBの作成
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
vectordb = Chroma.from_documents(texts, embeddings)

# QAチェーンの作成
qa = RetrievalQA.from_chain_type(llm=ChatOpenAI(model_name="gpt-4"), chain_type="stuff", retriever=vectordb.as_retriever())

# チャット機能の実装
def chat_with_ai(input_text, history):
    response = qa({"query": input_text+'検索できた範囲で答えてください。検索できないものは「わかりません」と答えてください。'})
    return response['result']

# GradioのChatInterfaceを使用してインターフェースを作成
with gr.Blocks() as demo:
    chatbot = gr.ChatInterface(fn=chat_with_ai, chatbot=gr.Chatbot())
    gr.Markdown("### AI Chat with Gradio") 

# インターフェースの起動
demo.launch(share=True)

  chatbot = gr.ChatInterface(fn=chat_with_ai, chatbot=gr.Chatbot())


* Running on local URL:  http://127.0.0.1:7861
* Running on public URL: https://8ffaecf5eb0c7d4e80.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




: 