# 既存資料からチャットボットを作成する(Retrieval Augumented Generation:RAG)

- 参考
  - https://colab.research.google.com/github/nyanta012/demo/blob/main/sentence_retrieval.ipynb
  - https://python.langchain.com/en/latest/modules/chains/index_examples/vector_db_qa.html
  - https://note.com/mahlab/n/nb6677d0fc7c2
- Chromadbがすごい
  - https://www.trychroma.com/
  - https://github.com/chroma-core/chroma
- ChatGPTのSurvey論文
  - https://arxiv.org/pdf/2304.01852.pdf
  


In [1]:
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import VectorDBQA, RetrievalQA
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import TextLoader, PyPDFLoader
import openai
import os
# langchain-openai パッケージからインポート
from langchain_openai import OpenAIEmbeddings, ChatOpenAI

In [8]:
from dotenv import load_dotenv
load_dotenv()

True

In [9]:
openai.api_key = os.getenv("OPENAI_API_KEY")

In [10]:
!pip install chromadb



In [11]:
import os
import PyPDF2

class Document:
    def __init__(self, text, metadata):
        self.page_content = text
        self.metadata = metadata

dir_path = "loadtext/"

documents = []

for filename in os.listdir(dir_path):
    file_path = os.path.join(dir_path, filename)
    metadata = {'filename': filename}

    # PDFファイルを読み込む
    if filename.endswith('.pdf'):
        with open(file_path, 'rb') as f:
            pdf_reader = PyPDF2.PdfReader(f)
            text = ''
            for page_num in range(len(pdf_reader.pages)):
                page = pdf_reader.pages[page_num]
                text += page.extract_text()
            documents.append(Document(text, metadata))

    # テキストファイルを読み込む
    elif filename.endswith('.txt'):
        with open(file_path, 'r', encoding='utf-8') as f:
            text = f.read()
            documents.append(Document(text, metadata))


In [12]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
vectordb = Chroma.from_documents(texts, embeddings)

qa = RetrievalQA.from_chain_type(llm=ChatOpenAI(model_name="gpt-4"), chain_type="stuff", retriever=vectordb.as_retriever())

In [13]:
!pip install  chromadb python



ERROR: Could not find a version that satisfies the requirement python (from versions: none)
ERROR: No matching distribution found for python


In [14]:
# 質問を作成するために invoke メソッドを使用
questions = qa.invoke("この文章の中で重要ど思う線形代数に関する内容についてを考える質問を10個考えてください")

# 結果の表示
print(questions['result'])

1. 線形代数におけるベクトルとは何かを説明してください。
2. 線形代数と他の数学分野との主な違いを説明することはできますか？
3. 線形写像と線形変換の違いについて説明してください。
4. アルゴリズムにおける線形代数の役割は何でしょうか？
5. ベクトルと行列を用いると、何故解析が容易になるのでしょうか？
6. 線形代数の実用例についていくつか挙げてください。
7. 線形代数における「写像の合成」について説明してください。
8. コサイン類似度を計算するプログラムはどのように作成しますか？
9. ユークリッド距離とマハラノビス距離の違いは何ですか？
10. 連立一次方程式の解法について説明してください。


In [15]:
# 質問を作成するために invoke メソッドを使用
questions = qa.invoke("疑似逆行列とは何ですか？検索できなければわからないと答えてください。")

# 結果の表示
print(questions['result'])

疑似逆行列については、提供された情報からは詳細を説明することができません。申し訳ありませんが、詳細は検索を通じてご確認ください。


In [16]:
# インポート
from langchain.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import VectorDBQA, RetrievalQA
from langchain.document_loaders import TextLoader, PyPDFLoader
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
import gradio as gr
import openai
import os

# ドキュメントをロード
dir_path = 'loadtext/'

documents = []

for filename in os.listdir(dir_path):
    file_path = os.path.join(dir_path, filename)
    metadata = {'filename': filename}

    # PDFファイルを読み込む
    if filename.endswith('.pdf'):
        with open(file_path, 'rb') as f:
            pdf_reader = PyPDF2.PdfReader(f)
            text = ''
            for page_num in range(len(pdf_reader.pages)):
                page = pdf_reader.pages[page_num]
                text += page.extract_text()
            documents.append(Document(text, metadata))

    # テキストファイルを読み込む
    elif filename.endswith('.txt'):
        with open(file_path, 'r', encoding='utf-8') as f:
            text = f.read()
            documents.append(Document(text, metadata))


# ドキュメントの分割とベクトルDBの作成
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
vectordb = Chroma.from_documents(texts, embeddings)

# QAチェーンの作成
qa = RetrievalQA.from_chain_type(llm=ChatOpenAI(model_name="gpt-4"), chain_type="stuff", retriever=vectordb.as_retriever())

# チャット機能の実装
def chat_with_ai(input_text):
    response = qa.invoke(input_text+'検索できた範囲で答えてください。検索できないものは「わかりません」と答えてください。')
    return response['result']

# Gradioインターフェースの設定
iface = gr.Interface(
    fn=chat_with_ai,
    inputs="text",
    outputs="text",
    title="AI Chat with Gradio",
    description="OpenAIを使ったチャットインターフェース"
)

# インターフェースの起動
iface.launch(share=True)

* Running on local URL:  http://127.0.0.1:7860
* Running on public URL: https://250be42228bd47b331.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




In [11]:
# インポート
from langchain.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import VectorDBQA, RetrievalQA
from langchain.document_loaders import TextLoader, PyPDFLoader
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
import gradio as gr
import openai
import os

# ドキュメントをロードするクラス
class Document:
    def __init__(self, text, metadata):
        self.page_content = text
        self.metadata = metadata

# ドキュメントをロード（例としてテキストを使用）
dir_path = 'loadtext2'

documents = []

for filename in os.listdir(dir_path):
    file_path = os.path.join(dir_path, filename)
    metadata = {'filename': filename}

    # PDFファイルを読み込む
    if filename.endswith('.pdf'):
        with open(file_path, 'rb') as f:
            pdf_reader = PyPDF2.PdfReader(f)
            text = ''
            for page_num in range(len(pdf_reader.pages)):
                page = pdf_reader.pages[page_num]
                text += page.extract_text()
            documents.append(Document(text, metadata))

    # テキストファイルを読み込む
    elif filename.endswith('.txt'):
        with open(file_path, 'r', encoding='utf-8') as f:
            text = f.read()
            documents.append(Document(text, metadata))

# ドキュメントの分割とベクトルDBの作成
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
vectordb = Chroma.from_documents(texts, embeddings)

# QAチェーンの作成
qa = RetrievalQA.from_chain_type(llm=ChatOpenAI(model_name="gpt-4"), chain_type="stuff", retriever=vectordb.as_retriever())

# チャット機能の実装
def chat_with_ai(input_text, history):
    response = qa({"query": input_text+'検索できた範囲で答えてください。検索できないものは「わかりません」と答えてください。'})
    return response['result']

# GradioのChatInterfaceを使用してインターフェースを作成
with gr.Blocks() as demo:
    chatbot = gr.ChatInterface(fn=chat_with_ai, chatbot=gr.Chatbot())
    gr.Markdown("### AI Chat with Gradio")

# インターフェースの起動
demo.launch(share=True)

  chatbot = gr.ChatInterface(fn=chat_with_ai, chatbot=gr.Chatbot())


* Running on local URL:  http://127.0.0.1:7861
* Running on public URL: https://c768e52b38a240e4a7.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


