# 既存資料からチャットボットを作成する(Retrieval Augumented Generation:RAG)

- 参考
  - https://colab.research.google.com/github/nyanta012/demo/blob/main/sentence_retrieval.ipynb
  - https://python.langchain.com/en/latest/modules/chains/index_examples/vector_db_qa.html
  - https://note.com/mahlab/n/nb6677d0fc7c2
- Chromadbがすごい
  - https://www.trychroma.com/
  - https://github.com/chroma-core/chroma
- ChatGPTのSurvey論文
  - https://arxiv.org/pdf/2304.01852.pdf
  


In [1]:
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import VectorDBQA, RetrievalQA
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import TextLoader, PyPDFLoader
import openai
import os
# langchain-openai パッケージからインポート
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
import chromadb
chroma_client = chromadb.Client()

ModuleNotFoundError: No module named 'chromadb'

In [3]:
from dotenv import load_dotenv
load_dotenv()

True

In [8]:
openai.api_key = os.getenv("OPENAI_API_KEY")

In [4]:
import os
import PyPDF2

class Document:
    def __init__(self, text, metadata):
        self.page_content = text
        self.metadata = metadata

dir_path = "loadtext/"

documents = []

for filename in os.listdir(dir_path):
    file_path = os.path.join(dir_path, filename)
    metadata = {'filename': filename}

    # PDFファイルを読み込む
    if filename.endswith('.pdf'):
        with open(file_path, 'rb') as f:
            pdf_reader = PyPDF2.PdfReader(f)
            text = ''
            for page_num in range(len(pdf_reader.pages)):
                page = pdf_reader.pages[page_num]
                text += page.extract_text()
            documents.append(Document(text, metadata))

    # テキストファイルを読み込む
    elif filename.endswith('.txt'):
        with open(file_path, 'r', encoding='utf-8') as f:
            text = f.read()
            documents.append(Document(text, metadata))


In [2]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
vectordb = Chroma.from_documents(texts, embeddings)

qa = RetrievalQA.from_chain_type(llm=ChatOpenAI(model_name="gpt-4"), chain_type="stuff", retriever=vectordb.as_retriever())

NameError: name 'documents' is not defined

In [21]:
# 質問を作成するために invoke メソッドを使用
questions = qa.invoke("この文章の中で重要ど思う線形代数に関する内容についてを考える質問を10個考えてください")

# 結果の表示
print(questions['result'])

1. 教科書のp.62〜p.106ページで取り上げられている線形代数の主な内容は何ですか？
2. 教材として使用されているYouTubeのprof.Gilbert Strangの線形代数授業「1. The Geometry of Linear Equations」の主要な教訓は何ですか？
3. 写像の合成とは何ですか、その中で線形変換𝑓と𝑔の合成がどのように機能するか説明してください。
4. 線形変換𝑓によって𝑅のベクトル𝒙を𝑅のベクトル𝑓𝒙に変換したあと、そのベクトルをさらに線形変換𝑔によって𝑅のベクトル𝑔(𝑓𝒙)に変換する、このプロセスの重要性について詳しく説明してください。
5. 𝒙𝐴𝒙𝐵𝐴𝒙𝐴𝐵≠𝐵𝐴とはどういう意味ですか？
6. 課題中の単純パーセプトロンの表現 𝒚=𝒘$𝒙+𝑏から 𝒚=𝒘$𝒙へ移行する際のバイアス項(+𝑏)の役割は何ですか？
7. Lec02.ipynbの「入力画像ファイルから指定したディレクトリの中の画像から一番類似性が高い画像ファイル名を検索するプログラム」の部分における、コサイン類似度の計算の重要性は何ですか？
8. マンハッタン距離、ユークリッド距離、チェビシェフ距離とマハラノビス距離の違いは何ですか？
9. ベクトルの新データ（値段850円、重さ1450g）の計算方法を説明できますか？
10. 教科書p.114〜p.118で扱われている線形代数の主題は何ですか？


In [22]:
# 質問を作成するために invoke メソッドを使用
questions = qa.invoke("疑似逆行列とは何ですか？検索できなければわからないと答えてください。")

# 結果の表示
print(questions['result'])

すみませんが、提供された情報には疑似逆行列についての説明は含まれていません。したがって、その質問には答えられません。


In [23]:
# インポート
from langchain.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import VectorDBQA, RetrievalQA
from langchain.document_loaders import TextLoader, PyPDFLoader
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
import gradio as gr
import openai
import os

# ドキュメントをロード
dir_path = 'loadtext/'

documents = []

for filename in os.listdir(dir_path):
    file_path = os.path.join(dir_path, filename)
    metadata = {'filename': filename}

    # PDFファイルを読み込む
    if filename.endswith('.pdf'):
        with open(file_path, 'rb') as f:
            pdf_reader = PyPDF2.PdfReader(f)
            text = ''
            for page_num in range(len(pdf_reader.pages)):
                page = pdf_reader.pages[page_num]
                text += page.extract_text()
            documents.append(Document(text, metadata))

    # テキストファイルを読み込む
    elif filename.endswith('.txt'):
        with open(file_path, 'r', encoding='utf-8') as f:
            text = f.read()
            documents.append(Document(text, metadata))


# ドキュメントの分割とベクトルDBの作成
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
vectordb = Chroma.from_documents(texts, embeddings)

# QAチェーンの作成
qa = RetrievalQA.from_chain_type(llm=ChatOpenAI(model_name="gpt-4"), chain_type="stuff", retriever=vectordb.as_retriever())

# チャット機能の実装
def chat_with_ai(input_text):
    response = qa.invoke(input_text+'検索できた範囲で答えてください。検索できないものは「わかりません」と答えてください。')
    return response['result']

# Gradioインターフェースの設定
iface = gr.Interface(
    fn=chat_with_ai,
    inputs="text",
    outputs="text",
    title="AI Chat with Gradio",
    description="OpenAIを使ったチャットインターフェース"
)

# インターフェースの起動
iface.launch(share=True)

  from .autonotebook import tqdm as notebook_tqdm


* Running on local URL:  http://127.0.0.1:7860
* Running on public URL: https://3b9d32932ce89b4d3c.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




In [25]:
# インポート
from langchain.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import VectorDBQA, RetrievalQA
from langchain.document_loaders import TextLoader, PyPDFLoader
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
import gradio as gr
import openai
import os

# ドキュメントをロードするクラス
class Document:
    def __init__(self, text, metadata):
        self.page_content = text
        self.metadata = metadata

# ドキュメントをロード（例としてテキストを使用）
dir_path = 'loadtext2'

documents = []

for filename in os.listdir(dir_path):
    file_path = os.path.join(dir_path, filename)
    metadata = {'filename': filename}

    # PDFファイルを読み込む
    if filename.endswith('.pdf'):
        with open(file_path, 'rb') as f:
            pdf_reader = PyPDF2.PdfReader(f)
            text = ''
            for page_num in range(len(pdf_reader.pages)):
                page = pdf_reader.pages[page_num]
                text += page.extract_text()
            documents.append(Document(text, metadata))

    # テキストファイルを読み込む
    elif filename.endswith('.txt'):
        with open(file_path, 'r', encoding='utf-8') as f:
            text = f.read()
            documents.append(Document(text, metadata))

# ドキュメントの分割とベクトルDBの作成
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
vectordb = Chroma.from_documents(texts, embeddings)

# QAチェーンの作成
qa = RetrievalQA.from_chain_type(llm=ChatOpenAI(model_name="gpt-4"), chain_type="stuff", retriever=vectordb.as_retriever())

# チャット機能の実装
def chat_with_ai(input_text, history):
    response = qa({"query": input_text+'検索できた範囲で答えてください。検索できないものは「わかりません」と答えてください。'})
    return response['result']

# GradioのChatInterfaceを使用してインターフェースを作成
with gr.Blocks() as demo:
    chatbot = gr.ChatInterface(fn=chat_with_ai, chatbot=gr.Chatbot())
    gr.Markdown("### AI Chat with Gradio")

# インターフェースの起動
demo.launch(share=True)

  chatbot = gr.ChatInterface(fn=chat_with_ai, chatbot=gr.Chatbot())


* Running on local URL:  http://127.0.0.1:7861

Could not create share link. Please check your internet connection or our status page: https://status.gradio.app.


2025/04/23 16:00:02 [W] [service.go:132] login to server failed: dial tcp 44.237.78.176:7000: i/o timeout


