<a href="https://colab.research.google.com/github/ltsKita/chunk_metadata_test/blob/main/ChromaDB_%E3%83%A1%E3%82%BF%E3%83%87%E3%83%BC%E3%82%BF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install langchain python-docx langchain-community chromadb sentence-transformers tiktoken

Collecting langchain
  Downloading langchain-0.2.14-py3-none-any.whl.metadata (7.1 kB)
Collecting python-docx
  Downloading python_docx-1.1.2-py3-none-any.whl.metadata (2.0 kB)
Collecting langchain-community
  Downloading langchain_community-0.2.12-py3-none-any.whl.metadata (2.7 kB)
Collecting chromadb
  Downloading chromadb-0.5.5-py3-none-any.whl.metadata (6.8 kB)
Collecting sentence-transformers
  Downloading sentence_transformers-3.0.1-py3-none-any.whl.metadata (10 kB)
Collecting tiktoken
  Downloading tiktoken-0.7.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.6 kB)
Collecting langchain-core<0.3.0,>=0.2.32 (from langchain)
  Downloading langchain_core-0.2.32-py3-none-any.whl.metadata (6.2 kB)
Collecting langchain-text-splitters<0.3.0,>=0.2.0 (from langchain)
  Downloading langchain_text_splitters-0.2.2-py3-none-any.whl.metadata (2.1 kB)
Collecting langsmith<0.2.0,>=0.1.17 (from langchain)
  Downloading langsmith-0.1.99-py3-none-any.whl.metadata (13 kB)
Col

In [10]:
import os
from docx import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma

# contentディレクトリ内のすべての.docxファイルを処理対象とする
content_dir = "/content"
files_in_directory = os.listdir(content_dir)

all_texts = []
all_metadatas = []

# リスト内のすべての処理対象ファイルについて、各ファイルごとに処理
for filename in files_in_directory:
    if filename.endswith(".docx"):
        file_path = os.path.join(content_dir, filename)

        # ドキュメントをファイル名としてそのまま取得
        document_name = filename

        # ドキュメントの読み込み
        document = Document(file_path)
        all_paragraphs = "\n".join([p.text for p in document.paragraphs])

        # テキストをチャンクに分割
        text_splitter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=50)
        chunks = text_splitter.split_text(all_paragraphs)

        # チャンクにページ番号と文書名のメータデータを割り当て
        for i, chunk in enumerate(chunks):
            all_texts.append(chunk)
            """
            ここでメタデータを設定しています。
            ページはchunkのリストを手元で確認した上で手動で付与し、
            ファイル名は読み込んだドキュメントの名称をそのまま付与しています。

            ページ数を全て手動で確認するのは大変なので、ページ数の取得は工夫の必要があると思います。
            """
            all_metadatas.append({
                'page': 1 if i < 5 else 2,
                'document_name': document_name
            })

# HuggingFaceEmbeddingsで埋め込みを作成
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

# Chromaにテキストとメタデータを一括で格納
db = Chroma.from_texts(texts=all_texts, embedding=embeddings, metadatas=all_metadatas)


In [5]:
db.similarity_search("chatGPTとは")

[Document(metadata={'document_name': 'ChatGPT.docx', 'page': 1}, page_content='従業員各位\n\n令和6年6月吉日\n株式会社\n代表取締役\n\nChatGPT・Copilot活用についての留意事項'),
 Document(metadata={'document_name': 'ChatGPT.docx', 'page': 1}, page_content='ChatGPTに質問をするときのポイントは以下の通りです。\n使いこなすために重要なことですので、以下順に解説します。'),
 Document(metadata={'document_name': 'ChatGPT.docx', 'page': 2}, page_content='３．機密情報は入力しない（オプトアウトする）\n質問した内容は、ChatGPT等の開発者に見られてしまったり、今後の学習データとして使われたりする可能性があるので、機密情報や個人情報の入力はしないようにしましょう。'),
 Document(metadata={'document_name': 'ChatGPT.docx', 'page': 2}, page_content='２．質問を繰り返すと、今までの経緯と関係のない回答がかえってくる場合がある\nどれくらいまで遡って会話の内容を覚えているかは明確ではありません。そのため、今までのチャット履歴の中から該当する部分を抜粋し、質問と一緒に貼り付けるようにしましょう。')]

In [8]:
import google.generativeai as genai

# Gemini APIの設定
def setup_gemini():
    genai.configure(api_key='AIzaSyBes5Fjrpza4P_jWgTEjG9gZjA8DRhd3Lk')  # ここにAPIキーを入力
    return genai.GenerativeModel('gemini-pro')

# RAGを使用して質問に回答する関数
def answer_question_with_rag(question, db, model):
    # 関連文書の検索
    results = db.similarity_search(question, k=3)

    # コンテキストの準備
    context = "\n".join([doc.page_content for doc in results])
    reference_docs = [
        {
            'text': doc.page_content,
            'page_number': doc.metadata['page'],
            'document_name': doc.metadata['document_name']
        }
        for doc in results
    ]

    # Geminiで回答生成
    prompt = f"""
    次の質問に対して、与えられたコンテキストを使用して回答してください。
    コンテキストに含まれていない情報は使用せず、「その情報はコンテキストにありません」と述べてください。

    質問: {question}
    コンテキスト: {context}
    回答:
    """
    response = model.generate_content(prompt)

    return {'answer': response.text, 'reference_documents': reference_docs}

# メイン処理
def main():
    # Geminiモデルのセットアップ
    model = setup_gemini()

    # 質問例
    question = "機密情報は入力しないことを何という？"

    # RAGを使用して質問に回答
    result = answer_question_with_rag(question, db, model)

    print("質問:", question)
    print("\n回答:", result['answer'])
    print("\n参照文書:")
    for doc in result['reference_documents']:
        print(f"- 文書名: {doc['document_name']}, ページ {doc['page_number']}: {doc['text'][:200]}...")

if __name__ == "__main__":
    main()


質問: 機密情報は入力しないことを何という？

回答: その情報はコンテキストにありません。

参照文書:
- 文書名: ChatGPT.docx, ページ 2: ３．機密情報は入力しない（オプトアウトする）
質問した内容は、ChatGPT等の開発者に見られてしまったり、今後の学習データとして使われたりする可能性があるので、機密情報や個人情報の入力はしないようにしましょう。...
- 文書名: ChatGPT.docx, ページ 1: 仕組みの影響で、AIが事実とは異なる情報を提供することもあることから、使用する際はその点に注意する必要があります。...
- 文書名: ChatGPT.docx, ページ 2: ２．質問を繰り返すと、今までの経緯と関係のない回答がかえってくる場合がある
どれくらいまで遡って会話の内容を覚えているかは明確ではありません。そのため、今までのチャット履歴の中から該当する部分を抜粋し、質問と一緒に貼り付けるようにしましょう。...
