### ドキュメントの読み込みとチャンキング

In [3]:
from langchain_community.document_loaders import PDFMinerLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter


In [19]:
from langchain_community.document_loaders import PDFMinerLoader, DirectoryLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

# ドキュメントの読み込み
loader = PDFMinerLoader("./data/Wikipedia-ハリー・ポッター_(架空の人物).pdf")

# ドキュメントの分割
documents = []
for doc in loader.load():
    doc.page_content = doc.page_content.replace("\n", "")
    chunks = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_size // 10,
        separators=["。", "、", " "],
        keep_separator="end"
    ).split_documents([doc])
    documents.extend(chunks)
print(f"合計チャンク数: {len(documents)}")

for i, doc in enumerate(documents[:6]):
    print(f"\n=== Document {i+1}：文字数: {len(doc.page_content)} ====================================================")
    print(doc.page_content)


合計チャンク数: 166

ハリー‧ポッター (架空の⼈物)出典: フリー百科事典『ウィキペディア（Wikipedia）』ハリー‧ポッターシリーズ > ハリー‧ポッターシリーズの登場⼈物⼀覧 > ハリー‧ポッター

ハリー‧ポッター (架空の⼈物)ハリー‧ジェームズ‧ポッター（英: Harry JamesPotter）は、

J‧K‧ローリングの⼩説『ハリー‧ポッター』シリーズおよび、その派⽣作品に登場する架空の⼈物であり、同シリーズの主⼈公。

ホグワーツ魔法魔術学校グリフィンドール寮の男⼦⽣徒となる。孤児として⺟親の親類の伯⺟夫婦の家で不遇な暮らしをして育った。

11歳を迎える年のある⽇突然、ホグワーツから⼊学許可証が届いたのをきっかけに、亡くなった両親が魔法使いであったこと、そして出⽣時に下された予⾔により、

闇の魔法使いヴォルデモートを倒す宿命を⾃分が負っていると告げられる。


: 

In [4]:
# ドキュメントの読み込み
loader = PDFMinerLoader("./data/Wikipedia-ハリー・ポッター_(架空の人物).pdf")
documents = loader.load()

In [6]:
max_chars=500
for doc in documents:
    print(f"Source: {doc.metadata['source']}")
    print(f"文字数: {len(doc.page_content)}（先頭{max_chars}文字だけ表示します）")
    print(f"=================================================")
    print(doc.page_content[:max_chars] + "..." if len(doc.page_content) > max_chars else doc.page_content)
    print(f"=================================================")
    
    

Source: ./data/Wikipedia-ハリー・ポッター_(架空の人物).pdf
文字数: 12753（先頭500文字だけ表示します）
ハリー‧ポッター (架空の⼈物)

出典: フリー百科事典『ウィキペディア（Wikipedia）』

ハリー‧ポッターシリーズ > ハリー‧ポッターシリーズの登場⼈物⼀覧 > ハリー‧ポッター (架空の⼈
物)

ハリー‧ジェームズ‧ポッター（英: Harry James
Potter）は、J‧K‧ローリングの⼩説『ハリー‧
ポッター』シリーズおよび、その派⽣作品に登場
する架空の⼈物であり、同シリーズの主⼈公。

ホグワーツ魔法魔術学校グリフィンドール寮の男
⼦⽣徒となる。孤児として⺟親の親類の伯⺟夫婦
の家で不遇な暮らしをして育った。11歳を迎える
年のある⽇突然、ホグワーツから⼊学許可証が届
いたのをきっかけに、亡くなった両親が魔法使い
であったこと、そして出⽣時に下された予⾔によ
り、闇の魔法使いヴォルデモートを倒す宿命を⾃
分が負っていると告げられる。マグル界では⼀介
の少年に過ぎない⽣活を送っていたが、魔法界で
は本⼈が⼾惑うほど重要な⼈物として、あまねく
⼈々から知られている。

⼀⼈前の魔法使いになるべく、同級⽣のロン‧ウ
ィーズリーやハーマイオニー‧グレンジャーらと
...


In [12]:
for i, doc in enumerate(documents[:5]):
    print(f"\n=== Document {i+1}：文字数: {len(doc)} ====================================================")
    print(doc)


ハリー‧ポッター (架空の⼈物)出典: フリー百科事典『ウィキペディア（Wikipedia）』ハリー‧ポッターシリーズ > ハリー‧ポッターシリーズの登場⼈物⼀覧 > ハリー‧ポッター (架空の⼈物)

ハリー‧ジェームズ‧ポッター（英: Harry JamesPotter）は、J‧K‧ローリングの⼩説『ハリー‧ポッター』シリーズおよび、その派⽣作品に登場する架空の⼈物であり、同シリーズの主⼈公。ホグ

ワーツ魔法魔術学校グリフィンドール寮の男⼦⽣徒となる。孤児として⺟親の親類の伯⺟夫婦の家で不遇な暮らしをして育った。11歳を迎える年のある⽇突然、ホグワーツから⼊学許可証が届いたのをきっかけに、亡くな

った両親が魔法使いであったこと、そして出⽣時に下された予⾔により、闇の魔法使いヴォルデモートを倒す宿命を⾃分が負っていると告げられる。マグル界では⼀介の少年に過ぎない⽣活を送っていたが、魔法界では本⼈

が⼾惑うほど重要な⼈物として、あまねく⼈々から知られている。⼀⼈前の魔法使いになるべく、同級⽣のロン‧ウィーズリーやハーマイオニー‧グレンジャーらとともに、ホグワーツにて学⽣⽣活を送りつつ、宿敵のヴォ


In [37]:
# ドキュメントの分割
documents = []
for doc in loader.load():
    # すべての改行を削除（単語の途中でチャンキングされることを防ぐため）
    doc.page_content = doc.page_content.replace("\n", "")
    chunks = RecursiveCharacterTextSplitter(
        chunk_size=100,
        chunk_overlap=100 // 10,
        separators=[
            "\n\n",
            "。",
            "、",
            " ",
        ],
        keep_separator="end"
    ).split_documents([doc])
    documents.extend(chunks)

print(f"合計チャンク数: {len(documents)}")

合計チャンク数: 166


In [40]:
for i, doc in enumerate(documents[:5]):
    print(f"\n=== Document {i+1}：文字数: {len(doc.page_content)} ====================================================")
    print(doc.page_content[:300] + "..." if len(doc.page_content) > 500 else doc.page_content)
    print(f"Source: {doc.metadata['source']}")


ハリー‧ポッター (架空の⼈物)出典: フリー百科事典『ウィキペディア（Wikipedia）』ハリー‧ポッターシリーズ > ハリー‧ポッターシリーズの登場⼈物⼀覧 > ハリー‧ポッター
Source: ./data/Wikipedia-ハリー・ポッター_(架空の人物).pdf

ハリー‧ポッター (架空の⼈物)ハリー‧ジェームズ‧ポッター（英: Harry JamesPotter）は、
Source: ./data/Wikipedia-ハリー・ポッター_(架空の人物).pdf

J‧K‧ローリングの⼩説『ハリー‧ポッター』シリーズおよび、その派⽣作品に登場する架空の⼈物であり、同シリーズの主⼈公。
Source: ./data/Wikipedia-ハリー・ポッター_(架空の人物).pdf

ホグワーツ魔法魔術学校グリフィンドール寮の男⼦⽣徒となる。孤児として⺟親の親類の伯⺟夫婦の家で不遇な暮らしをして育った。
Source: ./data/Wikipedia-ハリー・ポッター_(架空の人物).pdf

11歳を迎える年のある⽇突然、ホグワーツから⼊学許可証が届いたのをきっかけに、亡くなった両親が魔法使いであったこと、そして出⽣時に下された予⾔により、
Source: ./data/Wikipedia-ハリー・ポッター_(架空の人物).pdf


### VectorStoreの準備

In [7]:
import chromadb
from langchain_chroma import Chroma


# Chromaクライアントを初期化
try:
    persistent_client = chromadb.PersistentClient(path="./chroma_db")
    # 既存のChromaコレクションを削除
    try:
        persistent_client.delete_collection(collection_name)
        print(f"既存のコレクション '{collection_name}' を削除しました")
    except ValueError as e:
        print(f"既存のコレクション '{collection_name}' は存在しませんでした")
    except Exception as e:
        print(f"コレクションの削除中にエラーが発生しました: {str(e)}")

    vector_store = Chroma(
        client=persistent_client,
        collection_name=collection_name,
        embedding_function=embeddings,
        collection_metadata={"hnsw:space": "ip"} 
    )
    print(f"コレクション '{collection_name}' を作成しました")

    collections = persistent_client.list_collections()
    print("現在のコレクション一覧:")
    for collection in collections:
        print(f"- {collection.name}")

    # ドキュメントをバッチで追加
    print(f"コレクション '{collection_name}' にデータをロードします")
    total_added = 0
    for i in range(0, len(documents), batch_size):
        batch = documents[i:i + batch_size]
        vector_store.add_documents(documents=batch, embedding=embeddings)
        total_added += len(batch)
        print(f"バッチ {i//batch_size + 1} を追加しました（{len(batch)}件）")
    
    print(f"\n合計 {total_added} 件のドキュメントを追加しました")

except Exception as e:
    print(f"Chromaデータベースの操作中にエラーが発生しました: {str(e)}")


既存のコレクション 'mycollection_500' を削除しました
コレクション 'mycollection_500' を作成しました
現在のコレクション一覧:
- mycollection_1000
- mycollection_200
- mycollection_500
コレクション 'mycollection_500' にデータをロードします
バッチ 1 を追加しました（100件）
バッチ 2 を追加しました（100件）
バッチ 3 を追加しました（100件）
バッチ 4 を追加しました（100件）
バッチ 5 を追加しました（100件）
バッチ 6 を追加しました（100件）
バッチ 7 を追加しました（100件）
バッチ 8 を追加しました（100件）
バッチ 9 を追加しました（100件）
バッチ 10 を追加しました（100件）
バッチ 11 を追加しました（100件）
バッチ 12 を追加しました（100件）
バッチ 13 を追加しました（31件）

合計 1231 件のドキュメントを追加しました


### ベクトル検索のテスト

In [8]:
result = vector_store.similarity_search(query, k=top_k)

In [10]:
for i, doc in enumerate(result[:top_k]):
    print(f"\n=== 検索結果 {i+1} ===")
    print(f"Content: {doc.page_content}")
    print(f"文字数: {len(doc.page_content)}")
    print(f"Source: {doc.metadata['source']}")


=== 検索結果 1 ===
Content: 純粋に本編のストーリーを追った漫画化はこれが初となる。ストーリー⾃称平凡な⼩学3年⽣、⾼町なのはは助けを求める声に導かれ、不思議なフェレットが負傷し倒れているところを発⾒、保護する。その夜、再び声が響きフェレットを預かっている動物病院に向かうとそこで異形の怪物がフェレットと対峙する場⾯に出くわす。彼の正体は異世界ミッドチルダからやってきた少年ユーノ‧スクライアだった。彼がこの世界に来た理由。それは彼が発掘したロストロギア（異世界に存在した⾼度な魔法技術の遺産）「ジュエルシード」が散らばってしまったためであった。成り⾏きから事情を知ったなのはは、ユーノと共にジュエルシードを集め、封印する⼿伝いをすることになる。そして次第になのははユーノだけではなく、⾃分のために魔法の世界に関わっていく決意を固め、その秘めた⼒を開花させていく。登場⼈物→「魔法少⼥リリカルなのはシリーズの登場⼈物」を参照⾼町なのは本作の主⼈公。海鳴市に住む⼩学3年⽣。ひょんなことからフェレットに似た動物の姿をしていたユーノと出会い、インテリジェントデバイスである「レイジングハート」を託されたことで魔法少⼥となる。
文字数: 495
Source: data\Wikipedia-魔法少女リリカルなのは.pdf

=== 検索結果 2 ===
Content: ユーノとの関係は以前と変わらずフェイト達いわく「どちらも仕事が好きだから」あまり進展はない。誰に対しても優しく接し、⾃分に対しては謙虚なところは変わらないが無茶なことをしては周囲（主にフェイトやシャマルなど）を困らせる所も変わらない。11歳の頃の事件のことを気にしているようで他⼈の無茶に対しては厳しく逆に他⼈から指摘されると「⾃分は武装隊だから危険は当然」と棚に上げ、結果的に⾃⾝が⼀番無茶をしてしまうのでフェイト達に叱られることもしばしばある。また、10年の間に⾃⼰の鍛錬も怠っておらず、運動能⼒もさらに向上させている。第1期におけるなのはとある偶然から傷を負った異世界の少年ユーノを助け、ロストロギア（古代遺産）「ジュエルシード」探索に協⼒すべく魔法少⼥（魔導師）となる。そのジュエルシードの探索中、⾃分と同年代の「寂しげな⽬」をした⼥の⼦‧フェイトと出会い、惹かれながらも幾度となく衝突した。戦いを通じ