In [16]:
from llama_index.readers.file import PyMuPDFReader

In [17]:
from pathlib import Path
from llama_index.readers.file import PyMuPDFReader
import requests

def load_pdf(url: str):
    Path("docs").mkdir(exist_ok=True)
    name = url.rsplit("/", 1)[1]
    dst = Path("docs") / name

    r = requests.get(url, timeout=60)
    r.raise_for_status()
    dst.write_bytes(r.content)

    loader = PyMuPDFReader()
    return loader.load(file_path=str(dst))

pdf_doc = load_pdf("https://www.ibm.com/annualreport/assets/downloads/IBM_Annual_Report_2023.pdf")
print(pdf_doc[:1])  # 読み込んだ最初の要素だけ確認

[Document(id_='344e5d5d-83ac-4496-b1fd-d380b78265b6', embedding=None, metadata={'total_pages': 128, 'file_path': 'docs/IBM_Annual_Report_2023.pdf', 'source': '1'}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={}, metadata_template='{key}: {value}', metadata_separator='\n', text_resource=MediaResource(embeddings=None, data=None, text='Let’s Create\n2023 Annual Report\n', path=None, url=None, mimetype=None), image_resource=None, audio_resource=None, video_resource=None, text_template='{metadata_str}\n\n{content}')]


In [18]:
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core import Settings
Settings.embed_model = HuggingFaceEmbedding(
model_name="BAAI/bge-small -en-v1.5"
)

2025-09-09 10:09:24,718 - INFO - Load pretrained SentenceTransformer: BAAI/bge-small -en-v1.5


HFValidationError: Repo id must use alphanumeric chars or '-', '_', '.', '--' and '..' are forbidden, '-' and '.' cannot start or end the name, max length is 96: 'BAAI/bge-small -en-v1.5'.

In [None]:
from llama_index.core import VectorStoreIndex
from llama_index.core.node_parser import SentenceSplitter
splitter = SentenceSplitter(chunk_size=1024)

index = VectorStoreIndex.from_documents(
	pdf_doc, transformations=[splitter],
	embed_model=Settings.embed_model
)

# 新しいトピックを加える
同じトピックに関係する新しいドキュメントを追加したい場合は、既存のインデックスにそのまま挿入できます。
まず、前と同じようにファイルを読み込み、適切なパラメータで分割してから、次のように実行します。
```
nodes = splitter.get_nodes_from_documents(pdf_doc)
index.insert_nodes(nodes)
```
この例ではデータベースは使用していませんが、ストレージを永続化したい場合は、ローカルディスクに次のように保存できます。
```
index.storage_context.persist(persist_dir="./storage")
```