# Chapter 3 | Retrieval - 未知のデータを扱えるようにする

## Section 1 | 言語モデルが未知のデータを扱えるようにするためには

### ベクトルの類似度を検索する

In [4]:
from typing import List
from langchain_openai.embeddings import OpenAIEmbeddings
from numpy import dot
from numpy.linalg import norm

embeddings: OpenAIEmbeddings = OpenAIEmbeddings(model="text-embedding-3-small")

query_vector: List[float] = embeddings.embed_query("飛行車の最高速度は？")

print(f"ベクトル化された質問: {query_vector[:5]}")

document_1_vector: List[float] = embeddings.embed_query(
    "飛行車の最高速度は、時速150kmです。"
)

document_2_vector: List[float] = embeddings.embed_query(
    "鶏肉を適切にした味を付けた後、中火で焼きながらたまに裏返し、外側は香ばしく中は柔らかく仕上げる。"
)

cos_sim_1 = (
    dot(query_vector, document_1_vector) / norm(query_vector) * norm(document_1_vector)
)

print(f"ドキュメント1と質問の類似度: {cos_sim_1}")

cos_sim_2 = (
    dot(query_vector, document_2_vector) / norm(query_vector) * norm(document_2_vector)
)

print(f"ドキュメント2と質問の類似度: {cos_sim_2}")

ベクトル化された質問: [0.04084229656882372, 0.0022624695114733247, -0.006506128407696009, -0.05617594837080859, -0.01399951644177802]
ドキュメント1と質問の類似度: 0.8335316531779511
ドキュメント2と質問の類似度: 0.09342478095714071


## Section 2 | 与えたPDFをもとに回答するチャットボットを作る

In [12]:
from langchain.document_loaders.pdf import PyMuPDFLoader
from langchain_core.documents import Document

loader = PyMuPDFLoader("./sample.pdf")
documents: list[Document] = loader.load()

print(f"ドキュメントの数: {len(documents)}")
print(f"1つめのドキュメントの内容: {documents[0].page_content}")
print(f"1つめのドキュメントのメタデータ: {documents[0].metadata}")

ドキュメントの数: 12
1つめのドキュメントの内容: 飛行車に関する法制度
【注意】この文章は、架空の飛行車を対象にした法律の自動生成例です。

1つめのドキュメントのメタデータ: {'source': './sample.pdf', 'file_path': './sample.pdf', 'page': 0, 'total_pages': 12, 'format': 'PDF 1.4', 'title': '飛行車に関する法制度', 'author': '', 'subject': '', 'keywords': '', 'creator': '', 'producer': 'macOS バージョン13.5（ビルド22G74） Quartz PDFContext, AppendMode 1.1', 'creationDate': '', 'modDate': "D:20230819044808Z00'00'", 'trapped': ''}
