In [None]:
import os
# 【硬性要求】加载环境变量，因为 Embeddings 同样需要消耗 OpenAI 的 Token 和 API Key
from dotenv import load_dotenv
load_dotenv(override=True)

# 导入 OpenAI 的嵌入模型类
from langchain_openai import OpenAIEmbeddings

# ==========================================
# 1. 实例化嵌入模型 (Instantiating the Embeddings Model)
# ==========================================
# 老师使用的是 text-embedding-3-large 模型
# 这是一个性能极高且支持多维度输出的新一代模型。
embeddings_model = OpenAIEmbeddings(model="text-embedding-3-large")

# ==========================================
# 2. 准备示例文档 (Preparing Sample Documents)
# ==========================================
# 模拟 4 个从体育新闻杂志提取出的标题 (Chunks)
docs = [
    "Thrilling Finale Awaits: The Countdown to the Cricket World Cup Championship",
    "Global Giants Clash: Football World Cup Semi-Finals Set the Stage for Epic Showdowns",
    "Record Crowds and Unforgettable Moments: Highlights from the Cricket World Cup",
    "From Underdogs to Contenders: Football World Cup Surprises and Breakout Stars"
]

# ==========================================
# 3. 执行批量向量化 (Executing Batch Embedding)
# ==========================================
print(f"正在将 {len(docs)} 个文本块发送至 OpenAI 计算其高维向量表示...")
# 【科研级保姆注释】
# embed_documents(): 这个方法专门用于批量处理你的知识库文档。
# 它一次性将一个 List[str] 发送给 API，返回一个包含多个 List[float] 的二维矩阵。
embed_docs = embeddings_model.embed_documents(docs)

# ==========================================
# 4. 验证与分析结果 (Validation & Analysis)
# ==========================================
# 确认返回了 4 个向量，对应我们的 4 个句子
print(f"✅ 成功生成向量，共获取到 {len(embed_docs)} 个向量集。")

# 抽取第一个向量进行“X光检查”
first_vector = embed_docs[0]

# 验证其维度大小：text-embedding-3-large 默认输出 3072 维
print(f"\n[深度观察] 第一句话的向量维度大小为: {len(first_vector)}") 

# 打印前 5 个浮点数，让你直观感受一下算法眼中的“语义”长什么样
print(f"[数据切片] 向量前 5 个维度的数值:\n {first_vector[:5]}")


正在将 4 个文本块发送至 OpenAI 计算其高维向量表示...
✅ 成功生成向量，共获取到 4 个向量集。

[深度观察] 第一句话的向量维度大小为: 3072
[数据切片] 向量前 5 个维度的数值:
 [0.007965140044689178, -0.01482111681252718, -0.015178430825471878, 0.01960764452815056, -0.049815624952316284]
