# 1. 句子的向量化

## 举例:

In [1]:
import os

import dotenv
from langchain_openai import OpenAIEmbeddings
from openai import base_url

dotenv.load_dotenv()

embedding_model = OpenAIEmbeddings(
    model= "text-embedding-ada-002",
    api_key=os.getenv("ARK_API_KEY"),
    base_url=os.getenv("BASE_URL"),
)

text = "Nice to meet you!"

embed_query =  embeddings = embedding_model.embed_query(text=text)

print(len(embed_query))

print(embed_query)


  from .autonotebook import tqdm as notebook_tqdm


1536
[-0.00570322573184967, -0.017115803435444832, 0.010107757523655891, -0.028865305706858635, -0.023180456832051277, 0.01538829505443573, -0.008429257199168205, -8.289126708405092e-05, -0.030482547357678413, -0.012607130222022533, 0.018745295703411102, -0.004922171588987112, 0.0009686601115390658, -0.010965385474264622, 0.008135213516652584, -0.016405196860432625, 0.02262912504374981, -0.01489822193980217, 0.01086737122386694, -0.0017994871595874429, -0.004891542252153158, -0.00484559778124094, 0.0002536511165089905, 0.0021302865352481604, -0.008741678670048714, -0.0017106614541262388, -0.011375822126865387, -0.017544617876410484, -0.0033539377618581057, -0.011908776126801968, 0.02108539454638958, 0.0044259727001190186, -0.0012244170065969229, 0.004291202407330275, 0.003733744379132986, -0.028865305706858635, -0.00883969385176897, 0.001966418232768774, 0.006769134663045406, -0.005436748266220093, 0.021796001121401787, -0.006321942899376154, 0.008073953911662102, -0.01970093883574009,

# 2. 文档的向量化

## 举例: 文档的向量化，接收的参数是字符串数组。

In [2]:
# 1. 导入相关依赖
from langchain_openai import OpenAIEmbeddings
import numpy as np
import pandas as pd
import os
import dotenv

# 2. 加载环境变量
dotenv.load_dotenv()

# 3. 配置OpenAI环境


# 4. 初始化嵌入模型（使用text-embedding-ada-002）
embeddings_model = OpenAIEmbeddings(
    model="text-embedding-ada-002",
    api_key=os.getenv("ARK_API_KEY"),
    base_url=os.getenv("BASE_URL"),
)

# 5. 定义待嵌入的文本列表
texts = [
    "Hi there!",
    "Oh, hello!",
    "What's your name?",
    "My friends call me World",
    "Hello World!"
]

# 6. 生成嵌入向量
embeddings = embeddings_model.embed_documents(texts)

# 7. 打印结果（显示前3维向量）
print("文本嵌入结果（显示前3个维度）：\n")
for i, (text, embedding) in enumerate(zip(texts, embeddings), 1):
    print(f"▌ 示例 {i}")
    print(f"文本: '{text}'")
    print(f"嵌入向量（前3维）: {embedding[:3]}")
    print(f"向量长度: {len(embedding)} 维")
    print("─" * 50 + "\n")

# 8. 可选：将结果保存为DataFrame
df = pd.DataFrame({
    'text': texts,
    'embedding': embeddings,
    'embedding_dim': [len(e) for e in embeddings]
})
print("\n嵌入结果统计：")
print(f"总文本数: {len(df)}")
print(f"嵌入维度: {df['embedding_dim'].iloc[0]} 维")

文本嵌入结果（显示前3个维度）：

▌ 示例 1
文本: 'Hi there!'
嵌入向量（前3维）: [-0.020325319841504097, -0.007096723187714815, -0.022839006036520004]
向量长度: 1536 维
──────────────────────────────────────────────────

▌ 示例 2
文本: 'Oh, hello!'
嵌入向量（前3维）: [0.00445469468832016, -0.014359182678163052, 0.0019080477068200707]
向量长度: 1536 维
──────────────────────────────────────────────────

▌ 示例 3
文本: 'What's your name?'
嵌入向量（前3维）: [-0.00477176159620285, -0.009507440961897373, 0.00713208457455039]
向量长度: 1536 维
──────────────────────────────────────────────────

▌ 示例 4
文本: 'My friends call me World'
嵌入向量（前3维）: [-0.004583988804370165, -0.014502654783427715, 0.010228524915874004]
向量长度: 1536 维
──────────────────────────────────────────────────

▌ 示例 5
文本: 'Hello World!'
嵌入向量（前3维）: [0.002363691572099924, 0.00023463694378733635, -0.00233377143740654]
向量长度: 1536 维
──────────────────────────────────────────────────


嵌入结果统计：
总文本数: 5
嵌入维度: 1536 维


## 举例2:

In [3]:
# 1. 导入相关依赖
from dotenv import load_dotenv
from langchain_community.document_loaders import CSVLoader
from langchain_openai import OpenAIEmbeddings
import os

# 2. 加载环境变量（确保.env文件中有OPENAI_API_KEY配置）
load_dotenv()

# 3. 初始化嵌入模型（使用OpenAI的text-embedding-3-large模型）
embeddings_model = OpenAIEmbeddings(
    model="text-embedding-3-large",  # 生成3072维的嵌入向量
    api_key=os.getenv("ARK_API_KEY"),
    base_url=os.getenv("BASE_URL"),
)

# 4. 加载CSV文件并分割文档
loader = CSVLoader(
    file_path="./asset/load/03-load.csv", 
    encoding="utf-8"
)
docs = loader.load_and_split()  # 返回Document对象列表

# 5. 生成文档嵌入向量
embeded_docs = embeddings_model.embed_documents(
    [doc.page_content for doc in docs]  # 提取所有文档的文本内容
)

# 6. 打印嵌入结果信息
print(f"文档块数量: {len(embeded_docs)}")
print(f"每个嵌入向量的维度: {len(embeded_docs[0])}")  # text-embedding-3-large默认3072维
print("首个文档块的前10维向量:")
print(embeded_docs[0][:10])  # 打印前10维向量值

# 7. 可选：查看文档内容示例
print("\n文档内容示例:")
for i, doc in enumerate(docs[:3], 1):  # 只展示前3个文档块
    print(f"▌ 文档块 {i} (长度: {len(doc.page_content)} 字符)")
    print(doc.page_content[:50] + "...")  # 显示前50个字符
    print("-" * 60)

文档块数量: 4
每个嵌入向量的维度: 3072
首个文档块的前10维向量:
[0.0011534227523952723, 0.005336394999176264, -0.008949915878474712, 0.030998842790722847, -0.0017970810877159238, 0.011092216707766056, 0.021087471395730972, 0.048524416983127594, 0.0002677876618690789, -0.00012219828204251826]

文档内容示例:
▌ 文档块 1 (长度: 103 字符)
id: 1
title: Introduction to Python
content: Pytho...
------------------------------------------------------------
▌ 文档块 2 (长度: 115 字符)
id: 2
title: Data Science Basics
content: Data sci...
------------------------------------------------------------
▌ 文档块 3 (长度: 110 字符)
id: 3
title: Web Development
content: HTML, CSS an...
------------------------------------------------------------
