In [4]:
import faiss
import numpy as np
from langchain.embeddings import HuggingFaceEmbeddings

# 1. 加載 Hugging Face 模型
model_name = "sentence-transformers/all-MiniLM-L6-v2"
hf_embed = HuggingFaceEmbeddings(model_name=model_name)

# 2. 定義要嵌入的文本資料
documents = [
    "手機",
    "電腦",
    "其他"
]

# 3. 將文本轉換成向量
embeddings = [hf_embed.embed_query(doc) for doc in documents]

# 4. 將列表轉換成 numpy array 格式，便於 Faiss 操作
embedding_matrix = np.array(embeddings).astype("float32")

# 5. 建立 Faiss 索引（用 L2 距離來建立索引）
dimension = embedding_matrix.shape[1]  # 向量的維度
index = faiss.IndexFlatL2(dimension)    # 使用 L2 距離

# 6. 將嵌入的向量加到 Faiss 索引中
index.add(embedding_matrix)


In [2]:
faiss.write_index(index, "faiss_index.index")

In [11]:
# 7. 搜索範例，假設我們想查找與某一文本最相似的結果
query = "我的目前售價多少"  # 定義一個查詢
query_embedding = hf_embed.embed_query(query)  # 將查詢轉換成向量

# 搜索最接近的 2 條記錄
k = 1  # 搜索前 2 名
query_vector = np.array([query_embedding]).astype("float32")
distances, indices = index.search(query_vector, k)

# 8. 輸出結果
print(f"查詢文本: {query}")
print(f"最相似的文件索引: {indices}")
print(f"相似度距離: {distances}")

查詢文本: 我的螢幕目前售價多少
最相似的文件索引: [[1]]
相似度距離: [[0.9087755]]
