## LangChain 0.3+ Embedding 模型比較
比較不同 Embedding 模型的性能與特性

需求套件:
- langchain>=0.3.0
- langchain-community>=0.0.1
- sentence-transformers>=2.2.2
- openai>=1.1.0
- cohere>=4.37
- pandas>=2.0.0
- numpy>=1.24.0
- python-dotenv>=0.19.0

---

# 方法特性分析表

| 特性           | OpenAI Embedding | CohereAI Embedding | Jina Embeddings | BGE (BAAI) |
|---------------|:----------------:|:------------------:|:---------------:|:----------:|
| **語義準確性** |        ○         |         ○          |        △        |     ○      |
| **計算成本**   |        △         |         △          |        ○        |     ○      |
| **領域適應性** |        ○         |         ○          |        △        |     ○      |
| **可擴展性**   |        ○         |         ○          |        ○        |     ○      |
| **訓練效率**   |        ○         |         ○          |        △        |     ○      |
| **查詢效率**   |        ○         |         ○          |        △        |     ○      |
| **多模態支持** |        ○         |         ○          |        ×        |     ○      |

# 問題特性分析表

| 應用領域        | OpenAI Embedding | CohereAI Embedding | Jina Embeddings | BGE (BAAI) |
|-----------------|:----------------:|:------------------:|:---------------:|:----------:|
| **資訊檢索（IR）** |        ○         |         ○          |        △        |     ○      |
| **推薦系統（RS）** |        ○         |         ○          |        △        |     ○      |
| **問答系統（QA）** |        ○         |         ○          |        △        |     ○      |
| **文本分類（TC）** |        ○         |         ○          |        ○        |     ○      |
| **知識圖譜（KG）** |        ○         |         ○          |        △        |     ○      |
| **多模態處理（MM）** |        ○         |         ○          |        ×        |     ○      |

# 方法特性 vs. 問題特性 矩陣比較表

| 方法特性 / 應用領域 | IR（資訊檢索） | RS（推薦系統） | QA（問答系統） | TC（文本分類） | KG（知識圖譜） | MM（多模態處理） |
|--------------------|:-------------:|:-------------:|:-------------:|:-------------:|:-------------:|:-------------:|
| **語義準確性**     |       ○       |       ○       |       ○       |       ○       |       ○       |       △       |
| **計算成本**       |       △       |       ○       |       △       |       ○       |       △       |       ○       |
| **領域適應性**     |       ○       |       ○       |       ○       |       ○       |       ○       |       △       |
| **可擴展性**       |       ○       |       ○       |       ○       |       ○       |       △       |       ○       |
| **訓練效率**       |       ○       |       ○       |       ○       |       ○       |       ○       |       △       |
| **查詢效率**       |       ○       |       ○       |       ○       |       ○       |       △       |       △       |
| **多模態支持**     |       ×       |       △       |       △       |       ×       |       △       |       ○       |

# 符號意義

- **○**：表現優異或高度相關
- **△**：表現一般或部分適用
- **×**：表現較差或不適用

## 指標量化

| 指標名稱   | 量化評測方式                          | 可參考基準           |
|------------|----------------------------------|------------------|
| 語義準確性  | 平均排名（MRR）/NDCG@K           | BEIR、MTEB       |
| 計算成本  | FLOPs（浮點運算量）/ 記憶體使用率 | Papers With Code |
| 領域適應性  | MMLU領域分數（如醫療/法律/科技）  | MMLU             |
| 可擴展性  | 檢索時間 vs. 數據規模（log-scale） | RAG pipeline     |
| 訓練效率  | 訓練步數 vs. 目標loss 收斂時間     | LLAMA / GPT 研究 |
| 查詢效率  | 查詢平均延遲（毫秒）               | BEIR、MTEB       |
| 多模態支持  | 文字-圖片嵌入相似度（CLIP-based）  | CLIP/MultiBench  |


方法特性分析表
特性	
- 語義準確性:	嵌入模型對於文本語義的理解能力，影響資訊檢索、問答系統等應用。
- 計算成本:	訓練與推理過程中所需的計算資源，關係到模型的運行效率與部署成本。
- 領域適應性:	模型在特定領域（如醫學、法律、金融等）中的表現，影響專業應用的效果。
- 可擴展性:	模型是否能夠有效應對大規模數據處理，例如高併發檢索應用。
- 訓練效率:	模型收斂速度與所需的訓練數據量，影響研發與迭代週期。
- 查詢效率:	模型在檢索與推理時的響應速度，影響即時應用的體驗。
- 多模態支持:	模型是否支援圖像、語音與文本的整合處理，影響多媒體應用場景。

問題特性分析表
應用領域	
- 資訊檢索（IR）:	評估模型在搜索系統、企業文檔檢索中的表現，如Google Search、企業知識庫。
- 推薦系統（RS）:	測試嵌入模型在電商、影音平台的個性化推薦效果，如YouTube、Netflix推薦算法。
- 問答系統（QA）:	量測模型在即時問答、技術支援上的準確性，如ChatGPT、客服機器人。
- 文本分類（TC）:	檢驗模型在垃圾郵件檢測、情感分析、主題分類上的表現，如新聞分類、社群監測。
- 知識圖譜（KG）:	測試模型在構建知識圖譜、關係推理、語義搜索上的能力，如維基數據、企業知識管理。
- 多模態處理（MM）:	評估模型在跨模態數據（文本+圖像+音頻）處理的表現，如OCR+文本分析、影像字幕生成。





In [5]:
import os
import time
import psutil
import pandas as pd
import logging
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_core.documents import Document

In [6]:
from dotenv import load_dotenv

# 設定日誌
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
logger = logging.getLogger(__name__)

# 載入環境變數
load_dotenv()

True

In [7]:
openai_api_key = os.getenv("OPENAI_API_KEY")
cohere_api_key = os.getenv("COHERE_API_KEY")
jina_api_key = os.getenv("JINA_API_KEY")
bge_api_key = os.getenv("HUGGINGFACE_API_KEY")


In [15]:
# 設定日誌
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
logger = logging.getLogger(__name__)

class EmbeddingBenchmark:
    """LLM 嵌入模型性能測試（使用 FAISS）"""

    def __init__(self, num_articles=50, embedding_dim=384, model="openai"):
        """初始化測試數據"""
        self.num_articles = num_articles
        self.embedding_dim = embedding_dim
        self.model_name = model
        self.embeddings = self.load_embedding_model(model)

        # 測試文本與查詢向量
        self.test_texts = [
            "Artificial Intelligence", "Machine Learning", "Deep Learning",
            "Natural Language Processing", "Neural Networks", "Quantum Computing",
            "Blockchain", "Cloud Computing", "Cybersecurity", "Data Science"
        ]
        self.test_vectors = self.texts_to_embeddings(self.test_texts)
        self.query_vector = self.texts_to_embeddings(["Artificial Intelligence"])[0]  # 測試用查詢

    def load_embedding_model(self, model):
        """載入不同的嵌入模型"""
        if model == "openai":
            return OpenAIEmbeddings()
        elif model == "cohere":
            from langchain_cohere import CohereEmbeddings  # 確保使用最新的 CohereEmbeddings
            return CohereEmbeddings(cohere_api_key=cohere_api_key, model="embed-english-light-v3.0")
        elif model == "jina":
            from langchain_community.embeddings import JinaEmbeddings
            return JinaEmbeddings(jina_api_key=jina_api_key)
        elif model == "bge":
            from langchain_huggingface import HuggingFaceEmbeddings
            return HuggingFaceEmbeddings(model_name="BAAI/bge-base-en")
        else:
            raise ValueError(f"不支援的嵌入模型: {model}")

    def texts_to_embeddings(self, texts):
        """將文本轉換為向量嵌入"""
        return self.embeddings.embed_documents(texts)

    def memory_usage(self):
        """取得記憶體使用量 (MB)"""
        return psutil.Process().memory_info().rss / 1024 / 1024

    def calculate_recall(self, results):
        """計算查詢 Recall"""
        retrieved_texts = [doc.page_content for doc in results]
        correct_answers = {"Artificial Intelligence", "Machine Learning", "Deep Learning"}
        matched = sum(1 for ans in correct_answers if any(ans in text for text in retrieved_texts))
        
        recall = min((matched / len(correct_answers)) * 100, 100)
        return recall

    def evaluate_faiss(self):
        """測試 FAISS 向量資料庫"""
        logger.info(f"測試 FAISS (模型: {self.model_name}) ...")

        # 建立索引
        start_time = time.time()
        vectorstore = FAISS.from_texts(self.test_texts, embedding=self.embeddings)
        insert_time = time.time() - start_time

        # 進行查詢
        start_time = time.time()
        results = vectorstore.similarity_search_by_vector(self.query_vector, k=3)
        query_time = time.time() - start_time

        recall = self.calculate_recall(results)

        return {
            "Embedding Model": self.model_name,
            "Insert Time (s)": round(insert_time, 4),
            "Query Time (s)": round(query_time, 4),
            "Memory Usage (MB)": round(self.memory_usage(), 2),
            "Recall (%)": round(recall, 2)
        }

    def run_benchmark(self):
        """執行測試"""
        result = self.evaluate_faiss()
        df = pd.DataFrame([result])
        print(df)
        return df

def main():
    """主程式"""
    print("\n=== LLM 嵌入模型 + FAISS 向量資料庫 Benchmark 測試 ===\n")
    # models = ["openai", "cohere", "jina"]
    models = ["bge"]
    all_results = []

    for model in models:
        benchmark = EmbeddingBenchmark(num_articles=50, embedding_dim=384, model=model)
        results = benchmark.run_benchmark()
        all_results.append(results)

    final_df = pd.concat(all_results, ignore_index=True)
    # print(final_df)

if __name__ == "__main__":
    main()




=== LLM 嵌入模型 + FAISS 向量資料庫 Benchmark 測試 ===



RuntimeError: Failed to import transformers.integrations.integration_utils because of the following error (look up to see its traceback):
Failed to import transformers.modeling_tf_utils because of the following error (look up to see its traceback):
Your currently installed version of Keras is Keras 3, but this is not yet supported in Transformers. Please install the backwards-compatible tf-keras package with `pip install tf-keras`.