## LangChain 0.3+ Embedding 模型比較
比較不同 Embedding 模型的性能與特性

需求套件:
- langchain>=0.3.0
- langchain-community>=0.0.1
- sentence-transformers>=2.2.2
- openai>=1.1.0
- cohere>=4.37
- pandas>=2.0.0
- numpy>=1.24.0
- python-dotenv>=0.19.0

---

# 方法特性分析表

| 特性           | OpenAI Embedding | CohereAI Embedding | Jina Embeddings | BGE (BAAI) |
|---------------|:----------------:|:------------------:|:---------------:|:----------:|
| **語義準確性** |        ○         |         ○          |        △        |     ○      |
| **計算成本**   |        △         |         △          |        ○        |     ○      |
| **領域適應性** |        ○         |         ○          |        △        |     ○      |
| **可擴展性**   |        ○         |         ○          |        ○        |     ○      |
| **訓練效率**   |        ○         |         ○          |        △        |     ○      |
| **查詢效率**   |        ○         |         ○          |        △        |     ○      |
| **多模態支持** |        ○         |         ○          |        ×        |     ○      |

# 問題特性分析表

| 應用領域        | OpenAI Embedding | CohereAI Embedding | Jina Embeddings | BGE (BAAI) |
|-----------------|:----------------:|:------------------:|:---------------:|:----------:|
| **資訊檢索（IR）** |        ○         |         ○          |        △        |     ○      |
| **推薦系統（RS）** |        ○         |         ○          |        △        |     ○      |
| **問答系統（QA）** |        ○         |         ○          |        △        |     ○      |
| **文本分類（TC）** |        ○         |         ○          |        ○        |     ○      |
| **知識圖譜（KG）** |        ○         |         ○          |        △        |     ○      |
| **多模態處理（MM）** |        ○         |         ○          |        ×        |     ○      |

# 方法特性 vs. 問題特性 矩陣比較表

| 方法特性 / 應用領域 | IR（資訊檢索） | RS（推薦系統） | QA（問答系統） | TC（文本分類） | KG（知識圖譜） | MM（多模態處理） |
|--------------------|:-------------:|:-------------:|:-------------:|:-------------:|:-------------:|:-------------:|
| **語義準確性**     |       ○       |       ○       |       ○       |       ○       |       ○       |       △       |
| **計算成本**       |       △       |       ○       |       △       |       ○       |       △       |       ○       |
| **領域適應性**     |       ○       |       ○       |       ○       |       ○       |       ○       |       △       |
| **可擴展性**       |       ○       |       ○       |       ○       |       ○       |       △       |       ○       |
| **訓練效率**       |       ○       |       ○       |       ○       |       ○       |       ○       |       △       |
| **查詢效率**       |       ○       |       ○       |       ○       |       ○       |       △       |       △       |
| **多模態支持**     |       ×       |       △       |       △       |       ×       |       △       |       ○       |

# 符號意義

- **○**：表現優異或高度相關
- **△**：表現一般或部分適用
- **×**：表現較差或不適用

## 指標量化

| 指標名稱   | 量化評測方式                          | 可參考基準           |
|------------|----------------------------------|------------------|
| 語義準確性  | 平均排名（MRR）/NDCG@K           | BEIR、MTEB       |
| 計算成本  | FLOPs（浮點運算量）/ 記憶體使用率 | Papers With Code |
| 領域適應性  | MMLU領域分數（如醫療/法律/科技）  | MMLU             |
| 可擴展性  | 檢索時間 vs. 數據規模（log-scale） | RAG pipeline     |
| 訓練效率  | 訓練步數 vs. 目標loss 收斂時間     | LLAMA / GPT 研究 |
| 查詢效率  | 查詢平均延遲（毫秒）               | BEIR、MTEB       |
| 多模態支持  | 文字-圖片嵌入相似度（CLIP-based）  | CLIP/MultiBench  |


方法特性分析表
特性	
- 語義準確性:	嵌入模型對於文本語義的理解能力，影響資訊檢索、問答系統等應用。
- 計算成本:	訓練與推理過程中所需的計算資源，關係到模型的運行效率與部署成本。
- 領域適應性:	模型在特定領域（如醫學、法律、金融等）中的表現，影響專業應用的效果。
- 可擴展性:	模型是否能夠有效應對大規模數據處理，例如高併發檢索應用。
- 訓練效率:	模型收斂速度與所需的訓練數據量，影響研發與迭代週期。
- 查詢效率:	模型在檢索與推理時的響應速度，影響即時應用的體驗。
- 多模態支持:	模型是否支援圖像、語音與文本的整合處理，影響多媒體應用場景。

問題特性分析表
應用領域	
- 資訊檢索（IR）:	評估模型在搜索系統、企業文檔檢索中的表現，如Google Search、企業知識庫。
- 推薦系統（RS）:	測試嵌入模型在電商、影音平台的個性化推薦效果，如YouTube、Netflix推薦算法。
- 問答系統（QA）:	量測模型在即時問答、技術支援上的準確性，如ChatGPT、客服機器人。
- 文本分類（TC）:	檢驗模型在垃圾郵件檢測、情感分析、主題分類上的表現，如新聞分類、社群監測。
- 知識圖譜（KG）:	測試模型在構建知識圖譜、關係推理、語義搜索上的能力，如維基數據、企業知識管理。
- 多模態處理（MM）:	評估模型在跨模態數據（文本+圖像+音頻）處理的表現，如OCR+文本分析、影像字幕生成。





In [1]:
import os
import time
import psutil
import pandas as pd
import logging
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_core.documents import Document

In [2]:
from dotenv import load_dotenv

# 設定日誌
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
logger = logging.getLogger(__name__)

# 載入環境變數
load_dotenv()

True

In [3]:
openai_api_key = os.getenv("OPENAI_API_KEY")
cohere_api_key = os.getenv("COHERE_API_KEY")
jina_api_key = os.getenv("JINA_API_KEY")
bge_api_key = os.getenv("HUGGINGFACE_API_KEY")


In [6]:
import logging
import time
import psutil
import pandas as pd
import torch
from datasets import load_dataset
from langchain.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
# from langchain.embeddings import OpenAIEmbeddings
from langchain_community.embeddings import CohereEmbeddings, JinaEmbeddings
from langchain_huggingface import HuggingFaceEmbeddings
from sklearn.metrics import ndcg_score

# 設定日誌
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
logger = logging.getLogger(__name__)

class EmbeddingBenchmark:
    """LLM 嵌入模型性能測試（使用 FAISS）"""

    def __init__(self, num_samples=1000, embedding_dim=384, model="openai", dataset="scifact"):
        """初始化測試數據"""
        self.num_samples = num_samples
        self.embedding_dim = embedding_dim
        self.model_name = model
        self.dataset_name = dataset
        self.embeddings = self.load_embedding_model(model)

        # 載入測試數據
        self.query_texts, self.index_texts, self.ground_truth = self.load_dataset_samples(dataset, num_samples)

    def load_embedding_model(self, model):
        """載入不同的嵌入模型"""
        if model == "openai":
            return OpenAIEmbeddings()
        elif model == "cohere":
            from langchain_cohere import CohereEmbeddings
            return CohereEmbeddings(model="embed-english-light-v3.0")
        elif model == "jina":
            return JinaEmbeddings()
        elif model == "bge":
            return HuggingFaceEmbeddings(model_name="BAAI/bge-base-en")
        else:
            raise ValueError(f"不支援的嵌入模型: {model}")

    def load_dataset_samples(self, dataset_name, num_samples):
        """載入標準數據集樣本，確保查詢 (claims) 和索引 (abstracts) 分開"""
        try:
            # 先載入 claims 作為查詢集
            claims_dataset = load_dataset(dataset_name, name="claims", split="train", trust_remote_code=True)
            queries = claims_dataset["claim"][:num_samples]
            
            # 再載入 corpus 作為索引庫
            corpus_dataset = load_dataset(dataset_name, name="corpus", split="train", trust_remote_code=True)
            index_texts = [str(a) for a in corpus_dataset["abstract"][:num_samples]]  

            # Ground truth 設定：claims 應該對應 corpus 內的某些 text
            ground_truth = index_texts[:num_samples]  # 這裡應根據對應關係調整

            return queries, index_texts, ground_truth
        except Exception as e:
            logger.error(f"載入數據集 {dataset_name} 時發生錯誤: {str(e)}")
            return ["Query" for _ in range(num_samples)], ["Index" for _ in range(num_samples)], ["Ground Truth" for _ in range(num_samples)]

    def memory_usage(self):
        """取得記憶體使用量 (MB)"""
        return psutil.Process().memory_info().rss / 1024 / 1024

    def calculate_mrr(self, results, ground_truth):
        """計算 MRR（Mean Reciprocal Rank）"""
        ranks = []
        for idx, docs in enumerate(results):
            for rank, doc in enumerate(docs, start=1):
                if doc.page_content == ground_truth[idx]:
                    ranks.append(1 / rank)
                    break
        return sum(ranks) / len(ranks) if ranks else 0

    def calculate_ndcg(self, results, ground_truth, k=10):
        """計算 NDCG@K"""
        y_true = [[1 if doc.page_content == ground_truth[idx] else 0 for doc in docs] for idx, docs in enumerate(results)]
        y_score = [[1 / (i+1) for i in range(len(docs))] for docs in results]
        return ndcg_score(y_true, y_score, k=k)

    def evaluate_faiss(self):
        """測試 FAISS 向量資料庫"""
        logger.info(f"測試 FAISS (模型: {self.model_name}, 數據集: {self.dataset_name}) ...")

        # 建立索引
        start_time = time.time()
        vectorstore = FAISS.from_texts(self.index_texts, embedding=self.embeddings)
        insert_time = time.time() - start_time

        # 進行查詢
        results = []
        start_time = time.time()
        for query in self.query_texts:
            query_vector = self.embeddings.embed_query(query)
            top_k_results = vectorstore.similarity_search_by_vector(query_vector, k=10)
            results.append(top_k_results)
        query_time = (time.time() - start_time) / len(self.query_texts)

        # 計算 MRR & NDCG
        mrr_score = self.calculate_mrr(results, self.ground_truth)
        ndcg_score_k = self.calculate_ndcg(results, self.ground_truth, k=5)

        return {
            "Embedding Model": self.model_name,
            "Dataset": self.dataset_name,
            "Num Samples": self.num_samples,
            "Insert Time (s)": round(insert_time, 4),
            "Query Time (s)": round(query_time, 4),
            "Memory Usage (MB)": round(self.memory_usage(), 2),
            "MRR": round(mrr_score, 4),
            "NDCG@10": round(ndcg_score_k, 4),
        }

    def run_benchmark(self):
        """執行測試"""
        result = self.evaluate_faiss()
        df = pd.DataFrame([result])
        return df


def main():
    """主程式"""
    print("\n=== LLM 嵌入模型 + FAISS 向量資料庫 Benchmark 測試 ===\n")
    models = ["openai", "cohere", "jina"]  # 先測試一個模型
    datasets = ["scifact"]  # 只測試一個數據集
    sample_sizes = [10]  # 測試 1000 筆數據

    all_results = []
    for model in models:
        for dataset in datasets:
            for num_samples in sample_sizes:
                try:
                    benchmark = EmbeddingBenchmark(
                        num_samples=num_samples,
                        embedding_dim=384,
                        model=model,
                        dataset=dataset
                    )
                    results = benchmark.run_benchmark()
                    all_results.append(results)
                except Exception as e:
                    logger.error(f"執行 benchmark 時發生錯誤 (model={model}, dataset={dataset}): {str(e)}")
                    continue

    if not all_results:
        logger.warning("沒有成功的測試結果")
        return pd.DataFrame()

    final_df = pd.concat(all_results, ignore_index=True)
    print("\n測試結果:")
    print(final_df)
    return final_df


if __name__ == "__main__":
    final_result = main()




=== LLM 嵌入模型 + FAISS 向量資料庫 Benchmark 測試 ===



2025-02-15 17:52:23,952 - INFO - 測試 FAISS (模型: openai, 數據集: scifact) ...
2025-02-15 17:52:24,255 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2025-02-15 17:52:24,803 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2025-02-15 17:52:25,428 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2025-02-15 17:52:25,732 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2025-02-15 17:52:25,979 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2025-02-15 17:52:26,601 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2025-02-15 17:52:26,897 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2025-02-15 17:52:27,592 - INFO - HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
2025-02-15 17:52:27,885 - INFO - HTTP Request: POST https://api.openai.


測試結果:
  Embedding Model  Dataset  Num Samples  Insert Time (s)  Query Time (s)  \
0          openai  scifact           10           0.5520          0.4479   
1          cohere  scifact           10           0.4178          0.2212   
2            jina  scifact           10           1.6467          0.4676   

   Memory Usage (MB)     MRR  NDCG@10  
0             616.88  0.3315   0.2931  
1             653.95  0.3365   0.3635  
2             654.39  0.3657   0.3492  
