In [None]:
import numpy as np
import faiss
from sentence_transformers import SentenceTransformer
from tqdm import tqdm

def create_faiss_index(questions, model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2", index_path="qa_index.faiss"):
    """
    建立 FAISS 索引
    
    參數:
    questions: list of str - 問題列表
    model_name: str - 使用的模型名稱
    index_path: str - 索引儲存路徑
    """
    # 初始化模型
    model = SentenceTransformer(model_name)
    
    # 生成嵌入向量
    print("正在生成問題嵌入向量...")
    question_embeddings = []
    batch_size = 32
    
    for i in tqdm(range(0, len(questions), batch_size)):
        batch = questions[i:i + batch_size]
        embeddings = model.encode(batch, convert_to_tensor=True)
        question_embeddings.append(embeddings.cpu().numpy())
    
    question_embeddings = np.vstack(question_embeddings)
    
    # 確保向量類型為 float32
    question_embeddings = question_embeddings.astype(np.float32)
    
    # 獲取向量維度
    dimension = question_embeddings.shape[1]  # 對於 mpnet-base-v2 應該是 768
    print(f"向量維度: {dimension}")
    
    # 建立 FAISS 索引
    print("建立 FAISS 索引...")
    quantizer = faiss.IndexFlatL2(dimension)
    index = faiss.IndexIVFFlat(quantizer, dimension, 100)  # 100 是聚類中心數量
    
    # 訓練索引
    print("訓練索引...")
    index.train(question_embeddings)
    
    # 添加向量到索引
    print("添加向量到索引...")
    index.add(question_embeddings)
    
    # 儲存索引
    print(f"儲存索引到 {index_path}")
    faiss.write_index(index, index_path)
    
    print(f"索引建立完成，共包含 {index.ntotal} 個向量")
    return index

# 使用示例
def main():
    # 假設你有一個問題列表
    questions = [
        "如何處理系統錯誤？",
        "如何重置密碼？",
        # ... 更多問題
    ]
    
    # 建立索引
    index = create_faiss_index(
        questions=questions,
        model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
        index_path="./db/qa_index.faiss"
    )

if __name__ == "__main__":
    main()
