# OPENAI 新的 embedding models
  一种是小型且高效的 **text-embedding-3-small** 模型，另一种是大型且更强大的**text-embedding-3-large**模型。

  小型模型虽然运行更快、需要的计算资源更少，但可能在捕捉复杂语义信息方面不如大型模型强大。大型模型虽然需要更多的计算资源和时间，但能更准确地理解文本的深层意义。


In [1]:
label_sentences = [
    # 数学
    ("请解释什么是费马大定理。", "数学"),
    ("二次方程有哪些解法？", "数学"),
    ("如何理解欧拉公式？", "数学"),
    ("请解释一下毕达哥拉斯定理。", "数学"),
    ("如何计算圆的面积？", "数学"),
    
    ##生物
    ("DNA和RNA有什么区别？", "生物"),
    ("什么是光合作用？", "生物"),
    ("细胞分裂有哪些类型？", "生物"),
    ("遗传学中的孟德尔定律是什么？", "生物"),
    ("什么是生态系统？", "生物"),
    
    ## 体育
    ("网球比赛的计分系统是如何工作的？", "体育"),
    ("足球的基本规则是什么？", "体育"),
    ("如何在篮球比赛中扣篮？", "体育"),
    ("自由泳的理想技巧是什么？", "体育"),
    ("一个人如何提高跑步速度？", "体育"),
    
    ## 闲聊
    ("最近天气怎么样？", "闲聊"),
    ("你最喜欢的书籍是什么？", "闲聊"),
    ("你最喜欢的歌手是谁？", "闲聊"),
    ("这周你有什么旅行计划？", "闲聊"),
    ("你昨天吃的什么菜？", "闲聊"),  ]

In [2]:
X, y = zip(*label_sentences)

In [6]:
test_data = [
    # 数学
    
    ("如何证明费马小定理？", "数学"),
    ("三次方程解法有哪些？", "数学"),
    ("复数的概念是什么？", "数学"),
    ("余弦定理是如何推导的？", "数学"),
    ("矩形的面积计算方法是什么？", "数学"),
    ("什么是无理数？", "数学"),
    ("如何使用向量解决几何问题？", "数学"),
    ("椭圆的标准方程是什么？", "数学"),
    ("什么是随机变量的期望值？", "数学"),
    ("如何求解线性不等式组？", "数学"),
    ("实数和虚数之间有什么区别？", "数学"),
    ("线性代数中的矩阵乘法如何运算？", "数学"),
    ("直角三角形中的正弦、余弦、正切是如何定义的？", "数学"),
    # 生物
    ("蛋白质的功能有哪些？", "生物"),
    ("细胞的能量是如何产生的？", "生物"),
    ("动物细胞和植物细胞的区别是什么？", "生物"),
    ("基因突变对生物有什么影响？", "生物"),
    ("什么是生物进化论？", "生物"),
    ("病毒与细菌有何不同？", "生物"),
    ("克隆技术是如何工作的？", "生物"),
    ("激素在人体中的作用是什么？", "生物"),
    ("什么是生物群落？", "生物"),
    ("人体免疫系统是如何工作的？", "生物"),
    ("光合作用与呼吸作用的关系是什么？", "生物"),
    ("DNA复制的过程是怎样的？", "生物"),
    ("脊椎动物和无脊椎动物的主要区别是什么？", "生物"),
    ("什么是生物技术？", "生物"),
    ("植物如何进行水分和养分的吸收？", "生物"),
    # 体育
    ("乒乓球比赛的规则是什么？", "体育"),
    ("马拉松比赛的历史由来是什么？", "体育"),
    ("体操比赛中的评分标准是什么？", "体育"),
    ("什么是健身运动的基本原则？", "体育"),
    ("羽毛球比赛规则有哪些？", "体育"),
    ("如何训练提高游泳速度？", "体育"),
    ("跳远的技术要领是什么？", "体育"),
    ("篮球运动中的战术布置有哪些？", "体育"),
    ("足球比赛中的禁区规则是什么？", "体育"),
    ("铁人三项比赛包括哪些内容？", "体育"),
    ("现代奥运会的起源是什么？", "体育"),
    ("高尔夫球的基本打法有哪些？", "体育"),
    ("什么是体能训练的核心原则？", "体育"),
    ("冰球比赛的基本规则是什么？", "体育"),
    ("如何正确地进行力量训练？", "体育"),
    # 闲聊
    ("今年流行什么样的音乐？", "闲聊"),
    ("推荐一些休闲阅读的书籍。", "闲聊"),
    ("有什么好看的电视剧推荐", "闲聊"),
    ("周末有什么好的出游建议？", "闲聊"),
    ("最近有什么新的科技产品吗？", "闲聊"),
    ("你平时喜欢什么样的运动？", "闲聊"),
    ("有没有什么健康饮食的建议？", "闲聊"),
    ("如何有效管理时间？", "闲聊"),
    ("有什么关于旅行的节省费用的技巧？", "闲聊"),
    ("如何选择一本好书？", "闲聊"),
    ("学习外语的最佳方法是什么？", "闲聊"),
    ("怎样培养良好的阅读习惯？", "闲聊"),
    ("有什么推荐的户外活动？", "闲聊"),
    ("最近有什么值得关注的科技发展？", "闲聊"),
    ("如何有效减压放松？", "闲聊"),
    ("有没有好的自我提升的书籍推荐？", "闲聊")
]

## 使用m3e

In [3]:
from sentence_transformers import SentenceTransformer
from tqdm import tqdm


model_name = 'moka-ai/m3e-base'
model = SentenceTransformer(model_name)

#编码label-sentence
embeddings_m3e = model.encode(X)

print(f'{model_name} 的维度是{len(embeddings_m3e[0])}')

  from .autonotebook import tqdm as notebook_tqdm


moka-ai/m3e-base 的维度是768


In [4]:
from cos_similarity import similarity_matrix , top_scores

In [7]:
X_query, label_class = zip(*test_data)

In [8]:
correct = 0
for x_q, target_class in tqdm(zip(X_query, label_class), total=len(X_query)):
    #编码query语句
    embeddings_query = model.encode(x_q)
    #计算相似度
    sim_score = similarity_matrix(embeddings_query , embeddings_m3e)
    #获取topk 索引、得分
    topk_score , topk_idx = top_scores(sim_score)
    is_present = all(y[index] == target_class for index in topk_idx)
    if is_present: 
        correct += 1
        
accuracy = correct / len(X_query)         
print(f"M3E Accuracy: {accuracy*100:.2f}%")

100%|██████████| 59/59 [00:03<00:00, 18.42it/s]

M3E Accuracy: 67.80%





## 使用OPENAI embedding model  计算相似度准确率

In [9]:
import getpass
import os
import numpy  as np
import warnings
warnings.filterwarnings("ignore")

os.environ["OPENAI_API_KEY"] = getpass.getpass()

from langchain.embeddings.openai import OpenAIEmbeddings

In [14]:
def get_accuracy(model_name , X_query, label_class):
    embeddings_model = OpenAIEmbeddings(model=model_name ,dimensions= 256)
    # 编码标记库sentence
    label_result = embeddings_model.embed_documents(X)
    label_result = np.array(label_result)
    print(f'{model_name} 的维度是{label_result.shape[1]}')
    
    correct = 0
    for x_q, target_class in tqdm(zip(X_query, label_class), total=len(X_query)):
        #编码query语句
        embeddings_query = embeddings_model.embed_query(x_q)
        embeddings_query = np.array(embeddings_query)
        #计算相似度
        sim_score = similarity_matrix(embeddings_query , label_result)
        #获取topk 索引、得分
        topk_score , topk_idx = top_scores(sim_score)
        is_present = all(y[index] == target_class for index in topk_idx)
        if is_present: 
            correct += 1
            
    accuracy = correct / len(X_query)         
    print(f"{model_name}: {accuracy*100:.2f}%")

### text-embedding-ada-002

In [11]:
get_accuracy("text-embedding-ada-002" , X_query, label_class)

text-embedding-ada-002 的维度是1536


100%|██████████| 59/59 [01:14<00:00,  1.27s/it]

text-embedding-ada-002: 54.24%





### text-embedding-3-large

In [15]:
get_accuracy("text-embedding-3-large" , X_query, label_class)



text-embedding-3-large 的维度是256


100%|██████████| 59/59 [01:34<00:00,  1.61s/it]

text-embedding-3-large: 59.32%





### text-embedding-3-small

In [13]:
get_accuracy("text-embedding-3-small" , X_query, label_class)



text-embedding-3-small 的维度是1536


100%|██████████| 59/59 [01:43<00:00,  1.75s/it]

text-embedding-3-small: 50.85%



