## 模型评估

In [None]:
# 从 langchain_ollama.llms 模块中导入 OllamaLLM 类
# 从 langchain.evaluation 模块中导入 load_evaluator 函数
from langchain_ollama.llms import OllamaLLM
from langchain.evaluation import load_evaluator

# 创建一个 OllamaLLM 实例，指定使用的模型为 "qwen2.5:7b"
llm = OllamaLLM(model="qwen2.5:7b")

# 使用 load_evaluator 函数加载一个评估器
# 评估器类型为 "criteria"，使用的 LLM 为上面创建的 llm
# 评估标准为 "conciseness"（简洁性）
evaluator = load_evaluator("criteria", llm=llm, criteria="conciseness")

# 使用评估器对预测结果进行评估
# prediction 是模型生成的预测结果
# input 是评估的输入问题
evla_result = evaluator.evaluate_strings(
  prediction="what is 2 + 2? that is an elementary question. The answer you are looking for is that two add two is four.",  # 模型生成的预测结果
  input="what is 2 + 2 ?"  # 输入问题
)

# 打印评估结果
# 评估结果是一个字典，包含 reasoning（推理过程）、value（是否符合标准）和 score（得分）
print(evla_result)

{'reasoning': 'N', 'value': 'N', 'score': 0}


In [4]:
evla_result = evaluator.evaluate_strings(
  prediction="4.",
  input="what is 2 + 2 ?"
)
print(evla_result)

{'reasoning': 'Y', 'value': 'Y', 'score': 1}


### 评测标准

In [5]:
from langchain.evaluation import Criteria

list(Criteria)

[<Criteria.CONCISENESS: 'conciseness'>,
 <Criteria.RELEVANCE: 'relevance'>,
 <Criteria.CORRECTNESS: 'correctness'>,
 <Criteria.COHERENCE: 'coherence'>,
 <Criteria.HARMFULNESS: 'harmfulness'>,
 <Criteria.MALICIOUSNESS: 'maliciousness'>,
 <Criteria.HELPFULNESS: 'helpfulness'>,
 <Criteria.CONTROVERSIALITY: 'controversiality'>,
 <Criteria.MISOGYNY: 'misogyny'>,
 <Criteria.CRIMINALITY: 'criminality'>,
 <Criteria.INSENSITIVITY: 'insensitivity'>,
 <Criteria.DEPTH: 'depth'>,
 <Criteria.CREATIVITY: 'creativity'>,
 <Criteria.DETAIL: 'detail'>]

以下是这些评测标准的解释：

1. **CONCISENESS (简洁性)**: 评估内容是否简洁明了，是否避免了冗长或不必要的信息。

2. **RELEVANCE (相关性)**: 评估内容是否与输入问题或任务相关，是否准确地回答了问题。

3. **CORRECTNESS (正确性)**: 评估内容是否准确无误，是否提供了正确的信息或答案。

4. **COHERENCE (连贯性)**: 评估内容是否逻辑清晰，是否具有良好的结构和连贯性。

5. **HARMFULNESS (有害性)**: 评估内容是否包含可能对用户或社会有害的信息。

6. **MALICIOUSNESS (恶意性)**: 评估内容是否包含恶意或有意伤害他人的信息。

7. **HELPFULNESS (有用性)**: 评估内容是否对用户有帮助，是否提供了有价值的信息。

8. **CONTROVERSIALITY (争议性)**: 评估内容是否可能引发争议或分歧。

9. **MISOGYNY (厌女症)**: 评估内容是否包含性别歧视或厌女的倾向。

10. **CRIMINALITY (犯罪性)**: 评估内容是否包含可能违法或犯罪的信息。

11. **INSENSITIVITY (不敏感性)**: 评估内容是否对敏感话题缺乏同理心或表现出冷漠。

12. **DEPTH (深度)**: 评估内容是否深入探讨了问题，是否提供了详细和全面的分析。

13. **CREATIVITY (创造性)**: 评估内容是否展现了创造性或独特的视角。

14. **DETAIL (细节性)**: 评估内容是否包含足够的细节，是否对问题进行了充分的阐述。

模型比较

In [6]:
# 定义三个模型名称
models = ["qwen2.5:7b", "deepscaler:latest"]

# 存储每个模型的评估结果
results = {}

# 遍历每个模型
for model_name in models:
  # 创建 OllamaLLM 实例
  llm = OllamaLLM(model=model_name)

  # 创建评估器
  evaluator = load_evaluator("criteria", llm=llm, criteria="conciseness")

  # 使用评估器对预测结果进行评估
  evla_result = evaluator.evaluate_strings(
    prediction="what is 2 + 2? that is an elementary question. The answer you are looking for is that two add two is four.",
    input="what is 2 + 2 ?"
  )

  # 存储结果
  results[model_name] = evla_result

# 打印每个模型的评估结果
for model, result in results.items():
  print(f"Model: {model}")
  print(f"Evaluation Result: {result}")
  print("-" * 50)

Model: qwen2.5:7b
Evaluation Result: {'reasoning': 'N', 'value': 'N', 'score': 0}
--------------------------------------------------
Model: deepscaler:latest
Evaluation Result: {'reasoning': '<think>\nOkay, so I need to determine if the submitted answer meets the given criteria. The task is about assessing the submission based on conciseness and another criterion. Let me break it down step by step.\n\nFirst, looking at the input: "what is 2 + 2?" That\'s a straightforward question. The correct answer should be four because adding two and two gives us four.\n\nNow, checking the submission provided: "what is 2 + 2? that is an elementary question. The answer you are looking for is that two add two is four." This seems to repeat the same question but adds some extra information right after the initial part. It starts with a repetition of the question and then provides an example, which isn\'t necessary because it\'s just repeating the problem.\n\nThe criteria given include conciseness: Is 

In [7]:
from langchain.model_laboratory import ModelLaboratory
from langchain.prompts import PromptTemplate
from langchain_ollama.llms import OllamaLLM
# from langchain_community.llms.chatglm import ChatGLM



In [8]:
# 比较 本地 qwen2.5 7b   deepscaler
llms = [
  OllamaLLM(model="qwen2.5:7b",temperature=0),
  OllamaLLM(model="deepscaler:latest",temperature=0),
]

model_lab = ModelLaboratory.from_llms(llms=llms)

model_lab.compare("齐天大圣的师傅是谁？")

[1mInput:[0m
齐天大圣的师傅是谁？

[1mOllamaLLM[0m
Params: {}
[36;1m[1;3m齐天大圣，即孙悟空，在《西游记》这部古典名著中，他的师傅是菩提老祖。在菩提老祖那里，孙悟空学会了七十二变、筋斗云等许多本领，并得到了金箍棒作为武器。后来，他成为了如来佛祖的弟子，取经路上的保护者之一。[0m

[1mOllamaLLM[0m
Params: {}
[33;1m[1;3m<think>
嗯，我现在要回答关于“齐天大圣”的问题。首先，我需要了解齐天大圣是谁。我记得齐天大圣是西游记中的一个角色，对吧？

对了，齐天大圣其实有两个版本：一种是孙悟空的师傅，另一种可能是指另一个角色。让我仔细想想。

首先，齐天大圣作为孙悟空的师傅，应该是唐僧的师父。因为唐僧和孙悟空都是西游记的主要人物，所以他们之间有师徒关系。那么，齐天大圣是谁呢？我记得他是唐僧的师父，对吧？

然后，我需要确认一下，齐天大圣是不是还有其他角色。比如，可能在某些版本中，他有不同的名字或者身份。不过一般来说，齐天大圣作为孙悟空的师傅，应该是唐僧的师父。

另外，齐天大圣的角色主要是帮助唐僧实现他的愿望，比如降下龙珠来拯救五斗米星人。所以，他是孙悟空的师傅，负责带领孙悟空完成任务。

总结一下，齐天大圣是西游记中的一个角色，他实际上是孙悟空的师傅，也就是唐僧的师父。因此，答案应该是“齐天大圣是孙悟空的师傅，具体来说是他师从唐僧那里学习而来。”
</think>

齐天大圣是西游记中孙悟空的师傅，具体来说，他是唐僧的师父。他帮助孙悟空实现降下龙珠的目标，并带领孙悟空完成一系列重要的任务。因此，齐天大圣可以被理解为孙悟空的师傅角色。[0m



In [15]:
from langchain.prompts import PromptTemplate
from langchain.chains.llm import LLMChain

prompt = PromptTemplate(
  template="给我讲一个关于{topic}的笑话, 30个字左右",
  input_variables=["topic"]
)

llm_qwen = OllamaLLM(model="qwen2.5:7b",temperature=0)
llm_deepsc = OllamaLLM(model="deepscaler:latest",temperature=0)

qwen_chain = LLMChain(
  llm=llm_qwen,
  prompt=prompt,
  verbose=True
)
deepsc_chain = LLMChain(
  llm=llm_deepsc,
  prompt=prompt,
  verbose=True
)

In [16]:
chains = [qwen_chain, deepsc_chain]
names = ["llm_qwen2.5", "llm_deepscaler"]
names

['llm_qwen2.5', 'llm_deepscaler']

In [17]:
model_lab = ModelLaboratory(chains=chains, names=names)
model_lab.compare("炒股")

[1mInput:[0m
炒股

llm_qwen2.5


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3m给我讲一个关于炒股的笑话, 30个字左右[0m

[1m> Finished chain.[0m
[36;1m[1;3m股票像美女，美丽让人欢喜让人忧。[0m

llm_deepscaler


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3m给我讲一个关于炒股的笑话, 30个字左右[0m

[1m> Finished chain.[0m
[33;1m[1;3m<think>
嗯，用户让我讲一个关于炒股的笑话，要求30个字左右。首先，我需要理解用户的需求。他们可能是在寻找一种轻松有趣的方式来放松心情，或者作为娱乐内容使用。

接下来，我要考虑如何将股票和笑话结合起来。通常，笑话会用一些幽默的语言或比喻来表达复杂的概念。比如，把炒股比作一场游戏，或者利用一些常见的金融术语来制造笑点。

然后，我需要确保笑话简洁明了，符合字数要求。可能的结构是先引入一个情境，再提出一个问题，最后给出一个巧妙的答案。例如，提到“股市就像一场游戏”，然后用幽默的方式解释为什么有人会买股票。

还要注意语言要口语化，避免过于正式或复杂的句子结构。这样可以让笑话更贴近大众生活，更容易被接受和理解。

最后，检查字数是否在30个字左右，确保没有超过或不足。可能需要调整句子的长度，或者简化表达，以达到最佳效果。
</think>

股市就像一场游戏，你买不到赢，但总能让你赚到！[0m



In [18]:
model_lab.compare("写作业")

[1mInput:[0m
写作业

llm_qwen2.5


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3m给我讲一个关于写作业的笑话, 30个字左右[0m

[1m> Finished chain.[0m
[36;1m[1;3m老师没收了小明的作业，问：“你不是做了吗？”小明答：“做了，但作业本忘家里了。”[0m

llm_deepscaler


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3m给我讲一个关于写作业的笑话, 30个字左右[0m

[1m> Finished chain.[0m
[33;1m[1;3m<think>
嗯，用户让我讲一个关于写作业的笑话，要求30个字左右。首先，我需要理解用户的需求。可能他们是在准备某种教学材料，或者想用幽默的方式帮助学生记住写作业的重要性。

接下来，我要考虑笑话的结构和内容。通常笑话会有问题或谜题，然后给出答案，但这里要讲的是写作业的过程，所以可能需要用一个有趣的情节来引出主题。

考虑到字数限制，30个字左右，我需要简洁明了地表达出来。或许可以从一个场景开始，比如在教室里，然后引入一个幽默的转折点。

想到“写作业就像一场考试”，这样既点明了作业的重要性，又增加了趣味性。接着，可以加入一个搞笑的情节，比如老师出错，学生却没注意到，这样既有趣又符合主题。

最后，总结一下，让整个笑话连贯且有笑点，同时传达出写作业的必要性和幽默感。
</think>

在教室里，小明正在认真地写着作业。这时，他发现老师出了一道数学题，结果把答案写错了。小明却没注意到，只是继续写着作业，最后交上来了。

**答案：写作业就像一场考试，但只要认真对待，就不会像考试一样难过！**[0m



## Set Debug && Set Verbose

In [20]:
from langchain.globals import set_debug
set_debug(True)
model_lab.compare("巧克力")

[1mInput:[0m
巧克力

llm_qwen2.5
[32;1m[1;3m[chain/start][0m [1m[chain:LLMChain] Entering Chain run with input:
[0m{
  "topic": "巧克力"
}
[32;1m[1;3m[llm/start][0m [1m[chain:LLMChain > llm:OllamaLLM] Entering LLM run with input:
[0m{
  "prompts": [
    "给我讲一个关于巧克力的笑话, 30个字左右"
  ]
}
[36;1m[1;3m[llm/end][0m [1m[chain:LLMChain > llm:OllamaLLM] [3.18s] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": "巧克力掉进打印机，打印出一盒子巧克力来！",
        "generation_info": {
          "model": "qwen2.5:7b",
          "created_at": "2025-04-07T08:22:42.354927Z",
          "done": true,
          "done_reason": "stop",
          "total_duration": 3158392625,
          "load_duration": 29884167,
          "prompt_eval_count": 43,
          "prompt_eval_duration": 2479284417,
          "eval_count": 13,
          "eval_duration": 647394291,
          "response": "",
          "context": [
            151644,
            8948,
            198,
            2610,
          

In [21]:
from langchain.globals import set_verbose
set_verbose(True)
set_debug(False)
model_lab.compare("巧克力")

[1mInput:[0m
巧克力

llm_qwen2.5


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3m给我讲一个关于巧克力的笑话, 30个字左右[0m

[1m> Finished chain.[0m
[36;1m[1;3m巧克力掉进打印机，打印出一盒子巧克力来！[0m

llm_deepscaler


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3m给我讲一个关于巧克力的笑话, 30个字左右[0m

[1m> Finished chain.[0m
[33;1m[1;3m<think>
嗯，用户让我讲一个关于巧克力的笑话，要求30个字左右。首先，我需要考虑用户可能的背景。可能是学生、老师，或者是喜欢幽默的人。他们可能想通过这个笑话来放松心情，或者作为课堂上的例子。

接下来，我要确定笑话的主题。巧克力是一个很好的主题，因为它常见且容易引起共鸣。考虑到字数限制，笑话要简洁明了，同时要有一定的趣味性。

然后，我需要构思一个场景。比如，一个孩子在吃巧克力，突然想到什么，这样可以制造笑点。或者，利用巧克力的特性，比如外皮剥开后变成糖果，这样既有趣又容易描述。

再考虑结构。通常笑话有开头、发展和结尾。开头可以是孩子吃巧克力的情景，发展部分可能涉及到隐藏的秘密或幽默的事情，结尾则是一个温馨或有趣的结局。

最后，确保字数在30个左右，不要太长或太短。同时，语言要生动有趣，能够引起读者的共鸣。

综合以上思考，我想到一个笑话：一个孩子在吃巧克力时突然发现外皮剥开后变成糖果，于是问妈妈为什么，妈妈回答说因为外皮是巧克力，剥开后才是糖果。这样既简单又有趣，符合用户的要求。
</think>

一个孩子在吃巧克力时突然发现外皮剥开后变成糖果，于是问妈妈为什么，妈妈回答说因为外皮是巧克力，剥开后才是糖果。[0m

