In [None]:
import pandas as pd

pretest_data_path = "./data/pretest.xlsx"
pretest_data = pd.read_excel(pretest_data_path)

pretest_data

In [None]:
from dotenv import load_dotenv
import os


load_dotenv()
openai_api_key = os.getenv("OPENROUTER_API_KEY")
openai_api_base = "https://openrouter.ai/api/v1"

In [None]:
llm_model = "qwen/qwen3-235b-a22b:free"
# llm_model = "qwen/qwen3-32b:free"
model_name = "qwen"
# llm_model = "deepseek/deepseek-v3-base:free"
# model_name = "deepseek"
# llm_model = "microsoft/phi-4-reasoning:free"
# model_name = 'phi4reason'
# llm_model = "nousresearch/deephermes-3-mistral-24b-preview:free"
# model_name = "deephermes"

In [None]:
blame_prompt = """
你是一个数据标注师，
【场景描述】
本次标注的数据来自电商平台的客服咨询对话场景。在该场景中：
用户发起咨询（Q）
同时有AI客服（A0）和人工客服（A1）参与回答
对话按时间顺序记录

【数据格式】
每条对话记录格式如下：
Q：[用户消息内容]
A0：[AI客服回复内容]
A1：[人工客服回复内容]
(按实际时间顺序排列，可能交替出现)

【标注任务】
请以第三方视角阅读对话记录，判断是否存在以下情况：

工客服推责行为（blame）：
判断标准：人工客服（A1）是否存在将责任推给AI客服（A0）的表述
示例（存在推责行为）：
"刚才那是AI自动回复的，可能不准确"
"AI客服之前的回答不用理会"
"系统自动发送了错误信息"

请仅回答True或False，不要解释
"""

error_prompt = """
你是一个数据标注师，
【场景描述】
本次标注的数据来自电商平台的客服咨询对话场景。在该场景中：
用户发起咨询（Q）
同时有AI客服（A0）和人工客服（A1）参与回答
对话按时间顺序记录

【数据格式】
每条对话记录格式如下：
Q：[用户消息内容]
A0：[AI客服回复内容]
A1：[人工客服回复内容]
(按实际时间顺序排列，可能交替出现)

【标注任务】
请以第三方视角阅读对话记录，判断是否存在以下情况：

客服回答错误
判断标准：客服（A0或A1）是否存在回答用户问题出错/不准确的情况，通常表现为
1. 用户后续追问或质疑
2. 客服后续纠正自己之前的回答
3. 明显的事实性错误


请仅回答True或False，不要解释
"""

In [None]:
from langchain.chat_models import init_chat_model
from langchain_core.messages import HumanMessage, SystemMessage
import time

model = init_chat_model(
    model=llm_model,
    model_provider="openai",
    openai_api_base=openai_api_base,
    openai_api_key=openai_api_key,
)


In [None]:
def invoke_with_retry(model, messages, max_retries, retry_delay):
    for attempt in range(max_retries):
        try:
            return model.invoke(messages)
        except Exception as e:
            print(
                f"Attempt {attempt + 1} failed: {e}. Retrying in {retry_delay} seconds..."
            )
            time.sleep(retry_delay)
    raise Exception("Max retries exceeded.")

In [None]:
max_retries = 20
retry_delay = 5  # seconds

conversations = pretest_data["conversations"]
results = []

for conv in conversations:
    blame_messages = [
        SystemMessage(blame_prompt),
        HumanMessage(conv),
    ]
    error_messages = [
        SystemMessage(error_prompt),
        HumanMessage(conv),
    ]
    
    blame_res = invoke_with_retry(model, blame_messages, max_retries, retry_delay)
    error_res = invoke_with_retry(model, error_messages, max_retries, retry_delay)
    
    blame_flag = 1 if blame_res.content == 'True' else 0
    error_flag = 1 if error_res.content == 'True' else 0
    print('----------------------------------')
    # print("Original Conversation:\n", conv, sep='')
    print("Blame:", blame_flag)
    print("Error:", error_flag)

    results.append({
        "Conversation": conv,
        "Blame": blame_flag,
        "Error": error_flag
    })

df = pd.DataFrame(results)
df

In [None]:
import datetime
current_time = datetime.datetime.now().strftime("%Y_%m_%d_%H_%M")
df.to_csv(f'./out/llm_label_result_{current_time}_{model_name}.csv')