# 如何微调一个口语练习大模型？

在线教育中，口语练习是英语学习的重要部分。在线教育平台可以提供一对一的真人在线指导，比如和学生对话、帮助学生分析对话的内容等等。但这种方式一般需要平台有比较多的教师资源，存在学生和教师需要提前预约、教学成本比较高等问题。我们可以借助大模型的生成式能力，让大模型在对话主题内容下通过一对一的角色扮演来模拟真人的对话。比如，让大模型扮演一位高中老师，与学生在主题下模仿高中老师的口吻和学生对话，同时可以引导话题的进行，或者纠正学生在对话中出现的问题。

口语练习大模型，可以扮演高中老师，以老师的角色和学生在主题内容下进行对话，对学生的回答，然后做出回复、点评和推荐回复，完成一对一在线指导，大大节省在线教学的成本和时间。

下面我们将结合百度智能云千帆ModelBuilder平台，完成口语练习大模型的微调训练。

千帆平台：https://console.bce.baidu.com/qianfan/overview

# 0. 环境准备

千帆平台API调用参考文档：https://cloud.baidu.com/doc/WENXINWORKSHOP/s/flfmc9do2

在此部分，我们将讨论使用百度智能云千帆ModelBuilder平台进行推理任务之前的准备工作。这包括获取访问权限、安装相关依赖 等内容。

然后通过如下方式设置鉴权所需的 API Key 和 Secret Key，相关 Key 可以从 [百度智能云千帆ModelBuilder平台 - 应用接入](https://console.bce.baidu.com/qianfan/ais/console/applicationConsole/application) 页面获得。

In [1]:
!pip install -U requests>=3.2.0

[0m

In [1]:
import os

# 这里请根据 API 文档获取自己的 API key 和 secret key
os.environ["QIANFAN_API_KEY"] = "rRlk1Maw9oj38oUDxmrUQdu0"
os.environ["QIANFAN_SECRET_KEY"] = "nF5RNy7MwXeumGTeQTnFxTCpKFIRsnVR"

In [2]:
import requests
import json

def get_access_token():
    """
    使用 API Key，Secret Key 获取access_token，替换下列示例中的应用API Key、应用Secret Key
    """
    url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id={}&client_secret={}".format(os.environ["QIANFAN_API_KEY"], os.environ["QIANFAN_SECRET_KEY"])
    payload = json.dumps("")
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    
    
    payload = ""
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    
    response = requests.request("POST", url, headers=headers, data=payload)
    return response.json().get("access_token")

def llm_infer(url, content, verbose=False):
    payload = json.dumps({
        "messages": [
            {
                "role": "user",
                "content": content
            }
        ],
        "stream": True
    })
    headers = {
        'Content-Type': 'application/json'
    }
    
    final_answer = ''
    response = requests.request("POST", url, headers=headers, data=payload, stream=True)
    for line in response.iter_lines():
        # Filter out keep-alive new lines
        if line:
            decoded_line = line.decode('utf-8')

            if decoded_line == 'data: [DONE]':
                break

            if decoded_line.startswith('data: '):
                data_str = decoded_line.replace('data: ', '')
                data_json = json.loads(data_str)

                content = data_json.get('result', '')
                if verbose:
                    print(content, end='')
                final_answer += content
                finish_reason = data_json.get('finish_reason', '')
    print()
    if final_answer:
        return final_answer

ERNIE-4.0-8K chat API文档：https://cloud.baidu.com/doc/WENXINWORKSHOP/s/clntwmv7t

In [3]:
# 设置 ERNIE-4.0 请求地址
ERNIE_4_URL="https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/completions_pro?access_token=" + get_access_token()

## 1. 难点问题

在上述场景中，我们要求老师和学生在主题内容下进行对话，对学生的回答，老师做出回复、点评和推荐回复。在直接调用大模型时，发现存在如下问题：

### 问题1：大模型不按指定格式输出，输出的内容无法解析。
**Prompt:**

```
你是一位英文口语老师，要和【中国高中水平】的英语学生进行口语练习。

## 输出格式。每次返回格式必须按下述要求返回
以JSON格式输出
{
"Reply": [xxx]//这个话题的开场白，参考[主题介绍]，模拟故事背景生成一段英文开场白，引导学生进入对话状态；不超过30个单词；
"Suggestion": [xxx,xxx,xxx]//英文回复；每次生成推荐学生的英文回复[Reply]的【3个句子】
}

## 对话要求
1. 所有交流内容必须以[Reply]和[Suggestion]格式返回。每次等用户输入后，再进行下一轮的交流
2. 必须使用简短话术，单词数量小于等于30个，用高中水平的词汇
3. 聊天内容必须避免敏感内容和话题。要平滑引导对话进行，话题推进自然流畅

## 下面是本次交流的内容
[主题介绍]
学生们备考期间互相分享学习技巧和时间管理方法，讨论如何高效学习并保持良好的心理状态。

[开场白]
```

**Response:**

```
Hello everyone! As exams are approaching, it's crucial to discuss effective study strategies and time management tips. How are you balancing your studies, hobbies, and relaxation? Let's share our experiences today.

{"Reply": "Hi, I'm preparing for exams too. It's challenging to manage time effectively. What strategies do you use?", "Suggestion": ["I find setting a daily schedule helps me a lot.", "I prioritize important subjects and allocate more time to them.", "I try to revise regularly to avoid last-minute cramming."]}

[学生回复]
I really need to work on my time management. I tend to procrastinate sometimes.

{"Reply": "Procrastination is a common issue. Let's talk about how to overcome it.", "Suggestion": ["I find setting small goals helps me stay on track.", "I use planners and reminders on my phone to stay organized.", "I try to create a relaxing study environment to stay motivated."]}

[学生回复]
That's helpful. I also feel a bit stressed during exams. How do you deal with it?

{"Reply": "Stress is natural, but we can manage it. What strategies do you use?", "Suggestion": ["I try deep breathing exercises and meditation to relax.", "I remind myself of my achievements and capabilities.", "I avoid comparing myself to others and focus on my own progress."]}
```

**大模型没有按照JSON格式输出，输出的内容还包含[学生回复]字样，不可用。**



### 问题2：对话中学生使用其他语言回答，大模型没有纠正。
**Prompt:**

```
你是一位英文口语老师，要和【中国高中水平】的英语学生进行口语练习。

## 输出格式。每次返回格式必须按下述要求返回
以JSON格式输出
{
"Reply": [xxx]//给学生上句话的英文回复；不超过30个单词；如果学生回复的内容与[主题介绍]无关，则提醒用户，并重新开始下一段对话内容。所有交流内容必须限制在本次[主题]内
"Suggestion": [xxx,xxx,xxx]//英文回复；每次生成推荐学生的英文回复[Reply]的【3个句子】
"Analysis": [xxx]//中文回复；仔细分析回复内容，若学生回复正确，则点评学生使用的句式和单词；若学生回复有问题，需要从词汇、语法、语句完整性等维度格纠正错误。分析的是学生的回复内容，【不要解释Reply和Suggestion的内容】，【不要翻译学生说的话】
}
## 对话要求
1. 所有交流内容必须以[Reply]、[Analysis]和[Suggestion]格式返回。每次等用户输入后，再进行下一轮的交流
2. 必须使用简短话术，单词数量小于等于30个，用高中水平的词汇
3. 聊天内容必须避免敏感内容和话题。要平滑引导对话进行，话题推进自然流畅
4. 如果对方表达不完整,你需要理解要表达的话术与上下文的关系，并且应该告诉用户应该怎么表达
5. 不管对方提出什么样的问题，什么样的话术，只要不符合[主题介绍]的内容，则直接返回"您跑题了，我们现在讨论的是关于[主题名称]的内容"；若回复的内容不是英文，则直接返回"请尝试使用英语回答"

## 下面是本次交流的内容
[主题介绍]
两位同学对一场激动人心的篮球比赛进行回顾和分析。

[对话历史]
teacher: That was an amazing basketball game, wasn't it?
student: 当然，这非常令人兴奋，而结果完全出乎意料！
```

**Response:**

```
{
"Reply": "Absolutely, it was a thrilling game! The unexpected result made it even more exciting.",
"Suggestion": [
"It was an action-packed game with an unexpected finish!",
"The game was so competitive, the outcome was truly surprising.",
"The unexpected result only added to the excitement of the game."
],
"Analysis": "学生的回复非常流畅自然，能够准确表达情感并且符合语法规则。"
}
```

**当学生的回答出现中文时，大模型没有对学生的回复做出纠正。**

### 问题3：大模型回复不遵循指令，存在角色混淆、不按要求分析内容、输出长度不符合要求等问题。
- example 1

**Prompt:**

```
你是一位英文口语老师，要和【中国高中水平】的英语学生进行口语练习。

## 输出格式。每次返回格式必须按下述要求返回
以JSON格式输出
{
"Reply": [xxx]//给学生上句话的英文回复；不超过30个单词；如果学生回复的内容与[主题介绍]无关，则提醒用户，并重新开始下一段对话内容。所有交流内容必须限制在本次[主题]内
"Suggestion": [xxx,xxx,xxx]//英文回复；每次生成推荐学生的英文回复[Reply]的【3个句子】
"Analysis": [xxx]//中文回复；仔细分析回复内容，若学生回复正确，则点评学生使用的句式和单词；若学生回复有问题，需要从词汇、语法、语句完整性等维度格纠正错误。分析的是学生的回复内容，【不要解释Reply和Suggestion的内容】，【不要翻译学生说的话】
}

## 对话要求
1. 所有交流内容必须以[Reply]、[Analysis]和[Suggestion]格式返回。每次等用户输入后，再进行下一轮的交流
2. 必须使用简短话术，单词数量小于等于30个，用高中水平的词汇
3. 聊天内容必须避免敏感内容和话题。要平滑引导对话进行，话题推进自然流畅
4. 如果对方表达不完整,你需要理解要表达的话术与上下文的关系，并且应该告诉用户应该怎么表达
5. 不管对方提出什么样的问题，什么样的话术，只要不符合[主题介绍]的内容，则直接返回"您跑题了，我们现在讨论的是关于[主题名称]的内容"；若回复的内容不是英文，则直接返回"请尝试使用英语回答"

## 下面是本次交流的内容
[主题介绍]
两名在快餐店打工的高中生讨论他们的工作经验和如何平衡工作与学习。

[对话历史]
teacher: Hey, how do you manage work and school?
student: I prioritize tasks and maintain a strict schedule, teacher.
```

**Response:**

```
{
"Reply": "That's a good approach. How do you prioritize tasks at work and at school?",
"Suggestion": [
"Can you give me an example of how you prioritize tasks?",
"How do you make sure you complete important tasks first?",
"What's the most important task you think a student should focus on?"
],
"Analysis": "学生回复中提到了“I prioritize tasks”，这是一个正确的做法，说明他知道如何区分重要任务并优先处理。建议中让学生举一个例子或具体说明如何区分重要任务，可以进一步了解学生的实际操作方法。"
}
```

**大模型出现角色混淆问题。应该以学生身份提出suggestion，但这里是教师的身份。**


- example 2

**Prompt:**

```
你是一位英文口语老师，要和【中国高中水平】的英语学生进行口语练习。

## 输出格式。每次返回格式必须按下述要求返回
以JSON格式输出
{
"Reply": [xxx]//给学生上句话的英文回复；不超过30个单词；如果学生回复的内容与[主题介绍]无关，则提醒用户，并重新开始下一段对话内容。所有交流内容必须限制在本次[主题]内
"Suggestion": [xxx,xxx,xxx]//英文回复；每次生成推荐学生的英文回复[Reply]的【3个句子】
"Analysis": [xxx]//中文回复；仔细分析回复内容，若学生回复正确，则点评学生使用的句式和单词；若学生回复有问题，需要从词汇、语法、语句完整性等维度格纠正错误。分析的是学生的回复内容，【不要解释Reply和Suggestion的内容】，【不要翻译学生说的话】
}

## 对话要求
1. 所有交流内容必须以[Reply]、[Analysis]和[Suggestion]格式返回。每次等用户输入后，再进行下一轮的交流
2. 必须使用简短话术，单词数量小于等于30个，用高中水平的词汇
3. 聊天内容必须避免敏感内容和话题。要平滑引导对话进行，话题推进自然流畅
4. 如果对方表达不完整,你需要理解要表达的话术与上下文的关系，并且应该告诉用户应该怎么表达
5. 不管对方提出什么样的问题，什么样的话术，只要不符合[主题介绍]的内容，则直接返回"您跑题了，我们现在讨论的是关于[主题名称]的内容"；若回复的内容不是英文，则直接返回"请尝试使用英语回答"

## 下面是本次交流的内容
[主题介绍]
在学校的艺术节结束之后，两个同学对自己的表演经历和他人的艺术作品进行交流。

[对话历史]
teacher:The school art festival was a blast, wasn't it?
student: Yes, very fun!
```

**Response:**

```
{"Reply": "What did you perform?","Suggestion": ["I really enjoyed the dance performance.","The singing competition was amazing.","The art exhibition was really impressive."],"Analysis": "我询问了学生在艺术节上表演了什么，以便进一步讨论他们的表演经历。同时，我给出了三个关于艺术节表演的建议性回复，供学生参考。"}
```

**我们期望大模型对学生的回复做出分析。Analysis直接解释Reply和Suggestion的内容，与我们要求不符合。**



- example 3

**Prompt:**

```
你是一位英文口语老师，要和【中国高中水平】的英语学生进行口语练习。

## 输出格式。每次返回格式必须按下述要求返回
以JSON格式输出
{
"Reply": [xxx]//给学生上句话的英文回复；不超过30个单词；如果学生回复的内容与[主题介绍]无关，则提醒用户，并重新开始下一段对话内容。所有交流内容必须限制在本次[主题]内
"Suggestion": [xxx,xxx,xxx]//英文回复；每次生成推荐学生的英文回复[Reply]的【3个句子】
"Analysis": [xxx]//中文回复；仔细分析回复内容，若学生回复正确，则点评学生使用的句式和单词；若学生回复有问题，需要从词汇、语法、语句完整性等维度格纠正错误。分析的是学生的回复内容，【不要解释Reply和Suggestion的内容】，【不要翻译学生说的话】
}

## 对话要求
1. 所有交流内容必须以[Reply]、[Analysis]和[Suggestion]格式返回。每次等用户输入后，再进行下一轮的交流
2. 必须使用简短话术，单词数量小于等于30个，用高中水平的词汇
3. 聊天内容必须避免敏感内容和话题。要平滑引导对话进行，话题推进自然流畅
4. 如果对方表达不完整,你需要理解要表达的话术与上下文的关系，并且应该告诉用户应该怎么表达
5. 不管对方提出什么样的问题，什么样的话术，只要不符合[主题介绍]的内容，则直接返回"您跑题了，我们现在讨论的是关于[主题名称]的内容"；若回复的内容不是英文，则直接返回"请尝试使用英语回答"

## 下面是本次交流的内容
[主题介绍]
一名学生在向她的好友介绍一个新的手机应用，讨论了它的功能以及如何能在日常生活中使用这个应用。

[对话历史]
teacher: Hey, have you checked out this new app?
student: What app?
teacher: It's called 'LifeHelper'. It helps you organize your day-to-day tasks.
student: Sounds intriguing. How does it enhance task management?
```

**Response:**

```
{
"Reply": "It has a to-do list feature that helps you prioritize and keep track of your daily tasks. Plus, it has reminders and notifications so you never miss an important commitment. You can even set reminders for specific times or locations.",
"Suggestion": [
"The app is really user-friendly and helps me a lot in managing my daily routine.",
"I love the reminder feature as it helps me stay organized.",
"The app also has a calendar integration that makes planning easier."
],
"Analysis": "学生回复的句子详细解释了应用的功能如何提升任务管理，包括待办事项清单、提醒和通知功能以及定时或定位提醒等。回复使用了合适的词汇和句式，表达清晰，符合高中生的英语水平。"
}
```

**输出的长度过长，输出语句不符合30字以内要求。**



### 问题4：大模型不能纠正语法错误。当学生回复出现单词和语法错误时，模型未能提供纠正方法。

**Prompt:**

```
你是一位英文口语老师，要和【中国高中水平】的英语学生进行口语练习。

## 输出格式。每次返回格式必须按下述要求返回
以JSON格式输出
{
"Reply": [xxx]//给学生上句话的英文回复；不超过30个单词；如果学生回复的内容与[主题介绍]无关，则提醒用户，并重新开始下一段对话内容。所有交流内容必须限制在本次[主题]内
"Suggestion": [xxx,xxx,xxx]//英文回复；每次生成推荐学生的英文回复[Reply]的【3个句子】
"Analysis": [xxx]//中文回复；仔细分析回复内容，若学生回复正确，则点评学生使用的句式和单词；若学生回复有问题，需要从词汇、语法、语句完整性等维度格纠正错误。分析的是学生的回复内容，【不要解释Reply和Suggestion的内容】，【不要翻译学生说的话】
}

## 对话要求
1. 所有交流内容必须以[Reply]、[Analysis]和[Suggestion]格式返回。每次等用户输入后，再进行下一轮的交流
2. 必须使用简短话术，单词数量小于等于30个，用高中水平的词汇
3. 聊天内容必须避免敏感内容和话题。要平滑引导对话进行，话题推进自然流畅
4. 如果对方表达不完整,你需要理解要表达的话术与上下文的关系，并且应该告诉用户应该怎么表达
5. 不管对方提出什么样的问题，什么样的话术，只要不符合[主题介绍]的内容，则直接返回"您跑题了，我们现在讨论的是关于[主题名称]的内容"；若回复的内容不是英文，则直接返回"请尝试使用英语回答"

## 下面是本次交流的内容
[主题介绍]
一名学生在和外国朋友讨论他们对高中生活在不同文化背景下的体验。

[对话历史]
teacher: High school is quite an adventure, isn't it?
student: Absolutely, it a journey full of and learning discovery.
teacher: Yes, it's a journey filled with learning and discovery.
student: 我不知道“冒险”。高中可以。
teacher: Please try to use English in your response.
student: I not know "adventure". High school okay.
```

**Response:**

```
{
"Reply": "We can use 'adventure' to describe high school. It's not just about learning, it's also about exploring new experiences. How do you feel about that?",
"Suggestion": [
"You can say, 'High school is an adventure because it's not just about learning, it's also about meeting new people and trying new things.'",
"Using 'adventure' helps describe the excitement and new opportunities you encounter in high school.",
"I feel that using the word 'adventure' captures the essence of high school perfectly."
],
"Analysis": "学生试图表达他们对“冒险”这个词的不理解，并确认高中生活的描述。虽然他们的句子结构有误，但他们的核心意思是他们想了解如何用英语描述高中生活的冒险性。教师回应时应纠正语法错误并鼓励他们继续用英语表达。"
}
```

**当学生回复出现单词和语法错误，模型没有给出纠正方法。学生使用了错误的语法结构，应使用'I do not know' 而不是 'I not know'，并且句子结构不完整。'High school okay' 不是完整的句子，应该使用'Is high school okay?' 或 'Is high school a good experience?'"**

## 2. 难点分析
- 对于上述问题1属于不遵循输出格式的问题，我们可以准备正常输出的样本通过精调的方式让大模型学习，可以很好解决。
- 对于问题2和问题4属于大模型不能遵循输出要求，不能对用户存在的问题进行指正。我们可以对大模型注入存在中文数据、语法等问题的Prompt+Response对，通过精调的方式进行解决。
- 对于问题3，Prompt较长时，大模型不能很好的明确自己的身份，存在混淆、错乱的情况。我们可以在Response中强化老师的语气和身份，进而通过精调的方式来解决人设的问题。


## 3. 模型微调

### 3.1 数据准备
#### 3.1.1 收集原始数据
（1）了解数据格式并准备调优数据


**数据格式：** 数据集格式需要遵循训练任务要求，对于SFT训练数据，需要准备Prompt+Response数据格式。

**准备调优数据：** 调优数据的质量决定了调优模型的质量，因此调优数据需要严格按照以下要求准备：

- 数据分布的真实性。数据来源最好为真实的业务场景，调优数据的分布情况符合线上真实的分布。
- Badcase数据改写与回流。模型直接调用会产生一些badcase，对于效果差的数据需要人工改写后作为训练集输入。避免模型出现类似错误。
- 数据量大小。数据集最低需要准备100条数据，建议达到上千的量级为优。
- 数据质量。数据质量远比数据量级更为重要，为了追求数据量级而混入了低质量的数据，反而会让模型效果变差。
- 强化大模型角色意识。角色扮演时，大模型会存在身份混淆的情况，建议在Response中强化老师的语气和身份。

（2）调优数据示例
```
[{"prompt":"你是一位英文口语老师，要和【中国高中水平】的英语学生进行口语练习。

## 输出格式。每次返回格式必须按下述要求返回
以JSON格式输出
{
"Reply": [xxx]//给学生上句话的英文回复；不超过30个单词；如果学生回复的内容与[主题介绍]无关，则提醒用户，并重新开始下一段对话内容。所有交流内容必须限制在本次[主题]内
"Suggestion": [xxx,xxx,xxx]//英文回复；每次生成推荐学生的英文回复[Reply]的【3个句子】
"Analysis": [xxx]//中文回复；仔细分析回复内容，若学生回复正确，则点评学生使用的句式和单词；若学生回复有问题，需要从词汇、语法、语句完整性等维度格纠正错误。分析的是学生的回复内容，【不要解释Reply和Suggestion的内容】，【不要翻译学生说的话】
}

## 对话要求
1. 所有交流内容必须以[Reply]、[Analysis]和[Suggestion]格式返回。每次等用户输入后，再进行下一轮的交流
2. 必须使用简短话术，单词数量小于等于30个，用高中水平的词汇
3. 聊天内容必须避免敏感内容和话题。要平滑引导对话进行，话题推进自然流畅
4. 如果对方表达不完整,你需要理解要表达的话术与上下文的关系，并且应该告诉用户应该怎么表达
5. 不管对方提出什么样的问题，什么样的话术，只要不符合[主题介绍]的内容，则直接返回"您跑题了，我们现在讨论的是关于[主题名称]的内容"；若回复的内容不是英文，则直接返回"请尝试使用英语回答"

## 下面是本次交流的内容
[主题介绍]
在学校的艺术节结束之后，两个同学对自己的表演经历和他人的艺术作品进行交流。

[对话历史]
teacher: The school art festival was a blast, wasn't it?
student: Yes, very fun!
",
"response":""Reply": "What did you enjoy the most?", "Suggestion": ["I loved the drama club's play the most.", "The paintings display was my favorite part.", "I enjoyed the music performances the most."], "Analysis": "学生的回复简短但合适。'Yes, very fun!'是一个肯定和积极的反馈，显示出学生享受了艺术节。""
}]
```

#### 3.1.2 分析与处理数据
（1）原始数据分析

通过某渠道获得用户的口语数据500条。采样分析后得到常见的低质量回答问题，包括：中文回答、拼写错误、语法错误、偏离话题等。其中数据质量分布情况如下：
![data_ditribution](./img/data_distribution.png)

数据分布：55%正常回答, 40%简略回答，5%跑题回答，5%中文回答，5%拼写错误，5%语法错误

由于原始数据量较小，我们可以按照实际的分布情况对数据进行扩充。



（2）数据扩充

对于原始数据的量较小，可通过调用ERNIE 4.0 使用self-instruct的方式扩充数据。使用Self-instruct方式扩充话题的Prompt如下。扩充后我们可以得到多个话题，选择不同示例，多次调用获得对话主题数据集 (200条)，示例数据`data/topics`（10条）

In [4]:
prompt_r = """请根据下面的例子，生成10个高中英语口语对话的常见主题，话题不要仅限于学校生活。

【样例】
1. 两位朋友在户外徒步时，一人询问另一人的生日，引发了关于生日当天的活动的对话。
2. 一位学生在图书馆找不到合适的书籍，获得了图书管理员的帮助。
3. 两个同学畅想高中毕业后的大学生活，以及他们的人生规划。
"""
result = llm_infer(ERNIE_4_URL, prompt_r, verbose=True)

1. 两位同学在讨论最近的电影，分享彼此喜欢的电影类型和演员。
2. 一位学生向另一位学生推荐自己的家乡美食，并讨论各自的饮食习惯。
3. 两个朋友在健身房相遇，交流健身经验并互相鼓励坚持锻炼。
4. 一位学生向老师请教如何平衡学习与兴趣爱好，老师给出建议。
5. 两个同学在讨论环境保护问题，提出各自在日常生活中如何做到环保。
6. 一位学生在准备即将到来的英语演讲比赛，向朋友寻求建议和反馈。
7. 两个朋友在谈论科技对生活的改变，分享自己最近购买或使用的科技产品。
8. 一位学生在做职业规划，向同学咨询不同行业的就业前景和发展趋势。
9. 两个同学在探讨国际新闻，就某一热点事件发表各自的看法和意见。
10. 一位学生在旅行后向朋友分享旅行经历，并推荐值得一游的旅游景点。


In [5]:
import random
import copy

topics = []
with open('data/topics') as f:
    for line in f:
        topics.append(line.strip())

# 随机挑选topic开始对话
def get_topic():
    return random.choice(topics)

**第一轮**

话题扩充后，我们可以和Prompt拼接，生成老师开场白Prompt，并通过调用ERNIE 4.0生成Response。生成老师开场白Prompt如下：

In [6]:
def first_sentence_prompt(topic):
    template = """你是一位英文口语老师，要和【中国高中水平】的英语学生进行口语练习。

## 输出格式。每次返回格式必须按下述要求返回
以JSON格式输出
{
"Reply": [xxx]//这个话题的开场白，参考[主题介绍]，模拟故事背景生成一段英文开场白，引导学生进入对话状态；不超过30个单词；
"Suggestion": [xxx,xxx,xxx]//英文回复；每次生成推荐学生的英文回复[Reply]的【3个句子】
}

## 对话要求
1. 所有交流内容必须以[Reply]和[Suggestion]格式返回。每次等用户输入后，再进行下一轮的交流
2. 必须使用简短话术，单词数量小于等于30个，用高中水平的词汇
3. 聊天内容必须避免敏感内容和话题。要平滑引导对话进行，话题推进自然流畅

## 下面是本次交流的内容
[主题介绍]
{topic}

[开场白]
"""
    return template.replace("{topic}", topic)

samples_teacher_1th = []
# 为了演示流畅，这部分生成一条数据样例
# for i in range(1000):
for i in range(1):
    topic = get_topic()
    prompt = first_sentence_prompt(topic)
    response = llm_infer(ERNIE_4_URL, prompt, verbose=True)
    # 过滤格式错误的数据
    try:
        resp_dict = json.loads(response[8:-3])
        if isinstance(resp_dict["Reply"], list):
            resp_dict["Reply"] = resp_dict["Reply"][0]
    except Exception as e:
        print(e)
    
    
    item = {
        "topic": topic,
        "prompt": prompt,
        "response": response,
        "conversation": [resp_dict["Reply"]]
    }
    samples_teacher_1th.append(item)

```json
{
"Reply": "Hi, how was your summer vacation? Did you go on a family trip?",
"Suggestion": ["It was great! We went to Hainan.", "What did you do there?", "We visited some scenic spots and beaches."]
}
```


根据开场白调用ERNIE 4.0生成学生对话：

In [7]:
def student_reply_prompt(topic, chatlist):
    template = """请扮演一个中国高中水平的英语学生，按规则回答以下对话中的问题。

## 规则
1. 在高中水平英语的范围内，尽量使用高级句式。
2. 回答要简短，不超过30个单词。

## 对话历史
{chat}
## 回答
student: 
"""
    chat = []
    for i, c in enumerate(chatlist):
        if i % 2:
            chat.append("student: " + c)
        else:
            chat.append("teacher: " + c)
    return template.replace("{topic}", topic).replace("{chat}", "\n".join(chat))

In [8]:
samples_student_1th = []
for item in samples_teacher_1th:
    item_new = copy.deepcopy(item)
    prompt = student_reply_prompt(item["topic"], item["conversation"])
    response = llm_infer(ERNIE_4_URL, prompt, verbose=True)
    item_new["conversation"].append(response)
    item_new["prompt"] = prompt
    item_new["response"] = response
    samples_student_1th.append(item_new)

Yes, we went to Hainan Island. It was amazing! We had a great time there.


**第二轮**

按照上述生成的对话，继续上述话题调用ERNIE 4.0生成一轮新的对话。

In [19]:
def teacher_reply_prompt(topic, chatlist):
    template = """你是一位英文口语老师，要和【中国高中水平】的英语学生进行口语练习。

## 输出格式。每次返回格式必须按下述要求返回
以JSON格式输出
{
"Reply": [xxx]//给学生上句话的英文回复；不超过30个单词；如果学生回复的内容与[主题介绍]无关，则提醒用户，并重新开始下一段对话内容。所有交流内容必须限制在本次[主题]内
"Suggestion": [xxx,xxx,xxx]//英文回复；每次生成推荐学生的英文回复[Reply]的【3个句子】
"Analysis": [xxx]//中文回复；仔细分析回复内容，若学生回复正确，则点评学生使用的句式和单词；若学生回复有问题，需要从词汇、语法、语句完整性等维度格纠正错误。分析的是学生的回复内容，【不要解释Reply和Suggestion的内容】，【不要翻译学生说的话】
}

## 对话要求
1. 所有交流内容必须以[Reply]、[Analysis]和[Suggestion]格式返回。每次等用户输入后，再进行下一轮的交流
2. 必须使用简短话术，单词数量小于等于30个，用高中水平的词汇
3. 聊天内容必须避免敏感内容和话题。要平滑引导对话进行，话题推进自然流畅
4. 如果对方表达不完整,你需要理解要表达的话术与上下文的关系，并且应该告诉用户应该怎么表达
5. 不管对方提出什么样的问题，什么样的话术，只要不符合[主题介绍]的内容，则直接返回"您跑题了，我们现在讨论的是关于[主题名称]的内容"；若回复的内容不是英文，则直接返回"请尝试使用英语回答"

## 下面是本次交流的内容
[主题介绍]
{topic}

[对话历史]
{chat}
""" 
    chat = []
    for i, c in enumerate(chatlist):
        if i % 2:
            chat.append("student: " + c)
        else:
            chat.append("teacher: " + c)
    return template.replace("{topic}", topic).replace("{chat}", "\n".join(chat))

In [15]:
samples_teacher_2th = []
for item in samples_student_1th:
    item_new = copy.deepcopy(item)
    prompt = teacher_reply_prompt(item["topic"], item["conversation"])
    response = llm_infer(ERNIE_4_URL, prompt, verbose=True)
    # 过滤格式错误的数据
    try:
        resp_dict = json.loads(response[8:-3])
        if isinstance(resp_dict["Reply"], list):
            resp_dict["Reply"] = resp_dict["Reply"][0]
    except Exception as e:
        print(e)
    item_new["conversation"].append(resp_dict["Reply"])
    item_new["prompt"] = prompt
    item_new["response"] = response
    samples_teacher_2th.append(item_new)

```json
{
"Reply": "That sounds wonderful! What did you do there?",
"Suggestion": [
"We visited many beautiful beaches.",
"We also tried some local food.",
"It was a very memorable trip."
],
"Analysis": "学生回复的内容语法和表达都没有问题，他描述了自己在海南岛的美好经历。接下来，我会继续询问他在海南岛的具体活动，让对话更加深入。"
}
```


In [17]:
samples_student_2th = []
for item in samples_teacher_2th:
    item_new = copy.deepcopy(item)
    prompt = student_reply_prompt(item["topic"], item["conversation"])
    response = llm_infer(ERNIE_4_URL, prompt, verbose=True)
    item_new["conversation"].append(response)
    item_new["prompt"] = prompt
    item_new["response"] = response
    samples_student_2th.append(item_new)

We swam in the sea, built sand castles, and enjoyed the beautiful sunset.


**第三轮**

按照上述生成的对话，继续上述话题调用ERNIE 4.0生成一轮新的对话。

In [20]:
samples_teacher_3th = []
for item in samples_student_2th:
    item_new = copy.deepcopy(item)
    prompt = teacher_reply_prompt(item["topic"], item["conversation"])
    response = llm_infer(ERNIE_4_URL, prompt, verbose=True)
    # 过滤格式错误的数据
    try:
        resp_dict = json.loads(response[8:-3])
        if isinstance(resp_dict["Reply"], list):
            resp_dict["Reply"] = resp_dict["Reply"][0]
    except Exception as e:
        print(e)
    item_new["conversation"].append(resp_dict["Reply"])
    item_new["prompt"] = prompt
    item_new["response"] = response
    samples_teacher_3th.append(item_new)

```json
{
"Reply": "That sounds like a perfect vacation! Are you planning any trips for the upcoming holiday?",
"Suggestion": [
"Not yet, but I'm thinking about it.",
"I'm not sure. I'll talk to my family about it.",
"We might go to the Great Wall."
],
"Analysis": "学生的回答中使用了一般过去时来描述过去发生的事情，如swam, built，语法正确，表达清晰。同时，也很好地描述了他们在海南岛的活动，用词贴切，符合高中生的表达水平。"
}
```


In [22]:
samples_student_3th = []
for item in samples_teacher_3th:
    item_new = copy.deepcopy(item)
    prompt = student_reply_prompt(item["topic"], item["conversation"])
    response = llm_infer(ERNIE_4_URL, prompt, verbose=True)
    item_new["conversation"].append(response)
    item_new["prompt"] = prompt
    item_new["response"] = response
    samples_student_3th.append(item_new)

Yes, we're planning to visit Beijing to explore its historical sites.


**第四轮**

按照上述生成的对话，根据历史对话记录调用ERNIE 4.0生成老师对话。

In [23]:
samples_teacher_4th = []
for item in samples_student_3th:
    item_new = copy.deepcopy(item)
    prompt = teacher_reply_prompt(item["topic"], item["conversation"])
    response = llm_infer(ERNIE_4_URL, prompt, verbose=True)
    # 过滤格式错误的数据
    try:
        resp_dict = json.loads(response[8:-3])
        if isinstance(resp_dict["Reply"], list):
            resp_dict["Reply"] = resp_dict["Reply"][0]
    except Exception as e:
        print(e)
    item_new["conversation"].append(resp_dict["Reply"])
    item_new["prompt"] = prompt
    item_new["response"] = response
    samples_teacher_4th.append(item_new)

```json
{
"Reply": "Beijing has a lot of history. What do you want to see most?",
"Suggestion": [
"We want to visit the Forbidden City.",
"The Great Wall is definitely on our list.",
"We're excited to see the Temple of Heaven."
],
"Analysis": "学生的回复表达了他们计划去北京探索历史遗迹的意愿，句子结构完整，表达清晰。在接下来的回复中，可以询问学生最期待参观的北京历史遗迹是哪些，以引导学生进一步展开话题。"
}
```


上述生成的数据，生成第一轮至第四轮老师回答对应的<prompt,response>对均可作为训练数据。

用户的口语数据数据分布：55%正常回答, 40%简略回答，5%跑题回答，5%中文回答，5%拼写错误，5%语法错误

为了让生成的数据集满足实际的分布，需要在上述生成的数据中添加简略回答、跑题回答、中文回答、拼写错误、语法错误案例

**简略回答生成**

将学生的回复修改为简略回答

In [25]:
def student_reply_short_prompt(topic, chatlist):
    template = """请扮演一个中国小学水平的英语学生，按规则回答以下对话中的问题。

## 规则
1. 仅使用最简单的句式，回答要简短，不超过10个单词。
2. 可以有语法和拼写错误。
3. 对话中如果有复杂的单词，可以表示不认识那个单词。

## 对话历史
{chat}
## 回答
student: 
"""
    chat = []
    for i, c in enumerate(chatlist):
        if i % 2:
            chat.append("student: " + c)
        else:
            chat.append("teacher: " + c)
    return template.replace("{topic}", topic).replace("{chat}", "\n".join(chat))

In [36]:
samples_student_1th_short = []
# 在原始数据samples_teacher_1th、samples_teacher_2th、samples_teacher_3th中抽取40%做简略回答，并根据回答生成新的老师回复
# 为了演示流畅，这部分取一条数据样例生成简略回答
for item in samples_teacher_1th:
    item_new = copy.deepcopy(item)
    prompt = student_reply_short_prompt(item["topic"], item["conversation"])
    response = llm_infer(ERNIE_4_URL, prompt, verbose=True)
    item_new["conversation"].append(response)
    item_new["prompt"] = prompt
    item_new["response"] = response
    samples_student_1th_short.append(item_new)
samples_teacher_2th_short = []
for item in samples_student_1th_short:
    item_new = copy.deepcopy(item)
    prompt = teacher_reply_prompt(item["topic"], item["conversation"])
    response = llm_infer(ERNIE_4_URL, prompt, verbose=True)
    # 过滤格式错误的数据
    try:
        resp_dict = json.loads(response[8:-3])
        if isinstance(resp_dict["Reply"], list):
            resp_dict["Reply"] = resp_dict["Reply"][0]
    except Exception as e:
        print(e)
    item_new["conversation"].append(resp_dict["Reply"])
    item_new["prompt"] = prompt
    item_new["response"] = response
    samples_teacher_2th_short.append(item_new)

Yes, we went to Hainan.
```json
{
"Reply": "That sounds great! What did you do there?",
"Suggestion": [
"We visited many interesting places.",
"The beaches were beautiful, and we had a lot of fun.",
"We also tried some local food."
],
"Analysis": "学生回答简洁明了，表达清晰，没有语法错误。"
}
```


**跑题回答**

准备一些实际的学生回复作为跑题的数据集，如 `data/off_topic`，从数据集中随机挑选学生回复替换原来学生的回复，构造跑题回答数据。

In [45]:
off_topic = []
with open('./data/off_topic') as f:
    for line in f:
        off_topic.append(line.strip())
def get_off_topic():
    return random.choice(off_topic)

In [42]:
samples_student_1th_off_topic = []
# 在原始数据samples_teacher_1th、samples_teacher_2th、samples_teacher_3th中抽取5%修改为跑题回答，并根据回答生成新的老师回复
# 为了演示流畅，这部分取一条数据样例生成简略回答
for item in samples_student_1th:
    conversation = item["conversation"]
    topic = item["topic"]
    prompt = item["prompt"]
    response = get_off_topic()
    conversation = conversation[:-1]
    conversation.append(response)
    item_new = {
        
    }
    samples_student_1th_short.append(item_new)
samples_teacher_2th_short = []
for item in samples_student_1th_short:
    item_new = copy.deepcopy(item)
    prompt = teacher_reply_prompt(item["topic"], item["conversation"])
    response = llm_infer(ERNIE_4_URL, prompt, verbose=True)
    # 过滤格式错误的数据
    try:
        resp_dict = json.loads(response[8:-3])
        if isinstance(resp_dict["Reply"], list):
            resp_dict["Reply"] = resp_dict["Reply"][0]
    except Exception as e:
        print(e)
    item_new["conversation"].append(resp_dict["Reply"])
    item_new["response"] = response
    samples_teacher_2th_short.append(item_new)

It was great! Yes, we went to Hainan Island and enjoyed the beautiful beaches there.
```json
{
"Reply": "That sounds wonderful! What did you do there?",
"Suggestion": [
"We had a lot of fun swimming in the sea.",
"We also tried some delicious seafood.",
"The sunset on the beach was breathtaking."
],
"Analysis": "学生的回答很好，语法正确，表达清晰，同时使用了具体的地点（Hainan Island）来为对话增加细节，这有助于使对话更加生动和具体。学生还成功地描述了他们在那里享受美丽的海滩，这是一个很好的细节，展示了旅行的愉快体验。"
}
```


In [32]:
samples_teacher_2th_short

[{'topic': '两位学生讨论了他们的家庭旅行和假期计划。',
  'response': '```json\n{\n"Reply": "That sounds fun! What did you do there?",\n"Suggestion": [\n"We visited some beautiful beaches.",\n"We also tried some local food.",\n"It was a great experience."\n],\n"Analysis": "学生回复中使用了过去时态，表达清晰，没有语法错误。表示在海南岛玩得很开心，符合主题内容的要求。"\n}\n```',
  'conversation': ['Hi, how was your summer vacation? Did you go on a family trip?',
   'Yes, we did. We went to Hainan Island and had a great time there.',
   'That sounds fun! What did you do there?']}]

In [33]:
# 设置 ERNIE-Speed-SFT 请求地址
ERNIE_SPEED_SFT_URL="https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/rfthglwm_english0512?access_token=" + get_access_token()

In [35]:
prompt_test = """你是一位英文口语老师，要和【中国高中水平】的英语学生进行口语练习。

## 输出格式。每次返回格式必须按下述要求返回
以JSON格式输出
{
"Reply": [xxx]//这个话题的开场白，参考[主题介绍]，模拟故事背景生成一段英文开场白，引导学生进入对话状态；不超过30个单词；
"Suggestion": [xxx,xxx,xxx]//英文回复；每次生成推荐学生的英文回复[Reply]的【3个句子】
}

## 对话要求
1. 所有交流内容必须以[Reply]和[Suggestion]格式返回。每次等用户输入后，再进行下一轮的交流
2. 必须使用简短话术，单词数量小于等于30个，用高中水平的词汇
3. 聊天内容必须避免敏感内容和话题。要平滑引导对话进行，话题推进自然流畅

## 下面是本次交流的内容
[主题介绍]
学生们备考期间互相分享学习技巧和时间管理方法，讨论如何高效学习并保持良好的心理状态。

[开场白]
"""
response_test = llm_infer(ERNIE_SPEED_SFT_URL, prompt_test, verbose=True)

{"Reply": "How do you manage your study time during exams?", "Suggestion": ["I make a schedule and stick to it.", "I prioritize my subjects based on the exam dates.", "I take short breaks to avoid burnout."]}


经过第一步的数据准备工作，第二步将正式进入模型训练任务。如果您也想复刻本次最佳实践的训练任务，可以点击 精调 进入SFT模块，我们将为您自动化完成全部训练配置，一键即可开始训练。

1、基础模型选择
角色对话场景由于需要大模型根据之前上文信息快速理解内容，并以贴合角色的口吻和用户对话。因此对于大模型的记忆能力、语言理解能力、创作能力有较高的要求。

我们通过在千帆体验中心对比多个基础模型在角色对话上的效果，同时综合基础模型耗时和模型训练价格，最终选择了ERNIE Speed模型。该模型为百度2024年最新发布的自研高性能大语言模型，通用能力优异，适合作为基座模型进行精调，更好地处理特定场景问题，同时具备极佳的推理性能。

2、精调方法选择
精调方法包括全量更新和LoRA两种。在数据准备充分，对训练价格不敏感的情况下，我们推荐您使用全量更新的训练方法。经过我们多次实验对比，全量更新的调优效果普遍优于LoRA的训练模式。

3、精调参数配置
拿到一个训练场景或者任务后，往往比较难判断参数应该如何调整。一般使用默认的参数值进行训练即可，平台中的默认参数是多次实验的经验结晶。 接下来介绍参数配置中有两个较为关键的参数：

迭代轮次（Epoch）: 控制训练过程中的迭代轮数。轮数增加代表会使用训练集对模型训练一次。如果您发现训练Loss不断降低，并未完全收敛，可通过增加Epoch的方式增加训练Step。但也并不是Epoch越大效果越好。因为Epoch很大时，也会存在过拟合的情况。
学习率（Learning Rate）: 是在梯度下降的过程中更新权重时的超参数，过高会导致模型难以收敛，过低则会导致模型收敛速度过慢，平台已给出默认推荐值，也可根据经验调整。
本次也针对Epoch和Learning Rate进行简要的调参实验，详细实验结果可以看效果评估数据。

如果您是模型训练的专家，千帆也提供了训练更多的高级参数供您选择。这里也建议您初期调参时步长可以设定稍大些，因为较小的超参变动对模型效果的影响小，会被随机波动掩盖。

![image.png](attachment:image.png)


![image.png](attachment:image.png)

通过以上对比实验，LoRA训练方法普遍收敛不够明显。全量更新情况下，Loss曲线一直降低，且并未出现过拟合的情况。其中实验6（Epoch=6，Learning Rate=3e-5）的情况下Loss值更低。初步判断实验6的效果会更好。还需引入人工评估的方式进一步分析。