## 引言

本文主要来介绍下如何获得训练模型需要的数据集，特别是与诈骗有关的对话数据集。

我们需要什么样的数据集呢？
- 欺诈相关：与经济欺诈有关的内容主题。
- 文本形式：会议场景的欺诈分析主要针对参会人的发言内容进行文本分析。
- 对话格式：会议场景的诈骗是通过人与人之间的对话发生的，对话格式要比事后报道更贴合。
- 语言：最好是中文

因此，需要先查找可用的数据集。



## 查找数据集

我们想到了以下几种途径：
1. 去HuggingFace以及modelscope等开源模型网站上查找是否有相关领域的数据集。
2. 去一些防诈骗网站（例如：反诈中心）上找公开介绍的诈骗案例，或者可直接下载的数据集。
3. 让chatgpt来生成诈骗话术。

##### 开源网站
我们在开源网站使用`fraud`关键字进行搜索，最终找到的与欺诈相关的数据集只有下面几个：
|数据集地址| 数据集内容  | 语言/格式 | 可用性评估| 
|--|--|--|--|
| [Fraud_Case_Verdicts](https://huggingface.co/datasets/jslin09/Fraud_Case_Verdicts) | 各法院关于犯罪的判决书内容，也包括欺诈相关的犯罪案例 | 繁体中文/csv |主要内容为法院的犯罪判决书，不太适用于欺诈对话语料|
| [Amazon-Fraud)](https://www.modelscope.cn/datasets/OmniData/Amazon-Fraud) | 金融欺诈类的交易数据| matlab |主要内容为交易数字，没有文本，不适用。|
| [Fraud_News_Reports](https://huggingface.co/datasets/kehuitt/Fraud_News_Reports) | 各个地方新闻网站上发布过的诈骗案例报道 | 简体中文/csv |报道的这些诈骗案例是我们需要的内容领域，但不是对话格式，无法直接拿来使用 |

Fraud_New_Reports中的内容主题比较贴合，但并非对话形式。案例内容示例如下：

![<截图>](./img/数据集/dataset_screenshot.png)

##### 防诈骗网站
有一些反诈中心, 上面会有些新闻报道关于如何预防诈骗的，并没有可直接下载的数据集。
- [https://www.ww12321.com/](https://www.ww12321.com/) 
- [百度反诈中心](https://110.baidu.com/fqz/news)


再有就是门户网站上会有一些关于诈骗案例的新闻报道，内容形式和Fraud_News_Reports里收集的案例差不多，也没有可以直接下载的数据集。

##### GPT生成话术
我们尝试让GPT来生成10个关于诈骗内容的对话案例，它的输出内容如下。

```json
以下是10个常见的诈骗对话文本，用于训练欺诈文本分类模型：

1.
骗子: 您好，我是某某银行的客服，您的账户出现异常活动，需要您提供账户信息以便我们验证。
受害者: 真的？我应该怎么做？
骗子: 请您提供您的账号和密码，方便我们为您处理。

2.
骗子: 恭喜您中奖！请点击以下链接并填写个人信息以领取奖品。
受害者: 是什么奖品？我怎么知道这不是骗局？
骗子: 我们是正规公司，您可以通过官方网站查询。

3.
骗子: 您的账户存在异常活动，请立即登录我们的网站以确认身份。
受害者: 我需要提供哪些信息？
骗子: 请提供您的用户名、密码和验证码。

4.
骗子: 您好，我们是某某公司，您的账户欠费，请立即支付小额费用以避免账户冻结。
受害者: 我需要支付多少？
骗子: 只需支付100元，您可以通过以下链接进行支付。

5.
骗子: 我们发现您的信用卡有可疑交易，请提供卡号以便核实。
受害者: 我的卡号是xxxxxxxxxxxxxxx。
骗子: 谢谢，我们会尽快为您处理。

6.
骗子: 您好，您的手机号码被抽中获得大奖，请回复此短信领取。
受害者: 我需要做什么？
骗子: 请回复您的姓名和身份证号码，我们会为您安排领奖。

7.
骗子: 您的亲属遇到紧急情况，请立即汇款到以下账户。
受害者: 发生了什么事？
骗子: 请尽快汇款5000元到这个账号，否则会有严重后果。

8.
骗子: 我们是某某公司，请支付未结清的账单以避免法律诉讼。
受害者: 我什么时候欠的账？
骗子: 您的账户有未支付的费用，请立即付款以避免法律问题。

9.
骗子: 恭喜您获得免费旅游，请提供身份证号码进行登记。
受害者: 我怎么知道这不是骗局？
骗子: 我们是正规旅行社，您可以通过官网查询相关信息。

10.
骗子: 您的电脑感染了病毒，请下载附件中的软件进行修复。
受害者: 我应该相信这是真的吗？
骗子: 是的，请立即下载并运行附件中的软件，以免造成更多损失。
```

让GPT生成诈骗话术时有两个明显的缺点：
1. 由于没有具体的故事背景，它只能将常见的诈骗话术进行罗列，缺少前后铺垫，构不成完整的案例。
2. 生成大量数据集时避免不了多次调用GPT，而多次调用的结果是难以避免重复的，并且调用的次数越多，重复率越高。

##### 综合分析
从上面来看，几种途径均没有直接可用的数据集，但有一个`想法`或许可行：将`案例报道`和`GPT生成`两者结合起来，即以Fraud_New_Reports的诈骗案例为内容背景，调用GPT生成我们需要的对话数据集。

具体来说，就是将上面表格截图中的F列内容作为上下文，让GPT以此上下文作为背景，生成此故事所描述的对话集，并打上分类标签加以训练，理论上能实现我们想要的目标，但需要实际验证下。

## 对话生成验证

#### 预览数据

原始案例集是一个csv格式，我们使用pandas提供的read_csv函数来加载整个表格的数据，使用head函数来预览数据集的前几条内容。

In [1]:
!ls ./dataset/Fraud_News_Reports/*.csv

'./dataset/Fraud_News_Reports/“杀猪盘” 诈骗(200).csv'
'./dataset/Fraud_News_Reports/二手交易诈骗(200).csv'
'./dataset/Fraud_News_Reports/传销诈骗(140).csv'
'./dataset/Fraud_News_Reports/兼职刷单诈骗(140).csv'
'./dataset/Fraud_News_Reports/冒充客服诈骗(200).csv'
'./dataset/Fraud_News_Reports/微商代理诈骗(200).csv'
'./dataset/Fraud_News_Reports/投资诈骗(200).csv'
'./dataset/Fraud_News_Reports/短信诈骗(200).csv'
'./dataset/Fraud_News_Reports/网络贷款诈骗(162).csv'
'./dataset/Fraud_News_Reports/网络赌博诈骗(200).csv'
'./dataset/Fraud_News_Reports/虚假购物诈骗(200).csv'
'./dataset/Fraud_News_Reports/虚拟货币诈骗(200).csv'
'./dataset/Fraud_News_Reports/诈骗(150).csv'


In [3]:
import pandas as pd

file = "./dataset/Fraud_News_Reports/冒充客服诈骗(200).csv"
dataset = pd.read_csv(file)
dataset.head()

Unnamed: 0,标题,标题链接,首页缩略封面图,首页缩略文段,发布者,文章正文内容,图片链接
0,近期高发!警惕冒充电商物流客服骗局!视频↘,https://so.toutiao.com/search/jump?url=http%3A...,,"深入揭批电信网络诈骗套路手法,进一步增强知诈、识诈、防诈、反诈意识,筑牢反诈“防火墙”。 冒...",平安哈尔滨,为全面提升群众防范电信网络诈骗能力和水平，增强安全防范意识，哈尔滨市委政法委认真梳理归纳出目...,
1,假客服，真诈骗!受害人现身说法!,https://so.toutiao.com/search/jump?url=http%3A...,http://p1-tt.byteimg.com/img/tos-cn-i-qvj2lq49...,"1、诈骗分子往往通过不法渠道获取到公民个人信息,再利用192”+、00”开头的境外号码、“区...",潍坊网警,假客服，真诈骗！受害人现身说法！\n\n“您好，我是京东客服”\n\n“不关闭京东金条，会影...,https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq...
2,被骗100余万!又是假冒客服诈骗，16人落网,https://so.toutiao.com/search/jump?url=http%3A...,https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges...,"电信诈骗案案件回顾近日,牡丹分局北城派出所接到辖区居民陈某报警,称其遭遇冒充客服诈骗,被骗1...",环球网,来源：菏泽公安\n\n“双11”刚刚过去\n\n“双12”又紧跟着要来了\n\n网购过后的你...,https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges...
3,警惕!冒充客服类诈骗,https://so.toutiao.com/search/jump?url=http%3A...,https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0...,冒充客服诈骗主要分为以下几类 01 网购商品出现问题或免费赠送小家电 一是冒充淘宝、京东、抖...,平安石柱,网络购物的快速发展\n\n让人们享受到了其带来的便利\n\n也产生了一大批网购达人\n\n当...,https://p3-sign.toutiaoimg.com/tos-cn-i-axegup...
4,又出新花招!!“平台客服”骗局它来了,https://so.toutiao.com/search/jump?url=http%3A...,https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges...,"接下来给大家分析一下冒充客服诈骗的手法第一步:事主接到电话(固话、手机号码),嫌疑人自称“平...",广州公安,,


上面表格中的`文章正文内容`列是案例报道的正文，但是在表格中显示的是缩略内容，我们找一条数据看下此字段的完整内容。

长文本在打印时默认都输出在一行上，这里封装一个美化长文本的输出函数，将长文本分割成80字换行显示。

In [4]:
import json
import textwrap


def print_json(obj):
    print(json.dumps(obj, indent=4, ensure_ascii=False))


def pretty_print(text):
    wrapped_text = textwrap.fill(text, width=80)  # 设定每行的最大字符数
    print(wrapped_text)


column_content = "文章正文内容"
pretty_print(dataset.iloc[1][column_content])

假客服，真诈骗！受害人现身说法！  “您好，我是京东客服”  “不关闭京东金条，会影响征信”  “不知道如何关闭？”  “没关系，我来教您......”
以案说诈  3月15日14时许，受害人林先生在家中接到一通自称是“京东客服”的陌生来电，对方称林先生开通的京东金条，由于利率过高，根据国家政策规定需要关闭，否则
会影响到个人征信。因为害怕自己的征信出现问题，林先生一时放松了警惕，按照对方的要求操作，关闭京东金条。之后，对方又称林先生名下还有微信“微粒贷”需要关闭，让其将
微粒贷额度全部提现至个人银行账户。为方便操作，让林先生 下载"云视通"APP加入视频会议进行远程指导。林先生按照对方的要求打开了屏幕共享功能，在对方的指导下进行
了操作。在对方的诱导下，林先生将20万元转到了对方提供的账户。
在家人的提醒下，林先生才发现自己上当受骗，遂拨打110报警求助。民警接到报警后，迅速启动止付程序，为林先生挽回了15.2万元。目前，案件正在进一步办理中。
现身说法  诈骗手段层出不穷，迷惑性极强，小编为大家整理了此类诈骗案件套路。请大家一定要提高警愓，提升反诈骗意识，不要轻信陌生人。  1、诈骗分子往往通过不法渠
道获取到公民个人信息，再利用192”+、00”开头的境外号码、“区号+座机号码"等固定电话或手机冒充平台客服，准确报出受害人的个人信息骗取信任。
2、告知受害人不注销京东金条，会影响个人征信或以利率高于国家规定等理由，诱导受害人按照他们设定好的套路进行操作。
3、诈骗分子首先会让受害人下载一些能屏幕共享的视频会议 APP，如云视讯、飞书等，远程指导并观看受害人的操作，引导受害人到借贷平台进行贷款。
4、诱导受害人将借贷app中的额度全部提出，以"中间账户”“降低利息”“注销要求”为借口，让其将款项转到指定银行账户，从而实施诈骗。  警方提示  1、核实身份
官网认证。银监会、京东客服电话不会主动外呼，外呼客服号码为固定短号。如接到自称银监会、京东客服的电话，请提高警惕，切勿轻易转账，如有疑问请直接拨打96110咨询
。  2、 拒不透露个人信息。身份信息、银行账户、验证码、各类密码要小心保管，绝不透露。
3、不加好友、不开视频。如对方要求添加私人社交账号或各类视频会议软件进行屏幕共享等协助操作，一定要果断拒绝！
4、绝不转账、借贷。如对方要求操作转账或者进行借贷，

#### 测试Agently

访问GPT接口有很多二次封装的框架，像著名的langchain，不过这里选用Agently框架，原因主要基于以下几点：
1. 标准化提示词：对提示词的编写定义了一套标准规范，并支持将提示词从代码中提取出来统一管理。
2. 抽象模型配置：对模型的配置作了统一抽象，使得所有模型真正可以共用一套代码。
3. json输出：支持复杂的json格式输出，特别适合将AI能力与传统应用作集成。

使用方式简单示例如下：

In [5]:
from dotenv import load_dotenv, find_dotenv
import os
import json
import Agently
config = load_dotenv(find_dotenv())
print(config)
agent = (
    Agently.create_agent()
        .set_settings("current_model", "OAIClient")
        .set_settings("model.OAIClient.auth", { "api_key": os.getenv("DEEPSEEK_API_KEY") })
        .set_settings("model.OAIClient.url", "https://api.deepseek.com/v1")
        .set_settings("model.OAIClient.options", { "model": "deepseek-chat" })
)


# Test
print(f"agent test: {agent.instruct('你是谁？').start()}")

True
agent test: 您好！我是由中国的深度求索（DeepSeek）公司开发的智能助手DeepSeek-V3。如您有任何任何问题，我会尽我所能为您提供帮助。


In [6]:
response = agent \
    .role("你是一个分析诈骗案例并且擅长写作的专家，你的任务是将诈骗的案发过程以口语对话的形式完整的还原。") \
    .input({"text": dataset.iloc[1][column_content]}) \
    .instruct([
    "1. 分析{text}中描述的案发过程，识别出诈骗者和受害者角色，并为每个角色生成一个中文姓名。",
    "2. 发挥你的想象力，按照前后经过，将案发过程以诈骗者和受害者之间的对话来循序渐进地展开，目的是还原整个诈骗案件的详细对话过程。",
    "3. 诈骗者的发言内容需要尽可能的伪装，让自己的身份和操作都听起来正规，以避免受害者怀疑。",
    "4. 从第一句发言开始，依次分析每条发言内容是否存在明确的欺诈内容。",
]) \
    .output({
    "result": [{
        "speaker": ("str", "为发言人生成的中文姓名(不含角色)"),
        "content": ("str", "发言的详细内容"),
        "is_fraud": ("boolean", "关于{content}中是否存在明确具体、不可辩驳的欺诈内容")
    }]
}) \
    .start()
print_json(response)

{
    "result": [
        {
            "speaker": "李强",
            "content": "您好，我是京东客服，请问是林先生吗？",
            "is_fraud": true
        },
        {
            "speaker": "林先生",
            "content": "是的，我是林先生。请问有什么事吗？",
            "is_fraud": false
        },
        {
            "speaker": "李强",
            "content": "林先生，我们注意到您开通了京东金条服务，由于利率过高，根据国家政策规定需要关闭，否则会影响到您的个人征信。",
            "is_fraud": true
        },
        {
            "speaker": "林先生",
            "content": "啊？那我现在该怎么办？",
            "is_fraud": false
        },
        {
            "speaker": "李强",
            "content": "没关系，我来教您如何关闭。首先，您需要下载一个叫‘云视通’的APP，这样我们可以通过视频会议远程指导您操作。",
            "is_fraud": true
        },
        {
            "speaker": "林先生",
            "content": "好的，我这就下载。",
            "is_fraud": false
        },
        {
            "speaker": "李强",
            "content": "下载完成后，请打开屏幕共享功能，这样我可以看到您的操作，确保一切顺利进行。",
            "is_fraud": true
        },
        {
            "speaker": "林

Agently还支持yaml风格来编写一个可复用的提示词，作用是将案例报道的诈骗内容以对话的形式还原，输出指定的json格式。

In [7]:
prompt_template = '''
role: 你是一个分析诈骗案例并且擅长写作的专家，你的任务是将诈骗的案发过程以口语对话的形式还原。
input: ${input}
instruct:
    task: 
      - 1. 分析{input}中描述的案发过程，识别出诈骗者和受害者角色，并为每个角色生成一个中文姓名。
      - 2. 发挥你的想象力，按照前后经过，将案发过程以诈骗者和受害者之间的对话来循序渐进地展开，目的是还原整个诈骗案件的详细对话过程。
      - 3. 诈骗者的发言内容需要尽可能的伪装，让自己的身份和操作都听起来正规，以避免受害者怀疑。
      - 4. 从第一句发言开始，依次分析每条发言内容是否存在明确的欺诈内容，并给发言内容打上`is_fraud=true/false'的标签，当is_fraud=true时给出理由。
    output language: ${language}
output:
    result:
      - speaker:
            $type: str
            $desc: 为发言人生成的中文姓名(不含角色)
        content:
            $type: str
            $desc: 发言的详细内容
        is_fraud:
            $type: boolean
            $desc: 关于{content}中是否存在明确具体的欺诈内容
        reason:
            $type: str
            $desc: 仅当{is_fraud}=true 时给出的理由
'''

定义一个工具函数，在处理结果时会用到： 
- remove_markdown_boundary：gpt-4o在生成json时有时会以markdown的格式输出，针对这种情况作下特殊处理，识别并去掉markdown中的```。

In [8]:
import re


def remove_markdown_boundary(text):
    return re.sub(r'^```json\n(.*)\n```$', r'\1', text.strip(), flags=re.DOTALL)


# 测试：自定义一个类似markdown格式的示例文本
data = remove_markdown_boundary("""
```json
{
	"result": [
		
	]
}
```
""")
json.loads(data)

{'result': []}

基于Agently实例来封装一个用于生成对话文本的函数generate_dialog，此函数基于传入的text案例报道来生成对话格式的文本。
- load_yaml_prompt：用于从yaml格式的文本中加载提示词模板。
- variables：给提示词模板中的${xxx}占位符提供变量值。
- start：组织完提示词后，调用此函数开始向模型发送请求。 

> 使用Agently访问模型时默认输出为json，它会自动检测文本是否为json，并尝试用类似json.loads的方式来将文本转换为对象。

In [9]:
def generate_dialog(agent, text):
    response = agent.load_yaml_prompt(
        yaml=prompt_template,
        variables={
            "input": text,
            "language": 'chinese',
        }
    ).start()
    # 如果遇到markdown格式的json，则尝试用上面封装的remove_markdown_boundary来二次处理.
    if isinstance(response, str):
        response = json.loads(remove_markdown_boundary(response))
    return response['result']


# print(generate_dialog(agent_mini, dataset.iloc[12][column_content]))
print_json(generate_dialog(agent, dataset.iloc[1][column_content]))
# print(generate_dialog(agent, dataset.iloc[0][column_content]))

[
    {
        "speaker": "李强",
        "content": "您好，我是京东客服。",
        "is_fraud": true,
        "reason": "冒充京东客服身份，试图获取受害者信任。"
    },
    {
        "speaker": "林浩",
        "content": "哦，您好，请问有什么事吗？",
        "is_fraud": false
    },
    {
        "speaker": "李强",
        "content": "我们注意到您开通了京东金条，但由于利率过高，根据国家政策规定需要关闭，否则会影响到您的个人征信。",
        "is_fraud": true,
        "reason": "虚构政策规定，制造紧迫感，诱导受害者操作。"
    },
    {
        "speaker": "林浩",
        "content": "啊？那我现在该怎么办？",
        "is_fraud": false
    },
    {
        "speaker": "李强",
        "content": "不用担心，我可以指导您如何关闭。您知道如何操作吗？",
        "is_fraud": true,
        "reason": "进一步诱导受害者接受指导，为后续诈骗做准备。"
    },
    {
        "speaker": "林浩",
        "content": "不太清楚，您能教我吗？",
        "is_fraud": false
    },
    {
        "speaker": "李强",
        "content": "当然可以。为了更方便地指导您，请您下载一个叫‘云视通’的APP，并加入我们的视频会议。",
        "is_fraud": true,
        "reason": "要求下载不明APP并进行屏幕共享，为后续监控和操控受害者设备做准备。"
    },
    {
        "speaker": "林浩",
        "content"

## 循环生成数据集
基于上面验证的结果，可以循环读取所有的csv文本中的案例，循环调用GPT接口来为每个案例生成对话集。

原始案例是分类型按文件组织的，先看看有哪些类型的案例集文件。

In [10]:
import os


def get_files(directory, extension='.csv'):
    files = [f for f in os.listdir(directory) if f.endswith(extension)]
    return files


# Example usage:
dataset_path = './dataset/Fraud_News_Reports'
csv_files = get_files(dataset_path)
print_json(csv_files)

[
    "“杀猪盘” 诈骗(200).csv",
    "冒充客服诈骗(200).csv",
    "虚假购物诈骗(200).csv",
    "虚拟货币诈骗(200).csv",
    "网络赌博诈骗(200).csv",
    "传销诈骗(140).csv",
    "短信诈骗(200).csv",
    "微商代理诈骗(200).csv",
    "网络贷款诈骗(162).csv",
    "二手交易诈骗(200).csv",
    "诈骗(150).csv",
    "兼职刷单诈骗(140).csv",
    "投资诈骗(200).csv"
]


封装两个高阶函数，分别如下：
- build_write_func：返回一个能将对话集写入指定文件的write函数，file_name是要写入的文件名。
- build_to_rows_func：返回一个将对话集转换为csv rows的函数，统一每条数据的表头和列名。
    > case_prefix用于指定案例名称的前缀，这里统一采用文件名作为前缀用于区分不同类型的案例集。


In [11]:
def build_write_func(file_name):
    def write(rows, header=False):
        df_new = pd.DataFrame(rows, index=range(len(rows)))
        df_new.to_csv(file_name, mode='a', header=header, index=False)

    return write

In [20]:
def build_to_rows_func(case_prefix=""):
    def to_rows(dialog: list, i):
        rows = []
        for item in dialog:
            print(item)
            data = {'case': f'{case_prefix}{i}'}
            for k in ['speaker', 'content', 'is_fraud', 'reason']:
                data[k] = item.get(k, '')
            rows.append(data)

        return rows

    return to_rows


封装一个函数，用于根据文件路径返回文件名。

In [21]:
import os


def filename(path):
    filename_with_ext = os.path.basename(path)
    filename, extention = os.path.splitext(filename_with_ext)
    return filename


filename(file)

'冒充客服诈骗(200)'

最终用于为指定文件生成对话集的函数，传入一个案例报道格式的文件路径，来生成一个对话格式的数据集文件。

In [22]:
def generate_dialogs(agent, input_path, output_dir, start_idx=0, end_idx=-1):
    try:
        dataset = pd.read_csv(input_path)
    except UnicodeDecodeError:
        dataset = pd.read_csv(input_path, encoding='gbk')
    output_path = f"{output_dir}/{filename(input_path)}.csv"
    write_fn = build_write_func(output_path)
    to_rows_fn = build_to_rows_func(filename(input_path))

    for i, row in dataset[start_idx:end_idx].iterrows():
        dialog = generate_dialog(agent, row[column_content])
        dialog_rows = to_rows_fn(dialog, i)
        write_fn(dialog_rows, i == 0)
        print(f"**********write dialog count: {i + 1}")

主循环，依次为每个文件生成对话集。
> excludes用于排除一些文件，适用于目录下有些文件不需要生成对话集的场景。

In [23]:
output_dir = "./dataset/fraud/csv_dialogs"
excludes = [
    "冒充客服诈骗(200).csv",
]
os.makedirs(output_dir, exist_ok=True)
print(csv_files[12:13])
for fname in csv_files[12:13]:
    if fname not in excludes:
        input_path = os.path.join(dataset_path, fname)
        print(f"generate for file_path: {input_path} ...")
        generate_dialogs(agent, input_path, output_dir, 0, 2)


['投资诈骗(200).csv']
generate for file_path: ./dataset/Fraud_News_Reports/投资诈骗(200).csv ...
{'speaker': '李明', 'content': '丁哥，我最近发现了一个特别靠谱的投资平台，收益非常高，你要不要试试？', 'is_fraud': True, 'reason': '李明通过夸大收益来诱导丁某某参与投资，实际上该平台是诈骗工具。'}
{'speaker': '丁某某', 'content': '真的吗？具体是什么平台？安全吗？', 'is_fraud': False}
{'speaker': '李明', 'content': '绝对安全！我朋友已经赚了不少了。你下载这个APP，注册后就能看到详细的项目介绍。', 'is_fraud': True, 'reason': '李明通过虚假的安全保证和朋友的“成功案例”来进一步诱导丁某某下载诈骗APP。'}
{'speaker': '丁某某', 'content': '那我试试看吧，怎么操作？', 'is_fraud': False}
{'speaker': '李明', 'content': '你先下载这个APP，然后注册账号，绑定银行卡，选择投资项目，最低投资额是5万，收益每天都能看到。', 'is_fraud': True, 'reason': '李明通过详细的操作步骤和低门槛的投资额来进一步诱导丁某某进行资金投入。'}
{'speaker': '丁某某', 'content': '好的，我试试看。', 'is_fraud': False}
{'speaker': '李明', 'content': '丁哥，你投了多少？我建议你多投点，收益会更高。', 'is_fraud': True, 'reason': '李明通过鼓励丁某某增加投资金额来进一步扩大诈骗金额。'}
{'speaker': '丁某某', 'content': '我投了75万，前期回款了13万，感觉还不错。', 'is_fraud': False}
{'speaker': '李明', 'content': '太好了！你可以继续追加投资，收益会更多。', 'is_fraud': True, 'reason': '李明通过鼓励丁某某继续追加投资来进一步扩大诈骗金

In [29]:
# # !pip install chardet
# import chardet

# def detect_encoding(file_path):
#     with open(file_path, "rb") as f:
#         raw_data = f.read()
#     result = chardet.detect(raw_data)
#     return result["encoding"]

# file_path = './dataset/Fraud_News_Reports/诈骗(150).csv'
# encoding = detect_encoding(file_path)
# print(f"Detected encoding for {file_path}: {encoding}")

# dataset = pd.read_csv(file_path, encoding='GBK')


Detected encoding for ./dataset/Fraud_News_Reports/诈骗(150).csv: GB2312


这可能需要花比较长的时间，如果中间因gpt输出结果的格式异常或网络问题而发生中断，则可能需要从中断处继续运行，最终会为每个文件都生成一个对话集。

In [25]:
# pd.read_csv(f"./dataset/csv_dialogs/兼职刷单诈骗(140).csv").head()
pd.read_csv(f"./dataset/fraud/csv_dialogs/投资诈骗(200).csv").head()

Unnamed: 0,case,speaker,content,is_fraud,reason
0,投资诈骗(200)0,李明,丁哥，我最近发现了一个特别靠谱的投资平台，收益非常高，你要不要试试？,True,李明通过夸大收益来诱导丁某某参与投资，实际上该平台是诈骗工具。
1,投资诈骗(200)0,丁某某,真的吗？具体是什么平台？安全吗？,False,
2,投资诈骗(200)0,李明,绝对安全！我朋友已经赚了不少了。你下载这个APP，注册后就能看到详细的项目介绍。,True,李明通过虚假的安全保证和朋友的“成功案例”来进一步诱导丁某某下载诈骗APP。
3,投资诈骗(200)0,丁某某,那我试试看吧，怎么操作？,False,
4,投资诈骗(200)0,李明,你先下载这个APP，然后注册账号，绑定银行卡，选择投资项目，最低投资额是5万，收益每天都能看到。,True,李明通过详细的操作步骤和低门槛的投资额来进一步诱导丁某某进行资金投入。


## 延伸阅读
- [动手学深度学习——Pandas](https://golfxiao.blog.csdn.net/article/details/138143669)
- [欺诈文本分类微调（一）：基座模型选型](https://golfxiao.blog.csdn.net/article/details/141168571)
