Skip to content

GPT2 for Chinese chitchat/用于中文闲聊的GPT2模型(实现了DialoGPT的MMI思想)

Notifications You must be signed in to change notification settings

Tlntin/GPT2-chitchat

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

简单说明

├── config_info  # 配置文件
│   ├── interact_config.py  # 交互环境配置
│   ├── model_config_dialogue_small.json  # 模型训练配置文件,注意根据文章长度修改
│   ├── train_config.py  # 模型训练配置
│   └── vocab_small.txt  # 模型字典
├── data
│   ├── content_tag_dataset.txt  # 原始数据集1
│   ├── dialogue_model  # 导出的模型
│   │   └── best_checkpoint  # 最佳模型
│   │       ├── config.json
│   │       └── pytorch_model.bin
│   ├── item_desc_dataset.txt # 原始数据集2
│   ├── sample  # 交互文件导出
│   │   └── samples.txt
│   ├── tensorboard_summary  # tensorboradx产生,用于绘图
│   ├── training.log  # 日志
│   ├── train_tokenized.txt  # tokenize后的训练集
│   └── train.txt  # 正式训练集
├── interact  # 交互,用于看代码生成效果
│   ├── interact_mmi.py  # 一次生成多个
│   └── interact.py  # 一次生成一个
├── main.py  # 主程序
├── README1.md  # 原版说明文档
├── README.md  # 说明文档
├── requirements.txt  # 配置文件
├── train.py  # 训练文件
└── utils  # 其它工具
    ├── data_preprocess.py  # 数据预处理
    ├── dataset.py  # 构建Dataset
    ├── dialogue_generate.py  # 用于处理原始数据集
    ├── generate_dialogue_subset.py  # 用于train_toenized.txt分割
    └── tools.py  # 用于保存模型,计算准确率等等。
  • demo_数据集与模型地址(待完善):链接(访问码:of4m)

About

GPT2 for Chinese chitchat/用于中文闲聊的GPT2模型(实现了DialoGPT的MMI思想)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%