LLM-AVATAR

制作你的数字分身.

1. 数据准备

目前支持的数据格式为:

QQ 群聊数据

运行以下命令, 生成数据集:

cd data-parser
cargo run --release --bin qq-group-messages -- --user-id 你的 QQ 号 --password "数据库密码"

以上命令会在 data-parser/data/qq-group-messages.jsonl 生成 OpenAI 格式的数据集, 我们需要将其转为 HuggingFace 格式:

python build_dataset.py

该命令会在 data/qq-group-messages-tokenized 生成 HuggingFace 格式的数据集.

2. 训练模型

bash finetune.sh

你可以调整 finetune.sh 中的参数, 来选择是否使用 lora.

如果你使用了 Lora, 在训练完成后可以使用 merge.py 来合并权重.

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
data-parser		data-parser
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
README.md		README.md
build_dataset.py		build_dataset.py
ds_config.json		ds_config.json
fine-tune.py		fine-tune.py
finetune.sh		finetune.sh
merge.py		merge.py
pdm.lock		pdm.lock
pyproject.toml		pyproject.toml
train-deprecated.py		train-deprecated.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data-parser

data-parser

.gitignore

.gitignore

.pre-commit-config.yaml

.pre-commit-config.yaml

README.md

README.md

build_dataset.py

build_dataset.py

ds_config.json

ds_config.json

fine-tune.py

fine-tune.py

finetune.sh

finetune.sh

merge.py

merge.py

pdm.lock

pdm.lock

pyproject.toml

pyproject.toml

train-deprecated.py

train-deprecated.py

Repository files navigation

LLM-AVATAR

1. 数据准备

2. 训练模型

About

Releases

Packages

Languages

leng-yue/llm-avatar

Folders and files

Latest commit

History

Repository files navigation

LLM-AVATAR

1. 数据准备

2. 训练模型

About

Resources

Stars

Watchers

Forks

Languages