这是一个使用 Llama2 权重设计的循环神经网络(RNN)模型,旨在无限期运行(终身)。
- llama2: 可以使用 llama2 各种版本模型的权重
- rnn: 每个token的 attention sequence 长度固定,计算和内存开销不会增加,理论上支持无限长序列,可以从硬盘读取和保存记忆
- .c: 可以在本地设备上运行,甚至是移动平台
参考README_llama2.c.md处理好数据
python3 tinystories.py download
python3 tinystories.py train_vocab --vocab_size=4096
python3 tinystories.py pretokenize --vocab_size=4096
python3 train.py config/train_tinystories_token4096_memorynorm.py
python3 tokenizer.py --tokenizer-model ./data/tok4096.model
export.py out_path/model_q80.bin --version 2 --mem --checkpoint out_path/ckpt.pt
更多细节说明见llama2Rnn.c/README.md at main · siyuanseever/llama2Rnn.c (github.com)
MIT