Python
>= 3.8Pytorch
>= 2.2
其他依赖:tqdm(进度条)和gradio(webui)
pip install tqdm gradio
运行 webui.py
运行 inference.py
运行 train.py
model | Params | Accuracy(0-99999) |
---|---|---|
base.pt | 13.66M | 99.9997% |
注:本模型将silu激活函数换成snakebeta激活函数以更好地捕获周期特征,其余部分与llama2保持一致。
本人对大语言模型了解不多,若有任何疑问或者优化方案,欢迎提issue或pr
- 训练精度更高的模型