Merge pull request #438 from TylunasLi/minicpm

修复Win32Demo CPU构建错误
ztxz16 · Mar 20, 2024 · 1a6c7a2 · 1a6c7a2
2 parents 808efe8 + 7373729
commit 1a6c7a2
Show file tree

Hide file tree

Showing 6 changed files with 75 additions and 613 deletions.
diff --git a/README.md b/README.md
@@ -370,33 +370,38 @@ python3 tools/moss_export.py moss-int4.flm int4 #导出int4模型
 一些模型的转换可以[参考这里的例子](docs/llama_cookbook.md)
 
 #### QWEN模型导出
+* **Qwen**
 ```sh
 # 需要先安装QWen环境
 # 如果使用自己finetune的模型需要修改qwen2flm.py文件中创建tokenizer, model的代码
 # 根据所需的精度，导出相应的模型
+cd build
 python3 tools/qwen2flm.py qwen-7b-fp16.flm float16 #导出float16模型
 python3 tools/qwen2flm.py qwen-7b-int8.flm int8 #导出int8模型
 python3 tools/qwen2flm.py qwen-7b-int4.flm int4 #导出int4模型
 ```
 
-#### MINICPM模型导出
-```sh
-cd build 
-python tools/minicpm2flm.py #导出float16模型
-./main -p minicpm-2b-float16.flm # 执行模型
-```
-
 * **Qwen1.5**
 
 ```sh
 # 需要先安装QWen2环境（transformers >= 4.37.0）
 # 根据所需的精度，导出相应的模型
+cd build
 python3 tools/llamalike2flm.py qwen1.5-7b-fp16.flm float16 "qwen/Qwen1.5-4B-Chat" #导出wen1.5-4B-Chat float16模型
 python3 tools/llamalike2flm.py qwen1.5-7b-int8.flm int8 "qwen/Qwen1.5-7B-Chat" #导出Qwen1.5-7B-Chat int8模型
 python3 tools/llamalike2flm.py qwen1.5-7b-int4.flm int4 "qwen/Qwen1.5-14B-Chat" #导出Qwen1.5-14B-Chat int4模型
 # 最后一个参数可替换为模型路径
 ```
 
+#### MINICPM模型导出
+```sh
+# 需要先安装MiniCPM环境（transformers >= 4.36.0） 
+# 默认脚本导出iniCPM-2B-dpo-fp16模型
+cd build 
+python tools/minicpm2flm.py minicpm-2b-float16.flm #导出dpo-float16模型
+./main -p minicpm-2b-float16.flm # 执行模型
+```
+
 ## 开发计划
 
 也就是俗称的画饼部分，大家如果有需要的功能可以在讨论区提出

diff --git a/example/Win32Demo/fastllm.vcxproj b/example/Win32Demo/fastllm.vcxproj
@@ -163,7 +163,6 @@
       <AdditionalOptions>/arch:AVX /source-charset:utf-8 %(AdditionalOptions)</AdditionalOptions>
     </ClCompile>
     <Link>
-      <AdditionalDependencies>cudart.lib;cublas.lib;%(AdditionalDependencies)</AdditionalDependencies>
       <SubSystem>Windows</SubSystem>
       <EnableCOMDATFolding>true</EnableCOMDATFolding>
       <OptimizeReferences>true</OptimizeReferences>
@@ -181,7 +180,7 @@
     <ClInclude Include="..\..\include\models\factoryllm.h" />
     <ClInclude Include="..\..\include\models\glm.h" />
     <ClInclude Include="..\..\include\models\llama.h" />
-    <ClCompile Include="..\..\include\models\minicpm.h" />
+    <ClInclude Include="..\..\include\models\minicpm.h" />
     <ClInclude Include="..\..\include\models\moss.h" />
     <ClInclude Include="..\..\include\models\qwen.h" />
     <ClInclude Include="..\..\include\utils\armMath.h" />

diff --git a/include/models/basellm.h b/include/models/basellm.h
@@ -1,4 +1,7 @@
-#pragma once
+
+#ifndef FASTLLM_BASELLM_H
+#define FASTLLM_BASELLM_H
+
 #include "fastllm.h"
 
 #include <thread>
@@ -50,9 +53,9 @@ namespace fastllm {
             this->weight.ReleaseWeight();
         };
 
-        virtual void LoadFromFile(const std::string &fileName); // 从文件读取
+        virtual void LoadFromFile(const std::string &fileName); // 从文件读取 
 
-        virtual void InitParams(); // 初始化参数信息
+        virtual void InitParams(); // 初始化参数信息 
 
         // 推理
         virtual int Forward(
@@ -85,12 +88,12 @@ namespace fastllm {
                 const LastTokensManager &lastTokens = LastTokensManager(),
                 std::vector <std::vector <float>*> *logits = nullptr);
 
-        // 根据输入的tokens生成LLM推理的输入
+        // 根据输入的tokens生成LLM推理的输入 
         virtual void FillLLMInputs(std::vector <std::vector <float> > &inputTokens,
                                    const std::map <std::string, int> &params,
                                    Data &inputIds, Data &attentionMask, Data &positionIds);
 
-        // 根据输入的tokens生成LLM推理的输入
+        // 根据输入的tokens生成LLM推理的输入 
         virtual void FillLLMInputsBatch(std::vector <std::vector <float> > &inputTokens,
                                         const std::vector <std::map <std::string, int> > &params,
                                         Data &inputIds, Data &attentionMask, Data &positionIds);
@@ -102,16 +105,16 @@ namespace fastllm {
         virtual void ResponseBatch(const std::vector<std::string> &inputs,
                                    std::vector<std::string> &outputs,
                                    RuntimeResultBatch retCb = nullptr,
-                                   const GenerationConfig &generationConfig = GenerationConfig()); // 批量根据给出的内容回复
+                                   const GenerationConfig &generationConfig = GenerationConfig()); // 批量根据给出的内容回复 
 
         virtual int LaunchResponseTokens(const std::vector <int> &inputTokens,
                                          const GenerationConfig &generationConfig = GenerationConfig()); // 启动一个response任务，返回分配的handleId
 
-        virtual int FetchResponseTokens(int handleId); // 获取指定handle的输出, -1代表输出结束了
+        virtual int FetchResponseTokens(int handleId); // 获取指定handle的输出, -1代表输出结束了 
 
         virtual int FetchResponseLogits(int handleId, std::vector <float> &logits); // 获取指定handle的输出Logits
 
-        virtual void SaveLowBitModel(const std::string &fileName, int bit); // 存储成量化模型
+        virtual void SaveLowBitModel(const std::string &fileName, int bit); // 存储成量化模型 
 
         virtual void SaveModel(const std::string &fileName); // 直接导出
 
@@ -158,3 +161,5 @@ namespace fastllm {
         int tokensLimit = -1;
     };
 }
+
+#endif //FASTLLM_BASELLM_H
diff --git a/include/models/minicpm.h b/include/models/minicpm.h
@@ -6,12 +6,13 @@
 #define FASTLLM_MINICPM_H
 
 #include "basellm.h"
+#include "llama.h"
 #include "cmath"
 
 #include <iostream>
 
 namespace fastllm {
-    class MiniCpmModel: public basellm {
+    class MiniCpmModel: public LlamaModel {
     public:
         MiniCpmModel(); // 构造函数
 
@@ -48,26 +49,6 @@ namespace fastllm {
                 const LastTokensManager &lastTokens = LastTokensManager(),
                 std::vector <std::vector <float>*> *logits = nullptr);
 
-        virtual std::string Response(const std::string& input,
-                                     RuntimeResult retCb,
-                                     const GenerationConfig &generationConfig = GenerationConfig()); // 根据给出的内容回复
-
-        virtual void ResponseBatch(const std::vector <std::string> &inputs,
-                                   std::vector <std::string> &outputs,
-                                   RuntimeResultBatch retCb,
-                                   const GenerationConfig &generationConfig = GenerationConfig());
-
-        virtual int LaunchResponseTokens(const std::vector <int> &inputTokens,
-                                         const GenerationConfig &generationConfig = GenerationConfig()); // 启动一个response任务，返回分配的handleId
-
-        virtual int FetchResponseTokens(int handelId); // 获取指定handle的输出, -1代表输出结束了
-
-        virtual void WarmUp(); // 预热
-
-        virtual std::string MakeInput(const std::string &history, int round, const std::string &input); // 根据历史信息和当前输入生成prompt
-
-        virtual std::string MakeHistory(const std::string &history, int round, const std::string &input, const std::string &output); // 根据当前回复更新history
-
     private:
         float embed_scale = 1.f;