feat: pull model yaml from hf

namchuai · namchuai · commit 6151fea86d51 · 2024-05-24T13:55:42.000+07:00
diff --git a/cortex-js/package.json b/cortex-js/package.json
@@ -26,6 +26,7 @@
   },
   "dependencies": {
     "@huggingface/gguf": "^0.1.5",
+    "@huggingface/hub": "^0.15.1",
     "@nestjs/axios": "^3.0.2",
     "@nestjs/common": "^10.0.0",
     "@nestjs/config": "^3.2.2",
@@ -47,7 +48,8 @@
     "sqlite": "^5.1.1",
     "sqlite3": "^5.1.7",
     "typeorm": "^0.3.20",
-    "ulid": "^2.3.0"
+    "ulid": "^2.3.0",
+    "yaml": "^2.4.2"
   },
   "devDependencies": {
     "@nestjs/cli": "^10.0.0",
diff --git a/cortex-js/src/infrastructure/commanders/models/model-pull.command.ts b/cortex-js/src/infrastructure/commanders/models/model-pull.command.ts
@@ -1,25 +1,127 @@
-import { CommandRunner, SubCommand } from 'nest-commander';
+import { CommandRunner, InquirerService, SubCommand } from 'nest-commander';
 import { exit } from 'node:process';
 import { ModelsCliUsecases } from '../usecases/models.cli.usecases';
+import { RepoDesignation, listFiles } from '@huggingface/hub';
+import YAML from 'yaml';
+import { basename } from 'node:path';
 
 @SubCommand({
   name: 'pull',
   aliases: ['download'],
   description: 'Download a model. Working with HuggingFace model id.',
 })
 export class ModelPullCommand extends CommandRunner {
-  constructor(private readonly modelsCliUsecases: ModelsCliUsecases) {
+  private metadataFileName = 'metadata.yaml';
+  private janHqModelPrefix = 'janhq';
+
+  constructor(
+    private readonly inquirerService: InquirerService,
+    private readonly modelsCliUsecases: ModelsCliUsecases,
+  ) {
     super();
   }
 
   async run(input: string[]) {
     if (input.length < 1) {
-      console.error('Model ID is required');
+      console.error('Model Id is required');
       exit(1);
     }
 
-    await this.modelsCliUsecases.pullModel(input[0]);
+    // Check if metadata.yaml file exist
+    const metadata = await this.getJanMetadata(input[0]);
+
+    if (!metadata) {
+      await this.modelsCliUsecases.pullModel(input[0]);
+    } else {
+      // if there's metadata.yaml file, we assumed it's a JanHQ model
+      await this.handleJanHqModel(input[0], metadata);
+    }
+
     console.log('\nDownload complete!');
     exit(0);
   }
+
+  private async getJanMetadata(input: string): Promise<any> {
+    // try to append with janhq/ if it's not already
+    const sanitizedInput = input.trim().startsWith(this.janHqModelPrefix)
+      ? input
+      : `${this.janHqModelPrefix}/${input}`;
+
+    const repo: RepoDesignation = { type: 'model', name: sanitizedInput };
+    let isMetadataFileExist = false;
+    for await (const fileInfo of listFiles({ repo })) {
+      if (fileInfo.path === this.metadataFileName) {
+        isMetadataFileExist = true;
+        break;
+      }
+    }
+
+    if (!isMetadataFileExist) {
+      return undefined;
+    }
+
+    const path = `https://huggingface.co/${sanitizedInput}/raw/main/${this.metadataFileName}`;
+    const res = await fetch(path);
+    const metadataJson = await res.text();
+    return YAML.parse(metadataJson);
+  }
+
+  private async versionInquiry(tags: string[]): Promise<string> {
+    const { tag } = await this.inquirerService.inquirer.prompt({
+      type: 'list',
+      name: 'tag',
+      message: 'Select version',
+      choices: tags,
+    });
+
+    return tag;
+  }
+
+  private async handleJanHqModel(repoName: string, metadata: any) {
+    const sanitizedRepoName = repoName.trim().startsWith(this.janHqModelPrefix)
+      ? repoName
+      : `${this.janHqModelPrefix}/${repoName}`;
+
+    const tags = metadata.tags;
+    let selectedTag = 'default';
+    const allTags: string[] = Object.keys(tags);
+
+    if (allTags.length > 1) {
+      selectedTag = await this.versionInquiry(allTags);
+    }
+
+    const branch = selectedTag;
+    const engine = 'llamacpp'; // TODO: currently, we only support llamacpp
+
+    const revision = metadata.tags?.[branch]?.[engine];
+    if (!revision) {
+      console.error("Can't find model revision.");
+      exit(1);
+    }
+
+    const repo: RepoDesignation = { type: 'model', name: sanitizedRepoName };
+    let ggufUrl: string | undefined = undefined;
+    let fileSize = 0;
+    for await (const fileInfo of listFiles({
+      repo: repo,
+      revision: revision,
+    })) {
+      if (fileInfo.path.endsWith('.gguf')) {
+        ggufUrl = `https://huggingface.co/${sanitizedRepoName}/resolve/${revision}/${fileInfo.path}`;
+        fileSize = fileInfo.size;
+        break;
+      }
+    }
+
+    if (!ggufUrl) {
+      console.error("Can't find model file.");
+      exit(1);
+    }
+    console.log('Downloading', basename(ggufUrl));
+    await this.modelsCliUsecases.pullModelWithExactUrl(
+      `${sanitizedRepoName}/${revision}`,
+      ggufUrl,
+      fileSize,
+    );
+  }
 }
diff --git a/cortex-js/src/infrastructure/commanders/types/model-tokenizer.interface.ts b/cortex-js/src/infrastructure/commanders/types/model-tokenizer.interface.ts
@@ -0,0 +1,4 @@
+export interface ModelTokenizer {
+  stopWord?: string;
+  promptTemplate: string;
+}
diff --git a/cortex-js/src/infrastructure/commanders/usecases/models.cli.usecases.ts b/cortex-js/src/infrastructure/commanders/usecases/models.cli.usecases.ts
@@ -21,6 +21,7 @@ import {
   ZEPHYR,
   ZEPHYR_JINJA,
 } from '../prompt-constants';
+import { ModelTokenizer } from '../types/model-tokenizer.interface';
 
 const AllQuantizations = [
   'Q3_K_S',
@@ -139,7 +140,48 @@ export class ModelsCliUsecases {
     return this.modelsUsecases.remove(modelId);
   }
 
-  /**
+  async pullModelWithExactUrl(modelId: string, url: string, fileSize: number) {
+    const tokenizer = await this.getHFModelTokenizer(url);
+    const promptTemplate = tokenizer?.promptTemplate ?? LLAMA_2;
+    const stopWords: string[] = [tokenizer?.stopWord ?? ''];
+
+    const model: CreateModelDto = {
+      sources: [
+        {
+          url: url,
+        },
+      ],
+      id: modelId,
+      name: modelId,
+      version: '',
+      format: ModelFormat.GGUF,
+      description: '',
+      settings: {
+        prompt_template: promptTemplate,
+      },
+      parameters: {
+        stop: stopWords,
+      },
+      metadata: {
+        author: 'janhq',
+        size: fileSize,
+        tags: [],
+      },
+      engine: 'cortex',
+    };
+    if (!(await this.modelsUsecases.findOne(modelId))) {
+      await this.modelsUsecases.create(model);
+    }
+
+    const bar = new SingleBar({}, Presets.shades_classic);
+    bar.start(100, 0);
+    const callback = (progress: number) => {
+      bar.update(progress);
+    };
+    await this.modelsUsecases.downloadModel(modelId, callback);
+  }
+
+    /**
    * Pull model from Model repository (HF, Jan...)
    * @param modelId
    */
@@ -155,6 +197,30 @@ export class ModelsCliUsecases {
     await this.modelsUsecases.downloadModel(modelId, callback);
   }
 
+  private async getHFModelTokenizer(
+    ggufUrl: string,
+  ): Promise<ModelTokenizer | undefined> {
+    try {
+      const { metadata } = await gguf(ggufUrl);
+      // @ts-expect-error "tokenizer.ggml.eos_token_id"
+      const index = metadata['tokenizer.ggml.eos_token_id'];
+      // @ts-expect-error "tokenizer.ggml.eos_token_id"
+      const hfChatTemplate = metadata['tokenizer.chat_template'];
+      const promptTemplate =
+        this.guessPromptTemplateFromHuggingFace(hfChatTemplate);
+      // @ts-expect-error "tokenizer.ggml.tokens"
+      const stopWord: string = metadata['tokenizer.ggml.tokens'][index] ?? '';
+
+      return {
+        stopWord,
+        promptTemplate,
+      };
+    } catch (err) {
+      console.log('Failed to get model metadata:', err);
+      return undefined;
+    }
+  }
+
   //// PRIVATE METHODS ////
 
   /**
@@ -193,26 +259,10 @@ export class ModelsCliUsecases {
       sibling = data.siblings.find((e) => e.rfilename.includes('.gguf'));
     }
     if (!sibling) throw 'No expected quantization found';
+    const tokenizer = await this.getHFModelTokenizer(sibling.downloadUrl!);
 
-    let stopWord = '';
-    let promptTemplate = LLAMA_2;
-
-    try {
-      const { metadata } = await gguf(sibling.downloadUrl!);
-      // @ts-expect-error "tokenizer.ggml.eos_token_id"
-      const index = metadata['tokenizer.ggml.eos_token_id'];
-      // @ts-expect-error "tokenizer.ggml.eos_token_id"
-      const hfChatTemplate = metadata['tokenizer.chat_template'];
-      promptTemplate = this.guessPromptTemplateFromHuggingFace(hfChatTemplate);
-
-      // @ts-expect-error "tokenizer.ggml.tokens"
-      stopWord = metadata['tokenizer.ggml.tokens'][index] ?? '';
-    } catch (err) {}
-
-    const stopWords: string[] = [];
-    if (stopWord.length > 0) {
-      stopWords.push(stopWord);
-    }
+    const promptTemplate = tokenizer?.promptTemplate ?? LLAMA_2;
+    const stopWords: string[] = [tokenizer?.stopWord ?? ''];
 
     const model: CreateModelDto = {
       sources: [