feat: add model event

namchuai · namchuai · commit b48efb0d14d7 · 2024-06-17T09:20:19.000+07:00
diff --git a/cortex-js/src/app.module.ts b/cortex-js/src/app.module.ts
@@ -17,7 +17,6 @@ import { AppLoggerMiddleware } from './infrastructure/middlewares/app.logger.mid
 import { EventEmitterModule } from '@nestjs/event-emitter';
 import { DownloadManagerModule } from './download-manager/download-manager.module';
 import { EventsController } from './infrastructure/controllers/events.controller';
-import { AppController } from './infrastructure/controllers/app.controller';
 import { AssistantsController } from './infrastructure/controllers/assistants.controller';
 import { ChatController } from './infrastructure/controllers/chat.controller';
 import { EmbeddingsController } from './infrastructure/controllers/embeddings.controller';
@@ -49,7 +48,7 @@ import { ProcessController } from './infrastructure/controllers/process.controll
     DownloadManagerModule,
   ],
   controllers: [
-    AppController,
+    EventsController,
     AssistantsController,
     ChatController,
     EmbeddingsController,
diff --git a/cortex-js/src/domain/models/model.event.ts b/cortex-js/src/domain/models/model.event.ts
@@ -0,0 +1,35 @@
+export type ModelId = string;
+
+const ModelLoadingEvents = [
+  'starting',
+  'stopping',
+  'started',
+  'stopped',
+  'starting-failed',
+  'stopping-failed',
+] as const;
+export type ModelLoadingEvent = (typeof ModelLoadingEvents)[number];
+
+const AllModelStates = ['starting', 'stopping', 'started'] as const;
+export type ModelState = (typeof AllModelStates)[number];
+
+export interface ModelStatus {
+  model: ModelId;
+  status: ModelState;
+  metadata: Record<string, unknown>;
+}
+
+export interface ModelEvent {
+  model: ModelId;
+  event: ModelLoadingEvent;
+  metadata: Record<string, unknown>;
+}
+
+export const EmptyModelEvent = {};
+
+export interface ModelStatusAndEvent {
+  data: {
+    status: Record<ModelId, ModelStatus>;
+    event: ModelEvent | typeof EmptyModelEvent;
+  };
+}
diff --git a/cortex-js/src/infrastructure/controllers/events.controller.ts b/cortex-js/src/infrastructure/controllers/events.controller.ts
@@ -2,21 +2,40 @@ import {
   DownloadState,
   DownloadStateEvent,
 } from '@/domain/models/download.interface';
+import {
+  EmptyModelEvent,
+  ModelEvent,
+  ModelId,
+  ModelStatus,
+  ModelStatusAndEvent,
+} from '@/domain/models/model.event';
 import { DownloadManagerService } from '@/download-manager/download-manager.service';
+import { ModelsUsecases } from '@/usecases/models/models.usecases';
 import { Controller, Sse } from '@nestjs/common';
 import { EventEmitter2 } from '@nestjs/event-emitter';
-import { Observable, fromEvent, map, merge, of, throttleTime } from 'rxjs';
+import { ApiTags } from '@nestjs/swagger';
+import {
+  Observable,
+  combineLatest,
+  fromEvent,
+  map,
+  merge,
+  of,
+  startWith,
+  throttleTime,
+} from 'rxjs';
 
+@ApiTags('Events')
 @Controller('events')
 export class EventsController {
   constructor(
     private readonly downloadManagerService: DownloadManagerService,
+    private readonly modelsUsecases: ModelsUsecases,
     private readonly eventEmitter: EventEmitter2,
   ) {}
 
   @Sse('download')
   downloadEvent(): Observable<DownloadStateEvent> {
-    // Welcome message Observable
     const latestDownloadState$: Observable<DownloadStateEvent> = of({
       data: this.downloadManagerService.getDownloadStates(),
     });
@@ -40,4 +59,20 @@ export class EventsController {
       downloadAbortEvent$,
     ).pipe();
   }
+
+  @Sse('model')
+  modelEvent(): Observable<ModelStatusAndEvent> {
+    const latestModelStatus$: Observable<Record<ModelId, ModelStatus>> = of(
+      this.modelsUsecases.getModelStatuses(),
+    );
+
+    const modelEvent$ = fromEvent<ModelEvent>(
+      this.eventEmitter,
+      'model.event',
+    ).pipe(startWith(EmptyModelEvent));
+
+    return combineLatest([latestModelStatus$, modelEvent$]).pipe(
+      map(([status, event]) => ({ data: { status, event } })),
+    );
+  }
 }
diff --git a/cortex-js/src/infrastructure/dtos/assistants/model-setting.dto.ts b/cortex-js/src/infrastructure/dtos/assistants/model-setting.dto.ts
@@ -0,0 +1,208 @@
+import { ApiProperty } from '@nestjs/swagger';
+import { IsArray, IsOptional } from 'class-validator';
+
+export class ModelSettingDto {
+  @ApiProperty({
+    type: 'number',
+    minimum: 0,
+    maximum: 1,
+    required: false,
+    default: 1,
+    description: `What sampling temperature to use, between 0 and 2. Higher values like 0.8 will make the output more random, while lower values like 0.2 will make it more focused and deterministic.`,
+  })
+  temperature: number;
+
+  @ApiProperty({
+    type: 'number',
+    minimum: 0,
+    maximum: 1,
+    required: false,
+    default: 1,
+    description: `An alternative to sampling with temperature, called nucleus sampling, where the model considers the results of the tokens with top_p probability mass. So 0.1 means only the tokens comprising the top 10% probability mass are considered.\nWe generally recommend altering this or temperature but not both.`,
+  })
+  top_p: number;
+
+  @ApiProperty({
+    required: false,
+    example: '',
+    description: 'GGUF metadata: tokenizer.chat_template',
+  })
+  prompt_template?: string;
+
+  @ApiProperty({
+    required: false,
+    example: [],
+    description:
+      'Defines specific tokens or phrases at which the model will stop generating further output.',
+    default: [],
+  })
+  @IsArray()
+  @IsOptional()
+  stop?: string[];
+
+  @ApiProperty({
+    required: false,
+    type: 'number',
+    example: 0,
+    description:
+      'Adjusts the likelihood of the model repeating words or phrases in its output.',
+  })
+  frequency_penalty?: number;
+
+  @ApiProperty({
+    required: false,
+    type: 'number',
+    example: 0,
+    description:
+      'Influences the generation of new and varied concepts in the model’s output.',
+  })
+  presence_penalty?: number;
+
+  @ApiProperty({
+    required: false,
+    type: 'number',
+    example: 4096,
+    default: 4096,
+    description:
+      'The context length for model operations varies; the maximum depends on the specific model used.',
+  })
+  ctx_len?: number;
+
+  @ApiProperty({
+    required: false,
+    type: 'boolean',
+    example: true,
+    default: true,
+    description: 'Enable real-time data processing for faster predictions.',
+  })
+  stream?: boolean;
+
+  @ApiProperty({
+    required: false,
+    type: 'number',
+    example: 2048,
+    default: 2048,
+    description:
+      'The maximum number of tokens the model will generate in a single response.',
+  })
+  max_tokens?: number;
+
+  @ApiProperty({
+    required: false,
+    type: 'number',
+    example: 1,
+    default: 1,
+    description: 'The number of layers to load onto the GPU for acceleration.',
+  })
+  ngl?: number;
+
+  @ApiProperty({
+    required: false,
+    type: 'number',
+    example: 1,
+    default: 1,
+    description: 'Number of parallel sequences to decode',
+  })
+  n_parallel?: number;
+
+  @ApiProperty({
+    required: false,
+    type: 'number',
+    example: 1,
+    default: 1,
+    description:
+      'Determines CPU inference threads, limited by hardware and OS. (Maximum determined by system)',
+  })
+  cpu_threads?: number;
+
+  @ApiProperty({
+    required: false,
+    type: 'string',
+    example: '',
+    default: '',
+    description: 'The prompt to use for internal configuration',
+  })
+  pre_prompt?: string;
+
+  @ApiProperty({
+    required: false,
+    type: 'number',
+    example: 0,
+    default: 0,
+    description: 'The batch size for prompt eval step',
+  })
+  n_batch?: number;
+
+  @ApiProperty({
+    required: false,
+    type: 'boolean',
+    example: true,
+    default: true,
+    description: 'To enable prompt caching or not',
+  })
+  caching_enabled?: boolean;
+
+  @ApiProperty({
+    required: false,
+    type: 'number',
+    example: 0,
+    default: 0,
+    description: 'Group attention factor in self-extend',
+  })
+  grp_attn_n?: number;
+
+  @ApiProperty({
+    required: false,
+    type: 'number',
+    example: 0,
+    default: 0,
+    description: 'Group attention width in self-extend',
+  })
+  grp_attn_w?: number;
+
+  @ApiProperty({
+    required: false,
+    type: 'boolean',
+    example: false,
+    default: false,
+    description: 'Prevent system swapping of the model to disk in macOS',
+  })
+  mlock?: boolean;
+
+  @ApiProperty({
+    required: false,
+    type: 'string',
+    example: '',
+    default: '',
+    description:
+      'You can constrain the sampling using GBNF grammars by providing path to a grammar file',
+  })
+  grammar_file?: string;
+
+  @ApiProperty({
+    required: false,
+    type: 'boolean',
+    example: true,
+    default: true,
+    description: 'To enable Flash Attention, default is true',
+  })
+  flash_attn?: boolean;
+
+  @ApiProperty({
+    required: false,
+    type: 'string',
+    example: '',
+    default: '',
+    description: 'KV cache type: f16, q8_0, q4_0, default is f16',
+  })
+  cache_type?: string;
+
+  @ApiProperty({
+    required: false,
+    type: 'boolean',
+    example: true,
+    default: true,
+    description: 'To enable mmap, default is true',
+  })
+  use_mmap?: boolean;
+}
diff --git a/cortex-js/src/usecases/models/models.usecases.ts b/cortex-js/src/usecases/models/models.usecases.ts