moreh-dev · hhk7734 · Feb 3, 2026 · Feb 3, 2026 · Feb 3, 2026
@@ -31,6 +31,6 @@ spec:
         moai.moreh.io/accelerator.vendor: amd
         moai.moreh.io/accelerator.model: mi250
       tolerations:
-        - key: "amd.com/gpu"
-          operator: "Exists"
-          effect: "NoSchedule"
+        - key: amd.com/gpu
+          operator: Exists
+          effect: NoSchedule
@@ -31,6 +31,6 @@ spec:
         moai.moreh.io/accelerator.vendor: amd
         moai.moreh.io/accelerator.model: mi300x
       tolerations:
-        - key: "amd.com/gpu"
-          operator: "Exists"
-          effect: "NoSchedule"
+        - key: amd.com/gpu
+          operator: Exists
+          effect: NoSchedule
@@ -32,6 +32,6 @@ spec:
         moai.moreh.io/accelerator.vendor: amd
         moai.moreh.io/accelerator.model: mi250
       tolerations:
-        - key: "amd.com/gpu"
-          operator: "Exists"
-          effect: "NoSchedule"
+        - key: amd.com/gpu
+          operator: Exists
+          effect: NoSchedule
@@ -32,6 +32,6 @@ spec:
         moai.moreh.io/accelerator.vendor: amd
         moai.moreh.io/accelerator.model: mi300x
       tolerations:
-        - key: "amd.com/gpu"
-          operator: "Exists"
-          effect: "NoSchedule"
+        - key: amd.com/gpu
+          operator: Exists
+          effect: NoSchedule
@@ -32,6 +32,6 @@ spec:
         moai.moreh.io/accelerator.vendor: amd
         moai.moreh.io/accelerator.model: mi250
       tolerations:
-        - key: "amd.com/gpu"
-          operator: "Exists"
-          effect: "NoSchedule"
+        - key: amd.com/gpu
+          operator: Exists
+          effect: NoSchedule
@@ -32,6 +32,6 @@ spec:
         moai.moreh.io/accelerator.vendor: amd
         moai.moreh.io/accelerator.model: mi300x
       tolerations:
-        - key: "amd.com/gpu"
-          operator: "Exists"
-          effect: "NoSchedule"
+        - key: amd.com/gpu
+          operator: Exists
+          effect: NoSchedule
@@ -0,0 +1,36 @@
+apiVersion: odin.moreh.io/v1alpha1
+kind: InferenceServiceTemplate
+metadata:
+  name: quickstart-vllm-qwen-qwen3-1.7b-amd-mi250-tp2
+  namespace: {{ include "common.names.namespace" . }}
+  labels:
+    {{- include "mif.preset.labels" . | nindent 4 }}
+spec:
+  parallelism:
+    tensor: 2
+  template:
+    spec:
+      containers:
+        - name: main
+          image: 255250787067.dkr.ecr.ap-northeast-2.amazonaws.com/quickstart/moreh-vllm:20250915.1
+          env:
+            - name: ISVC_MODEL_NAME
+              value: Qwen/Qwen3-1.7B
+            - name: ISVC_EXTRA_ARGS
+              value: >-
+                --disable-uvicorn-access-log
+                --no-enable-log-requests
+                --max-model-len 16384
+                --max-num-batched-tokens 8192
+          resources:
+            requests:
+              amd.com/gpu: 2
+            limits:
+              amd.com/gpu: 2
+      nodeSelector:
+        moai.moreh.io/accelerator.vendor: amd
+        moai.moreh.io/accelerator.model: mi250
+      tolerations:
+        - key: amd.com/gpu
+          operator: Exists
+          effect: NoSchedule
@@ -0,0 +1,36 @@
+apiVersion: odin.moreh.io/v1alpha1
+kind: InferenceServiceTemplate
+metadata:
+  name: quickstart-vllm-qwen-qwen3-1.7b-amd-mi300x-tp2
+  namespace: {{ include "common.names.namespace" . }}
+  labels:
+    {{- include "mif.preset.labels" . | nindent 4 }}
+spec:
+  parallelism:
+    tensor: 2
+  template:
+    spec:
+      containers:
+        - name: main
+          image: 255250787067.dkr.ecr.ap-northeast-2.amazonaws.com/quickstart/moreh-vllm:20250915.1
+          env:
+            - name: ISVC_MODEL_NAME
+              value: Qwen/Qwen3-1.7B
+            - name: ISVC_EXTRA_ARGS
+              value: >-
+                --disable-uvicorn-access-log
+                --no-enable-log-requests
+                --max-model-len 16384
+                --max-num-batched-tokens 8192
+          resources:
+            requests:
+              amd.com/gpu: 2
+            limits:
+              amd.com/gpu: 2
+      nodeSelector:
+        moai.moreh.io/accelerator.vendor: amd
+        moai.moreh.io/accelerator.model: mi300x
+      tolerations:
+        - key: amd.com/gpu
+          operator: Exists
+          effect: NoSchedule
@@ -0,0 +1,37 @@
+apiVersion: odin.moreh.io/v1alpha1
+kind: InferenceServiceTemplate
+metadata:
+  name: quickstart-vllm-qwen-qwen3-1.7b-decode-amd-mi250-tp2
+  namespace: {{ include "common.names.namespace" . }}
+  labels:
+    {{- include "mif.preset.labels" . | nindent 4 }}
+spec:
+  parallelism:
+    tensor: 2
+  template:
+    spec:
+      containers:
+        - name: main
+          image: 255250787067.dkr.ecr.ap-northeast-2.amazonaws.com/quickstart/moreh-vllm:20250915.1
+          env:
+            - name: ISVC_MODEL_NAME
+              value: Qwen/Qwen3-1.7B
+            - name: ISVC_EXTRA_ARGS
+              value: >-
+                --disable-uvicorn-access-log
+                --no-enable-log-requests
+                --max-model-len 16384
+                --max-num-batched-tokens 8192
+                --kv-transfer-config '{"kv_connector":"NixlConnector","kv_role":"kv_consumer"}'
+          resources:
+            requests:
+              amd.com/gpu: 2
+            limits:
+              amd.com/gpu: 2
+      nodeSelector:
+        moai.moreh.io/accelerator.vendor: amd
+        moai.moreh.io/accelerator.model: mi250
+      tolerations:
+        - key: amd.com/gpu
+          operator: Exists
+          effect: NoSchedule
@@ -0,0 +1,37 @@
+apiVersion: odin.moreh.io/v1alpha1
+kind: InferenceServiceTemplate
+metadata:
+  name: quickstart-vllm-qwen-qwen3-1.7b-decode-amd-mi300x-tp2
+  namespace: {{ include "common.names.namespace" . }}
+  labels:
+    {{- include "mif.preset.labels" . | nindent 4 }}
+spec:
+  parallelism:
+    tensor: 2
+  template:
+    spec:
+      containers:
+        - name: main
+          image: 255250787067.dkr.ecr.ap-northeast-2.amazonaws.com/quickstart/moreh-vllm:20250915.1
+          env:
+            - name: ISVC_MODEL_NAME
+              value: Qwen/Qwen3-1.7B
+            - name: ISVC_EXTRA_ARGS
+              value: >-
+                --disable-uvicorn-access-log
+                --no-enable-log-requests
+                --max-model-len 16384
+                --max-num-batched-tokens 8192
+                --kv-transfer-config '{"kv_connector":"NixlConnector","kv_role":"kv_consumer"}'
+          resources:
+            requests:
+              amd.com/gpu: 2
+            limits:
+              amd.com/gpu: 2
+      nodeSelector:
+        moai.moreh.io/accelerator.vendor: amd
+        moai.moreh.io/accelerator.model: mi300x
+      tolerations:
+        - key: amd.com/gpu
+          operator: Exists
+          effect: NoSchedule
@@ -0,0 +1,37 @@
+apiVersion: odin.moreh.io/v1alpha1
+kind: InferenceServiceTemplate
+metadata:
+  name: quickstart-vllm-qwen-qwen3-1.7b-prefill-amd-mi250-tp2
+  namespace: {{ include "common.names.namespace" . }}
+  labels:
+    {{- include "mif.preset.labels" . | nindent 4 }}
+spec:
+  parallelism:
+    tensor: 2
+  template:
+    spec:
+      containers:
+        - name: main
+          image: 255250787067.dkr.ecr.ap-northeast-2.amazonaws.com/quickstart/moreh-vllm:20250915.1
+          env:
+            - name: ISVC_MODEL_NAME
+              value: Qwen/Qwen3-1.7B
+            - name: ISVC_EXTRA_ARGS
+              value: >-
+                --disable-uvicorn-access-log
+                --no-enable-log-requests
+                --max-model-len 16384
+                --max-num-batched-tokens 8192
+                --kv-transfer-config '{"kv_connector":"NixlConnector","kv_role":"kv_producer"}'
+          resources:
+            requests:
+              amd.com/gpu: 2
+            limits:
+              amd.com/gpu: 2
+      nodeSelector:
+        moai.moreh.io/accelerator.vendor: amd
+        moai.moreh.io/accelerator.model: mi250
+      tolerations:
+        - key: amd.com/gpu
+          operator: Exists
+          effect: NoSchedule
@@ -0,0 +1,37 @@
+apiVersion: odin.moreh.io/v1alpha1
+kind: InferenceServiceTemplate
+metadata:
+  name: quickstart-vllm-qwen-qwen3-1.7b-prefill-amd-mi300x-tp2
+  namespace: {{ include "common.names.namespace" . }}
+  labels:
+    {{- include "mif.preset.labels" . | nindent 4 }}
+spec:
+  parallelism:
+    tensor: 2
+  template:
+    spec:
+      containers:
+        - name: main
+          image: 255250787067.dkr.ecr.ap-northeast-2.amazonaws.com/quickstart/moreh-vllm:20250915.1
+          env:
+            - name: ISVC_MODEL_NAME
+              value: Qwen/Qwen3-1.7B
+            - name: ISVC_EXTRA_ARGS
+              value: >-
+                --disable-uvicorn-access-log
+                --no-enable-log-requests
+                --max-model-len 16384
+                --max-num-batched-tokens 8192
+                --kv-transfer-config '{"kv_connector":"NixlConnector","kv_role":"kv_producer"}'
+          resources:
+            requests:
+              amd.com/gpu: 2
+            limits:
+              amd.com/gpu: 2
+      nodeSelector:
+        moai.moreh.io/accelerator.vendor: amd
+        moai.moreh.io/accelerator.model: mi300x
+      tolerations:
+        - key: amd.com/gpu
+          operator: Exists
+          effect: NoSchedule