mlcommons · arjunsuresh · Sep 14, 2025 · Sep 13, 2025 · Sep 13, 2025 · Sep 13, 2025
@@ -8,8 +8,8 @@ def preprocess(i):
     os_info = i['os_info']
     env = i['env']
 
-    if env.get('MLC_TMP_ML_MODEL_QUANTIZE_LOCALLY', '') == 'nvidia':
-        if is_true(env.get('MLC_ML_MODEL_QUANTIZE_LOCALLY')):
+    if env.get('MLC_TMP_ML_MODEL_PROVIDER', '') == 'nvidia':
+        if is_true(env.get('MLC_TMP_ML_MODEL_QUANTIZE_LOCALLY')):
             i['run_script_input']['script_name'] = 'run-nvidia'
             gpu_arch = int(
                 float(
@@ -63,7 +63,7 @@ def postprocess(i):
 
     env = i['env']
     if env.get('MLC_DOWNLOAD_MODE', '') != "dry":
-        if is_true(env.get('MLC_ML_MODEL_QUANTIZE_LOCALLY')):
+        if is_true(env.get('MLC_TMP_ML_MODEL_QUANTIZE_LOCALLY')):
             if env.get('LLAMA2_CHECKPOINT_PATH', '') == '':
                 env['LLAMA2_CHECKPOINT_PATH'] = env['MLC_ML_MODEL_PATH']
             else:

@@ -275,6 +275,12 @@ variations:
           MLC_GIT_CHECKOUT_PATH_ENV_NAME: MLC_TENSORRT_LLM_CHECKOUT_PATH
         extra_cache_tags: tensorrt-llm
         tags: get,git,repo,_repo.https://github.com/NVIDIA/TensorRT-LLM.git,_sha.2ea17cdad28bed0f30e80eea5b1380726a7c6493,_submodules.3rdparty/NVTX;3rdparty/cutlass;3rdparty/cxxopts;3rdparty/json;3rdparty/pybind11;3rdparty/ucxx;3rdparty/xgrammar
+  pytorch,nvidia,v5.1,quantize-locally:
+    deps:
+      - env:
+          MLC_GIT_CHECKOUT_PATH_ENV_NAME: MLC_TENSORRT_LLM_CHECKOUT_PATH
+        extra_cache_tags: tensorrt-llm
+        tags: get,git,repo,_repo.https://github.com/NVIDIA/TensorRT-LLM.git,_branch.1.0-mlpinf,_sha.18c0333e96ea7a2c37caded8a310d05c5f095e88,_submodules.3rdparty/NVTX;3rdparty/cutlass;3rdparty/cxxopts;3rdparty/json;3rdparty/pybind11;3rdparty/ucxx;3rdparty/xgrammar
   pytorch,nvidia,quantize-locally:
     default_variations:
       precision: fp8
@@ -317,3 +323,5 @@ variations:
   v5.0:
     group: version
     default: true
+  v5.1:
+    group: version