vllm-project · aitsvet · Oct 13, 2025 · Oct 13, 2025 · gemini-code-assist · Oct 13, 2025
@@ -5,6 +5,7 @@
 
 import torch
 
+from vllm import envs
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
 from vllm.pooling_params import PoolingParams
@@ -34,17 +35,36 @@ def log_inputs(
             if prompt_token_ids is not None:
                 prompt_token_ids = prompt_token_ids[:max_log_len]
 
+        if not envs.VLLM_DEBUG_LOG_API_SERVER_REQUEST_PROMPT:
+            # Original logging behavior
+            logger.info(
+                "Received request %s: prompt: %r, "
+                "params: %s, prompt_token_ids: %s, "
+                "prompt_embeds shape: %s, "
+                "lora_request: %s.",
+                request_id,
+                prompt,
+                params,
+                prompt_token_ids,
+                prompt_embeds.shape if prompt_embeds is not None else None,
+                lora_request,
+            )
+            return
+
+        # Split logging: basic info at INFO level, prompt details at DEBUG level
         logger.info(
-            "Received request %s: prompt: %r, "
-            "params: %s, prompt_token_ids: %s, "
-            "prompt_embeds shape: %s, "
-            "lora_request: %s.",
+            "Received request %s: params: %s, lora_request: %s.",
             request_id,
-            prompt,
             params,
+            lora_request,
+        )
+        logger.debug(
+            "Request %s prompt details: prompt: %r, prompt_token_ids: %s, "
+            "prompt_embeds shape: %s",
+            request_id,
+            prompt,
             prompt_token_ids,
             prompt_embeds.shape if prompt_embeds is not None else None,
-            lora_request,
         )
 
     def log_outputs(

diff --git a/vllm/envs.py b/vllm/envs.py
@@ -24,6 +24,7 @@
     CUDA_VISIBLE_DEVICES: str | None = None
     VLLM_ENGINE_ITERATION_TIMEOUT_S: int = 60
     VLLM_API_KEY: str | None = None
+    VLLM_DEBUG_LOG_API_SERVER_REQUEST_PROMPT: bool = False
     S3_ACCESS_KEY_ID: str | None = None
     S3_SECRET_ACCESS_KEY: str | None = None
     S3_ENDPOINT_URL: str | None = None
@@ -528,6 +529,13 @@ def get_vllm_port() -> int | None:
         "VLLM_DEBUG_LOG_API_SERVER_RESPONSE", "False"
     ).lower()
     == "true",
+    # Whether to enable debug logging for API server request prompts
+    # When enabled, splits request logging: basic info at INFO level,
+    # prompt details (prompt, prompt_token_ids, prompt_embeds) at DEBUG level
+    "VLLM_DEBUG_LOG_API_SERVER_REQUEST_PROMPT": lambda: os.environ.get(
+        "VLLM_DEBUG_LOG_API_SERVER_REQUEST_PROMPT", "False"
+    ).lower()
+    == "true",
     # S3 access information, used for tensorizer to load model from S3
     "S3_ACCESS_KEY_ID": lambda: os.environ.get("S3_ACCESS_KEY_ID", None),
     "S3_SECRET_ACCESS_KEY": lambda: os.environ.get("S3_SECRET_ACCESS_KEY", None),