microsoft · tongyu0924 · Mar 21, 2025 · Mar 21, 2025 · Mar 21, 2025 · Mar 21, 2025
diff --git a/python/packages/autogen-core/src/autogen_core/models/_types.py b/python/packages/autogen-core/src/autogen_core/models/_types.py
@@ -125,3 +125,6 @@ class CreateResult(BaseModel):
     thought: Optional[str] = None
     """The reasoning text for the completion if available. Used for reasoning models
     and additional text content besides function calls."""
+
+    request_id: Optional[str] = None  
+    """The ID of the model API request, used for tracking model usage."""
diff --git a/...src/autogen_ext/experimental/task_centric_memory/utils/chat_completion_client_recorder.py b/...src/autogen_ext/experimental/task_centric_memory/utils/chat_completion_client_recorder.py
@@ -142,6 +142,7 @@ async def create(
                 finish_reason=data.get("finish_reason", "stop"),
                 usage=data.get("usage", RequestUsage(prompt_tokens=0, completion_tokens=0)),
                 cached=True,
+                request_id=data.get("request_id", None),
             )
             return result
 

diff --git a/python/packages/autogen-ext/src/autogen_ext/models/anthropic/_anthropic_client.py b/python/packages/autogen-ext/src/autogen_ext/models/anthropic/_anthropic_client.py
@@ -557,6 +557,7 @@ async def create(
             usage=usage,
             cached=False,
             thought=thought,
+            request_id=getattr(result, "request_id", None),
         )
 
         # Update usage statistics
@@ -775,6 +776,7 @@ async def create_stream(
             usage=usage,
             cached=False,
             thought=thought,
+            request_id=getattr(result, "request_id", None),
         )
 
         # Emit the end event.

diff --git a/python/packages/autogen-ext/src/autogen_ext/models/azure/_azure_ai_client.py b/python/packages/autogen-ext/src/autogen_ext/models/azure/_azure_ai_client.py
@@ -438,6 +438,7 @@ async def create(
             usage=usage,
             cached=False,
             thought=thought,
+            request_id=getattr(result, "request_id", None),
         )
 
         self.add_usage(usage)
@@ -561,6 +562,7 @@ async def create_stream(
             usage=usage,
             cached=False,
             thought=thought,
+            request_id=getattr(result, "request_id", None),
         )
 
         # Log the end of the stream.
@@ -606,3 +608,4 @@ def __del__(self) -> None:
                 asyncio.get_running_loop().create_task(self._client.close())
             except RuntimeError:
                 asyncio.run(self._client.close())
+
diff --git a/python/packages/autogen-ext/src/autogen_ext/models/llama_cpp/_llama_cpp_completion_client.py b/python/packages/autogen-ext/src/autogen_ext/models/llama_cpp/_llama_cpp_completion_client.py
@@ -357,7 +357,7 @@ async def create(
         if not response_tool_calls and not response_text:
             logger.debug("DEBUG: No response text found. Returning empty response.")
             return CreateResult(
-                content="", usage=RequestUsage(prompt_tokens=0, completion_tokens=0), finish_reason="stop", cached=False
+                content="", usage=RequestUsage(prompt_tokens=0, completion_tokens=0), finish_reason="stop", cached=False, request_id=response.get("request_id", None),
             )
 
         # Create a CreateResult object
@@ -373,6 +373,7 @@ async def create(
             usage=cast(RequestUsage, response["usage"]),
             finish_reason=normalize_stop_reason(finish_reason),  # type: ignore
             cached=False,
+            request_id=response.get("request_id", None),
         )
 
         # If we are running in the context of a handler we can get the agent_id

diff --git a/python/packages/autogen-ext/src/autogen_ext/models/ollama/_ollama_client.py b/python/packages/autogen-ext/src/autogen_ext/models/ollama/_ollama_client.py
@@ -602,6 +602,7 @@ async def create(
             usage=usage,
             cached=False,
             logprobs=None,
+            request_id=response.get("request_id", None),
         )
 
         self._total_usage = _add_usage(self._total_usage, usage)
@@ -737,6 +738,7 @@ async def create_stream(
             usage=usage,
             cached=False,
             logprobs=None,
+            request_id=chunk.get("request_id", None),
         )
 
         # Emit the end event.

diff --git a/python/packages/autogen-ext/src/autogen_ext/models/replay/_replay_chat_completion_client.py b/python/packages/autogen-ext/src/autogen_ext/models/replay/_replay_chat_completion_client.py
@@ -171,12 +171,13 @@ async def create(
             raise ValueError("No more mock responses available")
 
         response = self.chat_completions[self._current_index]
+        request_id = response.get("request_id", None) if isinstance(response, dict) else None
         _, prompt_token_count = self._tokenize(messages)
         if isinstance(response, str):
             _, output_token_count = self._tokenize(response)
             self._cur_usage = RequestUsage(prompt_tokens=prompt_token_count, completion_tokens=output_token_count)
             response = CreateResult(
-                finish_reason="stop", content=response, usage=self._cur_usage, cached=self._cached_bool_value
+                finish_reason="stop", content=response, usage=self._cur_usage, cached=self._cached_bool_value, request_id=request_id,
             )
         else:
             self._cur_usage = RequestUsage(
@@ -210,7 +211,9 @@ async def create_stream(
             raise ValueError("No more mock responses available")
 
         response = self.chat_completions[self._current_index]
+        request_id = response.get("request_id", None) if isinstance(response, dict) else None
         _, prompt_token_count = self._tokenize(messages)
+
         if isinstance(response, str):
             output_tokens, output_token_count = self._tokenize(response)
             self._cur_usage = RequestUsage(prompt_tokens=prompt_token_count, completion_tokens=output_token_count)
@@ -221,7 +224,7 @@ async def create_stream(
                 else:
                     yield token
             yield CreateResult(
-                finish_reason="stop", content=response, usage=self._cur_usage, cached=self._cached_bool_value
+                finish_reason="stop", content=response, usage=self._cur_usage, cached=self._cached_bool_value, request_id=request_id,
             )
             self._update_total_usage()
         else:
@@ -310,3 +313,4 @@ def _from_config(cls, config: ReplayChatCompletionClientConfig) -> Self:
             chat_completions=config.chat_completions,
             model_info=config.model_info,
         )
+
diff --git a/...ackages/autogen-ext/src/autogen_ext/models/semantic_kernel/_sk_chat_completion_adapter.py b/...ackages/autogen-ext/src/autogen_ext/models/semantic_kernel/_sk_chat_completion_adapter.py
@@ -514,13 +514,18 @@ async def create(
             thought, content = parse_r1_content(content)
         else:
             thought = None
+
+        request_id = None
+        if result and hasattr(result[0], "metadata") and isinstance(result[0].metadata, dict):
+            request_id = result[0].metadata.get("request_id")
 
         return CreateResult(
             content=content,
             finish_reason=finish_reason,
             usage=RequestUsage(prompt_tokens=prompt_tokens, completion_tokens=completion_tokens),
             cached=False,
             thought=thought,
+            request_id=request_id,
         )
 
     @staticmethod
@@ -671,11 +676,16 @@ async def create_stream(
                             )
                         )
                     # Yield all function calls in progress
+                    request_id = None
+                    if result and hasattr(result[0], "metadata") and isinstance(result[0].metadata, dict):
+                        request_id = result[0].metadata.get("request_id")
+
                     yield CreateResult(
                         content=calls_to_yield,
                         finish_reason="function_calls",
                         usage=RequestUsage(prompt_tokens=prompt_tokens, completion_tokens=completion_tokens),
                         cached=False,
+                        request_id=request_id,
                     )
                     return
 
@@ -691,13 +701,18 @@ async def create_stream(
         thought = None
         if isinstance(accumulated_text, str) and self._model_info["family"] == ModelFamily.R1:
             thought, accumulated_text = parse_r1_content(accumulated_text)
+
+        request_id = None
+        if result and hasattr(result[0], "metadata") and isinstance(result[0].metadata, dict):
+            request_id = result[0].metadata.get("request_id")
 
         result = CreateResult(
             content=accumulated_text,
             finish_reason="stop",
             usage=RequestUsage(prompt_tokens=prompt_tokens, completion_tokens=completion_tokens),
             cached=False,
             thought=thought,
+            request_id=request_id,
         )
 
         # Emit the end event.