feat(opentrons-ai-server): change model to claude 4 sonnet (#18423)

Elyorcv · web-flow · commit cb74210818b9 · 2025-05-23T21:51:09.000+01:00
# Overview Closes AUTH-1915 This PR changes the model to Claude-4-sonnet which is the latest model as of 22 May, 2025 ## Test Plan and Hands on Testing CI ## Review requests Create a test protocol ## Risk assessment Mid
diff --git a/opentrons-ai-server/api/domain/anthropic_predict.py b/opentrons-ai-server/api/domain/anthropic_predict.py
@@ -15,7 +15,9 @@
 from api.domain.config_pd import DOCUMENTS_PD, PROMPT_PD, SYSTEM_PROMPT_PD
 from api.settings import Settings
 
-weave.init("opentronsai/OpentronsAI-Phase-march-25")
+MessageType = Literal["create", "update"]
+
+weave.init("opentronsai/OpentronsAI-Phase-May-23-25")
 settings: Settings = Settings()
 logger = structlog.stdlib.get_logger(settings.logger_name)
 ROOT_PATH: Path = Path(Path(__file__)).parent.parent.parent
@@ -25,6 +27,7 @@
 class AnthropicPredict:
     def __init__(self, settings: Settings) -> None:
         self.settings: Settings = settings
+        self.max_tokens: int = 20000
         self.client: Anthropic = Anthropic(api_key=settings.anthropic_api_key.get_secret_value())
         self.model_name: str = settings.anthropic_model_name
         self.model_helper: str = settings.model_helper
@@ -176,7 +179,7 @@ def get_relevant_api_docs(self, query: str, user_id: str) -> str:
         ]
 
         response = self.client.messages.create(  # type: ignore[call-overload]
-            max_tokens=2048,
+            max_tokens=4096,
             temperature=0.0,
             messages=msg,
             model=self.model_helper,
@@ -188,16 +191,14 @@ def get_relevant_api_docs(self, query: str, user_id: str) -> str:
         return response.content[0].text  # type: ignore[no-any-return]
 
     @tracer.wrap()
-    def _process_message(
-        self, user_id: str, messages: List[MessageParam], message_type: Literal["create", "update"], max_tokens: int = 4096
-    ) -> Message:
+    def _process_message(self, user_id: str, messages: List[MessageParam], message_type: MessageType) -> Message:
         """
         Internal method to handle message processing with different system prompts.
         For now, system prompt is the same.
         """
 
         response: Message = self.client.messages.create(  # type: ignore[call-overload]
-            max_tokens=max_tokens,
+            max_tokens=self.max_tokens,
             messages=messages,
             model=self.model_name,
             system=self.system_prompt,
@@ -219,7 +220,7 @@ def _process_message(
 
     @tracer.wrap()
     def process_message(
-        self, user_id: str, prompt: str, history: List[MessageParam] | None = None, message_type: Literal["create", "update"] = "create"
+        self, user_id: str, prompt: str, history: List[MessageParam] | None = None, message_type: MessageType = "create"
     ) -> str | None:
         """Unified method for creating and updating messages"""
         try:
@@ -269,7 +270,7 @@ def process_message(
 
     @tracer.wrap()
     def process_message_pd(
-        self, user_id: str, prompt: str, history: List[MessageParam] | None = None, message_type: Literal["create", "update"] = "create"
+        self, user_id: str, prompt: str, history: List[MessageParam] | None = None, message_type: MessageType = "create"
     ) -> str | None:
         """return a partial json protocol"""
         try:
@@ -281,7 +282,7 @@ def process_message_pd(
             messages.append({"role": "user", "content": self.PROMPT_PD.format(USER_PROMPT=prompt)})
 
             response: Message = self.client.messages.create(
-                max_tokens=20000,
+                max_tokens=self.max_tokens,
                 messages=messages,
                 model=self.model_name,
                 system=cast(Iterable[TextBlockParam], self.system_prompt_pd),
diff --git a/opentrons-ai-server/api/settings.py b/opentrons-ai-server/api/settings.py
@@ -28,7 +28,7 @@ class Settings(BaseSettings):
     log_level: str = "info"
     service_name: str = "local-ai-api"
     openai_model_name: str = "gpt-4-1106-preview"
-    anthropic_model_name: str = "claude-3-7-sonnet-20250219"
+    anthropic_model_name: str = "claude-sonnet-4-20250514"
     model_helper: str = "claude-3-5-haiku-20241022"
     model: str = "claude"
     auth0_domain: str = "opentrons-dev.us.auth0.com"