From bf24fda36229a0e1940f33ca07ecb5e04049da55 Mon Sep 17 00:00:00 2001
From: Thinh <ngocthinhdp@gmail.com>
Date: Mon, 17 Nov 2025 13:41:07 +0700
Subject: [PATCH] Revert "uses gpt-5, gpt-5 mini (#3443)"

This reverts commit ed71176f21a77f636e97795dfd31e7297925222d.
---
 backend/utils/llm/clients.py       | 14 +++++++-------
 backend/utils/other/chat_file.py   |  2 +-
 backend/utils/retrieval/agentic.py |  3 +--
 backend/utils/retrieval/graph.py   |  4 ++--
 backend/utils/retrieval/safety.py  |  3 +--
 5 files changed, 12 insertions(+), 14 deletions(-)

diff --git a/backend/utils/llm/clients.py b/backend/utils/llm/clients.py
index e02af471a0f..4947925db55 100644
--- a/backend/utils/llm/clients.py
+++ b/backend/utils/llm/clients.py
@@ -9,19 +9,19 @@
 
 
 # Base models for general use
-llm_mini = ChatOpenAI(model='gpt-5-mini')
-llm_mini_stream = ChatOpenAI(model='gpt-5-mini', streaming=True)
+llm_mini = ChatOpenAI(model='gpt-4o-mini')
+llm_mini_stream = ChatOpenAI(model='gpt-4o-mini', streaming=True)
 llm_large = ChatOpenAI(model='o1-preview')
 llm_large_stream = ChatOpenAI(model='o1-preview', streaming=True, temperature=1)
 llm_high = ChatOpenAI(model='o4-mini')
 llm_high_stream = ChatOpenAI(model='o4-mini', streaming=True, temperature=1)
-llm_medium = ChatOpenAI(model='gpt-5')
-llm_medium_experiment = ChatOpenAI(model='gpt-5')
-llm_medium_stream = ChatOpenAI(model='gpt-5', streaming=True)
+llm_medium = ChatOpenAI(model='gpt-4o')
+llm_medium_experiment = ChatOpenAI(model='gpt-4.1')
+llm_medium_stream = ChatOpenAI(model='gpt-4o', streaming=True)
 
 # Specialized models for agentic workflows
-llm_agent = ChatOpenAI(model='gpt-5')
-llm_agent_stream = ChatOpenAI(model='gpt-5', streaming=True)
+llm_agent = ChatOpenAI(model='gpt-4.1')
+llm_agent_stream = ChatOpenAI(model='gpt-4.1', streaming=True)
 llm_persona_mini_stream = ChatOpenAI(
     temperature=0.8,
     model="google/gemini-flash-1.5-8b",
diff --git a/backend/utils/other/chat_file.py b/backend/utils/other/chat_file.py
index 963562bcbb2..535225e08ac 100644
--- a/backend/utils/other/chat_file.py
+++ b/backend/utils/other/chat_file.py
@@ -142,7 +142,7 @@ def _ensure_thread_and_assistant(self):
                 assistant = openai.beta.assistants.create(
                     name="File Reader",
                     instructions="You are a helpful assistant that answers questions about the provided file. Use the file_search tool to search the file contents when needed.",
-                    model="gpt-5",
+                    model="gpt-4o",
                     tools=[{"type": "file_search"}],
                     timeout=timeout,
                 )
diff --git a/backend/utils/retrieval/agentic.py b/backend/utils/retrieval/agentic.py
index eee47500f8a..95285b84bbf 100644
--- a/backend/utils/retrieval/agentic.py
+++ b/backend/utils/retrieval/agentic.py
@@ -220,8 +220,7 @@ async def execute_agentic_chat_stream(
     conversations_collected = []
 
     # Initialize safety guard
-    # gpt-5 // 400k
-    safety_guard = AgentSafetyGuard(max_tool_calls=10, max_context_tokens=400000)
+    safety_guard = AgentSafetyGuard(max_tool_calls=10, max_context_tokens=500000)
 
     config = {
         "configurable": {
diff --git a/backend/utils/retrieval/graph.py b/backend/utils/retrieval/graph.py
index 50e54d0b0fc..aef677f5d4e 100644
--- a/backend/utils/retrieval/graph.py
+++ b/backend/utils/retrieval/graph.py
@@ -42,8 +42,8 @@
 from utils.app_integrations import get_github_docs_content
 from utils.retrieval.agentic import execute_agentic_chat_stream
 
-model = ChatOpenAI(model="gpt-5-mini")
-llm_medium_stream = ChatOpenAI(model='gpt-5', streaming=True)
+model = ChatOpenAI(model="gpt-4o-mini")
+llm_medium_stream = ChatOpenAI(model='gpt-4o', streaming=True)
 
 
 class StructuredFilters(TypedDict):
diff --git a/backend/utils/retrieval/safety.py b/backend/utils/retrieval/safety.py
index 3a84dcc2de6..cbb26fa0930 100644
--- a/backend/utils/retrieval/safety.py
+++ b/backend/utils/retrieval/safety.py
@@ -23,8 +23,7 @@ class AgentSafetyGuard:
     - Suspicious parameter patterns
     """
 
-    # gpt-5 // 400k
-    def __init__(self, max_tool_calls: int = 10, max_context_tokens: int = 400000):
+    def __init__(self, max_tool_calls: int = 10, max_context_tokens: int = 500000):
         self.max_tool_calls = max_tool_calls
         self.max_context_tokens = max_context_tokens