patterns-ai-core · andreibondarev · Nov 12, 2023 · Nov 12, 2023 · Nov 12, 2023 · andreibondarev
diff --git a/lib/langchain/llm/openai.rb b/lib/langchain/llm/openai.rb
@@ -69,7 +69,7 @@ def complete(prompt:, **params)
       return legacy_complete(prompt, parameters) if is_legacy_model?(parameters[:model])
 
       parameters[:messages] = compose_chat_messages(prompt: prompt)
-      parameters[:max_tokens] = validate_max_tokens(parameters[:messages], parameters[:model])
+      parameters[:max_tokens] = validate_max_tokens(parameters[:messages], parameters[:model], parameters[:max_tokens])
 
       response = with_api_error_handling do
         client.chat(parameters: parameters)
@@ -131,7 +131,7 @@ def chat(prompt: "", messages: [], context: "", examples: [], **options, &block)
       if functions
         parameters[:functions] = functions
       else
-        parameters[:max_tokens] = validate_max_tokens(parameters[:messages], parameters[:model])
+        parameters[:max_tokens] = validate_max_tokens(parameters[:messages], parameters[:model], parameters[:max_tokens])
       end
 
       response = with_api_error_handling { client.chat(parameters: parameters) }
@@ -230,8 +230,8 @@ def with_api_error_handling
       response
     end
 
-    def validate_max_tokens(messages, model)
-      LENGTH_VALIDATOR.validate_max_tokens!(messages, model)
+    def validate_max_tokens(messages, model, max_tokens = nil)
+      LENGTH_VALIDATOR.validate_max_tokens!(messages, model, max_tokens: max_tokens)
     end
 
     def extract_response(response)

diff --git a/lib/langchain/utils/token_length/base_validator.rb b/lib/langchain/utils/token_length/base_validator.rb
@@ -20,16 +20,17 @@ def self.validate_max_tokens!(content, model_name, options = {})
           end
 
           leftover_tokens = token_limit(model_name) - text_token_length
-          # Some models have a separate token limit for completion (e.g. GPT-4 Turbo)
+
+          # Some models have a separate token limit for completions (e.g. GPT-4 Turbo)
           # We want the lower of the two limits
-          leftover_tokens = [leftover_tokens, completion_token_limit(model_name)].min
+          max_tokens = [leftover_tokens, completion_token_limit(model_name)].min
 
           # Raise an error even if whole prompt is equal to the model's token limit (leftover_tokens == 0)
-          if leftover_tokens < 0
+          if max_tokens < 0
             raise limit_exceeded_exception(token_limit(model_name), text_token_length)
           end
 
-          leftover_tokens
+          max_tokens
         end
 
         def self.limit_exceeded_exception(limit, length)

diff --git a/lib/langchain/utils/token_length/openai_validator.rb b/lib/langchain/utils/token_length/openai_validator.rb
@@ -67,6 +67,12 @@ def self.token_limit(model_name)
         def self.completion_token_limit(model_name)
           COMPLETION_TOKEN_LIMITS[model_name] || token_limit(model_name)
         end
+
+        # If :max_tokens is passed in, take the lower of it and the calculated max_tokens
+        def self.validate_max_tokens!(content, model_name, options = {})
+          max_tokens = super(content, model_name, options)
+          [options[:max_tokens], max_tokens].reject(&:nil?).min
+        end
       end
     end
   end

diff --git a/spec/langchain/utils/token_length/openai_validator_spec.rb b/spec/langchain/utils/token_length/openai_validator_spec.rb
@@ -77,6 +77,28 @@
           expect(subject).to eq(0)
         end
       end
+
+      context "when :max_tokens is passed in" do
+        context "when :max_tokens is lower than the leftover tokens" do
+          subject { described_class.validate_max_tokens!(content, model, max_tokens: 10) }
+          let(:content) { "lorem ipsum" * 100 }
+          let(:model) { "gpt-4" }
+
+          it "returns the correct max_tokens" do
+            expect(subject).to eq(10)
+          end
+        end
+
+        context "when :max_tokens is greater than the leftover tokens" do
+          subject { described_class.validate_max_tokens!(content, model, max_tokens: 8000) }
+          let(:content) { "lorem ipsum" * 100 }
+          let(:model) { "gpt-4" }
+
+          it "returns the correct max_tokens" do
+            expect(subject).to eq(7892)
+          end
+        end
+      end
     end
 
     context "with array argument" do