Merge 7c373f4 into 4d46a32

IBM · Oct 13, 2023 · 3227e65 · 3227e65
2 parents 4d46a32 + 7c373f4
commit 3227e65
Show file tree

Hide file tree

Showing 8 changed files with 100 additions and 29 deletions.
diff --git a/examples/user/async_tokenize.py b/examples/user/async_tokenize.py
@@ -21,13 +21,13 @@
 model = Model("google/flan-ul2", params=params, credentials=creds)
 
 greeting = "Hello! How are you?"
-lots_of_greetings = [greeting] * 50
+lots_of_greetings = [greeting] * 100
 num_of_greetings = len(lots_of_greetings)
 num_said_greetings = 0
 greeting1 = "Hello! How are you?"
 
 # yields batch of results that are produced asynchronously and in parallel
-for result in model.tokenize_async(lots_of_greetings):
+for result in model.tokenize_async(lots_of_greetings, throw_on_error=True):
     num_said_greetings += 1
     print(f"[Progress {str(float(num_said_greetings/num_of_greetings)*100)}%]")
     print(f"\t {result}")
diff --git a/pyproject.toml b/pyproject.toml
@@ -30,7 +30,7 @@ dependencies = [
     "python-dotenv>=1.0.0",
     "aiohttp>=3.8.4",
     "pyyaml>=6.0.0",
-    "httpx>=0.24.1",
+    "httpx>=0.24.1,<1",
     "aiolimiter>=1.1.0",
     "tqdm>=4.65.0",
     "httpx-sse>=0.3.1",

diff --git a/src/genai/model.py b/src/genai/model.py
@@ -287,6 +287,8 @@ def tokenize_async(
         callback: Callable[[TokenizeResult], Any] = None,
         return_tokens: bool = False,
         options: Options = None,
+        *,
+        throw_on_error: bool = False,
     ) -> Generator[Union[TokenizeResult, None]]:
         """The tokenize endpoint allows you to check the conversion of provided prompts to tokens
         for a given model. It splits text into words or subwords, which then are converted to ids
@@ -319,6 +321,7 @@ def tokenize_async(
                 ordered=ordered,
                 callback=callback,
                 options=options,
+                throw_on_error=throw_on_error,
             ) as asynchelper:
                 for response in asynchelper.generate_response():
                     yield response

diff --git a/src/genai/services/connection_manager.py b/src/genai/services/connection_manager.py
@@ -1,12 +1,11 @@
-import aiolimiter
-from aiolimiter import AsyncLimiter
 from httpx import AsyncClient
 
 from genai.exceptions import GenAiException
 
 __all__ = ["ConnectionManager"]
 
 from genai.utils.http_provider import HttpProvider
+from genai.utils.http_utils import AsyncRateLimitTransport
 
 
 class ConnectionManager:
@@ -18,19 +17,17 @@ class ConnectionManager:
 
     async_generate_client: AsyncClient = None
     async_tokenize_client: AsyncClient = None
-    async_tokenize_limiter: AsyncLimiter = None
 
     @staticmethod
     def make_generate_client():
         """Function to make async httpx client for generate."""
         if ConnectionManager.async_generate_client is not None:
             raise GenAiException(ValueError("Can't have two active async_generate_clients"))
 
-        async_generate_transport = HttpProvider.get_async_transport(
-            retries=ConnectionManager.MAX_RETRIES_GENERATE,
-        )
         ConnectionManager.async_generate_client = HttpProvider.get_async_client(
-            transport=async_generate_transport,
+            transport=HttpProvider.get_async_transport(
+                retries=ConnectionManager.MAX_RETRIES_GENERATE,
+            ),
             timeout=ConnectionManager.TIMEOUT_GENERATE,
         )
 
@@ -40,10 +37,14 @@ def make_tokenize_client():
         if ConnectionManager.async_tokenize_client is not None:
             raise GenAiException(ValueError("Can't have two active async_tokenize_clients"))
 
-        ConnectionManager.async_tokenize_limiter = aiolimiter.AsyncLimiter(
-            max_rate=ConnectionManager.MAX_REQ_PER_SECOND_TOKENIZE, time_period=1
+        ConnectionManager.async_tokenize_client = HttpProvider.get_async_client(
+            transport=AsyncRateLimitTransport(
+                default_max_rate=ConnectionManager.MAX_REQ_PER_SECOND_TOKENIZE,
+                default_time_period=1,
+                retries=ConnectionManager.MAX_RETRIES_TOKENIZE,
+                **HttpProvider.default_http_transport_options,
+            )
         )
-        ConnectionManager.async_tokenize_client = HttpProvider.get_async_client()
 
     @staticmethod
     async def delete_generate_client():

diff --git a/src/genai/services/request_handler.py b/src/genai/services/request_handler.py
@@ -198,21 +198,7 @@ async def async_tokenize(
             parameters=parameters,
             options=options,
         )
-        response = None
-        for attempt in range(0, ConnectionManager.MAX_RETRIES_TOKENIZE):
-            # NOTE: We don't retry-fail with httpx since that'd not
-            # not respect the ratelimiting below (5 requests per second).
-            # Instead, we do the ratelimiting here with the help of limiter.
-            async with ConnectionManager.async_tokenize_limiter:
-                response = await ConnectionManager.async_tokenize_client.post(endpoint, headers=headers, json=json_data)
-                if response.status_code in [
-                    httpx.codes.SERVICE_UNAVAILABLE,
-                    httpx.codes.TOO_MANY_REQUESTS,
-                ]:
-                    await asyncio.sleep(2 ** (attempt + 1))
-                else:
-                    break
-        return response
+        return await ConnectionManager.async_tokenize_client.post(endpoint, headers=headers, json=json_data)
 
     @staticmethod
     async def async_get(endpoint: str, key: str, parameters: dict = None):

diff --git a/src/genai/services/service_interface.py b/src/genai/services/service_interface.py
@@ -221,7 +221,7 @@ async def async_tokenize(self, model, inputs, params: TokenParams = None, option
                 options=options,
             )
         except Exception as e:
-            raise GenAiException(e)
+            raise to_genai_error(e)
 
     async def async_history(self, params: HistoryParams = None):
         """Retrieve past generation requests and responses returned by the given models.

diff --git a/src/genai/utils/http_utils.py b/src/genai/utils/http_utils.py
@@ -0,0 +1,80 @@
+import asyncio
+from typing import List, Optional
+
+import httpx
+from aiolimiter import AsyncLimiter
+from httpx import HTTPStatusError, Request, RequestError, Response
+
+__all__ = ["AsyncRateLimiter", "AsyncRateLimitTransport", "AsyncRetryTransport"]
+
+
+class AsyncRateLimiter(AsyncLimiter):
+    def update_limit(self, *, max_rate: Optional[float] = None, time_period: Optional[float] = None):
+        self.max_rate = max_rate or self.max_rate
+        self.time_period = time_period or self.time_period
+        self._rate_per_sec = self.max_rate / self.time_period
+
+
+class AsyncRetryTransport(httpx.AsyncHTTPTransport):
+    def __init__(self, *args, retry_status_codes: Optional[List[int]] = None, backoff_factor: float = 0.2, **kwargs):
+        self.retry_status_codes = retry_status_codes or [
+            httpx.codes.TOO_MANY_REQUESTS,
+            httpx.codes.BAD_GATEWAY,
+            httpx.codes.SERVICE_UNAVAILABLE,
+        ]
+        self.backoff_factor = backoff_factor
+        self.retries = kwargs.get("retries", 0)
+        super().__init__(*args, **kwargs)
+
+    def _get_retry_delays(self):
+        yield 0
+        for i in range(self.retries):
+            yield self.backoff_factor * (2**i)
+
+    async def handle_async_request(
+        self,
+        request: Request,
+    ) -> Response:
+        latest_err: Optional[Exception] = None
+
+        for delay in self._get_retry_delays():
+            if delay > 0:
+                await asyncio.sleep(delay)
+
+            try:
+                response = await super().handle_async_request(request)
+                response.request = request
+                response.raise_for_status()
+                return response
+            except HTTPStatusError as ex:
+                latest_err = ex
+                if ex.response.status_code in self.retry_status_codes:
+                    continue
+                raise ex
+
+        raise RequestError(f"Failed to handle request to {request.url}", request=request) from latest_err
+
+
+class AsyncRateLimitTransport(AsyncRetryTransport):
+    def __init__(self, *args, default_max_rate: float, default_time_period: float, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.limiter = AsyncRateLimiter(max_rate=default_max_rate, time_period=default_time_period)
+
+    def update_rate_limit(self, response: Response):
+        max_capacity = response.headers.get("x-ratelimit-limit")
+        reset_period_in_seconds = response.headers.get("x-ratelimit-reset")
+
+        if max_capacity and reset_period_in_seconds:
+            self.limiter.update_limit(
+                max_rate=max(1, int(max_capacity)),
+                time_period=max(1, int(reset_period_in_seconds)),
+            )
+
+    async def handle_async_request(
+        self,
+        request: Request,
+    ) -> Response:
+        async with self.limiter:
+            response = await super().handle_async_request(request)
+            self.update_rate_limit(response)
+            return response
diff --git a/tests/test_concurrent.py b/tests/test_concurrent.py
@@ -171,6 +171,7 @@ async def test_concurrent_generate_retry(self, httpx_mock, generate_params):
         ConnectionManager.MAX_RETRIES_GENERATE = saved
 
     @pytest.mark.asyncio
+    @pytest.mark.skip(reason="pytest_httpx does not handle custom transports")
     async def test_concurrent_tokenize_retry(self, httpx_mock, tokenize_params):
         saved = ConnectionManager.MAX_RETRIES_TOKENIZE
         ConnectionManager.MAX_RETRIES_TOKENIZE = 2