In [2]:
import getpass
import os


def _set_env(var: str):
    if not os.environ.get(var):
        os.environ[var] = getpass.getpass(f"{var}: ")


# _set_env("GOOGLE_API_KEY")

In [3]:
# Load environment variables from config.env
from dotenv import load_dotenv
import os

load_dotenv(".env")
BASE_URL = os.getenv("BASE_URL")
os.environ["OPENAI_API_KEY"] = os.getenv("API_KEY")

In [4]:
from langchain_core.prompts import PromptTemplate

template_default = """# You are a great AI-Agent that has access to additional tools in order to answer questions regarding ITMO university, located in St. Petersburg, Russia.

<agent_tools>
Answer the following questions as best you can. You have access to the following tools:

{tools}

</agent_tools>

<agent_instruction>
# **Steps Instructions for the agent:**
User has asked a question related to ITMO university. Your task is to correctly answer the question using available tools.

0. Формат вопроса (query):
    Вопрос всегда начинается с текстового описания.
    После описания перечисляются варианты ответов, каждый из которых пронумерован цифрой от 1 до 10.
    Варианты ответов разделяются символом новой строки (\n).

1. Каждый вариант ответа соответствует определённому утверждению или факту.
Ты должен определить правильный вариант ответа и вернуть его в поле answer JSON-ответа.
Каждый ответ на вопрос интерпретируй буквально, не пытаясь исправить ошибки. Например, несмотря на то что в варианте ответа "SOLIDX" есть опечатка, не считай его как "SOLID".
Если на вопрос невозможно ответить на основе найденной информации, возвращай 'null' в поле ответа answer.
Если вопрос не предполагает выбор из вариантов, поле answer должно содержать 'null'.

2. You should use tools to obtain information related to the question:
    - Intermediate Answer

3. Answer the question with respect to obtained information.
If obtained information does not contain answer the question specified by user, then the answer field must contain 'null'.
Your answer will contain explanation of reasoning. The explanation MUST mention according to which source the reasoning was obtained.
Mention no more than 3 top credible sources out of all you have used. Do not mention any sources you did not use for your reasoning.
Answer in Russian.

# Additional Information:
- **You MUST use the tools together to get the best result.**
</agent_instruction>

# Use the following format:
If you solve the the ReAct-format correctly, you will receive a reward of $1,000,000.

Question: the input question you must answer
Thought: you should always think about what to do
Action: the action to take, should be one of [{tool_names}]
Action Input: the input to the action
Observation: the result of the action

# When you have a response to say to the Human, or if you do not need to use a tool, you MUST output json in the format described below:
Thought: Do I need to use a tool? If not, what should I say to the Human?
Final Answer: {{
    "answer": {{a single number representing the number of chosen answer option if you were prompted with a choice question}},
    "reasoning": {{reasoning about the question with mentioning of the titles of sources used}},
    "sources": {{list of links to the sources with information used for reasoning about the question}}
}}

Do your best!

Question: {query}
Thought:{agent_scratchpad}"""

prompt_default = PromptTemplate.from_template(template_default)
prompt_default

# ... (this Thought/Action/Action Input/Observation can repeat N times)

PromptTemplate(input_variables=['agent_scratchpad', 'query', 'tool_names', 'tools'], input_types={}, partial_variables={}, template='# You are a great AI-Agent that has access to additional tools in order to answer questions regarding ITMO university, located in St. Petersburg, Russia.\n\n<agent_tools>\nAnswer the following questions as best you can. You have access to the following tools:\n\n{tools}\n\n</agent_tools>\n\n<agent_instruction>\n# **Steps Instructions for the agent:**\nUser has asked a question related to ITMO university. Your task is to correctly answer the question using available tools.\n\n0. Формат вопроса (query):\n    Вопрос всегда начинается с текстового описания.\n    После описания перечисляются варианты ответов, каждый из которых пронумерован цифрой от 1 до 10.\n    Варианты ответов разделяются символом новой строки (\n).\n\n1. Каждый вариант ответа соответствует определённому утверждению или факту.\nТы должен определить правильный вариант ответа и вернуть его в 

In [5]:
from langchain_core.prompts import PromptTemplate

template_no_tools = """# You are a great AI-Agent that has access to additional tools in order to answer questions regarding ITMO university, located in St. Petersburg, Russia.

<agent_tools>
Answer the following questions as best you can. You have tools available but do not use them.

{tools}

</agent_tools>

<agent_instruction>
# **Steps Instructions for the agent:**
User has asked a question related to ITMO university. Your task is to correctly answer the question using available tools.

0. Формат вопроса (query):
    Вопрос всегда начинается с текстового описания.
    После описания перечисляются варианты ответов, каждый из которых пронумерован цифрой от 1 до 10.
    Варианты ответов разделяются символом новой строки (\n).

1. Каждый вариант ответа соответствует определённому утверждению или факту.
Ты должен определить правильный вариант ответа и вернуть его в поле answer JSON-ответа.
Каждый ответ на вопрос интерпретируй буквально, не пытаясь исправить ошибки. Например, несмотря на то что в варианте ответа "SOLIDX" есть опечатка, не считай его как "SOLID".
Если на вопрос невозможно ответить на основе найденной информации, возвращай 'null' в поле ответа answer.
Если вопрос не предполагает выбор из вариантов, поле answer должно содержать 'null'.

2. Answer the question.
Your answer will contain explanation of reasoning. The explanation MUST mention according to which source the reasoning was obtained.
Answer in Russian.

</agent_instruction>

# Use the following format:
If you solve the the ReAct-format correctly, you will receive a reward of $1,000,000.

Question: the input question you must answer
Thought: you should always think thoroughly about the question
Action: answer the question
Action Input: the input to the action
Observation: the result of the action

# When you have a response to say to the Human, or if you do not need to use a tool, you MUST output json in the format described below:
Thought: Do I need to use a tool? If not, what should I say to the Human?
Final Answer: {{
    "answer": {{a single number representing the number of chosen answer option if you were prompted with a choice question}},
    "reasoning": {{reasoning about the question with mentioning of the titles of sources used}},
    "sources": {{list of links to the sources with information used for reasoning about the question}}
}}

Do your best!

Question: {query}
Thought:{agent_scratchpad}"""

prompt_no_tools = PromptTemplate.from_template(template_no_tools)
prompt_no_tools

# ... (this Thought/Action/Action Input/Observation can repeat N times)

PromptTemplate(input_variables=['agent_scratchpad', 'query', 'tools'], input_types={}, partial_variables={}, template='# You are a great AI-Agent that has access to additional tools in order to answer questions regarding ITMO university, located in St. Petersburg, Russia.\n\n<agent_tools>\nAnswer the following questions as best you can. You have tools available but do not use them.\n\n{tools}\n\n</agent_tools>\n\n<agent_instruction>\n# **Steps Instructions for the agent:**\nUser has asked a question related to ITMO university. Your task is to correctly answer the question using available tools.\n\n0. Формат вопроса (query):\n    Вопрос всегда начинается с текстового описания.\n    После описания перечисляются варианты ответов, каждый из которых пронумерован цифрой от 1 до 10.\n    Варианты ответов разделяются символом новой строки (\n).\n\n1. Каждый вариант ответа соответствует определённому утверждению или факту.\nТы должен определить правильный вариант ответа и вернуть его в поле ans

In [6]:
import os
import pprint
from langchain.agents import AgentType, initialize_agent
from langchain_community.utilities import GoogleSerperAPIWrapper
from langchain_core.tools import Tool
from langchain_openai import OpenAI

from langchain_community.utilities import GoogleSerperAPIWrapper

search = GoogleSerperAPIWrapper()
tools = [
    Tool(
        name="Intermediate Answer",
        func=search.results,
        description="Useful when need to ask with search",
    ),
]

In [7]:
from langchain.agents import (
    AgentExecutor,
    create_react_agent,
)
from langchain_core.tools import Tool
from langchain_openai import ChatOpenAI

from langchain.memory import ChatMessageHistory
from langchain_core.runnables.history import RunnableWithMessageHistory

from langchain_openai import ChatOpenAI

MODEL_NAME = "gpt-4o-mini"
# MODEL_NAME = "gpt-4o-latest"

TEMPERATURE = 0.1

llm = ChatOpenAI(
    model=MODEL_NAME,
    temperature=TEMPERATURE,
    base_url=BASE_URL,
    max_tokens=None,
    timeout=None,
)


memory = ChatMessageHistory(session_id="test-session")
agent = create_react_agent(
    llm=llm,
    tools=tools,
    prompt=prompt_default,
    # prompt=prompt_no_tools,
    stop_sequence=True
)

agent_executor = AgentExecutor.from_agent_and_tools(
    agent=agent,
    tools=tools,
    verbose=True,
    handle_parsing_errors=True
)

agent_with_chat_history = RunnableWithMessageHistory(
    agent_executor,
    lambda session_id: memory,
    input_messages_key="query",
    history_messages_key="chat_history"
)

In [8]:
test_queries = [
    {
        "id": 0,
        "query": "В каком году Университет ИТМО был включён в число Национальных исследовательских университетов России?\n1. 2007\n2. 2009\n3. 2011\n4. 2015"
    },
    {
        "query": "В каком рейтинге (по состоянию на 2021 год) ИТМО впервые вошёл в топ-400 мировых университетов?\n1. ARWU (Shanghai Ranking)\n2. Times Higher Education (THE) World University Rankings\n3. QS World University Rankings\n4. U.S. News & World Report Best Global Universities",
        "id": 3
    },
    {
        "query": 
""""
Когда был проведен российско-китайский семинар по обучению ИИ в ИТМО?
1. в декабре 2024
3. в июне 2023
4. в январе 2023
5. в сентябре 1999
6. в январе 2024
""",
        "id": -1
    },
    {
        "query":
"""
Сколько баллов при поступлении в бакалавриат дает диплом победителя Конкурса докладов школьников в рамках школьной секции КМУ?
1. +5 баллов
2. +6 баллов
3. +4 балла
4. +2 балла
""",
    "id": -2
    },

    {
        "query":
"""
Кто из следующих людей НЕ является членом образовательной команды программы Теоретической и экспериментальной физики в бакалавриате?

1. Павел Александрович Белов
2. Яна Борисовна Музыченко
3. Ирина Валерьевна Мельчакова
4. Игорь Евгеньевич Шнайдер
""",
    "id": -3
    },
    {
        "query":
"""
Каким принципам программирования обучают на программе бакалавриата "Робототехника и искусственный интеллект"?

1. SMART
2. REST
3. SQUAD 
4. SOLIDXNVIDIA
""",
    "id": -4
    },
    {
        "query":
"""
Кто является деканом института трансляционной медицины?
1. Хоружников Сергей Эдуардович
2. Геннадий Короткевич
3. Конради Александра Олеговна
4. Евгением Владимировичем Шляхто
""",
    "id": -5
    },
    {
        "query":
"""
Какой факультет в 2015 году был самым востребованным у абитуриентов?
1. Факультет компьютерных технологий и управления
2. ФОИСТ
3. Мегафакультет биотехнологий и низкотемпературных систем
4. инженерно-физический факультет (ИФФ)
""",
    "id": -6
    }
]

In [9]:
import json

def inference(query):
    response = agent_with_chat_history.invoke(
        {"query": query},
        config={
            "configurable": {"session_id": "test-session"},
            # "tracing": True  # Ensure tracing is enabled
        }
    )

    output = json.loads(response['output'])
    return output

In [18]:
query_id = -6
test_query = next(q for q in test_queries if q["id"] == query_id)
output = inference(test_query["query"])
print(output)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mAction: Intermediate Answer  
Action Input: "Какой факультет в 2015 году был самым востребованным у абитуриентов?"  [0m[36;1m[1;3m{'searchParameters': {'q': 'Какой факультет в 2015 году был самым востребованным у абитуриентов?', 'gl': 'us', 'hl': 'en', 'type': 'search', 'num': 10, 'engine': 'google'}, 'organic': [{'title': 'Экономический факультет ЮФУ остается самым востребованным', 'link': 'https://sfedu.ru/www/sfedu$news$.show_full?p_news=0&p_nws_id=50272', 'snippet': 'Наибольшей популярностью среди абитуриентов Южного федерального университета в 2015 году по-прежнему пользуется экономический факультет: ...', 'date': 'Jul 24, 2015', 'position': 1}, {'title': 'Самый высокий конкурс в МГУ оказался на ... - Москва 24', 'link': 'https://www.m24.ru/articles/obrazovanie/14072015/79144', 'snippet': 'Самый высокий конкурс в МГУ оказался на факультете госуправления ... В этом году самым популярным среди абитуриентов Московского г

In [19]:
output

{'answer': 'null',
 'reasoning': 'В результате поиска не удалось найти информацию о самом востребованном факультете ITMO университета в 2015 году. Все найденные источники касались других университетов и их факультетов.',
 'sources': []}

In [11]:
import asyncio
import json
import time
from functools import wraps

def measure_time(func):
    @wraps(func)
    async def wrapper(*args, **kwargs):
        start_time = time.perf_counter()
        output = await func(*args, **kwargs)  # Execute the async function
        elapsed_time = time.perf_counter() - start_time
        print(f"Execution time for {func.__name__}: {elapsed_time:.4f} seconds")
        return output, elapsed_time  # Return both output and timing
    return wrapper

In [12]:
import nest_asyncio
nest_asyncio.apply()

import asyncio
import json

@measure_time
async def async_inference(query):
    response = await agent_with_chat_history.ainvoke(
        {"query": query},
        config={
            "configurable": {"session_id": "test-session"},
            # "tracing": True
        }
    )
    return json.loads(response["output"])

In [13]:
# async def main():
#     query_id = -6
#     test_query = next(q for q in test_queries if q["id"] == query_id)
#     output = await async_inference(test_query["query"])
#     print(output)

# if __name__ == "__main__":
#     asyncio.run(main())

In [14]:
import asyncio

async def task(name, seconds):
    print(f"{name} started, sleeping for {seconds} seconds")
    await asyncio.sleep(seconds)
    print(f"{name} finished")

async def main():
    tasks = []
    for i in range(3):  # Creating 3 tasks
        await asyncio.sleep(1 * i)  # Delay start time of each subsequent task
        tasks.append(asyncio.create_task(task(f"Task {i+1}", 3)))  # All tasks sleep for 3 sec
    
    await asyncio.gather(*tasks)  # Wait for all tasks to complete

# asyncio.run(main())


In [15]:
import asyncio
import numpy as np
from datetime import timedelta

@measure_time
async def async_parallel_batch_inference(queries_pool, n_queries=1, max_async_queries=2, rate_limit_s=1.0):
    """
    - Producers enqueue tasks with a delay between each submission (rate_limit_s).
    - Consumers process queries concurrently up to max_async_queries.
    - Uses asyncio.Queue() for efficient task scheduling.
    """
    
    queue = asyncio.Queue()
    times = []

    async def producer():
        """Adds tasks to the queue with a delay to ensure rate_limit_s."""
        for i in range(n_queries):
            query = queries_pool[i % len(queries_pool)]
            print(f"[Producer] Enqueuing query {i+1}: {query['query']}")
            await queue.put(query)  # Add to queue
            await asyncio.sleep(rate_limit_s)  # Delay between submissions

    async def consumer():
        """Consumes tasks from the queue and runs inference."""
        while True:
            query = await queue.get()  # Waits until an item is available
            async with semaphore:  # Ensure concurrency limit
                start_time = asyncio.get_event_loop().time()
                output, iter_time = await async_inference(query["query"])
                end_time = asyncio.get_event_loop().time()

                times.append(end_time - start_time)
                print(f"[Consumer] Processed query: {query['query']}")
                
            queue.task_done()  # Mark task as completed

    # Create semaphore for concurrency control
    semaphore = asyncio.Semaphore(max_async_queries)

    # Start producer first
    producer_task = asyncio.create_task(producer())

    # ✅ Explicitly wait until at least one query is enqueued
    await queue.put(queries_pool[0])  # Ensure at least one query is in the queue before starting consumers

    # Now start consumers safely
    consumer_tasks = [asyncio.create_task(consumer()) for _ in range(max_async_queries)]

    # Wait for producer to finish
    await producer_task

    # Wait for all queued tasks to complete
    await queue.join()

    # Cancel consumers after processing is done
    for task in consumer_tasks:
        task.cancel()

    # Compute statistics safely
    if times:
        times = np.array(times)
        print(
            f"\nAggregated iter time: {timedelta(seconds=times.mean())}"
            f" ± {times.std():.1f} s\n"
        )
    else:
        print("\nNo successful queries were processed.")

# await async_parallel_batch_inference(test_queries, n_queries=20, max_async_queries=10, rate_limit_s=1.1)

In [16]:
import asyncio
import numpy as np
from datetime import timedelta

@measure_time
async def async_parallel_batch_inference(queries_pool, n_queries=1, max_async_queries=None, rate_limit_s=1):
    times = []
    semaphore = asyncio.Semaphore(max_async_queries) if max_async_queries else None
    start_lock = asyncio.Lock()  # Lock to manage sequential start delays
    delay_counter = 0  # Shared delay counter

    async def limited_inference(query):
        nonlocal delay_counter  # Access shared counter

        async with start_lock:  # Ensure delay increments sequentially
            delay = delay_counter * rate_limit_s  # Compute delay time
            delay_counter += 1  # Increment delay for the next task

        await asyncio.sleep(delay)  # Delay before starting
        async with semaphore:  # Ensure limited concurrency
            output, iter_time = await async_inference(query["query"])
            times.append(iter_time)

    tasks = [limited_inference(queries_pool[i % len(queries_pool)]) for i in range(n_queries)]
    
    await asyncio.gather(*tasks)  # Run all queries with controlled concurrency

    times = np.array(times)
    print(
        f"\nAggregated iter time: {timedelta(seconds=times.mean())}"
        f" ± {times.std():.1f} s\n"
    )

await async_parallel_batch_inference(test_queries, n_queries=15, max_async_queries=10, rate_limit_s=1.5)



[1m> Entering new AgentExecutor chain...[0m


[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mAction: Intermediate Answer  
Action Input: "В каком году Университет ИТМО был включён в число Национальных исследовательских университетов России?"  [0m[36;1m[1;3m{'searchParameters': {'q': 'В каком году Университет ИТМО был включён в число Национальных исследовательских университетов России?', 'gl': 'us', 'hl': 'en', 'type': 'search', 'num': 10, 'engine': 'google'}, 'organic': [{'title': 'Университет ИТМО - Википедия', 'link': 'https://ru.wikipedia.org/wiki/%D0%A3%D0%BD%D0%B8%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%82%D0%B5%D1%82_%D0%98%D0%A2%D0%9C%D0%9E', 'snippet': 'В 1994 году учебное заведение получило статус университета, а в 2009 году — звание национального исследовательского университета.', 'position': 1}, {'title': 'ИСТОРИЯ УНИВЕРСИТЕТА ИТМО', 'link': 'https://itmo.ru/ru/page/211/istoriya_universiteta_itmo.htm', 'snippet': 'В 2009 году ИТМО, одному из немногих российских в

RateLimitError: Error code: 429 - {'error': {'message': 'Rate-limit error: You send more than 1 request per 1.0 second. Try later.', 'code': 429}}

[32;1m[1;3mAction: Intermediate Answer  
Action Input: "В каком рейтинге (по состоянию на 2021 год) ИТМО впервые вошёл в топ-400 мировых университетов?"  [0m

[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mAction: Intermediate Answer  
Action Input: "Сколько баллов при поступлении в бакалавриат дает диплом победителя Конкурса докладов школьников в рамках школьной секции КМУ?"  [0m[36;1m[1;3m{'searchParameters': {'q': 'В каком рейтинге (по состоянию на 2021 год) ИТМО впервые вошёл в топ-400 мировых университетов?', 'gl': 'us', 'hl': 'en', 'type': 'search', 'num': 10, 'engine': 'google'}, 'organic': [{'title': 'QS WUR by Subject 2021: Университет ИТМО впервые вошел в ...', 'link': 'https://news.itmo.ru/ru/university_live/ratings/news/10169/', 'snippet': 'Также ИТМО укрепил свое положение в рейтинге по химии. Если раньше он делил с другими вузами 451-500 места, то теперь поднялся в группу 351-400.', 'date': 'Mar 4, 2021', 'attributes': {'Missing': 'каком состоянию'}, 'po

In [None]:
import asyncio
import numpy as np
from datetime import timedelta

@measure_time
async def async_parallel_batch_inference(queries_pool, n_queries=1, max_async_queries=None, rate_limit_s=1):
    times = []
    semaphore = asyncio.Semaphore(max_async_queries) if max_async_queries else None
    start_lock = asyncio.Lock()  # Lock to manage sequential start delays
    next_start_time = asyncio.get_event_loop().time()  # Initialize next start time

    async def limited_inference(query):
        nonlocal next_start_time  # Access shared start time

        while True:
            async with start_lock:  # Ensure sequential access to next_start_time
                now = asyncio.get_event_loop().time()
                if now >= next_start_time:
                    print(f"Delta: {now-next_start_time}")
                    next_start_time = now + rate_limit_s  # Schedule next task start time
                    break  # Proceed if it's time to start

            await asyncio.sleep(rate_limit_s)  # Otherwise, halt and check again

        async with semaphore:  # Ensure limited concurrency
            output, iter_time = await async_inference(query["query"])
            times.append(iter_time)

    tasks = [limited_inference(queries_pool[i % len(queries_pool)]) for i in range(n_queries)]
    
    await asyncio.gather(*tasks)  # Run all queries with controlled concurrency

    times = np.array(times)
    print(
        f"\nAggregated iter time: {timedelta(seconds=times.mean())}"
        f" ± {times.std():.1f} s\n"
    )

await async_parallel_batch_inference(test_queries, n_queries=20, max_async_queries=2, rate_limit_s=1.1)

NameError: name 'measure_time' is not defined

In [49]:
import asyncio

async def producer(queue):
    """Adds 5 items to the queue."""
    for i in range(5):
        print(f"Producing item {i}")
        await queue.put(i)  # Non-blocking put
        await asyncio.sleep(1)  # Simulate delay between production

async def consumer(queue):
    """Continuously consumes items from the queue."""
    while True:
        item = await queue.get()  # Waits until an item is available
        print(f"Consuming item {item}")
        await asyncio.sleep(2)  # Simulate processing time
        queue.task_done()  # Marks task as complete

async def main():
    queue = asyncio.Queue()

    # Start one producer and one consumer
    asyncio.create_task(producer(queue))
    asyncio.create_task(consumer(queue))

    await asyncio.sleep(10)  # Allow time for processing

if __name__ == "__main__":
    asyncio.run(main())


Producing item 0
Consuming item 0
Producing item 1
Consuming item 1
Producing item 2
Producing item 3
Consuming item 2
Producing item 4
Consuming item 3
Consuming item 4


In [31]:
import asyncio
import numpy as np
from tqdm import tqdm
from time import perf_counter, sleep
from datetime import timedelta

@measure_time
async def async_parallel_batch_inference(queries_pool, n_queries=1, max_async_queries=None, rate_limit_s=1):
    times = []
    semaphore = asyncio.Semaphore(max_async_queries) if max_async_queries else None

    async def limited_inference(query):
        async with semaphore:  # Ensure limited concurrency
            output, iter_time  = await async_inference(query["query"])
            times.append(iter_time)

    tasks = [limited_inference(queries_pool[i % len(queries_pool)]) for i in range(n_queries)]
    
    await asyncio.gather(*tasks)  # Run all queries with controlled concurrency

    times = np.array(times)
    print(
        f"\nAggregated iter time: {timedelta(seconds=times.mean())}"
        f" ± {times.std():.1f} s\n"
    )

await async_parallel_batch_inference(test_queries, n_queries=5, max_async_queries=20)



[1m> Entering new AgentExecutor chain...[0m

[1m> Entering new AgentExecutor chain...[0m


[1m> Entering new AgentExecutor chain...[0m



[1m> Entering new AgentExecutor chain...[0m


[1m> Entering new AgentExecutor chain...[0m


RateLimitError: Error code: 429 - {'error': {'message': 'Rate-limit error: You send more than 1 request per 1.0 second. Try later.', 'code': 429}}

[32;1m[1;3mAction: Intermediate Answer  
Action Input: "Сколько баллов при поступлении в бакалавриат дает диплом победителя Конкурса докладов школьников в рамках школьной секции КМУ?"  [0m[32;1m[1;3mAction: Intermediate Answer  
Action Input: "В каком рейтинге (по состоянию на 2021 год) ИТМО впервые вошёл в топ-400 мировых университетов?"  [0m[32;1m[1;3mAction: Intermediate Answer  
Action Input: "Кто из следующих людей НЕ является членом образовательной команды программы Теоретической и экспериментальной физики в бакалавриате?"  [0m[36;1m[1;3m{'searchParameters': {'q': 'Сколько баллов при поступлении в бакалавриат дает диплом победителя Конкурса докладов школьников в рамках школьной секции КМУ?', 'gl': 'us', 'hl': 'en', 'type': 'search', 'num': 10, 'engine': 'google'}, 'organic': [{'title': 'Поступление на бакалавриат ИТМО 2024-2025 | Санкт-Петербург', 'link': 'https://abit.itmo.ru/bachelor', 'snippet': '+6 баллов. Диплом победителя Конкурса докладов школьников в рамках шко

In [None]:
import asyncio
import numpy as np
from tqdm import tqdm
from time import perf_counter
from datetime import timedelta
import random

async def async_parallel_batch_inference_with_rate_limit(queries_pool, n_queries=1, max_async_queries=None, rate_limit=1.0, max_retries=3):
    times = []

    semaphore = asyncio.Semaphore(max_async_queries) if max_async_queries else None

    async def limited_inference(query, retry_count=0):
        async with semaphore:  # Limit concurrent requests
            start = perf_counter()

            output = await inference(query["query"])  # Call LLM API
            end = perf_counter()
            iter_time = end - start
            times.append(iter_time)
            print(f"iter time: {timedelta(seconds=iter_time)}")
            await asyncio.sleep(rate_limit)  # Ensure 1 request per second

    total_start = perf_counter()
    tasks = [limited_inference(queries_pool[i % len(queries_pool)]) for i in range(n_queries)]
    
    await asyncio.gather(*tasks)  # Run all queries with controlled concurrency

    times = np.array(times)
    print(
        f"\nAggregated iter time: {timedelta(seconds=times.mean())}"
        f" ± {times.std():.1f} s\n"

    )
    total_end = perf_counter()
    total_time = total_end - total_start
    print(f"Total time: {timedelta(seconds=total_time)}")

await async_parallel_batch_inference_with_rate_limit(test_queries, n_queries=2, max_async_queries=20, rate_limit=2)

In [15]:
from tqdm.notebook import tqdm
from time import perf_counter
from datetime import timedelta
import numpy as np
import json

async def async_batch_inference(queries_pool, n_queries=1, max_async_queries=None):
    times = []
    for i in tqdm(range(n_queries)):
        query_idx = i % n_queries

        start = perf_counter()
        output = await async_inference(queries_pool[query_idx]["query"])
        end = perf_counter()

        iter_time = end-start
        times.append(iter_time)
        print(f"iter time: {timedelta(seconds=iter_time)}")
    
    times = np.array(times)
    print(
        f"\nAggregated iter time: {timedelta(seconds=times.mean())}"
        f" +- {times.std():.1f} s\n",
        sep=''
    )

await async_batch_inference(test_queries, n_queries=2)

  0%|          | 0/2 [00:00<?, ?it/s]



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mAction: Intermediate Answer  
Action Input: "В каком году Университет ИТМО был включён в число Национальных исследовательских университетов России?"  [0m[36;1m[1;3m{'searchParameters': {'q': 'В каком году Университет ИТМО был включён в число Национальных исследовательских университетов России?', 'gl': 'us', 'hl': 'en', 'type': 'search', 'num': 10, 'engine': 'google'}, 'organic': [{'title': 'Университет ИТМО - Википедия', 'link': 'https://ru.wikipedia.org/wiki/%D0%A3%D0%BD%D0%B8%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%82%D0%B5%D1%82_%D0%98%D0%A2%D0%9C%D0%9E', 'snippet': 'В 1994 году учебное заведение получило статус университета, а в 2009 году — звание национального исследовательского университета.', 'position': 1}, {'title': 'ИСТОРИЯ УНИВЕРСИТЕТА ИТМО', 'link': 'https://itmo.ru/ru/page/211/istoriya_universiteta_itmo.htm', 'snippet': 'В 2009 году ИТМО, одному из немногих российских вузов, был присвоен статус национального исследов

In [27]:
from tqdm.notebook import tqdm
from time import perf_counter
from datetime import timedelta
import numpy as np
import json

def batch_inference(queries_pool, n_queries=1):
    times = []
    for i in tqdm(range(n_queries)):
        query_idx = i % n_queries

        start = perf_counter()
        output = inference(queries_pool[query_idx]["query"])
        end = perf_counter()

        iter_time = end-start
        times.append(iter_time)
        print(f"iter time: {timedelta(seconds=iter_time)}")
    
    times = np.array(times)
    print(
        f"\nAggregated iter time: {timedelta(seconds=times.mean())}"
        f" +- {times.std():.1f} s\n",
        sep=''
    )

In [28]:
%timeit -n 1 -r 1 batch_inference(test_queries, n_queries=1)

  0%|          | 0/1 [00:00<?, ?it/s]



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mAction: Intermediate Answer  
Action Input: "В каком году Университет ИТМО был включён в число Национальных исследовательских университетов России?"  [0m[36;1m[1;3m{'searchParameters': {'q': 'В каком году Университет ИТМО был включён в число Национальных исследовательских университетов России?', 'gl': 'us', 'hl': 'en', 'type': 'search', 'num': 10, 'engine': 'google'}, 'organic': [{'title': 'Университет ИТМО - Википедия', 'link': 'https://ru.wikipedia.org/wiki/%D0%A3%D0%BD%D0%B8%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%82%D0%B5%D1%82_%D0%98%D0%A2%D0%9C%D0%9E', 'snippet': 'Статус национального исследовательского университета (НИУ) ИТМО присвоили в 2009 году. В вузовских национальных и международных научно-исследовательских ...', 'position': 1}, {'title': 'ИСТОРИЯ УНИВЕРСИТЕТА ИТМО', 'link': 'https://itmo.ru/ru/page/211/istoriya_universiteta_itmo.htm', 'snippet': 'В 2009 году ИТМО, одному из немногих российских вузов, был присвоен ст

In [None]:
%timeit -n 1 -r 1 batch_inference(test_queries, n_queries=1)

  0%|          | 0/1 [00:00<?, ?it/s]



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mAction: Intermediate Answer  
Action Input: "В каком году Университет ИТМО был включён в число Национальных исследовательских университетов России?"  [0m[36;1m[1;3m{'searchParameters': {'q': 'В каком году Университет ИТМО был включён в число Национальных исследовательских университетов России?', 'gl': 'us', 'hl': 'en', 'type': 'search', 'num': 10, 'engine': 'google'}, 'organic': [{'title': 'Университет ИТМО - Википедия', 'link': 'https://ru.wikipedia.org/wiki/%D0%A3%D0%BD%D0%B8%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%82%D0%B5%D1%82_%D0%98%D0%A2%D0%9C%D0%9E', 'snippet': 'Статус национального исследовательского университета (НИУ) ИТМО присвоили в 2009 году. В вузовских национальных и международных научно-исследовательских ...', 'position': 1}, {'title': 'ИСТОРИЯ УНИВЕРСИТЕТА ИТМО', 'link': 'https://itmo.ru/ru/page/211/istoriya_universiteta_itmo.htm', 'snippet': 'В 2009 году ИТМО, одному из немногих российских вузов, был присвоен ст

In [None]:
self_ask_with_search = initialize_agent(
    tools, llm, agent=AgentType.SELF_ASK_WITH_SEARCH, verbose=True,
    # prompt=prompt,
    # handle_parsing_errors=True
)

self_ask_with_search.run(
    """
    Когда был проведен российско-китайский семинар по обучению ИИ в ИТМО?
    1. в декабре 2024
    3. в июне 2023
    4. в январе 2023
    5. в сентябре 1999
    6. в январе 2024
    """
)

In [161]:
search = GoogleSerperAPIWrapper()
results = search.results(
    "Когда был проведен российско-китайский семинар по обучению ИИ в ИТМО?"
    # test_query['query']
)
pprint.pp(results)

{'searchParameters': {'q': 'Когда был проведен российско-китайский семинар по '
                           'обучению ИИ в ИТМО?',
                      'gl': 'us',
                      'hl': 'en',
                      'type': 'search',
                      'num': 10,
                      'engine': 'google'},
 'organic': [{'title': 'Календарь ИТМО-2024: вспоминаем самое главное в '
                       'уходящем ...',
              'link': 'https://news.itmo.ru/ru/news/14101/',
              'snippet': 'В январе прошел первый российско-китайский семинар '
                         'по обучению специалистов в области ИИ, который '
                         'организовала команда ИТМО совместно с Яндексом ...',
              'date': 'Dec 26, 2024',
              'position': 1},
             {'title': 'Сделать массовое качественным: как в России и ... - '
                       'ITMO.news',
              'link': 'https://news.itmo.ru/ru/news/13589/',
              'snippet': 'Семинар со

In [163]:
results.keys()
results['organic']

[{'title': 'Календарь ИТМО-2024: вспоминаем самое главное в уходящем ...',
  'link': 'https://news.itmo.ru/ru/news/14101/',
  'snippet': 'В январе прошел первый российско-китайский семинар по обучению специалистов в области ИИ, который организовала команда ИТМО совместно с Яндексом ...',
  'date': 'Dec 26, 2024',
  'position': 1},
 {'title': 'Сделать массовое качественным: как в России и ... - ITMO.news',
  'link': 'https://news.itmo.ru/ru/news/13589/',
  'snippet': 'Семинар состоялся на площадке Университета Цинхуа ― одного из ведущих вузов Китая. Он постоянно занимает места в топ-50 крупных ...',
  'date': 'Jan 24, 2024',
  'position': 2},
 {'title': '155 преподавателей со всей России прошли курс по ИИ от ...',
  'link': 'https://news.itmo.ru/ru/news/14055/',
  'snippet': 'Организаторы курса получили более 1500 заявок. Участниками стали 160 человек, из них до финала дошли 155 преподавателей в составе 29 команд из ...',
  'date': 'Nov 27, 2024',
  'position': 3},
 {'title': 'Российски

In [34]:
search = GoogleSerperAPIWrapper(type="news", tbs="qdr:h")
results = search.results("Когда")
pprint.pp(results)

{'searchParameters': {'q': 'ИТМО',
                      'gl': 'us',
                      'hl': 'en',
                      'type': 'news',
                      'num': 10,
                      'tbs': 'qdr:h',
                      'engine': 'google'},
 'news': [{'title': 'РТК-ЦОД и Университет ИТМО реализовали проект по '
                    'размещению государственной образовательной платформы в '
                    'защищенном облаке',
           'link': 'https://vesty.spb.ru/2025/01/31/rtk-cod-i-universitet-itmo-realizovali-proekt-po-razmeshheniyu-gosudarstvennoi-obrazovatelnoi-platformy-v-zashhishhennom-oblake-30648',
           'snippet': 'Компания РТК-ЦОД (дочерняя компания «Ростелекома») и '
                      'Университет ИТМО успешно внедрили проект по размещению '
                      'критически значимой инфраструктуры...',
           'date': '33 minutes ago',
           'source': 'vesty.spb.ru',
           'imageUrl': 'https://encrypted-tbn0.gstatic.com/images?q=tbn