In [22]:
import os
from dotenv import load_dotenv

load_dotenv()

model_name = "gpt-4o-mini"
dall_model_name = "dall-e-3"
api_key = os.getenv("OPENAI_API_KEY")

In [32]:
system_prompt = """
You are tasked with processing a list of messages.

Your goal is to:
1. **Combine Similar Messages**: Identify and combine similar messages into one summary.
   - Similar messages should be grouped together under a single title.
   - Keep all details intact—do not add or remove information.

2. **Create a Summary**: For each group of similar messages, write a concise summary that includes:
   - **Title**: The title should summarize the theme of the combined messages. It should be clear, concise, and relevant to the content.
   - **Content**: The content should be a rewritten, coherent summary of the combined messages, preserving all key points. Ensure the text flows naturally.
   - **Metadata**: Merge metadata from the similar messages into one dictionary. If there are conflicts or overlaps, choose the most relevant or comprehensive metadata.

3. **Length Limit**: The **title** and **content** together should not exceed **1024 characters** in total.
   - If the combined length exceeds this limit, **split the summary** into multiple entries, each containing its own title, content, and metadata.

4. Summary should be in the same language as the most messages.

5. Dont add any information from metadata to the content.

6. Content possible can be short if messages' contents are short.

### **Instructions**:
- Identify messages that are similar, based on the content or topic.
- When combining them:
  - Keep the content intact.
  - Do not add or infer new information.
  - Only merge messages that share the same theme or subject.

### **Output Format**:
Your response should be a list of summaries, where each summary is represented as a dictionary with the following fields:
[
  {
    "title": "Title of the Combined Summary",
    "content": "The full, rewritten text of the combined summary",
    "metadata": {
      "key1": "value1",
      "key2": "value2"
    }
  },
  {
    "title": "Title of the Another Combined Summary",
    "content": "The full, rewritten text of the another combined summary",
    "metadata": {
      "key1": "value1",
      "key2": "value2"
    }
  }
]

DOUBLE CHECK YOUR ANSWER!!!
"""


In [13]:
from pydantic import BaseModel, Field


class SummaryDto(BaseModel):
    """Represents a user with personal details such as id, username, first name, last name, email, password, phone, and user status."""

    title: str = Field(
        ..., description="News title", example="Rosneft announced dividend payment"
    )
    content: str = Field(
        ...,
        description="News text",
        example="A robotic dog with a rabbit and a minigun is a new word in home security. A Chinese enthusiast has created an unusual hybrid, where a cute animal has become part of the combat system. Now this mecha-hare not only looks threatening, but also effectively performs its task, monitoring the yard.",
    )
    metadata: dict = Field(
        ...,
        description="Metadata",
        example={"source": "https://www.google.com"},
    )

In [14]:
from typing import List
from pydantic_ai import Agent


agent = Agent(
    model=model_name,
    deps_type=List[str],
    output_type=List[SummaryDto],
    system_prompt=system_prompt,
    verbose=True
)

In [15]:
from typing import Any, Dict


class Message(BaseModel):
    content: str = Field(..., description="The text content of the message")
    metadata: Dict[str, Any] = Field(
        default_factory=dict,
        description="Additional metadata about the message (e.g., timestamp, author, etc.)",
    )

In [16]:
messages: List[Message] = []


In [17]:
messages = [
    Message(
        content="Apple выпускает новый iPhone 15 с расширенными функциями, включая улучшенные камеры, более быстрый процессор и увеличенное время работы батареи. Ожидается, что iPhone 15 установит новые рекорды продаж по всему миру.",
        metadata={"timestamp": "2025-04-15T08:00:00Z", "author": "Тех Новости"}
    ),
    Message(
        content="Серия Galaxy S23 от Samsung была хорошо принята, с улучшениями в качестве экрана, энергоэффективности и производительности камеры. Аналитики считают, что Galaxy S23 будет серьёзным конкурентом новому iPhone 15 от Apple в ближайшие месяцы.",
        metadata={"timestamp": "2025-04-15T09:00:00Z", "author": "Обзор Гаджетов"}
    ),
    Message(
        content="Новый iPhone 15 был анонсирован Apple, демонстрируя такие функции, как увеличенное время работы батареи, обновлённые камеры и более быстрый чип. Этот новый релиз вызвал большой интерес в технологическом сообществе.",
        metadata={"timestamp": "2025-04-15T08:30:00Z", "author": "Тех Базз"}
    ),
    Message(
        content="Microsoft выпустила крупное обновление для Windows 11, сосредоточенное на улучшении безопасности и производительности. Обновление предназначено для более плавной и безопасной работы, особенно в бизнес-среде.",
        metadata={"timestamp": "2025-04-15T10:00:00Z", "author": "Тех Обзор"}
    ),
    Message(
        content="Apple анонсировала iPhone 15 с новыми функциями. Улучшенная камера и более высокая производительность являются основными достоинствами, и ожидается, что он станет большим успехом на рынке смартфонов, превзойдя предыдущие модели iPhone по продажам.",
        metadata={"timestamp": "2025-04-15T09:30:00Z", "author": "Час Гаджетов"}
    ),
    Message(
        content="Sony PlayStation 5 продолжает доминировать на рынке видеоигр, а эксклюзивные новинки стимулируют продажи консоли. Ожидается, что PlayStation 5 останется сильным конкурентом в игровой индустрии в обозримом будущем.",
        metadata={"timestamp": "2025-04-15T11:00:00Z", "author": "Игровая Неделя"}
    ),
    Message(
        content="Новый iPhone 15 от Apple включает улучшенную камеру, более ёмкую батарею и более высокую скорость обработки. Эти функции, как ожидается, привлекут как новых покупателей, так и преданных поклонников Apple.",
        metadata={"timestamp": "2025-04-15T07:45:00Z", "author": "Мир Технологий"}
    ),
    Message(
        content="Последний шаг Microsoft в облачных вычислениях включает расширение сервисов Azure на новые международные рынки. Эта стратегическая мера направлена на более эффективную конкуренцию с Amazon Web Services и Google Cloud.",
        metadata={"timestamp": "2025-04-15T12:00:00Z", "author": "Облачные Технологии"}
    ),
    Message(
        content="Apple представляет более мощный чип в iPhone 15, обеспечивающий значительный прирост производительности. С обновлённым дисплеем и улучшенной оптимизацией батареи, этот новый iPhone наверняка понравится как техноэнтузиастам, так и профессионалам.",
        metadata={"timestamp": "2025-04-15T08:45:00Z", "author": "Тех Инсайтс"}
    ),
    Message(
        content="Microsoft делает упор на улучшение функций безопасности в Windows 11. Последнее обновление включает критически важные патчи и усовершенствования для предотвращения кибератак, делая платформу более безопасной как для личного, так и для корпоративного использования.",
        metadata={"timestamp": "2025-04-15T10:30:00Z", "author": "Безопасность Сегодня"}
    ),
]

In [18]:
import json


messages_json = [json.dumps(message.model_dump()) for message in messages]
result = await agent.run(messages_json)

In [19]:
result.output

[SummaryDto(title='Apple Launches iPhone 15 with Enhanced Features', content='Apple выпускает новый iPhone 15 с расширенными функциями, включая улучшенные камеры, более быстрый процессор и увеличенное время работы батареи. Ожидается, что iPhone 15 установит новые рекорды продаж по всему миру.', metadata={'timestamp': '2025-04-15T08:00:00Z', 'author': 'Тех Новости'}),
 SummaryDto(title='Apple Unveils iPhone 15 with Robust Capabilities', content='Новый iPhone 15 был анонсирован Apple, демонстрируя такие функции, как улучшенное время работы батареи, обновленные камеры и более быстрый чип. Этот новый релиз вызвал большой интерес в технологическом сообществе.', metadata={'timestamp': '2025-04-15T08:30:00Z', 'author': 'Тех База'}),
 SummaryDto(title='iPhone 15 Expected to Top Sales Charts', content='Apple анонсировала iPhone 15 с новыми функциями. Увеличенная камера и более высокая производительность являются основными достоинствами, и ожидается, что он станет большим успехом на рынке смартф

In [20]:
for summary in result.output:
    print(f"""
TITLE: {summary.title}
CONTENT: {summary.content}
METADATA: {summary.metadata}
""")


TITLE: Apple Launches iPhone 15 with Enhanced Features
CONTENT: Apple выпускает новый iPhone 15 с расширенными функциями, включая улучшенные камеры, более быстрый процессор и увеличенное время работы батареи. Ожидается, что iPhone 15 установит новые рекорды продаж по всему миру.
METADATA: {'timestamp': '2025-04-15T08:00:00Z', 'author': 'Тех Новости'}


TITLE: Apple Unveils iPhone 15 with Robust Capabilities
CONTENT: Новый iPhone 15 был анонсирован Apple, демонстрируя такие функции, как улучшенное время работы батареи, обновленные камеры и более быстрый чип. Этот новый релиз вызвал большой интерес в технологическом сообществе.
METADATA: {'timestamp': '2025-04-15T08:30:00Z', 'author': 'Тех База'}


TITLE: iPhone 15 Expected to Top Sales Charts
CONTENT: Apple анонсировала iPhone 15 с новыми функциями. Увеличенная камера и более высокая производительность являются основными достоинствами, и ожидается, что он станет большим успехом на рынке смартфонов, превзойдя предыдущие модели по продаж

In [21]:
from typing import Optional


class SummaryExtendedDto(SummaryDto):
    image_url: Optional[str] = Field(default=None, description="URL of the image associated with the summary")


In [23]:
from openai import OpenAI


client = OpenAI(api_key=api_key)

In [26]:
img_gen_prompt="""
Generate an image for news - article/notification with title {{title}}

Rules:
- Image should be in the style of the news
- As realistic as possible
"""

In [30]:
async def process_summary(summary: SummaryDto) -> SummaryExtendedDto:
    image_url = None
    print(f"executing for => {summary.title}")
    # Check if metadata has attachments
    if summary.metadata and "attachments" in summary.metadata:
        print(f"returning for => {summary.title}")
        return
    
    # Only generate image if no attachments were found
    formatted_prompt = img_gen_prompt.replace("{{title}}", summary.title)
    if not image_url:
        print(f"generating image for => {summary.title}")
        response = client.images.generate(
            model=dall_model_name,
            prompt=formatted_prompt,
            size="1024x1024",
            quality="hd",
            n=1
        )
        image_url = response.data[0].url
    print(f"finished generating image for => {summary.title} with url => {image_url}")
    return SummaryExtendedDto(
        title=summary.title,
        content=summary.content,
        metadata=summary.metadata,
        image_url=image_url
    )

In [31]:
import asyncio


tasks = [process_summary(summary) for summary in result.output]
res = await asyncio.gather(*tasks)

executing for => Apple Launches iPhone 15 with Enhanced Features
generating image for => Apple Launches iPhone 15 with Enhanced Features
finished generating image for => Apple Launches iPhone 15 with Enhanced Features with url => https://oaidalleapiprodscus.blob.core.windows.net/private/org-Edd8N7Xo9s4j5hzEhW6gROBO/user-GMYD5QdqqarobFMctIWJQnd2/img-c21CdPXejF6pXIWpRz8dEZ0q.png?st=2025-04-20T02%3A52%3A08Z&se=2025-04-20T04%3A52%3A08Z&sp=r&sv=2024-08-04&sr=b&rscd=inline&rsct=image/png&skoid=cc612491-d948-4d2e-9821-2683df3719f5&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2025-04-19T08%3A52%3A45Z&ske=2025-04-20T08%3A52%3A45Z&sks=b&skv=2024-08-04&sig=sVMcRlSLCh2tpL6BT0elRC3Gy56vzdYTl%2ByS6IteSA4%3D
executing for => Apple Unveils iPhone 15 with Robust Capabilities
generating image for => Apple Unveils iPhone 15 with Robust Capabilities
finished generating image for => Apple Unveils iPhone 15 with Robust Capabilities with url => https://oaidalleapiprodscus.blob.core.windows.net/private/org-

In [34]:
messages2 = [
    Message(
        content="Apple",
        metadata={"timestamp": "2025-04-15T08:00:00Z", "author": "Тех Новости"}
    )
]

In [36]:
messages_jsonnn = [json.dumps(message.model_dump()) for message in messages2]
result = await agent.run(messages_jsonnn)
result

AgentRunResult(output=[SummaryDto(title='Apple', content='Apple', metadata={'timestamp': '2025-04-15T08:00:00Z', 'author': 'Тех Новости'})])