# [M_01] Protok√≥≈Ç: Multimodalny Analityk (Gemini 2.5 Flash)

Ten modu≈Ç implementuje logikƒô agenta analitycznego odpowiedzialnego za multimodalnƒÖ analizƒô wideo. Wykorzystujemy model Gemini 2.5 Flash do bezpo≈õredniej ekstrakcji metadanych bez transkrypcji po≈õredniej.

**Standard Techniczny:**
* **Framework:** PydanticAI (Standard `output_type`)
* **Silnik:** `GoogleModel` (gemini-2.5-flash)
* **Zmienna:** `GOOGLE_API_KEY` (Standard dla GoogleModel)

In [None]:
import os
import sys
import time
import pydantic_ai
import google.generativeai as genai
from typing import List
from pydantic import BaseModel, Field
from pydantic_ai import Agent
from pydantic_ai.models.google import GoogleModel
from dotenv import load_dotenv

# 0. Weryfikacja wersji i ≈õcie≈ºek
print(f"üîç Wersja pydantic-ai: {pydantic_ai.__version__}")

if os.getcwd().endswith("notebooks"):
    os.chdir("..")
sys.path.append(os.path.join(os.getcwd(), "src"))

# 1. Setup ≈õrodowiska (plik .env w root projektu)
# Upewnij siƒô, ≈ºe w .env masz klucz GOOGLE_API_KEY
load_dotenv(".env")
os.environ["GOOGLE_API_KEY"] = os.getenv("GEMINI_API_KEY") # Mapowanie je≈õli u≈ºywasz innej nazwy

# 2. Inicjalizacja silnika (PydanticAI sam pobierze GOOGLE_API_KEY)
model = GoogleModel('gemini-2.5-flash')

# Konfiguracja SDK Google (do uploadu plik√≥w)
genai.configure(api_key=os.getenv("GOOGLE_API_KEY"))

print(f"STATUS: System gotowy. Katalog roboczy: {os.getcwd()}")

## 1. Definicja Kontraktu Danych (Schema)

Tworzymy rygorystyczny model danych dla Agenta. Ka≈ºdy wynik musi byƒá instancjƒÖ klasy `VideoAnalysisReport`.

In [2]:
# Uproszczone modele bez ogranicze≈Ñ ge/le, kt√≥re blokujƒÖ API Google
class VideoClip(BaseModel):
    """Fragment wyselekcjonowany pod kƒÖtem viralowym."""
    start: str = Field(description="Znacznik czasu MM:SS")
    end: str = Field(description="Znacznik czasu MM:SS")
    hook: str = Field(description="Uzasadnienie viralowe")
    score: int = Field(description="Potencja≈Ç 1-10") # Usuniƒôto ge/le

class VideoAnalysisReport(BaseModel):
    """Pe≈Çny raport z analizy materia≈Çu ≈∫r√≥d≈Çowego."""
    summary: str = Field(description="G≈Ç√≥wna teza i temat filmu")
    suggested_titles: list[str] = Field(description="3 propozycje tytu≈Ç√≥w")
    clips: list[VideoClip] = Field(description="Lista fragment√≥w na Shortsy")

print("LOG: Modele danych zosta≈Çy uproszczone dla kompatybilno≈õci z Gemini Schema.")

LOG: Modele danych zosta≈Çy uproszczone dla kompatybilno≈õci z Gemini Schema.


## 2. Inicjalizacja Agenta Operacyjnego

U≈ºywamy prawid≈Çowej sk≈Çadni dla wersji 0.0.18+, gdzie struktura wyj≈õciowa definiowana jest przez parametr `output_type`.

In [3]:
# Inicjalizacja Agenta
agent = Agent(
    model=model,
    output_type=VideoAnalysisReport,  # ‚úÖ Prawid≈Çowa nazwa parametru dla Twojej wersji
    system_prompt=(
        "Jeste≈õ Koordynatorem Operacyjnym w KU≈πNI OPERATOR√ìW. "
        "Twoim zadaniem jest multimodalna analiza wideo i tworzenie brief√≥w monta≈ºowych. "
        "Wska≈º 3 najlepsze momenty. Wynik musi byƒá zgodny z VideoAnalysisReport."
    )
)

print("LOG: Agent Operacyjny zainicjowany.")

LOG: Agent Operacyjny zainicjowany.


## 3. ZarzƒÖdzanie Plikami (Native SDK)

Przed analizƒÖ plik musi trafiƒá do Google File API i uzyskaƒá status `ACTIVE`.

In [4]:
def upload_and_wait(path: str):
    """Przesy≈Ça plik i monitoruje status przetwarzania."""
    print(f"LOG: Przesy≈Çam materia≈Ç {path}...")
    file_obj = genai.upload_file(path=path)
    
    while file_obj.state.name == "PROCESSING":
        print(".", end="", flush=True)
        time.sleep(2)
        file_obj = genai.get_file(file_obj.name)
        
    if file_obj.state.name == "FAILED":
        raise RuntimeError("LOG: B≈ÇƒÖd krytyczny API.")
        
    print(f"\nLOG: Materia≈Ç gotowy do analizy.")
    return file_obj

## 4. Wykonanie Procesu (Analiza i Ekstrakcja)

Uruchamiamy pe≈Çny cykl operacyjny. W tej wersji systemu ustrukturyzowane dane wyj≈õciowe z modelu Gemini 2.5 Flash sƒÖ dostƒôpne przez atrybut `.output` obiektu wynikowego.

In [5]:
import json

# ≈öcie≈ºka do filmu w katalogu g≈Ç√≥wnym projektu
INPUT_VIDEO = "test_video.mp4"

async def start_mission():
    try:
        # 1. Przesy≈Çanie materia≈Çu przez Native SDK
        video_handle = upload_and_wait(INPUT_VIDEO)
        
        # 2. Inicjalizacja modelu
        print("LOG: Agent rozpoczyna analizƒô z wymuszonym schematem...")
        native_model = genai.GenerativeModel(model_name="gemini-2.5-flash")
        
        # PROMPT operacyjny
        prompt = (
            "Przeanalizuj to wideo. "
            "Zidentyfikuj g≈Ç√≥wny temat oraz wybierz 3 najlepsze fragmenty pod Shortsy. "
            "Zwr√≥ƒá wynik wy≈ÇƒÖcznie jako JSON zgodny ze strukturƒÖ VideoAnalysisReport."
        )
        
        # 3. Wywo≈Çanie z obs≈ÇugƒÖ schematu (wymuszenie struktury)
        response = native_model.generate_content(
            [prompt, video_handle],
            generation_config={
                "response_mime_type": "application/json",
                "response_schema": VideoAnalysisReport
            }
        )
        
        # 4. Parsowanie i walidacja po stronie Pythona
        raw_data = json.loads(response.text)
        report = VideoAnalysisReport.model_validate(raw_data)
        
        # 5. Prezentacja wynik√≥w
        print("\n" + "="*45)
        print(f"üöÄ RAPORT OPERACYJNY: {report.summary.upper()}")
        print("="*45)
        
        print(f"\nüí° SUGEROWANE TYTU≈ÅY:")
        for title in report.suggested_titles:
            print(f"   - {title}")
            
        print(f"\n‚úÇÔ∏è PLAN CIƒòƒÜ (SHORTS):")
        for i, clip in enumerate(report.clips, 1):
            print(f"   {i}. [{clip.start} - {clip.end}] (Potencja≈Ç: {clip.score}/10)")
            print(f"      HOOK: {clip.hook}\n")
        print("="*45)
            
    except Exception as e:
        print(f"‚ùå B≈ÅƒÑD OPERACYJNY: {str(e)}")

# Uruchomienie asynchroniczne
await start_mission()

LOG: Przesy≈Çam materia≈Ç test_video.mp4...
.
LOG: Materia≈Ç gotowy do analizy.
LOG: Agent rozpoczyna analizƒô z wymuszonym schematem...

üöÄ RAPORT OPERACYJNY: G≈Å√ìWNƒÑ TEZƒÑ FILMU JEST PROMOCJA US≈ÅUG FIRMY TAKZEN DEV, OFERUJƒÑCEJ INTELIGENTNE TWORZENIE STRON INTERNETOWYCH Z WYKORZYSTANIEM TECHNOLOGII TAKICH JAK REACT, NEXT.JS I SZTUCZNA INTELIGENCJA. TEMAT FILMU TO PREZENTACJA ZAAWANSOWANEGO, INNOWACYJNEGO PODEJ≈öCIA DO WEB DEVELOPMENTU.

üí° SUGEROWANE TYTU≈ÅY:
   - TAKZEN DEV: Inteligentny Web Development z React, Next.js i AI
   - Odkryj Przysz≈Ço≈õƒá Web Dev z TAKZEN DEV i AI!
   - Innowacyjne RozwiƒÖzania Web: React, Next.js, AI od TAKZEN DEV

‚úÇÔ∏è PLAN CIƒòƒÜ (SHORTS):
   1. [00:00 - 00:02] (Potencja≈Ç: 7/10)
      HOOK: Pierwsze pojawienie siƒô dynamicznego efektu elektrycznego, intrygujƒÖce i szybkie wprowadzenie.

   2. [00:02 - 00:05] (Potencja≈Ç: 8/10)
      HOOK: Centralna czƒô≈õƒá animacji, gdzie b≈Çyskawice w kropli sƒÖ najbardziej intensywne i symbolizujƒÖ energi