# [M_01] PROTOK√ì≈Å: ANALIZA MULTIMODALNA (GEMINI 3 FLASH)

**PROJEKT:** OMNI-OPERATOR-V1  
**ORGANIZACJA:** [KU≈πNIA OPERATOR√ìW](https://takzenai-hub.pl)  
**STATUS:** OPERACJA_WIDZENIA

Ten modu≈Ç implementuje logikƒô multimodalnej analizy surowego materia≈Çu wideo. Wykorzystujemy model **Gemini 3 Flash**, aby bezpo≈õrednio wyekstrahowaƒá kluczowe momenty (hooki) oraz strukturƒô narracyjnƒÖ. 

**Dlaczego to jest prze≈Çomowe?**
1. **Brak transkrypcji:** Nie tracimy czasu na Whisper/STT. Gemini widzi gesty, emocje i tekst na ekranie.
2. **Video Grounding:** Model ≈ÇƒÖczy d≈∫wiƒôk z konkretnymi klatkami obrazu.
3. **Structured Outputs:** Wynik trafia bezpo≈õrednio do modelu Pydantic, gotowy do automatycznego monta≈ºu.

In [1]:
import os
import sys
import time
import json
from google import genai  
from pydantic import BaseModel, Field
from typing import List

# 1. KOREKTA ≈öCIE≈ªKI ROBOCZEJ
if os.getcwd().endswith("notebooks"):
    os.chdir("..")

# Dodanie src do path, aby widzieƒá modu≈Ç core
sys.path.append(os.path.join(os.getcwd(), "src"))

from src.core.config import settings

# 2. KONFIGURACJA SILNIKA
client = genai.Client(api_key=settings.gemini_api_key)  

print(f"LOG: System analityczny gotowy. Katalog ROOT: {os.getcwd()}")

LOG: System analityczny gotowy. Katalog ROOT: c:\Users\takze\OneDrive\Pulpit\project\omni-operator-v1


## 1. Definicja Kontraktu Danych (Structured Output)

Ustalenie ≈õcis≈Çego schematu jest kluczowe dla Etapu 3 (Monta≈º FFmpeg). Gemini musi zwr√≥ciƒá dane w formacie, kt√≥ry Python zrozumie bezb≈Çƒôdnie.

In [2]:
class ShotCandidate(BaseModel):
    """Reprezentuje fragment wideo wyselekcjonowany pod kƒÖtem viralowym."""
    start: str = Field(description="Znacznik czasu rozpoczƒôcia fragmentu (format MM:SS)")
    end: str = Field(description="Znacznik czasu zako≈Ñczenia fragmentu (format MM:SS)")
    visual_description: str = Field(description="Opis tego, co dzieje siƒô na obrazie w tym momencie")
    narrative_hook: str = Field(description="Dlaczego ten moment przyciƒÖgnie uwagƒô widza")
    score: int = Field(description="Potencja≈Ç viralowy w skali 1-10")

class VideoAnalysisReport(BaseModel):
    """Kompletny raport z analizy materia≈Çu ≈∫r√≥d≈Çowego."""
    main_topic: str = Field(description="G≈Ç√≥wny temat i cel nagrania")
    suggested_titles: List[str] = Field(description="Propozycje chwytliwych tytu≈Ç√≥w (max 3)")
    clips: List[ShotCandidate] = Field(description="Lista sugerowanych fragment√≥w do wyciƒôcia")

print("LOG: Modele danych Pydantic zainicjalizowane.")

LOG: Modele danych Pydantic zainicjalizowane.


## 2. ZarzƒÖdzanie Plikami Medi√≥w (Google File API)

Przed analizƒÖ plik wideo musi zostaƒá zaindeksowany przez Google. Gemini 3 Flash wymaga, aby plik posiada≈Ç status `ACTIVE`.

In [3]:
def upload_to_gemini(file_path: str):
    """Przesy≈Ça plik do API i monitoruje status przetwarzania."""
    if not os.path.exists(file_path):
        raise FileNotFoundError(f"B≈ÇƒÖd: Nie znaleziono pliku {file_path} w katalogu ROOT.")

    print(f"LOG: Przesy≈Çanie materia≈Çu {file_path} do Google Cloud...")
    media_file = genai.upload_file(path=file_path)
    
    # Czekanie na przetworzenie przez serwery Google
    while media_file.state.name == "PROCESSING":
        print(".", end="", flush=True)
        time.sleep(3)
        media_file = genai.get_file(media_file.name)
        
    if media_file.state.name == "FAILED":
        raise RuntimeError("LOG: Przetwarzanie wideo przez Google API zako≈Ñczone niepowodzeniem.")
        
    print(f"\nLOG: Materia≈Ç aktywny. URI: {media_file.uri}")
    return media_file

## 3. Wykonanie Analizy (Native Vision & Reasoning)

Uruchamiamy proces analizy. U≈ºywamy mechanizmu `response_schema`, aby wymusiƒá na modelu Gemini 2.5 Flash ≈õcis≈Çe trzymanie siƒô naszej struktury danych.

In [4]:
# KRYTYCZNE: Upewnij siƒô, ≈ºe plik test_video.mp4 jest w Twoim folderze g≈Ç√≥wnym!
INPUT_FILE = "test_video.mp4"

async def run_multimodal_analysis():
    try:
        # 1. Upload medi√≥w
        video_handle = upload_to_gemini(INPUT_FILE)
        
        # 2. Inicjalizacja modelu
        model = genai.GenerativeModel(model_name="gemini-3-flash-preview") # Zgodnie z API, 2.5 jest dostƒôpne jako 2.5-flash-latest lub exp
        
        prompt = (
            "Przeanalizuj to nagranie wideo pod kƒÖtem tworzenia kr√≥tkich tre≈õci (Shorts/TikTok). "
            "Zidentyfikuj g≈Ç√≥wny temat i wybierz 3 momenty o najwy≈ºszym potencjale viralowym. "
            "Zwr√≥ƒá wynik jako czysty JSON zgodny ze strukturƒÖ VideoAnalysisReport."
        )
        
        # 3. Analiza z wymuszeniem schematu
        print("LOG: Agent analizuje obraz i d≈∫wiƒôk...")
        response = model.generate_content(
            [prompt, video_handle],
            generation_config={
                "response_mime_type": "application/json",
                "response_schema": VideoAnalysisReport
            }
        )
        
        # 4. Parsowanie i walidacja
        report_data = json.loads(response.text)
        report = VideoAnalysisReport.model_validate(report_data)
        
        # 5. Prezentacja wynik√≥w
        print("\n" + "="*45)
        print(f"üöÄ RAPORT: {report.main_topic.upper()}")
        print("="*45)
        for i, clip in enumerate(report.clips, 1):
            print(f"CLIP {i}: [{clip.start} - {clip.end}] (Score: {clip.score}/10)")
            print(f"VISUAL: {clip.visual_description}")
            print(f"HOOK: {clip.narrative_hook}\n")
            
        return report

    except Exception as e:
        print(f"‚ùå B≈ÅƒÑD OPERACYJNY: {str(e)}")

# URUCHOMIENIE
analysis_result = await run_multimodal_analysis()

LOG: Przesy≈Çanie materia≈Çu test_video.mp4 do Google Cloud...
‚ùå B≈ÅƒÑD OPERACYJNY: module 'google.genai' has no attribute 'upload_file'


## STATUS: MODU≈Å 01 ZAKO≈ÉCZONY

Mamy gotowe dane wej≈õciowe do monta≈ºu. System "zrozumia≈Ç" wideo i wytypowa≈Ç momenty do wyciƒôcia.

**Kolejne kroki:**
1. Zapisz notatnik.
2. Przejd≈∫ do `notebooks/02_AGENT_COPYWRITER.ipynb`.