# Setup

In [None]:
# !pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu121

Looking in indexes: https://download.pytorch.org/whl/nightly/cu121
INFO: pip is looking at multiple versions of torch to determine which version is compatible with other requirements. This could take a while.
Collecting torch
  Downloading https://download.pytorch.org/whl/nightly/cu121/torch-2.6.0.dev20241112%2Bcu121-cp311-cp311-linux_x86_64.whl (768.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m768.0/768.0 MB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch)
  Downloading https://download.pytorch.org/whl/nightly/cu121/nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m23.7/23.7 MB[0m [31m85.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting nvidia-cuda-runtime-cu12==12.1.105 (from torch)
  Downloading https://download.pytorch.org/whl/nightly/cu121/nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB)


Ten kod służy do instalacji biblioteki PyTorch wraz z jej komponentami torchvision i torchaudio w najnowszej wersji deweloperskiej (nightly build).

Komenda pip install pozwala zainstalować te pakiety. Flaga --pre umożliwia instalację wersji przedpremierowych.

Parametr --index-url wskazuje specjalny adres URL, z którego pobierane są pliki instalacyjne. W tym przypadku jest to repozytorium nocnych buildów PyTorch ze wsparciem dla kart NVIDIA z CUDA 12.1 (na co wskazuje fragment "cu121" w adresie).

Taka instalacja jest przydatna gdy potrzebujemy najnowszych funkcji PyTorch, które nie zostały jeszcze wydane w stabilnej wersji, lub gdy chcemy przetestować nadchodzące zmiany. Należy jednak pamiętać, że wersje deweloperskie mogą zawierać błędy i nie są zalecane do zastosowań produkcyjnych.

Warto też zwrócić uwagę, że ta konkretna wersja wymaga karty graficznej NVIDIA z zainstalowanym sterownikiem CUDA 12.1. Jeśli mamy inną wersję CUDA lub nie posiadamy karty NVIDIA, powinniśmy użyć innego wariantu instalacji.

In [2]:
!pip install diffusers transformers hf_transfer imageio-ffmpeg

Collecting hf_transfer
  Downloading hf_transfer-0.1.9-cp38-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (1.7 kB)
Downloading hf_transfer-0.1.9-cp38-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.6/3.6 MB[0m [31m27.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: hf_transfer
Successfully installed hf_transfer-0.1.9


- `diffusers` to narzędzie stworzone przez Hugging Face, które zawiera implementacje najnowszych modeli generatywnych, w tym stabilnej dyfuzji (Stable Diffusion). Pozwala na tworzenie obrazów z opisów tekstowych, edycję istniejących obrazów oraz inne zaawansowane operacje związane z generowaniem grafiki.

- `Transformers` to główna biblioteka Hugging Face, która udostępnia setki modeli językowych i nie tylko. Jest niezbędna do pracy z modelami opartymi na architekturze transformerów, która zrewolucjonizowała uczenie maszynowe. Biblioteka ta zapewnia jednolity interfejs do pobierania, trenowania i wykorzystywania modeli.

- `hf_transfer` to specjalistyczne narzędzie Hugging Face służące do szybkiego i niezawodnego pobierania dużych modeli. Znacząco przyspiesza proces ściągania plików w porównaniu do standardowych metod, co jest szczególnie ważne przy pracy z modelami ważącymi dziesiątki gigabajtów.

- `imageio-ffmpeg` umożliwia pracę z plikami wideo w Pythonie. Ta biblioteka pozwala na odczytywanie, zapisywanie i przetwarzanie plików wideo w różnych formatach. Jest często wykorzystywana w projektach związanych z generowaniem i edycją materiałów wizualnych, szczególnie gdy trzeba połączyć wygenerowane klatki w płynną animację.

In [3]:
!pip install git+https://github.com/huggingface/accelerate

Collecting git+https://github.com/huggingface/accelerate
  Cloning https://github.com/huggingface/accelerate to /tmp/pip-req-build-333sit2i
  Running command git clone --filter=blob:none --quiet https://github.com/huggingface/accelerate /tmp/pip-req-build-333sit2i
  Resolved https://github.com/huggingface/accelerate to commit 8039158d71418e4520113e43bfe3567ffeedd7db
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: accelerate
  Building wheel for accelerate (pyproject.toml) ... [?25l[?25hdone
  Created wheel for accelerate: filename=accelerate-1.4.0.dev0-py3-none-any.whl size=342262 sha256=f04d244d47a2241840c3f2c4816fafab5d1d3cacfb53bde115e54802f208b1a0
  Stored in directory: /tmp/pip-ephem-wheel-cache-3jgnh3fs/wheels/18/af/f7/facfc4ea8d2484e23fc8489825221fe5826625fad79301dd99
Successfully built accelerate
Installing collecte

In [None]:
import torch
import os
from diffusers import AutoencoderKLCogVideoX, CogVideoXVideoToVideoPipeline, CogVideoXTransformer3DModel, CogVideoXDPMScheduler
from diffusers.utils import export_to_video, load_video, export_to_gif
from transformers import T5EncoderModel
from IPython.display import Video, display

os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"

The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.


0it [00:00, ?it/s]

Z biblioteki diffusers importowane są cztery kluczowe komponenty:
- AutoencoderKLCogVideoX to autoenkoder, który kompresuje i dekompresuje klatki wideo do i z przestrzeni latentnej
- CogVideoXVideoToVideoPipeline to główny mechanizm przekształcania jednego wideo w inne
- CogVideoXTransformer3DModel to model transformera przystosowany do pracy z trójwymiarowymi danymi wideo
- CogVideoXDPMScheduler zarządza procesem próbkowania podczas generacji wideo

Z biblioteki diffusers.utils importowane są funkcje pomocnicze:
- export_to_video zapisuje wygenerowane klatki jako plik wideo
- load_video wczytuje plik wideo do formatu zrozumiałego dla modelu
- export_to_gif tworzy animowany GIF z wygenerowanych klatek

T5EncoderModel z biblioteki transformers służy do kodowania tekstu, który może być używany do sterowania generacją wideo.

Moduły Video, Image i display z IPython.display umożliwiają wyświetlanie wygenerowanych materiałów bezpośrednio w środowisku Jupyter/Colab.

In [5]:
class CFG:
    model = "THUDM/CogVideoX-5b"
    model2 = "camenduru/cogvideox-5b-float16"
    dtype = torch.bfloat16
    device = "cuda"

- Parametr model wskazuje na "THUDM/CogVideoX-5b", który jest oryginalnym modelem opracowanym przez zespół THUDM (Tsinghua University Data Mining Lab). Liczba "5b" w nazwie oznacza, że model zawiera około 5 miliardów parametrów, co świadczy o jego znacznej złożoności i potencjale obliczeniowym.

- Parametr model2 kieruje do "camenduru/cogvideox-5b-float16", który jest zmodyfikowaną wersją oryginalnego modelu. Ta wersja została przekonwertowana do formatu float16, co oznacza, że używa 16-bitowej precyzji zmiennoprzecinkowej zamiast standardowej 32-bitowej. Taka optymalizacja zmniejsza zużycie pamięci GPU i przyspiesza obliczenia, choć może nieznacznie wpłynąć na precyzję.

- dtype ustawia typ danych na torch.bfloat16, czyli brain floating point format. Jest to specjalny format liczb zmiennoprzecinkowych, opracowany przez Google z myślą o zastosowaniach w uczeniu maszynowym. Format bfloat16 oferuje dobry kompromis między precyzją a wydajnością obliczeniową, zachowując taki sam zakres wartości jak float32, ale używając mniej bitów na część ułamkową.

# Model

In [6]:

transformer = CogVideoXTransformer3DModel.from_pretrained(CFG.model2, subfolder="transformer", torch_dtype=torch.float16)
text_encoder = T5EncoderModel.from_pretrained(CFG.model2, subfolder="text_encoder", torch_dtype=torch.float16)
vae = AutoencoderKLCogVideoX.from_pretrained(CFG.model, subfolder="vae", torch_dtype=torch.float16)

transformer%2Fconfig.json:   0%|          | 0.00/798 [00:00<?, ?B/s]

(…)ion_pytorch_model.safetensors.index.json:   0%|          | 0.00/103k [00:00<?, ?B/s]

Fetching 3 files:   0%|          | 0/3 [00:00<?, ?it/s]

(…)pytorch_model-00001-of-00003.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

(…)pytorch_model-00003-of-00003.safetensors:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

(…)pytorch_model-00002-of-00003.safetensors:   0%|          | 0.00/4.95G [00:00<?, ?B/s]

text_encoder%2Fconfig.json:   0%|          | 0.00/791 [00:00<?, ?B/s]

(…)t_encoder%2Fmodel.safetensors.index.json:   0%|          | 0.00/19.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/3 [00:00<?, ?it/s]

model-00001-of-00003.safetensors:   0%|          | 0.00/4.99G [00:00<?, ?B/s]

model-00002-of-00003.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

model-00003-of-00003.safetensors:   0%|          | 0.00/1.58G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

vae%2Fconfig.json:   0%|          | 0.00/872 [00:00<?, ?B/s]

diffusion_pytorch_model.safetensors:   0%|          | 0.00/862M [00:00<?, ?B/s]

Ten fragment kodu wczytuje trzy kluczowe komponenty modelu CogVideoX, każdy ze specyficzną rolą w procesie przetwarzania wideo.

- `transformer`, to serce systemu. CogVideoXTransformer3DModel jest specjalną wersją architektury Transformer, zaprojektowaną do pracy z trójwymiarowymi danymi wideo. Dane wideo można postrzegać jako sześcian informacji - szerokość i wysokość każdej klatki plus wymiar czasowy. Model jest ładowany z wersji zoptymalizowanej (model2) w formacie float16, co oszczędza pamięć GPU przy zachowaniu dobrej wydajności.

- `text_encoder`, wykorzystuje model T5 do przetwarzania tekstu. Jest to niezwykle istotna część systemu, ponieważ przekształca tekstowe opisy lub instrukcje w format, który model może wykorzystać do sterowania generacją wideo. T5 to potężny model językowy, który potrafi zrozumieć niuanse języka naturalnego i przekształcić je w reprezentacje numeryczne zrozumiałe dla systemu.

- `vae` (Variational AutoEncoder), pełni rolę kompresora i dekompresora danych wideo. Jest to rodzaj autoenkodera, który przekształca surowe dane wideo w bardziej zwartą reprezentację (przestrzeń latentną) i z powrotem. Ta kompresja jest kluczowa dla wydajności systemu - zamiast pracować bezpośrednio na surowych pikselach, model operuje na znacznie mniejszej reprezentacji, co przyspiesza obliczenia i zmniejsza wymagania pamięciowe.

In [7]:
pipe = CogVideoXVideoToVideoPipeline.from_pretrained(
    CFG.model,
    text_encoder=text_encoder,
    transformer=transformer,
    vae=vae,
    torch_dtype=torch.float16,
)
pipe.scheduler = CogVideoXDPMScheduler.from_config(pipe.scheduler.config)

model_index.json:   0%|          | 0.00/411 [00:00<?, ?B/s]

Fetching 6 files:   0%|          | 0/6 [00:00<?, ?it/s]

spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

scheduler%2Fscheduler_config.json:   0%|          | 0.00/482 [00:00<?, ?B/s]

tokenizer%2Ftokenizer_config.json:   0%|          | 0.00/20.6k [00:00<?, ?B/s]

tokenizer%2Fspecial_tokens_map.json:   0%|          | 0.00/2.54k [00:00<?, ?B/s]

tokenizer%2Fadded_tokens.json:   0%|          | 0.00/2.59k [00:00<?, ?B/s]

Loading pipeline components...:   0%|          | 0/5 [00:00<?, ?it/s]

Ten fragment kodu tworzy główny mechanizm przetwarzania wideo w systemie CogVideoX, łącząc wszystkie wcześniej zainicjowane komponenty w jeden spójny potok przetwarzania.

Pierwsza część kodu tworzy instancję CogVideoXVideoToVideoPipeline, która działa jak orkiestra dyrygująca wszystkimi komponentami systemu. Metoda from_pretrained() przyjmuje kilka kluczowych elementów:

- Bazowy model (CFG.model) określa podstawową architekturę systemu
- text_encoder to wcześniej utworzony koder tekstu, który przetwarza instrukcje tekstowe
- transformer to główny model transformera, który wykonuje faktyczne przekształcenia wideo
- vae to autoenkoder, który kompresuje i dekompresuje dane wideo
- torch_dtype=torch.float16 ponownie potwierdza, że system ma działać z 16-bitową precyzją

W drugiej linijce następuje podmiana domyślnego harmonogramu (schedulera) na CogVideoXDPMScheduler. Scheduler w systemach generatywnych pełni kluczową rolę - kontroluje proces stopniowego przekształcania szumu w znaczące dane. Jest to jak precyzyjny plan, według którego model krok po kroku udoskonala swoje wyjście.

DPM (Denoising Probability Model) to zaawansowany algorytm próbkowania, który wyróżnia się dobrym balansem między jakością a szybkością generacji. Warto zauważyć, że nowy scheduler jest inicjowany z konfiguracją poprzedniego (pipe.scheduler.config), co zapewnia spójność ustawień w całym systemie.

In [8]:
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_tiling()

Te dwie linie kodu wprowadzają istotne optymalizacje, które pozwalają na pracę z dużymi modelami nawet na komputerach z ograniczonymi zasobami. Przyjrzyjmy się dokładnie, co każda z nich robi.

`enable_sequential_cpu_offload()` wprowadza inteligentne zarządzanie pamięcią w całym potoku przetwarzania. Działa ona jak sprawny kierownik, który dba o to, by w pamięci GPU znajdowały się tylko te części modelu, które są aktualnie potrzebne. Gdy jakiś komponent kończy swoją pracę, jest przenoszony do pamięci RAM, zwalniając cenną pamięć karty graficznej dla następnych operacji. Jest to szczególnie przydatne w przypadku tak złożonego systemu jak CogVideoX, gdzie różne komponenty (encoder tekstu, transformer, VAE) działają sekwencyjnie.

Z kolei `enable_tiling()` włączona na komponencie VAE (Variational AutoEncoder) wprowadza technikę kafelkowania przy przetwarzaniu obrazów. Możemy to porównać do sytuacji, gdy mamy do pomalowania bardzo duży obraz - zamiast próbować objąć go całego jednym pędzlem, dzielimy go na mniejsze, łatwiejsze do obrobienia fragmenty. VAE przetwarza obraz kawałek po kawałku, co znacząco zmniejsza zużycie pamięci. Jest to szczególnie ważne przy pracy z materiałami wideo w wysokiej rozdzielczości, gdzie pojedyncza klatka może być bardzo duża.

Razem te optymalizacje tworzą system, który potrafi pracować z dużymi modelami i wysokiej jakości wideo nawet na komputerach z ograniczoną pamięcią GPU. Jest to przykład zaawansowanej inżynierii oprogramowania, gdzie efektywne zarządzanie zasobami pozwala na osiągnięcie ambitnych celów mimo ograniczeń sprzętowych.

In [9]:
display(Video("/content/muh_film2.mp4", embed=True))

In [None]:
input_video = load_video( "/content/muh_film2.mp4")

prompt = (
    "an advertisement in the style of mininalist black and white photography film, minimalist black and white film, \
    camera hovering over a glass ball perfume sitting on top of a tree branch, with white flowers"
)

In [11]:
video = pipe(video=input_video, prompt=prompt, strength=0.7, use_dynamic_cfg=True, num_inference_steps=50).frames[0]

  0%|          | 0/35 [00:00<?, ?it/s]

Ta linia kodu uruchamia właściwy proces transformacji wideo, wykorzystując wcześniej skonfigurowany potok przetwarzania. Przeanalizujmy dokładnie każdy parametr i jego znaczenie w tym złożonym procesie.

Metoda pipe() przyjmuje kilka kluczowych parametrów, które razem kontrolują proces transformacji:

- input_video to wczytany wcześniej materiał źródłowy, który zostanie poddany transformacji. Jest to sekwencja klatek, które model będzie przetwarzał zgodnie z zadanymi parametrami.

- prompt to nasz wcześniej zdefiniowany opis tekstowy, który kieruje procesem transformacji. Model interpretuje ten tekst i stara się przekształcić wideo tak, by odpowiadało opisanej wizji artystycznej.

- strength=0.7 określa intensywność transformacji. Wartość 0.7 oznacza, że transformacja będzie dość znacząca, ale nie całkowita. Możemy to porównać do mieszania dwóch farb - przy wartości 0.7 końcowy efekt będzie w 70% nowym stylem, a w 30% zachowa cechy oryginalnego materiału. To pozwala zachować pewne kluczowe elementy oryginalnego wideo, jednocześnie wprowadzając wyraźne zmiany stylistyczne.

- use_dynamic_cfg=True włącza dynamiczne skalowanie klasyfikatora (Classifier Free Guidance). Jest to zaawansowana technika, która pomaga modelowi lepiej równoważyć wierność promptowi z zachowaniem spójności wizualnej. System dynamicznie dostosowuje siłę prowadzenia modelu w zależności od konkretnej sytuacji w danej klatce.

- num_inference_steps=50 określa liczbę kroków, w których model stopniowo przekształca wideo. Większa liczba kroków zwykle prowadzi do lepszej jakości, ale wydłuża czas przetwarzania. 50 kroków to rozsądny kompromis między jakością a czasem wykonania.

.frames[0] na końcu wskazuje, że chcemy uzyskać dostęp do przetworzonego wideo w formie sekwencji klatek. Indeks [0] sugeruje, że kod jest przygotowany do pracy z pierwszą sekwencją transformacji, choć w praktyce model może generować więcej wariantów.

In [None]:
export_to_video(video, "output.mp4", fps=8)
export_to_gif(video, 'output.gif')

'output.gif'

In [13]:
display(Video("output.mp4", embed=True))