# ðŸ¥‹ Lekcja 20: WebDataset (Format TAR dla Big Data)

Kiedy masz miliard plikÃ³w, system plikÃ³w staje siÄ™ wÄ…skim gardÅ‚em.
Otwarcie pliku (`open()`) trwa. Otwarcie miliarda plikÃ³w trwa miliard razy dÅ‚uÅ¼ej.

**WebDataset (WDS)** to biblioteka i format oparty na standardowych archiwach **TAR**.
*   Zamiast: folder z 1 000 000 plikÃ³w `.jpg` i `.json`.
*   Mamy: 100 plikÃ³w `.tar`, a w kaÅ¼dym po 10 000 par (obrazek + opis).

**Zalety:**
1.  **Sekwencyjny odczyt:** Dysk czyta jeden duÅ¼y ciÄ…g bajtÃ³w (maksymalna przepustowoÅ›Ä‡).
2.  **Streaming:** MoÅ¼esz trenowaÄ‡ model na danych, ktÃ³re leÅ¼Ä… na S3, nie pobierajÄ…c ich na dysk! (Pipe mode).
3.  **Shuffle:** Tasujemy w buforze RAM, a nie na dysku.

Zrobimy symulacjÄ™: Stworzymy dataset w formacie TAR i odczytamy go strumieniowo.

In [1]:
# Instalacja WebDataset
!uv pip install webdataset

import webdataset as wds
import torch
from torch.utils.data import DataLoader
import numpy as np
import os
import shutil

# Katalog na nasze dane
DATA_DIR = "data_wds"
if os.path.exists(DATA_DIR):
    shutil.rmtree(DATA_DIR)
os.makedirs(DATA_DIR)

print(f"Katalog roboczy: {DATA_DIR}")

[2mResolved [1m4 packages[0m [2min 1.19s[0m[0m
[2mPrepared [1m2 packages[0m [2min 175ms[0m[0m
[2mInstalled [1m3 packages[0m [2min 55ms[0m[0m
 [32m+[39m [1mbraceexpand[0m[2m==0.1.7[0m
 [32m+[39m [1mpyyaml[0m[2m==6.0.3[0m
 [32m+[39m [1mwebdataset[0m[2m==1.0.2[0m


Katalog roboczy: data_wds


## Krok 1: Tworzenie ShardÃ³w (Pisanie)

Stworzymy syntetyczny dataset (obrazek + etykieta).
Zapiszemy go jako seriÄ™ plikÃ³w `.tar` (zwanych **Shardami**).

UÅ¼yjemy `wds.ShardWriter`.
WzÃ³r nazwy: `dataset-%06d.tar` (dataset-000000.tar, dataset-000001.tar...).

In [2]:
# Wzorzec nazwy pliku (ograniczamy shard do 10MB lub 100 prÃ³bek)
pattern = os.path.join(DATA_DIR, "mnist-dummy-%06d.tar")

# Otwieramy pisarza
# maxcount=50: Nowy plik .tar co 50 prÃ³bek
with wds.ShardWriter(pattern, maxcount=50) as sink:
    for i in range(200): # 200 prÃ³bek total (powstanÄ… 4 pliki tar)
        
        # Symulacja danych
        # Obrazek: Losowy tensor, zapiszemy jako bajty (np. format .pth lub surowe)
        # WDS lubi formaty standardowe (jpg, png, pyd), my uÅ¼yjemy 'pth' dla tensora
        image = torch.randn(3, 32, 32)
        label = i % 10  # Klasa 0-9
        
        # Zapisujemy prÃ³bkÄ™ (SÅ‚ownik)
        sample = {
            "__key__": f"sample{i:05d}",   # Unikalny klucz pliku wewnÄ…trz tara
            "input.pth": image,            # Rozszerzenie mÃ³wi, jak to odkodowaÄ‡
            "label.cls": label             # .cls to format dla liczby caÅ‚kowitej
        }
        
        sink.write(sample)

print("âœ… Zapisano dane w formacie TAR.")
print("Lista plikÃ³w:")
for f in sorted(os.listdir(DATA_DIR)):
    print(f" - {f}")

# writing data_wds\mnist-dummy-000000.tar 0 0.0 GB 0
# writing data_wds\mnist-dummy-000001.tar 50 0.0 GB 50
# writing data_wds\mnist-dummy-000002.tar 50 0.0 GB 100
# writing data_wds\mnist-dummy-000003.tar 50 0.0 GB 150
âœ… Zapisano dane w formacie TAR.
Lista plikÃ³w:
 - mnist-dummy-000000.tar
 - mnist-dummy-000001.tar
 - mnist-dummy-000002.tar
 - mnist-dummy-000003.tar


## Krok 2: Czytanie Strumieniowe (Pipeline)

Teraz najwaÅ¼niejsze. Jak to odczytaÄ‡?
`wds.WebDataset` dziaÅ‚a jak rurociÄ…g (Pipeline) w systemie Linux.

1.  Wczytaj bajty z TAR-a.
2.  Zdekoduj (np. zamieÅ„ bajty `.pth` z powrotem na Tensor).
3.  ZmieÅ„ na krotkÄ™ `(input, label)`.

To wszystko dzieje siÄ™ **w locie (on-the-fly)**.

In [8]:
# Generujemy listÄ™ plikÃ³w rÄ™cznie (bezpieczne na Windows/Linux)
# Zamiast wzorca "{..}", tworzymy listÄ™ konkretnych Å›cieÅ¼ek
urls = [os.path.join(DATA_DIR, f"mnist-dummy-{i:06d}.tar") for i in range(4)]

print("Lista plikÃ³w do wczytania:")
print(urls)

# Definicja Pipeline'u
# WebDataset przyjmuje listÄ™ plikÃ³w rÃ³wnie chÄ™tnie co wzorzec
dataset = (
    wds.WebDataset(urls)      # 1. OtwÃ³rz strumieÅ„ z listy
    .shuffle(100)             # 2. Tasuj w buforze (100 elementÃ³w w RAM)
    .decode()                 # 3. Automatycznie dekoduj (.pth -> Tensor, .cls -> Int)
    .to_tuple("input.pth", "label.cls") # 4. Wybierz co chcesz zwrÃ³ciÄ‡
)

print("Dataset zdefiniowany (Leniwy - nic jeszcze nie wczytaÅ‚).")

Lista plikÃ³w do wczytania:
['data_wds\\mnist-dummy-000000.tar', 'data_wds\\mnist-dummy-000001.tar', 'data_wds\\mnist-dummy-000002.tar', 'data_wds\\mnist-dummy-000003.tar']
Dataset zdefiniowany (Leniwy - nic jeszcze nie wczytaÅ‚).


## Integracja z DataLoaderem

WebDataset jest typu **IterableDataset** (pamiÄ™tasz LekcjÄ™ 15?).
DziaÅ‚a Å›wietnie z `DataLoader`, ale trzeba pamiÄ™taÄ‡ o batchowaniu.

WebDataset ma wÅ‚asnÄ… metodÄ™ `.batched(batch_size)`, ktÃ³ra jest szybsza niÅ¼ ta w DataLoaderze, bo skleja listy wewnÄ…trz C++.

In [9]:
# Dodajemy batchowanie do pipeline'u WDS
batched_dataset = dataset.batched(16)

# DataLoader sÅ‚uÅ¼y tu tylko do obsÅ‚ugi workerÃ³w i prefetchingu
# batch_size=None, bo batchowanie zrobiliÅ›my juÅ¼ wyÅ¼ej w WDS!
loader = DataLoader(batched_dataset, batch_size=None, num_workers=0)

print("--- ODCZYT DANYCH ---")
for i, (imgs, labels) in enumerate(loader):
    if i == 0:
        print(f"Batch shape: {imgs.shape}")
        print(f"Labels: {labels}")
    
    # Symulacja treningu...
    pass

print(f"Przetworzono {i+1} batchy.")

--- ODCZYT DANYCH ---
Batch shape: torch.Size([16, 3, 32, 32])
Labels: tensor([7, 3, 7, 5, 3, 3, 6, 0, 1, 9, 4, 4, 0, 5, 6, 4])
Przetworzono 13 batchy.


## ðŸ¥‹ Black Belt Summary

To koÅ„czy **ModuÅ‚ 3: InÅ¼ynieria Danych**.

1.  **Dlaczego TAR?** System plikÃ³w (OS) nie radzi sobie z milionami plikÃ³w. TAR skleja je w duÅ¼e bloki, co pozwala na sekwencyjny odczyt z maksymalnÄ… prÄ™dkoÅ›ciÄ… dysku.
2.  **WebDataset:** To standard w trenowaniu na klastrach (HPC). Pozwala na "nieskoÅ„czone" zbiory danych, ktÃ³re nie mieszczÄ… siÄ™ na dysku lokalnym (streaming).
3.  **Struktura:** `Url -> Shuffle -> Decode -> Tuple -> Batch`.

W nastÄ™pnym module (**ModuÅ‚ 4: Zaawansowana Architektura**) wejdziemy do Å›rodka `nn.Module`. Zrozumiemy cykl Å¼ycia modelu, bufory i hooki.