# ü•ã Lekcja 15: Dataset vs IterableDataset (Streaming danych)

W PyTorch mamy dwa sposoby na karmienie modelu danymi:

1.  **Map-style (`Dataset`):**
    *   Musisz znaƒá d≈Çugo≈õƒá (`__len__`).
    *   Musisz mieƒá dostƒôp do ka≈ºdego elementu (`__getitem__(idx)`).
    *   *Idealne do:* Zdjƒôƒá na dysku, ma≈Çych plik√≥w CSV.

2.  **Iterable-style (`IterableDataset`):**
    *   Dzia≈Ça jak strumie≈Ñ (Generator).
    *   Nie musi znaƒá ko≈Ñca danych.
    *   *Idealne do:* Petabajt√≥w tekstu, streamingu z sieci, log√≥w serwera.

W tej lekcji napiszemy **poprawnƒÖ klasƒô `IterableDataset`**, kt√≥ra potrafi bezpiecznie dzieliƒá pracƒô, nawet je≈õli uruchomimy jƒÖ na wielu workerach (na serwerze produkcyjnym).

In [7]:
import torch
from torch.utils.data import Dataset, IterableDataset, DataLoader
import math

# Symulacja danych (np. linie w ogromnym pliku tekstowym)
data_source = list(range(20))

print(f"Dane ≈∫r√≥d≈Çowe: {data_source}")

Dane ≈∫r√≥d≈Çowe: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]


## Podej≈õcie 1: Klasyczny Map-style (Standard)

To znasz. Proste i skuteczne, ale wymaga za≈Çadowania indeks√≥w do pamiƒôci.

In [8]:
class MyMapDataset(Dataset):
    def __init__(self, data):
        self.data = data
        
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        return self.data[idx]

# Test
map_ds = MyMapDataset(data_source)
loader = DataLoader(map_ds, batch_size=4, shuffle=True)

print("--- Map Dataset (Dzia≈Ça losowo) ---")
for batch in loader:
    print(batch.tolist())

--- Map Dataset (Dzia≈Ça losowo) ---
[16, 13, 11, 7]
[5, 0, 12, 3]
[10, 14, 19, 4]
[9, 17, 8, 6]
[1, 18, 2, 15]


## Podej≈õcie 2: IterableDataset (Streaming)

Tutaj implementujemy metodƒô `__iter__`.

**Kluczowy mechanizm (Workload Splitting):**
Je≈õli uruchomimy to na wielu procesorach (workerach), ka≈ºdy dostanie kopiƒô datasetu.
Musimy rƒôcznie sprawdziƒá `get_worker_info()`, ≈ºeby ka≈ºdy worker wziƒÖ≈Ç **inny kawa≈Çek tortu**.
Inaczej model uczy≈Çby siƒô na zduplikowanych danych.

*Poni≈ºszy kod jest "Production Ready" - zadzia≈Ça poprawnie zar√≥wno na 1 procesie (Windows/Jupyter), jak i na 100 procesach (Klaster Linux).*

In [9]:
class SmartIterableDataset(IterableDataset):
    def __init__(self, data):
        self.data = data
        
    def __iter__(self):
        worker_info = torch.utils.data.get_worker_info()
        
        if worker_info is None:
            # SCENARIUSZ A: Jeden proces (np. Jupyter na Windowsie)
            # Bierzemy ca≈Çe dane od poczƒÖtku do ko≈Ñca.
            iter_start = 0
            iter_end = len(self.data)
            iter_step = 1
        else:
            # SCENARIUSZ B: Wiele worker√≥w (np. Serwer treningowy)
            # Dzielimy dane, ≈ºeby workery nie dublowa≈Çy pracy.
            worker_id = worker_info.id
            num_workers = worker_info.num_workers
            
            # Ka≈ºdy worker bierze co n-ty element (np. co 4)
            iter_start = worker_id
            iter_end = len(self.data)
            iter_step = num_workers
            
        # Generator (yield) - zwraca dane kawa≈Çek po kawa≈Çku
        for i in range(iter_start, iter_end, iter_step):
            yield self.data[i]

print("Klasa zdefiniowana. Gotowa do u≈ºycia.")

Klasa zdefiniowana. Gotowa do u≈ºycia.


## Uruchomienie (Bezpieczne dla Windows)

U≈ºyjemy `num_workers=0`.
Dlaczego? Bo Jupyter na Windowsie nie obs≈Çuguje wieloprocesowo≈õci dla klas zdefiniowanych wewnƒÖtrz kom√≥rki.
Ale dziƒôki naszej logice `if worker_info is None`, kod zadzia≈Ça bezb≈Çƒôdnie i przetworzy wszystkie dane.

In [10]:
# Inicjalizacja
iter_ds = SmartIterableDataset(data_source)

# Tworzymy Loader (num_workers=0 zapewnia stabilno≈õƒá w notatniku)
loader = DataLoader(iter_ds, batch_size=4, num_workers=0)

print("--- Iterable Dataset (Streaming) ---")
all_data = []

for batch in loader:
    print(f"Batch: {batch.tolist()}")
    all_data.extend(batch.tolist())

print("-" * 30)
print(f"Odebrano ≈ÇƒÖcznie: {len(all_data)} element√≥w.")
# Sprawdzenie poprawno≈õci
if sorted(all_data) == data_source:
    print("‚úÖ SUKCES: Wszystkie dane zosta≈Çy przetworzone poprawnie (bez duplikat√≥w).")
else:
    print("‚ùå B≈ÅƒÑD: Co≈õ siƒô zgubi≈Ço lub zdublowa≈Ço.")

--- Iterable Dataset (Streaming) ---
Batch: [0, 1, 2, 3]
Batch: [4, 5, 6, 7]
Batch: [8, 9, 10, 11]
Batch: [12, 13, 14, 15]
Batch: [16, 17, 18, 19]
------------------------------
Odebrano ≈ÇƒÖcznie: 20 element√≥w.
‚úÖ SUKCES: Wszystkie dane zosta≈Çy przetworzone poprawnie (bez duplikat√≥w).


## ü•ã Black Belt Summary

1.  **IterableDataset** to konieczno≈õƒá przy Big Data (gdy nie mo≈ºesz zrobiƒá `len(data)`).
2.  **Pu≈Çapka Duplikat√≥w:** Domy≈õlnie PyTorch kopiuje dataset do ka≈ºdego workera. Musisz u≈ºyƒá `get_worker_info()` wewnƒÖtrz `__iter__`, ≈ºeby podzieliƒá pracƒô.
3.  **Shuffle:** W `IterableDataset` nie ma globalnego tasowania (`shuffle=True` nie zadzia≈Ça idealnie). Tasuje siƒô tylko lokalnie w buforze (o czym wiƒôcej w module zaawansowanym).