# CUDA - co to jest?

CUDA to platforma obliczeń równoległych i model programowania, które sprawiają, że używanie GPU do obliczeń ogólnego przeznaczenia staje się proste i eleganckie. 

Programista pisze w znanym sobie języku, takim jak C, C++, Python czy coraz szersza lista wspieranych języków, a jedynie wykorzystuje rozszerzenia tych języków w postaci kilku podstawowych słów kluczowych.

Dzięki tym słowom kluczowym programista może wyrazić ogromny poziom równoległości i wskazać kompilatorowi fragment aplikacji, który ma zostać odwzorowany na GPU.

## Kiedy można używać PyTorch na GPU?

* Potrzebujesz **karty graficznej NVIDIA** z obsługą technologii **CUDA** (najlepiej nowsze modele).
* Musisz mieć zainstalowane **sterowniki NVIDIA** (wspierające wersję CUDA zgodną z PyTorch).
* Jeżeli masz laptopa/PC tylko z kartą Intel/AMD – wtedy GPU nie będzie obsługiwane i musisz korzystać z wersji CPU.


## Instalacja krok po kroku

### Sprawdź GPU

W terminalu / PowerShell:

```bash
nvidia-smi
```

Jeśli wyświetli się informacja o karcie i sterowniku – możesz iść dalej.

### Zainstaluj PyTorch z CUDA

Na stronie [https://pytorch.org/get-started/locally/](https://pytorch.org/get-started/locally/) wybierz odpowiednie ustawienia (system, menedżer pakietów, CUDA).

Przykładowo dla **pip + CUDA 12.6**:

```bash
pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu126
```

### Sprawdź instalację

W Pythonie:

```python
import torch
print(torch.__version__)
print(torch.cuda.is_available())
print(torch.cuda.get_device_name(0))
```

Jeśli `torch.cuda.is_available()` zwraca `True`, to PyTorch widzi Twoje GPU.

---

### Podsumowanie

* **Możesz używać PyTorch na GPU**, jeśli masz kartę NVIDIA i zainstalowane sterowniki CUDA.
* **Instalacja** różni się w zależności od systemu i wersji CUDA – zawsze najlepiej korzystać z konfiguratora na stronie PyTorch.
* Jeśli nie masz GPU od NVIDIA – instalujesz zwykłą wersję CPU (`pip install torch torchvision torchaudio`).


## Jak używać CUDA zamiast CPU

### Sprawdzenie dostępności GPU

In [9]:
import torch

print(torch.cuda.is_available())   # True jeśli CUDA działa
# print(torch.cuda.get_device_name(0))  # nazwa karty

False


### Wybór urządzenia

In [10]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

### Przeniesienie tensora / modelu na GPU

In [11]:
import torch
import torch.nn as nn

# wybór urządzenia
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Używane urządzenie:", device)

# przykładowy model: prosta warstwa liniowa
class MyModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 2)  # wejście: 3 cechy, wyjście: 2

    def forward(self, x):
        return self.linear(x)

# dane wejściowe
x = torch.rand(3, 3).to(device)  # batch 3 próbek, każda po 3 cechy

# model na GPU/CPU
model = MyModel().to(device)

# forward pass
output = model(x)
print("Output:", output)


Używane urządzenie: cpu
Output: tensor([[-0.4420,  0.5694],
        [-0.3411,  0.5518],
        [-0.0780,  0.6204]], grad_fn=<AddmmBackward0>)




## 🔹 Ważne zasady

* **Model i dane muszą być na tym samym urządzeniu** (CPU albo GPU). W przeciwnym razie dostaniesz błąd typu `Expected all tensors to be on the same device`.
* Możesz korzystać z wielu GPU przez `DataParallel` albo `DistributedDataParallel`.
* Jeśli chcesz wrócić na CPU, używasz `.to("cpu")`.
👉 Czy chcesz, żebym przygotował Ci **mini porównanie wydajności CPU vs GPU w PyTorch** na prostym przykładzie (np. mnożenie macierzy)?


## Google Colab

GPU możemy spróbowac na Google Colab: https://colab.research.google.com/

1. Otwórz notebook w Google Colab.
2. W menu wybierz: **Runtime → Change runtime type → Hardware accelerator → GPU**.
3. Kliknij **Save**.

---

### Sprawdzenie dostępności GPU

W pierwszej komórce uruchom:

```python
import torch
print("CUDA dostępne:", torch.cuda.is_available())
print("Nazwa GPU:", torch.cuda.get_device_name(0) if torch.cuda.is_available() else "Brak")
```

Jeśli masz aktywne GPU, powinno zwrócić np. `"Tesla T4"` albo `"A100"`.

---

### Przykład w Colab

Możesz od razu uruchomić taki kod:

```python
import torch
import torch.nn as nn

# wybór urządzenia
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Używane urządzenie:", device)

# prosty model
class MyModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 2)

    def forward(self, x):
        return self.linear(x)

# dane i model na GPU/CPU
x = torch.rand(3, 3).to(device)
model = MyModel().to(device)

# forward
output = model(x)
print("Output:", output)
```

---

💡 W Colab GPU jest **wirtualne i współdzielone**, więc wydajność może być mniejsza niż na Twojej własnej karcie – ale do nauki i testów nadaje się idealnie.





## TPU

* **TPU (Tensor Processing Unit)** to specjalny układ scalony stworzony przez Google.
* Jest zoptymalizowany do obliczeń związanych ze **sztuczną inteligencją i uczeniem maszynowym** – szczególnie do **TensorFlow**.
* To nie jest klasyczna karta graficzna (jak NVIDIA GPU), ale akcelerator zaprojektowany pod macierze i tensory.

### 🔹 CPU vs GPU vs TPU

| Cecha                   | **CPU** (Central Processing Unit)                              | **GPU** (Graphics Processing Unit)                               | **TPU** (Tensor Processing Unit)                               |
| ----------------------- | -------------------------------------------------------------- | ---------------------------------------------------------------- | -------------------------------------------------------------- |
| **Przeznaczenie**       | Uniwersalne obliczenia, logika, zadania sekwencyjne            | Obliczenia równoległe (grafika, ML, symulacje)                   | Specjalizowane pod TensorFlow / AI                             |
| **Architektura**        | Kilka–kilkanaście rdzeni zoptymalizowanych do pracy szeregowej | Tysiące prostszych rdzeni zoptymalizowanych do pracy równoległej | Dedykowane jednostki MAC (matrix multiply–accumulate)          |
| **Optymalizacja**       | Ogólne obliczenia, operacje logiczne i kontrolne               | Obliczenia macierzowe, wektory, deep learning                    | Duże operacje tensorowe, deep learning w TensorFlow/JAX        |
| **Języki / frameworki** | Wszystko (Python, C, Java, itd.)                               | PyTorch, TensorFlow, CUDA, OpenCL                                | TensorFlow, Keras, JAX (PyTorch – ograniczone wsparcie)        |
| **Szybkość w ML**       | Najwolniejszy przy dużych sieciach neuronowych                 | Dużo szybszy niż CPU dzięki równoległości                        | Często jeszcze szybszy niż GPU (ale tylko dla TF/JAX)          |
| **Elastyczność**        | Najbardziej uniwersalny                                        | Uniwersalny + silne wsparcie w ML                                | Mocno wyspecjalizowany (najlepiej działa w ekosystemie Google) |
| **Dostępność**          | Każdy komputer/serwer                                          | PC z kartą NVIDIA, chmura (AWS, Azure, GCP, Colab)               | Głównie Google Cloud, Google Colab                             |
| **Koszt**               | Najtańszy (bo zawsze jest)                                     | Droższy (GPU do ML: od kilkuset do kilkudziesięciu tys. zł)      | Wynajem w chmurze – rozliczenie za czas użycia                 |
| **Kiedy używać?**       | Małe modele, testy, logika aplikacji                           | Trening i inferencja dużych modeli w PyTorch/TF                  | Duże modele w TensorFlow/JAX na Colab/GCP                      |

---

👉 W skrócie:

* **CPU** – zawsze dostępny, wolny w ML, dobry do prototypów i małych modeli.
* **GPU** – najlepszy wybór dla PyTorch i większości frameworków ML.
* **TPU** – super wydajny, ale tylko w TensorFlow/JAX i głównie w Google Cloud.


# TPU EXAMPLE - COLAB

## Kroki w Colab

1. Włącz **TPU** w Colab:
   `Runtime → Change runtime type → Hardware accelerator → TPU`

2. Uruchom poniższy kod w komórkach:

```python
import tensorflow as tf
print("TensorFlow version:", tf.__version__)

# --- konfiguracja TPU ---
try:
    tpu = tf.distribute.cluster_resolver.TPUClusterResolver()  # znajdź TPU
    print("Urządzenie TPU:", tpu.master())
    tf.config.experimental_connect_to_cluster(tpu)
    tf.tpu.experimental.initialize_tpu_system(tpu)
    strategy = tf.distribute.TPUStrategy(tpu)
except ValueError:
    print("TPU niedostępne, używam CPU/GPU")
    strategy = tf.distribute.get_strategy()
```

---

## Ładowanie danych MNIST

```python
# Dane: ręcznie pisane cyfry 28x28
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()

# Normalizacja
x_train = x_train.astype("float32") / 255.0
x_test = x_test.astype("float32") / 255.0

# Dodanie wymiaru kanału (28,28) -> (28,28,1)
x_train = x_train[..., None]
x_test = x_test[..., None]

print("Shape train:", x_train.shape, "Shape test:", x_test.shape)
```

---

## Definicja modelu na TPU

> dzięki `strategy.scope()` model i optymalizator działają na TPU

```python
with strategy.scope():
    model = tf.keras.Sequential([
        tf.keras.layers.Conv2D(32, 3, activation="relu", input_shape=(28,28,1)),
        tf.keras.layers.MaxPooling2D(),
        tf.keras.layers.Conv2D(64, 3, activation="relu"),
        tf.keras.layers.MaxPooling2D(),
        tf.keras.layers.Flatten(),
        tf.keras.layers.Dense(128, activation="relu"),
        tf.keras.layers.Dense(10, activation="softmax")
    ])

    model.compile(
        optimizer="adam",
        loss="sparse_categorical_crossentropy",
        metrics=["accuracy"]
    )
```

---

## Trenowanie modelu

```python
model.fit(x_train, y_train, epochs=5, batch_size=128, validation_split=0.1)
```

---

## Ewaluacja

```python
model.evaluate(x_test, y_test)
```

---

✨ Ten kod powinien uruchomić trening CNN na **TPU** w Colab. Będzie zauważalnie szybszy niż na CPU, a czasami szybszy niż GPU.
