# CUDA - co to jest?

CUDA to platforma oblicze≈Ñ r√≥wnoleg≈Çych i model programowania, kt√≥re sprawiajƒÖ, ≈ºe u≈ºywanie GPU do oblicze≈Ñ og√≥lnego przeznaczenia staje siƒô proste i eleganckie. 

Programista pisze w znanym sobie jƒôzyku, takim jak C, C++, Python czy coraz szersza lista wspieranych jƒôzyk√≥w, a jedynie wykorzystuje rozszerzenia tych jƒôzyk√≥w w postaci kilku podstawowych s≈Ç√≥w kluczowych.

Dziƒôki tym s≈Çowom kluczowym programista mo≈ºe wyraziƒá ogromny poziom r√≥wnoleg≈Ço≈õci i wskazaƒá kompilatorowi fragment aplikacji, kt√≥ry ma zostaƒá odwzorowany na GPU.

## Kiedy mo≈ºna u≈ºywaƒá PyTorch na GPU?

* Potrzebujesz **karty graficznej NVIDIA** z obs≈ÇugƒÖ technologii **CUDA** (najlepiej nowsze modele).
* Musisz mieƒá zainstalowane **sterowniki NVIDIA** (wspierajƒÖce wersjƒô CUDA zgodnƒÖ z PyTorch).
* Je≈ºeli masz laptopa/PC tylko z kartƒÖ Intel/AMD ‚Äì wtedy GPU nie bƒôdzie obs≈Çugiwane i musisz korzystaƒá z wersji CPU.


## Instalacja krok po kroku

### Sprawd≈∫ GPU

W terminalu / PowerShell:

```bash
nvidia-smi
```

Je≈õli wy≈õwietli siƒô informacja o karcie i sterowniku ‚Äì mo≈ºesz i≈õƒá dalej.

### Zainstaluj PyTorch z CUDA

Na stronie [https://pytorch.org/get-started/locally/](https://pytorch.org/get-started/locally/) wybierz odpowiednie ustawienia (system, mened≈ºer pakiet√≥w, CUDA).

Przyk≈Çadowo dla **pip + CUDA 12.6**:

```bash
pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu126
```

### Sprawd≈∫ instalacjƒô

W Pythonie:

```python
import torch
print(torch.__version__)
print(torch.cuda.is_available())
print(torch.cuda.get_device_name(0))
```

Je≈õli `torch.cuda.is_available()` zwraca `True`, to PyTorch widzi Twoje GPU.

---

### Podsumowanie

* **Mo≈ºesz u≈ºywaƒá PyTorch na GPU**, je≈õli masz kartƒô NVIDIA i zainstalowane sterowniki CUDA.
* **Instalacja** r√≥≈ºni siƒô w zale≈ºno≈õci od systemu i wersji CUDA ‚Äì zawsze najlepiej korzystaƒá z konfiguratora na stronie PyTorch.
* Je≈õli nie masz GPU od NVIDIA ‚Äì instalujesz zwyk≈ÇƒÖ wersjƒô CPU (`pip install torch torchvision torchaudio`).


## Jak u≈ºywaƒá CUDA zamiast CPU

### Sprawdzenie dostƒôpno≈õci GPU

In [9]:
import torch

print(torch.cuda.is_available())   # True je≈õli CUDA dzia≈Ça
# print(torch.cuda.get_device_name(0))  # nazwa karty

False


### Wyb√≥r urzƒÖdzenia

In [10]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

### Przeniesienie tensora / modelu na GPU

In [11]:
import torch
import torch.nn as nn

# wyb√≥r urzƒÖdzenia
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("U≈ºywane urzƒÖdzenie:", device)

# przyk≈Çadowy model: prosta warstwa liniowa
class MyModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 2)  # wej≈õcie: 3 cechy, wyj≈õcie: 2

    def forward(self, x):
        return self.linear(x)

# dane wej≈õciowe
x = torch.rand(3, 3).to(device)  # batch 3 pr√≥bek, ka≈ºda po 3 cechy

# model na GPU/CPU
model = MyModel().to(device)

# forward pass
output = model(x)
print("Output:", output)


U≈ºywane urzƒÖdzenie: cpu
Output: tensor([[-0.4420,  0.5694],
        [-0.3411,  0.5518],
        [-0.0780,  0.6204]], grad_fn=<AddmmBackward0>)




## üîπ Wa≈ºne zasady

* **Model i dane muszƒÖ byƒá na tym samym urzƒÖdzeniu** (CPU albo GPU). W przeciwnym razie dostaniesz b≈ÇƒÖd typu `Expected all tensors to be on the same device`.
* Mo≈ºesz korzystaƒá z wielu GPU przez `DataParallel` albo `DistributedDataParallel`.
* Je≈õli chcesz wr√≥ciƒá na CPU, u≈ºywasz `.to("cpu")`.
üëâ Czy chcesz, ≈ºebym przygotowa≈Ç Ci **mini por√≥wnanie wydajno≈õci CPU vs GPU w PyTorch** na prostym przyk≈Çadzie (np. mno≈ºenie macierzy)?


## Google Colab

GPU mo≈ºemy spr√≥bowac na Google Colab: https://colab.research.google.com/

1. Otw√≥rz notebook w Google Colab.
2. W menu wybierz: **Runtime ‚Üí Change runtime type ‚Üí Hardware accelerator ‚Üí GPU**.
3. Kliknij **Save**.

---

### Sprawdzenie dostƒôpno≈õci GPU

W pierwszej kom√≥rce uruchom:

```python
import torch
print("CUDA dostƒôpne:", torch.cuda.is_available())
print("Nazwa GPU:", torch.cuda.get_device_name(0) if torch.cuda.is_available() else "Brak")
```

Je≈õli masz aktywne GPU, powinno zwr√≥ciƒá np. `"Tesla T4"` albo `"A100"`.

---

### Przyk≈Çad w Colab

Mo≈ºesz od razu uruchomiƒá taki kod:

```python
import torch
import torch.nn as nn

# wyb√≥r urzƒÖdzenia
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("U≈ºywane urzƒÖdzenie:", device)

# prosty model
class MyModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 2)

    def forward(self, x):
        return self.linear(x)

# dane i model na GPU/CPU
x = torch.rand(3, 3).to(device)
model = MyModel().to(device)

# forward
output = model(x)
print("Output:", output)
```

---

üí° W Colab GPU jest **wirtualne i wsp√≥≈Çdzielone**, wiƒôc wydajno≈õƒá mo≈ºe byƒá mniejsza ni≈º na Twojej w≈Çasnej karcie ‚Äì ale do nauki i test√≥w nadaje siƒô idealnie.





## TPU

* **TPU (Tensor Processing Unit)** to specjalny uk≈Çad scalony stworzony przez Google.
* Jest zoptymalizowany do oblicze≈Ñ zwiƒÖzanych ze **sztucznƒÖ inteligencjƒÖ i uczeniem maszynowym** ‚Äì szczeg√≥lnie do **TensorFlow**.
* To nie jest klasyczna karta graficzna (jak NVIDIA GPU), ale akcelerator zaprojektowany pod macierze i tensory.

### üîπ CPU vs GPU vs TPU

| Cecha                   | **CPU** (Central Processing Unit)                              | **GPU** (Graphics Processing Unit)                               | **TPU** (Tensor Processing Unit)                               |
| ----------------------- | -------------------------------------------------------------- | ---------------------------------------------------------------- | -------------------------------------------------------------- |
| **Przeznaczenie**       | Uniwersalne obliczenia, logika, zadania sekwencyjne            | Obliczenia r√≥wnoleg≈Çe (grafika, ML, symulacje)                   | Specjalizowane pod TensorFlow / AI                             |
| **Architektura**        | Kilka‚Äìkilkana≈õcie rdzeni zoptymalizowanych do pracy szeregowej | TysiƒÖce prostszych rdzeni zoptymalizowanych do pracy r√≥wnoleg≈Çej | Dedykowane jednostki MAC (matrix multiply‚Äìaccumulate)          |
| **Optymalizacja**       | Og√≥lne obliczenia, operacje logiczne i kontrolne               | Obliczenia macierzowe, wektory, deep learning                    | Du≈ºe operacje tensorowe, deep learning w TensorFlow/JAX        |
| **Jƒôzyki / frameworki** | Wszystko (Python, C, Java, itd.)                               | PyTorch, TensorFlow, CUDA, OpenCL                                | TensorFlow, Keras, JAX (PyTorch ‚Äì ograniczone wsparcie)        |
| **Szybko≈õƒá w ML**       | Najwolniejszy przy du≈ºych sieciach neuronowych                 | Du≈ºo szybszy ni≈º CPU dziƒôki r√≥wnoleg≈Ço≈õci                        | Czƒôsto jeszcze szybszy ni≈º GPU (ale tylko dla TF/JAX)          |
| **Elastyczno≈õƒá**        | Najbardziej uniwersalny                                        | Uniwersalny + silne wsparcie w ML                                | Mocno wyspecjalizowany (najlepiej dzia≈Ça w ekosystemie Google) |
| **Dostƒôpno≈õƒá**          | Ka≈ºdy komputer/serwer                                          | PC z kartƒÖ NVIDIA, chmura (AWS, Azure, GCP, Colab)               | G≈Ç√≥wnie Google Cloud, Google Colab                             |
| **Koszt**               | Najta≈Ñszy (bo zawsze jest)                                     | Dro≈ºszy (GPU do ML: od kilkuset do kilkudziesiƒôciu tys. z≈Ç)      | Wynajem w chmurze ‚Äì rozliczenie za czas u≈ºycia                 |
| **Kiedy u≈ºywaƒá?**       | Ma≈Çe modele, testy, logika aplikacji                           | Trening i inferencja du≈ºych modeli w PyTorch/TF                  | Du≈ºe modele w TensorFlow/JAX na Colab/GCP                      |

---

üëâ W skr√≥cie:

* **CPU** ‚Äì zawsze dostƒôpny, wolny w ML, dobry do prototyp√≥w i ma≈Çych modeli.
* **GPU** ‚Äì najlepszy wyb√≥r dla PyTorch i wiƒôkszo≈õci framework√≥w ML.
* **TPU** ‚Äì super wydajny, ale tylko w TensorFlow/JAX i g≈Ç√≥wnie w Google Cloud.


# TPU EXAMPLE - COLAB

## Kroki w Colab

1. W≈ÇƒÖcz **TPU** w Colab:
   `Runtime ‚Üí Change runtime type ‚Üí Hardware accelerator ‚Üí TPU`

2. Uruchom poni≈ºszy kod w kom√≥rkach:

```python
import tensorflow as tf
print("TensorFlow version:", tf.__version__)

# --- konfiguracja TPU ---
try:
    tpu = tf.distribute.cluster_resolver.TPUClusterResolver()  # znajd≈∫ TPU
    print("UrzƒÖdzenie TPU:", tpu.master())
    tf.config.experimental_connect_to_cluster(tpu)
    tf.tpu.experimental.initialize_tpu_system(tpu)
    strategy = tf.distribute.TPUStrategy(tpu)
except ValueError:
    print("TPU niedostƒôpne, u≈ºywam CPU/GPU")
    strategy = tf.distribute.get_strategy()
```

---

## ≈Åadowanie danych MNIST

```python
# Dane: rƒôcznie pisane cyfry 28x28
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()

# Normalizacja
x_train = x_train.astype("float32") / 255.0
x_test = x_test.astype("float32") / 255.0

# Dodanie wymiaru kana≈Çu (28,28) -> (28,28,1)
x_train = x_train[..., None]
x_test = x_test[..., None]

print("Shape train:", x_train.shape, "Shape test:", x_test.shape)
```

---

## Definicja modelu na TPU

> dziƒôki `strategy.scope()` model i optymalizator dzia≈ÇajƒÖ na TPU

```python
with strategy.scope():
    model = tf.keras.Sequential([
        tf.keras.layers.Conv2D(32, 3, activation="relu", input_shape=(28,28,1)),
        tf.keras.layers.MaxPooling2D(),
        tf.keras.layers.Conv2D(64, 3, activation="relu"),
        tf.keras.layers.MaxPooling2D(),
        tf.keras.layers.Flatten(),
        tf.keras.layers.Dense(128, activation="relu"),
        tf.keras.layers.Dense(10, activation="softmax")
    ])

    model.compile(
        optimizer="adam",
        loss="sparse_categorical_crossentropy",
        metrics=["accuracy"]
    )
```

---

## Trenowanie modelu

```python
model.fit(x_train, y_train, epochs=5, batch_size=128, validation_split=0.1)
```

---

## Ewaluacja

```python
model.evaluate(x_test, y_test)
```

---

‚ú® Ten kod powinien uruchomiƒá trening CNN na **TPU** w Colab. Bƒôdzie zauwa≈ºalnie szybszy ni≈º na CPU, a czasami szybszy ni≈º GPU.
