# Biblioteka TensorFlow

### Importowanie biblioteki

In [1]:
#!pip install tensorflow==1.15.0
import tensorflow as tf

print(tf.__version__)

2.12.0


Tensorflow jak sama nazwa wskazuje to biblioteka do pracy z tensorami. W Tensorflow tensory są to wielowymiarowe tablice o jednolitym typie (`dtype`).

Dwie podstawowe klasy biblioteki tensorflow reprezentujące tenosory to:
* tf.Tensor (tensor niemodyfikowalny, niezmienny podobnie jak liczba czy łańcuch znaków w pythonie)
* tf.Variable (tensor modyfikowalny)

## tf.Tensor

### Tworzenie obiektów klasy tf.Tensor

Twórcy tensorflow nie zalecają bezpośredniego inicjalizowania obiektów klasy `tf.Tensor`. Zamiast tego udostępniają rodzinę funkcji fabrykujących (takich jak `tf.constant` czy `tf.zeros`), które odpowiadają za tworzenie obiektów klasy tf.Tensor.

In [None]:
# Obiekt klasy tf.Tensor możemy tworzyć za pomocą funkcji tf.constant
x = tf.constant([[1, 2, 3, 4 ,5]]) # parametrem przekazanym do funkcji constant
# może być int, float, string, boolean oraz dowolny typ iterowalny (np. tablica 
# numpy, instancja klasy tf.Tensor, generator range)

print(x)

In [None]:
# Obiekt klasy tf.Tensor składający się wyłącznie z jedynek możemy stworzyć za 
# pomocą funkcji tf.ones
y = tf.ones((1,5))

print(y)

In [None]:
# Obiekt klasy tf.Tensor składający się wyłącznie z jedynek o typie i kształcie 
# identycznych jak zadany tensor możemy stworzyć za pomocą funkcji tf.ones_like
z = tf.ones_like(x)

print(z)  

In [None]:
# Obiekt klasy tf.Tensor składający się wyłącznie z zer możemy stworzyć za 
# pomocą funkcji tf.zeros
p = tf.zeros((1,5))

print(p)

In [None]:
# Obiekt klasy tf.Tensor składający się wyłącznie z zer o typie i kształcie 
# identycznych jak zadany tensor możemy stworzyć za pomocą funkcji tf.zeros_like
q = tf.zeros_like(x)

print(q)

In [None]:
# Obiekt klasy tf.Tensor składający się ze wskazanego zakresu liczb możemy 
# stworzyć za pomocą funkcji tf.range
t = tf.range(start=1, limit=6, delta=1)

print(t)

In [None]:
# Obiekt klasy tf.Tensor o zadanym kształcie wypełniony elementami zadanej, 
# jednakowej wartości możemy stworzyć za pomocą funkcji tf.fill
r = tf.fill([3,3], 7)

print(r)

In [None]:
# Obiekt klasy tf.Tensor o zadanym kształcie wypełniony losowymi wartościami
# pochodzącymi z rozkładu normalnego o zadanych średniej i odchyleniu standardowym
# możemy stworzyć za pomocą funkcji tf.random.normal
s = tf.random.normal(
    shape=[2, 2],
    mean=0.0,
    stddev=1.0,
    dtype=tf.dtypes.float32,
)

print(s)

### Charakterystyki tensorów

In [None]:
# Tworzymy tensor

matrix = [
           [
            [0, 1, 2],
            [3, 4, 5]
           ],
           [
            [6, 7, 8],
            [9, 10, 11]
           ]
]

tensor = tf.constant(matrix)
print(tensor)

1. Rząd tensora (liczba osi)

In [None]:
# rząd (ang. rank aka degree) tensora możemy sprawdzić za pomocą atrybutu ndim
print(f"Tensor jest rzędu {tensor.ndim}")

# oraz za pomocą funkcji tf.rank(). Funkcja zwraca tensor rzędu 0 (aka skalar) o wartości równej
# rzędowi przekazanego tensora
print(tf.rank(tensor))

In [None]:
# tensor rzędu 0 (aka skalar, tensor skalarny, zawiera pojedynczą wartość i nie zawiera "osi")
d0 = tf.constant(2)
print(d0.ndim)

In [None]:
# tensor rzędu 1 (aka wektor, tensor wektorowy, posiada jedną oś)
d1 = tf.constant([2, 2, 2])
print(d1.ndim)

In [None]:
# tensor rzędu 2 (aka macierz, tensor macierzowy, posiada dwie osie)
d2 = tf.constant([[2, 2, 2], [2, 2, 2]])
print(d2.ndim)

In [None]:
# tensor rzędu 2
d2 = tf.ones((4, 4))  # rząd - liczba współrzędnych potrzebna do opisania pojedynczego elementu tensora
print(d2.ndim)

Rząd tensora możemy również utożsamić z najgłębszym poziomem zagnieżdżenia jego elementów. 

$2$ - rząd 0

$[2,2,2]$ - rząd 1

$[[2,2,2], [2,2,2]]$ - rząd 2

In [None]:
# tensor rzędu 3 (posiada trzy osie)
d3 = tf.constant([
    [
        [0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]
    ],
    [
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]
    ],
    [
        [20, 21, 22, 23 ,24],
        [25, 26, 27, 28, 29]
    ]
])
print(d3)

Przykładowe interpretacje tensora rank-3 (trzeciego rzędu)

![tensors1.png](attachment:tensors1.png)

**Od lewej**: obraz kolorowy, zestaw filtrów przykładanych do obrazu (sieci konwolucyjne), szeregi czasowe (sieci rekurencyjne).

Tensorem czwartego rzędu może być np. plik video (czyli sekwencja obrazów).

2. Kształt tensora

In [None]:
# kształt (czyli długość poszczególnych osi) tensora możemy sprawdzić za pomocą atrybutu shape
print(f"Kształt tensora to {tensor.shape}")

# oraz za pomocą funkcji tf.shape(). Funkcja zwraca tensor rzędu 1 o wartości
# równej kształtowi przekazanego tensora
print(tf.shape(tensor))

3.    Rozmiar tensora

In [None]:
# rozmiar (czyli liczbę wszystkich elementów) tensora możemy sprawdzić za pomocą funkcji tf.size(). Funkcja zwraca 
# tensor rzędu 0 z informacją o rozmiarze przekazanego tensora
print(tf.size(tensor))

4.    Typ tensora

In [None]:
# Typ elementów tensora możemy sprawdzić za pomocą atrybutu dtype
print(f"Typ elementów tensora to {tensor.dtype}")

# listę wszystkich dostępnych w bibliotece tensorflow typów można znaleźć tutaj: 
# https://www.tensorflow.org/api_docs/python/tf/dtypes

In [None]:
# Dostępne atrybuty i metody obiektu tf.Tensor
dir(tensor)

In [None]:
# Wartość przechowywaną w obiekcie tf.Tensor można otrzymać za pomocą metody numpy()
print(f"{tensor.numpy()}")

In [None]:
# metody numpy, zwraca obiekt, który jest tensorem zrzutowanym na typ ndarray (numpy array)
print(f"{type(tensor.numpy())}")

In [None]:
# Urządzenie na którym obiekt tf.Tensor jest liczony możemy sprawdzić za pomocą atrybutu device
print(f"{tensor.device}")

Podczas tworzenia obiektu klasy tf.Tensor można zadeklarować jego kształt lub typ

In [None]:
# bezpośrednie deklarowanie kształtu
a0 = tf.constant(3, shape=[2, 3])

print(a0)

In [None]:
# bezpośrednie deklarowanie kształtu
a1 = tf.constant([1, 2, 3, 4], shape=[2, 2])

print(a1)

In [None]:
# bezpośrednie deklarowanie typu
b0 = tf.constant([1, 2, 3, 4, 5, 6], dtype=tf.float32)
print(b0)

In [None]:
# bezpośrednie deklarowanie typu
b1 = tf.constant([1, 2, 3, 4, 5, 6], dtype=tf.int16)
print(b1)

In [None]:
# Elementy tensory można rzutować pomiędzy różnymi typami za pomocą funkcji tf.cast
print(b1.dtype)
print(b1)

print()
b1 = tf.cast(b1, tf.float32)
print(b1.dtype)
print(b1)

### Podstawowe operacje na tensorach

In [None]:
# Przykładowy tensor rzędu 1
rank1_tensor = tf.constant([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
print(rank1_tensor)

#### Indeksowanie

In [None]:
# Indeksowanie od zera
print(f"Pierwszy element tensora to {rank1_tensor[0]}")  # pierwszy element ma indeks 0

In [None]:
# Obsługa ujemnych indeksów
print(f"Ostatni element tensora to {rank1_tensor[-1]}")

In [None]:
# Obsługa wycinków
print(f"Co drugi element tensora od drugiego do siódmego to {rank1_tensor[1:8:2]}")

In [37]:
# Przykładowy tensor rzędu 2
rank2_tensor = tf.constant(
    [
     [0, 1, 2, 3, 4, 5],
     [6, 7, 8, 9, 10, 11]
    ]
)
print(rank2_tensor)

tf.Tensor(
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]], shape=(2, 6), dtype=int32)


In [None]:
# indeksowanie
print(f"Pierwszy element (pierwszy wiersz) tensora to {rank2_tensor[0]}")

In [None]:
# Wycinki
print(f"Pierwszy kolumna to {rank2_tensor[:, 0]}")
print(f"Pierwszy i czwarty wiersz {rank2_tensor[1::2]}")

In [None]:
# Zagnieżdżone indeksy
print(f"(metoda I) Pierwszy element pierwszego wiersza tensora to {rank2_tensor[0][0]}")
print(f"(metoda II) Pierwszy element pierwszego wiersza tensora to {rank2_tensor[0, 0]}")

In [None]:
# Zagnieżdżone indeksy
print(f"(metoda I) Trzeci element drugiego wiersza tensora to {rank2_tensor[1][2]}")
print(f"(metoda II) Trzeci element drugiego wiersza tensora to {rank2_tensor[1, 2]}")

In [40]:
# Uwaga! tf.Tensor jest typem niemodyfikowalnym (jak string czy tupla)

# ozncza to, że obiekty klasy tf.Tensor nie wspierają operatora przypisania (tj. =)
rank2_tensor[1][2] = 5

TypeError: 'tensorflow.python.framework.ops.EagerTensor' object does not support item assignment

In [48]:
# Tworzymy dwa tensory
a = tf.constant(
    [
     [2, 4], 
     [6, 8]
    ], dtype=tf.float32
)

b = tf.constant(
    [
     [1, 3], 
     [5, 7]
    ], dtype=tf.float32
)

#### Podstawowe operacje algebraiczne

In [None]:
# Dodawanie ("po współrzędnych", ang. element-wise)

# metoda I (metoda add)
print(tf.add(a,b))

# metoda II (operator +)
print(a+b)

In [None]:
# Odejmowanie ("po współrzędnych")

# metoda I (metoda subtract)
print(tf.subtract(a,b))

# metoda II (operator -)
print(a-b)

In [None]:
# mnożenie "po współrzędnych"

# metoda I (funkcja multiply)
print(tf.multiply(a, b))

# metoda II (operator *)
print(a*b)

In [None]:
# dzielenie tensorów ("po współrzędnych")

# metoda I (funkcja divide)
print(tf.divide(a, b))

# metoda II (operator /)
print(a/b)

In [None]:
# modulo ("po współrzędnych")

# metoda 1 (funckja modulo)
print(tf.math.floormod(a, b))

# metoda 2 (operator %)
print(a%b)

In [2]:
# mnożenie macierzowe

# metoda I (funkcja matmul)
print(tf.matmul(a, b))

# metoda II (operator @)
print(a @ b)

# metoda III (funkcja tf.tensordot)
print(tf.tensordot(a, b, axes=1))

# *można też użyć funkcji ogólnego przeznaczenia - tf.einsum

NameError: name 'a' is not defined

#### Tesor odwrotny $C^{-1}$ (funkcja `tf.linalg.inv`)

In [31]:
# Dla zadanego tensora c
c = tf.constant(
    [
        [1., 2., -1.], 
        [2., 1., 2.],
        [-1., 2., 1.]
    ]
)

# tensor odwrotny ma postać
c_inv = tf.linalg.inv(c)
print(c_inv)

tf.Tensor(
[[ 0.1875  0.25   -0.3125]
 [ 0.25    0.      0.25  ]
 [-0.3125  0.25    0.1875]], shape=(3, 3), dtype=float32)


Tensor odwrotny dla zadanego tensora $C$ to taki tensor $C^{-1}$, że 

<center>$C \cdot C^{-1} = I$</center>

, gdzie $I$ to tensor identycznościowy.

In [32]:
print(c @ c_inv)

tf.Tensor(
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]], shape=(3, 3), dtype=float32)


#### Tensor transponowany $D^{T}$ (funkcja `tf.transpose`)

In [34]:
# Dla zadanego tensora d
d = tf.constant(
    [
        [1., 2., 3.],
        [4., 5., 6.],
    ]
)

# tensor transponowany ma postać
d_trans = tf.transpose(d)
print(d_trans)

tf.Tensor(
[[1. 4.]
 [2. 5.]
 [3. 6.]], shape=(3, 2), dtype=float32)


Transpozycja transponowanego tensora to ten sam tensor

<center>$(D^{T})^{T} = D$</center>

In [36]:
print(tf.transpose(d_trans))

tf.Tensor(
[[1. 2. 3.]
 [4. 5. 6.]], shape=(2, 3), dtype=float32)


#### Podstawowe operacje agregujące

In [50]:
print(b)

tf.Tensor(
[[1. 3.]
 [5. 7.]], shape=(2, 2), dtype=float32)


In [52]:
# znajdowanie maksymalnego elementu tensora
print(f"Maksymalna wartość elementów tensora b wynosi {tf.reduce_max(b)}")

# Wszystkie funkcje agregujące możemy stosować zarówno na wszystkich elementach tensora jak i wzdłuż wybranych osi tensora.
print(f"Maksymalne wartości elementów tensora b wzdłuż osi wertykalnej to {tf.reduce_max(b, axis=0)}")
print(f"Maksymalne wartości elementów tensora wzdłuż osi wertykalnej to {tf.reduce_max(b, axis=1)}")

Maksymalna wartość elementów tensora a wynosi 7.0
Maksymalne wartości elementów tensora wzdłuż osi wertykalnej to [5. 7.]
Maksymalne wartości elementów tensora wzdłuż osi wertykalnej to [3. 7.]


In [None]:
# znajdowanie minimalnego elementu tensora
print(f"Minimalna wartość elementów tensora b wynosi {tf.reduce_min(b)}")

In [None]:
# suma po wszystkich elementach tensora
print(f"Suma wartości wszystkich elementów tensora b wynosi {tf.reduce_sum(b)}")

In [None]:
# średnia po wszystkich elementach tensora
print(f"Średnia wartości wszystkich elementów tensora b wynosi {tf.reduce_mean(b)}")

In [None]:
# znajdowanie indeksu maksymalnego elementu tensora
print(f"Indeks maksymalnego elementu tensora a wynosi {tf.argmax(a)}")

In [None]:
# znajdowanie indeksu minimalnego elementu tensora
print(f"Indeks maksymalnego elementu tensora a wynosi {tf.argmin(a)}")

**Broadcasting**

In [None]:
c = tf.constant(
    [
     [2, 4], 
     [6, 8]
    ]
)

print(c)

In [None]:
print(c+2)

**Ciekawostka: Promocja typów (niejawne rzutownie aka koercja)**

Przekazany obiekt, jeżeli wymaga tego wykonywana operacja zostanie zrzutowany na tensor przed wykonaniem tej operacji.

In [None]:
d = tf.constant(
    [
     [2., 4.], 
     [6., 8.]
    ]
)

print(d + [[1.,1.], [1.,1.]])  # rzutowanie listy na tensor

In [None]:
# Po zrzutowaniu listy intów na tensor otrzymujemy tensor typu int32
tf.constant(
    [
        [1, 2],
        [3, 4]
    ]
)

In [None]:
# Niejawne rzutowanie dotyczy też typu (np. float, int) rzutowanego obiektu.

print(d + [[1, 1], [1, 1]])  # w wyniku otrzymamy tensor typu float32 mimo, że lista
# składa się z intów.

In [None]:
# Ta sama operacja na gotowych tensorach nie zadziała.
print(d + tf.fill([2, 2], 1))

Tensory nie są niejawnie rzutowane, ale obiekty dopiero rzutowane na tensory mogą.

In [None]:
# Niejawne rzutowanie na int, float dotyczy tylko obiektów dopiero rzutowanych
# na tensory i zachodzi przed zrzutowaniem ich na tensor (i przed broadcastingiem
# jeżeli potrzebny).

print(d+2)

In [None]:
# Nie jawne rzutowanie (na int, float) nie zadziała jeżeli musiałoby (zgodnie z
# hierarchią typów) zostać wykonane na już stworzonym tensorze.
e = tf.constant(
    [
     [2, 4], 
     [6, 8]
    ]
)

print(e+2.)

**Zaawansowane operacje na tensorach**

##### Zmiana kształtu tensora

In [None]:
# stworznie tensora (wektor wierszowy)
a = tf.constant([1, 2, 3, 4, 5, 6])
print(f'Kształt tensora {a} - {a.shape}')

# Dopuszczalne są zmiany kształtów nie zmieniające rozmiaru (size) tensora.

In [None]:
# zmiana kształtu (wektor kolumnowy) 
b = tf.reshape(a, (6, 1))
print(f"Kształt tensora {b} - {b.shape}")

In [None]:
# zmiana kształtu (macierz)
c = tf.reshape(a, (2, 3))
print(f"Kształt tensora {c} - {c.shape}")

In [None]:
# spłaszczenie wektora - (-1,)
d = tf.reshape(a, (-1,))
print(f"Spłaszczony wektor {d} - {d.shape}")

In [None]:
# dopasowywanie pozostałych wymiarów do wymiarów zadanych (-1)
e = tf.reshape(a, (2, -1))
print(f"Spłaszczony wektor {e} - {e.shape}")

##### Broadcasting c.d.

In [4]:
# wektor rzędu 0
m = tf.constant([5])

# wektor rzędu 2
n = tf.constant([[1,2],[3,4]])

print(tf.multiply(m, n))

tf.Tensor(
[[ 5 10]
 [15 20]], shape=(2, 2), dtype=int32)


#### Zmiana typu tensora (funkcja `tf.cast`)

Jeżeli chcemy zrzutować istniejący tensor na inny typ należy możemy użyć funkcji rzutującej `tf.cast`.

In [39]:
o = tf.constant(
    [
        [1., 2., 3.],
        [4., 5., 6.]
    ]
)
print(o)  # dtype=float32

print()

casted_o = tf.cast(o, 'int32')
print(casted_o)  # dtype=int32

tf.Tensor(
[[1. 2. 3.]
 [4. 5. 6.]], shape=(2, 3), dtype=float32)

tf.Tensor(
[[1 2 3]
 [4 5 6]], shape=(2, 3), dtype=int32)


#### Konkatenacja tensorów (funkcja `tf.concat`)

In [20]:
# jeżeli chcemy skonkatenować ze sobą dwa tensory wzdłuż wskazanej osi możemy użyć funkcji tf.concat

a = tf.constant(
    [
        [1., 2., 3.],
        [4., 5., 6.]
    ]
)

b = tf.constant(
    [
        [7., 8., 9.],
        [10., 11., 12.]
    ]
)

# konkatenacja wzdłuż osi wertykalnej
print(tf.concat([a, b], axis=0))

print()

# konkatenacja wzdłuż osi horyzontalnej
print(tf.concat([a,b], axis=1))

tf.Tensor(
[[ 1.  2.  3.]
 [ 4.  5.  6.]
 [ 7.  8.  9.]
 [10. 11. 12.]], shape=(4, 3), dtype=float32)

tf.Tensor(
[[ 1.  2.  3.  7.  8.  9.]
 [ 4.  5.  6. 10. 11. 12.]], shape=(2, 6), dtype=float32)


#### Funkcja softmax $\sigma(z)_{i} = \frac{e^{z_{i}}}{\sum_{j=1}^{k} e^{z}_{j}}$ (znormalizowana funkcja wykładnicza `tf.nn.softmax`)

Funkcji softmax używamy kiedy chcemy przeskalować wartości tensora (wektora) w taki sposób, żeby można było je interpretować jako wartości prawdopodbieństwa. Oznacza to, że każda z wartości powinna znaleźć się w przedziale $0-1$, a ich suma powinna wynieść 1.

In [42]:
x = tf.constant([1., 2., 3., 4.])

normalized_x = tf.nn.softmax(x)
print(normalized_x)
print(tf.reduce_sum(normalized_x))   # typowy błąd zaokrąglenia na floatach

tf.Tensor([0.0320586  0.08714432 0.2368828  0.6439142 ], shape=(4,), dtype=float32)
tf.Tensor(0.99999994, shape=(), dtype=float32)


Dla tensorów wyższego rzędu w funkcji softmax można wskazać wzdłuż której osi ma przebiec normalizacja

In [47]:
x = tf.constant(
    [
        [1., 2.],
        [1., 3.],
    ]
)

# normalizacja wzdłuż osi wertykalnej
normalized_x0 = tf.nn.softmax(x, axis=0)
print(normalized_x0)
print(tf.reduce_sum(normalized_x0, axis=0))

print()

# normalizacja wzdłuż osi horyzontalnej
normalized_x1 = tf.nn.softmax(x, axis=1)
print(normalized_x1)
print(tf.reduce_sum(normalized_x1, axis=1))  # znowu błąd zaokrąglenia

tf.Tensor(
[[0.5        0.26894143]
 [0.5        0.7310586 ]], shape=(2, 2), dtype=float32)
tf.Tensor([1. 1.], shape=(2,), dtype=float32)

tf.Tensor(
[[0.26894143 0.7310586 ]
 [0.11920291 0.880797  ]], shape=(2, 2), dtype=float32)
tf.Tensor([1.         0.99999994], shape=(2,), dtype=float32)


Użyty powyżej moduł `tf.nn` zawiera podstawowe obiekty wykorzystywane w sieciach neuronowych. Możemy w nim znaleźć m.in. popularne funkcje aktywacyjne, warstwy konwolucyjną i łączącą (padding) i wiele innych przydatnych obiektów.

In [16]:
print(dir(tf.nn))

['RNNCellDeviceWrapper', 'RNNCellDropoutWrapper', 'RNNCellResidualWrapper', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '_sys', 'all_candidate_sampler', 'approx_max_k', 'approx_min_k', 'atrous_conv2d', 'atrous_conv2d_transpose', 'avg_pool', 'avg_pool1d', 'avg_pool2d', 'avg_pool3d', 'batch_norm_with_global_normalization', 'batch_normalization', 'bias_add', 'collapse_repeated', 'compute_accidental_hits', 'compute_average_loss', 'conv1d', 'conv1d_transpose', 'conv2d', 'conv2d_transpose', 'conv3d', 'conv3d_transpose', 'conv_transpose', 'convolution', 'crelu', 'ctc_beam_search_decoder', 'ctc_greedy_decoder', 'ctc_loss', 'ctc_unique_labels', 'depth_to_space', 'depthwise_conv2d', 'depthwise_conv2d_backprop_filter', 'depthwise_conv2d_backprop_input', 'dilation2d', 'dropout', 'elu', 'embedding_lookup', 'embedding_lookup_sparse', 'erosion2d', 'experimental', 'fixed_unigram_candidate_sampler', 'fractional_avg_pool', 'fracti

**Szczególne rodzaje tensorów**

In [31]:
# tensor nierówny, ang. ragged (niezalecany, ze względu na słabą wydajność obliczeniową)
ragged_list = [[1, 2, 3],[4, 5],[6]]
ragged_tensor = tf.ragged.constant(ragged_list)

print(ragged_tensor)

<tf.RaggedTensor [[1, 2, 3], [4, 5], [6]]>


In [None]:
# tensor napisów
string_tensor = tf.constant(["W ten sposób", 
                             "tworzymy", 
                             "tensor napisów"])

print(string_tensor)

In [None]:
# tensor rzadki, ang. sparse
sparse_tensor = tf.sparse.SparseTensor(
    indices=[[0, 0], [2, 2], [4, 4]], 
    values=[25, 50, 100], 
    dense_shape=[5, 5]
)

print(sparse_tensor)

In [None]:
# Jawne wyświetlenie rzadkiego tensora 
print(tf.sparse.to_dense(sparse_tensor))

## Variable

W odróżnieniu od obiektów klasy tf.Tensor, obiekty klasy tf.Variable są mutowalne. W obiektach klasy tf.Variable możemy przechowywać wartości, którymi program manipuluje w trakcie działania (np. wagi modeli, które w trakcie fazy uczenia są aktualizowane). Obiekty klasy tf.Variable reprezentują tensory, których wartości mogą się zmienić w skutek wykonania na tych tensorach jakieś operacji. Wysokopoziomowe moduły (takie jak `tf.keras`) przechowują w tf.Variable parametry modelu.

### Tworzenie

Obiekt klasy `tf.Variable` możemy stworzyć poprzez zrzutowanie na `tf.Variable` obietu klasy `tf.Tensor`.

In [None]:
# Stworzenie obiektu klasy tf.Tensor
a = tf.constant(
    [
     [0.0, 1.0],
     [2.0, 3.0]
    ]
)

# rzutowanie obiektu klasy tf.Tensor na obiekt klasy tf.Variable
# (inicjalizowanie obiektu klasy tf.Variable obiektem klasy tf.Tensor)
var_a = tf.Variable(a)
print(var_a)

Twórcy biblioteki tensorflow zalecają bezpośrednią inicjalizację obiektów tf.Variable (w odróżnieniu od obiektów tf.Tensor, do inicjalizacji których wykorzystujemy funkcje fabrykjujące takie jak tf.constant czy tf.ones)

In [None]:
# Podobnie jak obiekt klasy tf.Tensor, obiekt klasy tf.Variable możemy 
# inicjalizować za pomocą:

# intów
var_b = tf.Variable(10000)
print(var_b)

In [None]:
# list
c = [[0.0, 1.0],
     [2.0, 3.0]]
var_c = tf.Variable(c)
print(var_c)

In [None]:
# napisów
var_d = tf.Variable("String example")
print(var_d)

In [None]:
e = ["Hello, World!", 
     "This is an", 
     "example of", 
     "TensorFlow Variable"]

var_e = tf.Variable(e)
print(var_e)

### Atrybuty i metody

Wszystkie atrybuty i metody poznane na obiektach klasy tf.Tensor działają też na obiektach klasy tf.Variable

In [None]:
dir(var_c)

In [None]:
print(f"Kształt: {var_c.shape}")
print(f"Jako tablica numpy: {var_c.numpy()}")

Przy zmianie kształtu tf.Variable w wyniku dostaniemy obiekt klasy tf.Tensor

In [None]:
tf.reshape(var_c, (4, 1))

Elementy obiektów klasy tf.Variable, podobnie jak elementy obiektów klasy tf.Tensor nie obsługują operatora przypisania.


In [None]:
var_c[3] = 5. 

 W takim razie w jaki sposób modyfikujemy obiekty klasy `tf.Variable`?
 
 Używamy do tego metody `assign`

##### Metoda assign

Poza atrybutami i metodami odziedziczonymi po klasie tf.Tensor obiekty klasy tf.Variable posiadają m.in. rodzinę metod `assign` (`assign`, `assign_add`, `assign_sub`). Za pomocą funkcji assign możemy zmieniać wartość tensora (typu Variable).

In [None]:
var_c.assign(([[2, 100], [1, 10]]))
print(var_c)

In [None]:
var_c.assign_add(tf.fill([2, 2], 5.))
print(var_c)

In [None]:
var_c.assign_sub([[3, 3], [3, 3]])  # niejawne rzutowanie (zasady identyczne jak przy tf.Tensor)
print(var_c)

In [None]:
# Ale typ tensora musi pozostać ten sam
print(var_e)
var_e.assign(([[2, 100], [1, 10]]))

### Kopiowanie tf.Variable

W przypadku tworzenia nowego obiektu klasy tf.Variable z istniejącego już obiektu klasy tf.Variable, tensorflow tworzy całkowicie nowy obiekt (kopiowane są `wartości`, a nie referencje).

In [None]:
a = tf.Variable([2.0, 3.0])
# Tworzymy tensor b na podstawie tensora a
b = tf.Variable(a)
# modyfikujemy wartości tensora a
a.assign([5, 6])

# tensor b pozostał niezmieniony
print(a.numpy())
print(b.numpy())

Najczęstszym zastosowaniem obiektów klasy tf.Variable jest różniczkowanie w fazie treningu.

### Liczenie gradientu w tensorflow

W jaki sposób możemy policzyć gradient w tensorflow?

Używamy do tego obiektu `tf.GradientTape`. Spójrzmy na przykład.

#### Przykład I

Policz gradient funkcji $y = x^2$ (po $x$) w punkcie 3.0

In [None]:
x = tf.Variable(3.0)

with tf.GradientTape() as tape:
    y = x**2

Kiedy zapiszemy już wszystkie operacje w menadżerze kontekstu `tf.GradientTape`, gradient liczymy używając metody gradient `GradientTape.gradient(target, sources)`. W ten sposób możemy policzyć gradient target (często jest to funkcja straty - loss) względem source (często są to parametry modelu).

In [None]:
# dy = 2x * dx
dy_dx = tape.gradient(y, x)
print(dy_dx)

In [None]:
print(dy_dx.numpy())

Odpowiedź: Gradient funkcji $y=x^2$ w punkcie $x_0=3$, wynosi $6$ co oznacza, że funkcja w tym punkcie się wznosi. 

Powyższy przykład wykorzystywał wyłącznie wartości skalarne, ale równie łatwo możemy działać na tensorach dowolnego rzędu.

#### Przykład II

Policz gradient funkcji $y=w \cdot x + b$ po zmiennych $w, b$

In [None]:
# w = tf.Variable([[1, 2], [4, 3], [6,7]], dtype=tf.float32)
w = tf.Variable(tf.random.normal((3, 2)))  # losowe wagi
print(w)

b = tf.Variable(tf.zeros(2, dtype=tf.float32))
print(b)

x = tf.constant([[1., 2., 3.]])

In [None]:
with tf.GradientTape() as tape:
    y = x @ w + b

In [None]:
dy_dx = tape.gradient(y, [w, b])
print(dy_dx)

`tf.GradientTape` używamy jako menadżera kontekstu (tzn. z instrukcją `with`), ponieważ możemy chcieć policzyć gradient złożenia wielu różnych funkcji. Sieci neuronowe są takim złożeniem wielu modeli (funkcji), w którym o każdej kolejnej warstwie możemy myśleć jak o kolejnym modelu (funkcji), a my chcemy policzyć całościowy gradient. tf.GradientTape zapamiętuje operacje wykonywane w swoim kontekście na tzw. taśmie (ang. tape). Następnie wykorzystuje tą taśmę do obliczenia gradientu.

In [None]:
with tf.GradientTape() as tape:
    y = x @ w + b
    loss = tf.reduce_mean(y**2)

grad = tape.gradient(loss, [w, b])
print(grad)
print()

Gradient ma taki rozmiar jak zmienna zależna, po której go liczymy (source)

In [None]:
dl_dw, dl_db = grad

print(dl_dw)  # gradient po w
print()
print(dl_db)  # gradient po b

Do metody gradient należy przekazać typ iterowalny. Może to być lista (jak powyżej), a może to być słownik (jak poniżej)

In [None]:
with tf.GradientTape() as tape:
    y = x @ w + b
    loss = tf.reduce_mean(y**2)

my_vars = {
    'w': w,
    'b': b
}

grad = tape.gradient(loss, my_vars)
print(grad)

In [None]:
print(grad['w'])
print()
print(grad['b'])

Obiekty klasy tf.GradientTape posiadają dwa opcjonalne parametry:
- persistent
- watch_accessed_variables

### Parametr `persistent`

Po obliczeniu gradientu (wywołaniu metody gradient) zasoby przechowywane przez tf.GradientTape są natychmiast zwalniane. Jeżeli chcemy policzyć kilka różnych gradientów lub gradienty wyższych rzędów, należy użyć parametru persistant (poniższy kod rzuca błąd z powodu braku parametru persistent).

In [None]:
with tf.GradientTape() as tape:
    y = x @ w + b
    loss = tf.reduce_mean(y**2)

grad = tape.gradient(loss, [w, b])
print(grad)
print()

my_vars = {
    'w': w,
    'b': b
}

grad = tape.gradient(loss, my_vars)  # tu dostaniemy błąd
print(grad)

Po dodaniu parametru persistent błąd już nie występuje.

In [None]:
with tf.GradientTape(persistent=True) as tape:
    y = x @ w + b
    loss = tf.reduce_mean(y**2)

grad = tape.gradient(loss, [w, b])
print(grad)
print()

my_vars = {
    'w': w,
    'b': b
}

grad = tape.gradient(loss, my_vars)
print(grad)

### Parametr `watch_accessed_variables`

Gradient możemy policzyć po wszystkich obserwowanych przez tf.GradientTape zmiennych. Domyślnie tf.GradientTape obserwuje wszystkie wartości trenowalne (trainable). Wartościami trenowalnymi są np. tf.Variable. Jeżeli chcemy mieć większą kontrolę nad tym, co tf.GrandientTape obserwuje należy wyłączyć automatyczne obserwowanie poprzez użycie parametru watch_accessed_variables.

In [None]:
with tf.GradientTape(watch_accessed_variables=False) as tape:
    y = x @ w + b
    loss = tf.reduce_mean(y**2)

grad = tape.gradient(loss, [w, b])
print(grad)


W wyniku dostaliśmy None ponieważ tf.GradientTape nie obserwuje, żadnej ze zmiennych po której liczymy gradient. Uzycie parametru watch_accessed_variables powoduje, że sami musimy wskazać, które zmienne są zmiennymi zależnymi (tj. obserwowanymi przez tf.GradientTape). Robimy to za pomocą metody watch obiektu klasy tf.GradientTape.

In [None]:
with tf.GradientTape(watch_accessed_variables=False) as tape:
    tape.watch(w)
    y = x @ w + b
    loss = tf.reduce_mean(y**2)

grad = tape.gradient(loss, [w, b])
print(grad)

## Dodatki

### Grafy obliczeniowe

In [None]:
# eager execution
def eager_function(x):
  """Funckja podnosi do kwadratu parametr x, a następnie zwraca go."""
  result = x ** 2
  print(result)  # w graph execution wynik w tym miejscu nie bedzie jeszcze wyliczony
  return result

x = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0])

res = eager_function(x)

In [None]:
# graph execution (dekorator tf.function)
graph_function = tf.function(eager_function)
res = graph_function(x);

In [None]:
print(res)

In [None]:
# zróbmy benchmarking
import timeit

print(f"Eager time: {timeit.timeit(lambda: eager_function(x), number=1)}")
print(f"Graph time: {timeit.timeit(lambda: graph_function(x), number=1)}")

Nie bardzo pomogło. Dla prostych przykładów jest nieprzydatne, ponieważ stworzenie grafu od początku zajmuje jakiś czas. Różnica na korzyść grafów obliczeniowych staje się coraz bardziej widoczna wraz ze wzrostem złożoności modelu.

### Wyskopoziomowe api Keras

Przykład dotyczy funkcji kosztów. Dostępne w Keras, popularne funkcje kosztu używane z modelami liniowymi to

| Funkcja               | Pełna nazwa                |
| --------------------- |:---------------------------|
| tf.keras.losses.mse   | Mean Squre Error (MSE)     |
| tf.keras.losses.mae   | Mean Absolute Error (MAE)  |
| tf.keras.losses.Huber | Huber Error                |


In [None]:
import requests
from io import StringIO
import numpy as np


# po obliczniu prognozowanych wyników i przypisaniu ich do zmiennej predictions
# średni kwadratowy błąd prognozy możemy znaleźć za pomocą wywołania 
# tf.keras.losses.mse

# Wczytajmy ceny domów (zapisane w pliku targets.csv) i wyliczone przez wyuczony 
# model prognozowane ceny domów (zapisane w pliku predictions.csv)

targets_response = requests.get(
    "https://raw.githubusercontent.com/jgrynczewski/tensorflow_intro/master/targets.csv"
)
raw_targets = targets_response.text

predictions_response = requests.get(
    "https://raw.githubusercontent.com/jgrynczewski/tensorflow_intro/master/predictions.csv"
)
raw_predictions = predictions_response.text

# rzutowanie danych do tablicy numpy
targets_numpy = np.genfromtxt(StringIO(raw_targets), delimiter=',')
predictions_numpy = np.genfromtxt(StringIO(raw_predictions), delimiter=',')

loss = tf.keras.losses.mse(targets_numpy, predictions_numpy)
print(loss)