# Tensor Datatypes

În lectura precedentă am învățat cum putem să creem anumiți tensori cu anumite valori (fie random, fie valori de zero sau de unu după o anumită formă, fie tensori utilizând un range, sau am copiat forma și dimensiunea unui tensor și am creat alt tensor de aceleași dimensiuni, dar cu valori diferite). Să trecem printr-o scurtă recapitulare

In [6]:
# importing PyTorch
import torch

# creating a tensor with random values
print('-----------RANDOM TENSOR-----------')
random_tensor = torch.rand(size=(5, 7))
print(random_tensor)

# creating a tensor full of zeros
print('-----------ZEROS TENSOR-----------')
zeros_tensor = torch.zeros(size=(2, 3))
print(zeros_tensor)

# creating a tensor full of ones
print('-----------ONES TENSOR-----------')
ones_tensor = torch.ones(size=(2, 5, 3))
print(ones_tensor)

# creating a tensor from a range
print('-----------RANGE TENSOR-----------')
arange_tensor = torch.arange(start=0, end=100, step=17)
print(arange_tensor)

# creating a tensor-like
print('-----------TENSOR-LIKE-----------')
tensor_like = torch.rand_like(input=ones_tensor, dtype=float)
print(tensor_like)



-----------RANDOM TENSOR-----------
tensor([[0.4295, 0.4979, 0.7254, 0.6707, 0.3265, 0.0519, 0.7054],
        [0.5358, 0.6878, 0.6996, 0.9209, 0.5300, 0.2607, 0.3156],
        [0.9201, 0.1525, 0.6802, 0.4229, 0.0771, 0.3907, 0.0996],
        [0.9955, 0.4534, 0.2535, 0.7997, 0.5326, 0.9519, 0.8974],
        [0.9459, 0.9276, 0.6233, 0.6689, 0.6704, 0.1344, 0.0447]])
-----------ZEROS TENSOR-----------
tensor([[0., 0., 0.],
        [0., 0., 0.]])
-----------ONES TENSOR-----------
tensor([[[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]],

        [[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]]])
-----------RANGE TENSOR-----------
tensor([ 0, 17, 34, 51, 68, 85])
-----------TENSOR-LIKE-----------
tensor([[[0.3764, 0.3727, 0.2625],
         [0.2416, 0.3206, 0.1826],
         [0.3291, 0.3458, 0.3324],
         [0.8831, 0.8865, 0.5221],
         [0.4974, 0.5794, 0.1142]],

      

Din ce se poate vedea mai sus, toate datele din fiecare tensor sunt de tip `float`. Acest lucru se întâmplă deoarece în modeul default, un tensor returnează date de tip float (în cazul în care nu se specifică alt tip de date). Pentru a specifica ce tip de date să fie o să utilizăm parametrul `dtype`. În continuare o să creem un tensor căruia o să îi atribuim valori float, dar ca și valoare pentru parametrul 'dtype' o să îi oferim valoarea None

In [7]:
# creating a tensor with dtype=None
test_tensor = torch.tensor(data=[3.0, 6.0, 9.0], dtype=None)
test_tensor.dtype

torch.float32

Deși am specificat ca tipul de date din acest tensor să fie 'None', atunci când accesăm atributul care ne returnează tipul de date stocat de către un tensor (`tensor.dtype`) acesta ne retunează 'torch.float32'. Chiar dacă s-a specificat dtype=None, tipul de date este tot float32, acesta este comportamentul prestabilit din PyTorch

De cele mai multe ori o să avem de-a face cu tipurile de date de float32 și float16. Diferența dintre acestea este modul în care calculatorul stochează numerele, și anume pe câți biți (float32 pe 32 de biți și float16 pe 16 biți). Diferențele dintre valorile stocate sunt prezenta la precizia stocării acestor numere, numerele stocate pe 32 de biți fiind mai precise, dar ocupând o memorie mai mare. Diferența de memorie dintre float32 și float16 face ca operațiile care se rulează pe tipuri de date float16 să fie mai rapide. De ce amintim aceste tipuri de date, deoarece unele dintre cele mai comune erori care apar în momentul în care lucrăm cu tensori face referire la tipul de date care este stocat în acești tensori. Dacă dorim să facem operații între mai mulți tensori și nu au același tip de date, atunci o să apară o eroare

Foarte important de menționat faptul că atunci când pentru un tensor dorim să specificăm tipul de date să utilizăm sintaxa `dtype=torch.float_x` (unde '_x' reprezintă numărul de biți). Mai multe informații despre tipul de date stocat într-un tensor se pot găsi pe pagina oficială de la PyTorch în documentație (https://pytorch.org/docs/stable/tensors.html) 

Tensorul pe care l-am creat mai sus (test_tensor) are ca și tip de date float32. Dacă se întâmplă să mai lucrăm cu un alt tensor și acesta să aibă float16 ca și tip de date, operațiile între acești doi tensori nu se pot face decât în momentul în care cei doi au același tip de date. Pentru a crea un tensor cu aceleași valori (aprozimativ, deoarece precizia diferă) dar un tip de date diferit o să utilizăm comanda `tensor.type(torch.float_x)`

In [8]:
test_tensor.type(torch.float16)

tensor([3., 6., 9.], dtype=torch.float16)

Ceea ce returnează codul de mai sus putem să îl savăm ca și un nou tensor, acesta având aceleași valori, dar tipul de date este diferit.

In [9]:
test_tensor_16 = test_tensor.type(torch.float16)
test_tensor_16

tensor([3., 6., 9.], dtype=torch.float16)

De cele mai multe ori atunci când o să creem un tensor o să specificăm și tipul de date. De asemenea, foarte des mai apar doi parametri atunci când se creează un tensor, aceștia fiind `device` și `requires_grad`. Momentan o să le setăm la None, respectiv False, dar pe parcurs o să modificăm și aceste valori

In [10]:
new_tensor = torch.tensor([3.0, 6.0, 9.0], dtype=torch.float16, device=None, requires_grad=False)
new_tensor

tensor([3., 6., 9.], dtype=torch.float16)

Prin parametrul de `device` specificăm pe care dintre componentele de procesare să se stocheze acel tensor. Ca și variante putem să avem 'cpu' sau 'cuda' ('cuda' reprezintă placa grafică). Din nou, dacă dorim să facem anumite operații între doi tensori care se află pe device-uri diferite, atunci o să ne apară o eroare. Parametrul de `required_grads` îi spune programului dacă să înregistreze sau nu parametrii de gradient (o să vedem ce anume înseamnă asta)

Într-un workflow de PyTorch, cel mai mult o să ne lovim de următoarele erori:

1. Tensors not right datatype

2. Tensors not right shape

3. Tensor not on the right device

În funcție și de aceste trei erori, avem și trei atribute ale unui tensor pentru a verifica tipul de date, forma pe care o are un tensor și de asemenea pe ce device este prezent acel tensor.

In [11]:
# creating a random tensor
random_tensor = torch.rand(size=(3, 6), dtype=torch.float16, device=None, requires_grad=False)

# accessing the attributes from the tensor
print(random_tensor)
print(f'Datatype of tensor is: {random_tensor.dtype}')
print(f'Shape of tensor is: {random_tensor.shape}')
print(f'Tensor is on device: {random_tensor.device}')

tensor([[0.4438, 0.5659, 0.6982, 0.5825, 0.6060, 0.7085],
        [0.3003, 0.4956, 0.2935, 0.9121, 0.2524, 0.5596],
        [0.1099, 0.2656, 0.1582, 0.6143, 0.9707, 0.3247]], dtype=torch.float16)
Datatype of tensor is: torch.float16
Shape of tensor is: torch.Size([3, 6])
Tensor is on device: cpu


## Recapitulare

În această parte am învățat următoarele lucruri:

1. Care sunt diferitele tipuri de date cu care o să lucrăm cel mai mult în PyTorch

    - torch.float32

    - torch.float16

    Diferența dintre ele este reprezentată de memoria pe care sunt stocate și precizia cu care sunt stocate

2. Cum să creem un tensor la care să îi stabilim tipul de date

```python
import torch

tensor = torch.tensor([3.0, 6.0, 9.0], dtype=torch.float16)
```

3. Cum să modificăm tipul de date pentru un tensor deja creat

```python
import torch

# creating a tensor with float32 datatype
tensor_32 = torch.tensor([3.0, 6.0, 9.0], dtype=torch.float32)

# changing the datatype from float32 to float16
tensor_16 = tensor_32.type(torch.float16)
```

4. Cum se creează de cele mai multe ori un tensor, care sunt noii parametrii pe care i-am adăugat

```python
import torch

tensor = torch.tensor([3.0, 6.0, 9.0], dtype=torch.float16, device=None, requires_grad=False)
```

5. Cum să accesăm atributele unui tensor care ne oferă informații referitoare la tipul de date din tensor, forma acestuia și pe ce device se găsește tensor-ul respectiv

```python
import torch

# creating a random tensor
random_tensor = torch.rand(size=(3, 5), dtype=torch.float16, device=None, requires_grad=False)

# accessing the tensor attributes
random_tensor.dtype # datatype of tensor
random_tensor.shape # shape of tensor
random_tensor.device # device tensor is on