<a href="https://colab.research.google.com/github/Rnov24/Rnov24/blob/main/2_1_Data_Manimpulation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 2.1 Data Manipulation

## 2.1.1 Getting started



Untuk memulai, kita mememerlukan untuk mengimport library **Pytorch**, dengan catatan package-nya bernama `torch`

In [35]:
import torch

**Tensor** merepresentasikan array dari nilai numerik, jika hanya memiliki satu sumbu maka biasa didebut `Vector`, jika meiliki 2 sumbu maka disebut `Matrix`, jika memiliki $k > 2$ sumbu maka disebut juga $k^{th}$-ordo Tensor

In [36]:
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

pada library `Pytorch` data type bawaan untuk tensor adalah `float32`, berbeda dengan array pada `numpy` yang memiliki data type bawaan adalah `float64`.

In [37]:
import numpy as np

np_array = np.random.rand(12)

pt_tensor = torch.rand(12)

print("Numpy array dtype:", np_array.dtype)
print("Pytorch tensors dtype:", pt_tensor.dtype)

Numpy array dtype: float64
Pytorch tensors dtype: torch.float32


Kita bisa melihat jumlah elemen pada tensor dengan menggunakan `numel`

In [38]:
x.numel()

12

atau bisa dengan menggunakan `shape` untuk mengetahui lebih detail tentang bentuk dan dimensi dri tensor tersebut.

In [39]:
x.shape

torch.Size([12])

kita juga bisa merubah bentuk dari tensor tanpa mempengaruhi nilai yang ada didalamnya dengan menggunakan `reshape`.

In [40]:
X = x.reshape(3, 4)
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

Perhatikan bahwa menentukan setiap komponen bentuk yang akan dibentuk ulang adalah hal yang mubazir. Karena kita sudah mengetahui ukuran tensornya, kita dapat mengerjakan satu komponen bentuk dengan mempertimbangkan komponen lainnya. contoh jika bentuk target adalah $(h, w)$ maka $w = \frac{N}{h}$. untuk melakukan invers pada tensor bisa ubah `-1` pada salah satu komponen bentuk target. dalam kasus kita, dari pada menggunakan `x.reshape(2, 4)`, kita bisa menggunakan `x.reshape(-1, 4)` atau `x.reshape(3, -1)`.


para praktisi biasanya memerlukan untuk membangun tensor yang hanya berisi 0 atau satu. untuk membangun tensor berelemen 0 kita hanya perlu memanggil `zeros` dan masukan bentuk yang kita inginkan sebagai argumen, contoh, (2, 3, 4).

In [41]:
torch.zeros((2, 3, 4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

sama juga untuk tensor bernilai 1, kita bisa membuatnya dengan `ones`

In [42]:
torch.ones((2, 3, 4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

Kita sering kali ingin mengambil sampel setiap elemen secara acak (dan independen) dari distribusi probabilitas tertentu. Misalnya, parameter jaringan saraf sering kali diinisialisasi secara acak. Cuplikan berikut membuat tensor dengan elemen yang diambil dari distribusi standar Gaussian (normal) dengan mean 0 dan deviasi standar 1.

In [43]:
torch.randn(3, 4)

tensor([[ 0.3551, -1.3021,  0.4571, -2.2521],
        [ 0.6313, -1.1650,  1.7411, -0.9844],
        [ 0.6880,  0.2021,  2.2325, -0.4504]])

Terakhir, kita dapat membuat tensor dengan memberikan nilai yang tepat untuk setiap elemen dengan menyediakan daftar Python (mungkin bersarang) yang berisi literal numerik. Di sini, kita membuat matriks dengan daftar daftar, di mana daftar terluar berhubungan dengan sumbu 0, dan daftar dalam berhubungan dengan sumbu 1.

In [44]:
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

## 2.1.2  Indexing and Slicing


Layaknya python list, kita dapat mengakses elemen pada tensor menggunakan indexing (mulai dari 0). Untuk mengakses elemen berdasarkan akhir dari tensor bisa menggunakan negatif index. Terakhir, kita dapat mengakses seluruh elemen dalam jangka tertentu menggunakan slicing (contohnya, `X[start : stop]`), dimana akan mengeluarkan elemen pertama dari index (`Start`) tapi tidak mengeluarkan elemen dari index terakhir (`stop`).




In [45]:
X[-1], X[1:3]

(tensor([ 8,  9, 10, 11]),
 tensor([[ 4,  5,  6,  7],
         [ 8,  9, 10, 11]]))

Bukan hanya membaca, kita juga dapat mengubah nilai dari sebuah elemen menggunakan indexing


In [46]:
X[1][2] = 17
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5, 17,  7],
        [ 8,  9, 10, 11]])

Jika kita ingin menetapkan nilai yang sama pada beberapa elemen, kita menerapkan pengindeksan di sisi kiri operasi penetapan. Misalnya, `[:2, :]` mengakses baris pertama dan kedua, dimana : mengambil semua elemen sepanjang sumbu 1 (kolom). Meskipun kita telah membahas pengindeksan matriks, hal ini juga berlaku untuk vektor dan tensor yang lebih dari dua dimensi.

In [47]:
X[:2, :] = 12
X

tensor([[12, 12, 12, 12],
        [12, 12, 12, 12],
        [ 8,  9, 10, 11]])

## 2.1.3 Operations

Sekarang setelah kita mengetahui cara membuat tensor dan cara membaca dan menulis elemennya, kita dapat mulai memanipulasinya dengan berbagai operasi matematika. Di antara yang paling berguna adalah operasi elemen. Ini menerapkan operasi skalar standar untuk setiap elemen tensor. Untuk fungsi yang menggunakan dua tensor sebagai masukan, operasi elemen menerapkan beberapa operator biner standar pada setiap pasangan elemen yang bersesuaian. Kita dapat membuat fungsi berdasarkan elemen dari fungsi apa pun yang memetakan dari skalar ke skalar.

Dalam notasi matematika, kami menunjukkan operator skalar unary (mengambil satu input) dengan signature $f : \mathbf{R}→ \mathbf{R}$
. Artinya, fungsi tersebut dipetakan dari bilangan real mana pun ke bilangan real lainnya. Kebanyakan operator standar, termasuk yang unary sejenisnya
, $e^x$ dapat diterapkan secara elemen.

In [48]:
torch.exp(x)

tensor([162754.7969, 162754.7969, 162754.7969, 162754.7969, 162754.7969,
        162754.7969, 162754.7969, 162754.7969,   2980.9580,   8103.0840,
         22026.4648,  59874.1406])

Demikian pula, kami menyatakan operator skalar *biner*,
yang memetakan pasangan bilangan real
ke bilangan real (tunggal).
melalui tanda tangan
$f: \mathbb{R}, \mathbb{R} \rightarrow \mathbb{R}$.
Diberikan dua vektor $\mathbf{u}$
dan $\mathbf{v}$ *berbentuk sama*,
dan operator biner $f$, kita dapat menghasilkan vektor
$\mathbf{c} = F(\mathbf{u},\mathbf{v})$
dengan mengatur $c_i \gets f(u_i, v_i)$ untuk semua $i$,
dimana $c_i, u_i$, dan $v_i$ adalah elemen $i^\textrm{th}$
dari vektor $\mathbf{c}, \mathbf{u}$, dan $\mathbf{v}$.
Di sini, kami menghasilkan nilai vektor
$F: \mathbb{R}^d, \mathbb{R}^d \rightarrow \mathbb{R}^d$
dengan *menaikkan* fungsi skalar
ke operasi vektor berdasarkan elemen.
Operator aritmatika standar umum
untuk penjumlahan (`+`), pengurangan (`-`),
perkalian (`*`), pembagian (`/`),
dan eksponensial (`**`)
semuanya telah *diangkat* ke operasi elemen
untuk tensor berbentuk identik dengan bentuk sembarang.

In [49]:
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x / y, x ** y

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

Selain perhitungan elemen,
kita juga dapat melakukan operasi aljabar linier,
seperti perkalian titik dan perkalian matriks..

Kita juga dapat **menggabungkan beberapa tensor,**
menumpuknya dari ujung ke ujung untuk membentuk yang lebih besar.
Kami hanya perlu memberikan daftar tensor
dan beri tahu sistem di sepanjang sumbu mana yang akan digabungkan.
Contoh di bawah menunjukkan apa yang terjadi ketika kita menggabungkan
dua matriks sepanjang baris (sumbu 0)
bukannya kolom (sumbu 1).
Kita dapat melihat bahwa panjang sumbu-0 keluaran pertama ($6$)
adalah jumlah dari dua panjang sumbu-0 tensor masukan ($3 + 3$);
sedangkan panjang sumbu-1 keluaran kedua ($8$)
adalah jumlah dari dua panjang sumbu-1 tensor masukan ($4 + 4$).


In [50]:
X = torch.arange(12, dtype=torch.float32).reshape((3,4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
torch.cat((X, Y), dim=0), torch.cat((X, Y), dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

**membuat tensor biner melalui *pernyataan logis*.**
Ambil `X == Y` sebagai contoh.
Untuk setiap posisi `i, j`, jika `X[i, j]` dan `Y[i, j]` sama,
maka entri yang sesuai dalam hasil mengambil nilai `1`,
jika tidak, dibutuhkan nilai `0`.

In [51]:
X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

**Menjumlahkan semua elemen dalam tensor** menghasilkan tensor dengan hanya satu elemen.

In [52]:
X.sum()

tensor(66.)

## 2.1.4 Broadcasting

dalam kondisi tertenu, walaupun tensor memiliki bentuk yang berbeda, kta tetap dapat menggunakan *elementwise binary operation* dengan cara memanggil *broadcasting mechanism*. Broadcasting bekerja mengikuti 2 prosedur:


1.   Expand salah satu atau kedua tensor dengan menyalin elemen sepanjang sumbu yang memiliki panjang 1. dengan begitu kedua tensor memiliki bentuk yang sama.
2.   Gunakan *elementwise operation* pada array hasil.



In [53]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

dengan menggunakan *broadcasting mechanism*, kita dapat membuat tensor a dan b memiki bentuk yang sama ya itu `(3, 2)`. Dengan begitu kita dapat melakukan *elementwise operation*

In [54]:
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

## 2.1.5 Saving Memory

Menjalankan operasi bisa menyebabkan alokasi memori baru untuk menyimpan hasil. Contohnya, jika kita menulis $Y = X + Y$, kita menghapus referensi tensor yang sebelumnya ditunjuk oleh $Y$ dan mengarahkan $Y$ ke memori baru yang dialokasikan.

Kita bisa melihat hal ini menggunakan fungsi `id()` di Python, yang memberikan alamat persis dari objek yang direferensikan dalam memori. Perhatikan bahwa setelah menjalankan $Y = Y + X$, `id(Y)` akan menunjuk ke lokasi yang berbeda. Hal ini terjadi karena Python pertama-tama mengevaluasi $Y + X$, mengalokasikan memori baru untuk hasilnya, dan kemudian menunjuk $Y$ ke lokasi baru di memori tersebut.


In [55]:
before = id(Y)
Y = Y + X
id(Y) == before

False

Hal ini mungkin tidak diinginkan karena dua alasan. Pertama, kita tidak ingin terus-menerus mengalokasikan memori secara tidak perlu. Dalam pembelajaran mesin, kita sering memiliki ratusan megabyte parameter dan memperbarui semuanya berkali-kali per detik. Oleh karena itu, setiap kali memungkinkan, kita ingin melakukan pembaruan ini secara langsung (in place).

Kedua, kita mungkin menunjuk ke parameter yang sama dari beberapa variabel. Jika kita tidak melakukan pembaruan secara langsung, kita harus berhati-hati untuk memperbarui semua referensi ini, agar tidak terjadi kebocoran memori atau tanpa sengaja merujuk pada parameter yang sudah usang.


Untungnya, melakukan operasi secara langsung (in-place) itu mudah. Kita bisa menetapkan hasil dari suatu operasi ke array yang sudah dialokasikan sebelumnya, $Y$, dengan menggunakan notasi irisan (slice notation): $Y[:] = \text{<expression>}$.

Untuk mengilustrasikan konsep ini, kita akan menimpa nilai tensor $Z$, setelah menginisialisasinya dengan fungsi `zeros_like`, agar memiliki bentuk yang sama dengan $Y$.


In [56]:
Z = torch.zeros_like(Y)
print('id(Z):', id(Z))
Z[:] = X + Y
print('id(Z):', id(Z))

id(Z): 137815412393680
id(Z): 137815412393680


Jika nilai dari $X$ tidak digunakan kembali dalam perhitungan selanjutnya, kita juga bisa menggunakan $X[:] = X + Y$ atau $X \mathrel{+}= Y$ untuk mengurangi beban memori dari operasi tersebut.

In [57]:
before = id(X)
X += Y
id(X) == before

True

## 2.1.6 Conversion to Other Python Objects

Mengonversi ke tensor NumPy (ndarray), atau sebaliknya, itu mudah. Tensor dari PyTorch dan array NumPy akan berbagi memori dasar mereka, sehingga mengubah salah satunya melalui operasi secara langsung (in-place) juga akan mengubah yang lainnya.


In [58]:
A = X.numpy()
B = torch.from_numpy(A)
type(A), type(B)

(numpy.ndarray, torch.Tensor)

Untuk mengonversi tensor ukuran-1 menjadi skalar Python, kita bisa menggunakan fungsi `item()` atau fungsi bawaan Python.


In [59]:
a = torch.tensor([3.5])
a, a.item(), float(a), int(a)

(tensor([3.5000]), 3.5, 3.5, 3)

## 2.1.7 Exercises





1. Jalankan kode dalam bagian ini. Ubah pernyataan kondisional $X == Y$ menjadi $X < Y$ atau $X > Y$, lalu lihat jenis tensor apa yang bisa kamu dapatkan.




In [60]:
print("Hasil X < Y:")
print(X < Y)
print("Hasil X > Y:")
print(X > Y)

Hasil X < Y:
tensor([[False, False, False, False],
        [False, False, False, False],
        [False, False, False, False]])
Hasil X > Y:
tensor([[False,  True,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]])


2. Gantilah kedua tensor yang beroperasi secara elemen dalam mekanisme broadcasting dengan bentuk lain, misalnya, tensor berdimensi 3. Apakah hasilnya sama seperti yang diharapkan?


In [61]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(6).reshape((1, 6))
a + b

tensor([[0, 1, 2, 3, 4, 5],
        [1, 2, 3, 4, 5, 6],
        [2, 3, 4, 5, 6, 7]])