# Pengenalan NumPy

Proyek data science selalu melibatkan data. Data tersebut berbentuk vektor dan matriks yang terdiri dari baris dan kolom yang secara berturut-turut merepresentasikan satu entitas data/informasi dan fitur/variabel yang berhubungan.

Python sebenarnya sudah menyediakan struktur data untuk keperluan tersebut, seperti `list` atau `tuple`. Akan tetapi, pada materi sebelumnya, kita tidak bisa melakukan operasi sederhana seperti perkalian matriks dengan skalar secara langsung, tapi harus menggunakan perulangan.

Pada bagian ini, kita akan mencoba salah satu pustaka khusus yang bisa menangani vektor dan matriks dengan mudah dan intuitif: **NumPy** atau **Numerical Python**.

## Menyiapkan NumPy

Untuk menggunakan NumPy, kita harus pastikan bahwa pustaka NumPy sudah terpasang pada *environment* kita.

> Kita harus memasang NumPy terlebih dahulu karena NumPy bukan pustaka bawaan dari Python. Untuk lebih jelasnya, silakan buka dokumentasi resmi NumPy [berikut](https://numpy.org).

Kita bisa cek ketersediaan NumPy dengan `conda`.

Setelah NumPy terpasang, kita bisa langsung import pustaka NumPy dan mengecek versi yang terpasang.

```python
import numpy
print(numpy.__version__)
```

Menurut konvensi, sangat disarankan kita menggunakan alias `np` ketika mengimpor NumPy. Sehingga, kode di atas menjadi seperti di bawah ini.

```python
import numpy as np
print(np.__version__)
```

Mari kita jalankan pada cell di bawah.

In [None]:
import numpy as np
print(np.__version__)

1.19.5


## Kenapa List Tak Cukup?

Misalkan kita punya sebuah matriks dalam bentuk `list` di dalam `list` berikut.

In [None]:
list_of_list = [[1, 2, 3, 4],
                [5, 6, 7, 8],
                [9, 10, 11, 12]]
print(list_of_list)

Jika kita ingin melakukan operasi perkalian matriks dengan skalar `2`, kita tidak bisa langsung mengalikan kedua objek tersebut. Kita harus melakukan perulangan dalam perulangan.

In [None]:
list_of_list * 2

In [None]:
matrix_x_scalar = []
for row in list_of_list:
    temp = []
    for item in row:
        temp.append(2 * item)
    matrix_x_scalar.append(temp)

print(matrix_x_scalar)

Tentu saja akan lebih rumit untuk melakukan perkalian antar matriks dengan ukuran yang besar. Oleh karena itu, kita menggunakan NumPy yang menggunakan **array** untuk merepresentasikan vektor, matriks, dan bahkan array berimensi `n`. Beberapa karaketeristik array NumPy adalah sebagai berikut:

* Lebih cepat dibandingkan list dengan **vektorisasi**.
* Lebih ringkas, terutama ketika dimensi berkembang sampai `n` dimensi.
* Lebih lambat untuk penambahan elemen pada indeks terakhir suatu array.
* Menampung kumpulan objek yang homogen, yaitu bertipe data sama.

## Array

Array adalah struktur data utama NumPy. NumPy membolehkan kita untuk membuat array dengan berbagai ukuran dan dimensi yang hanya dibatasi oleh komputer kita sendiri. Sintaks untuk mendefinisikan array adalah menggunakan fungsi `np.array` dan menyediakan sebuah list sesuai dengan dimensi array yang akan dibuat. Beberapa atribut yang penting adalah sebagai berikut.

| syntax | usage | example |
| ------ | ----- | ------- |
| `ndarray.shape` | dimension of the array, which is a tuple of integers indicating the size of the array in each dimension | `arr.shape` |
| `ndarray.ndim` | number of axes (dimensions) | `arr.ndim` |
| `ndarray.size` | total number of items in array, which is equal to the product of its `shape` attribute | `arr.size` |
| `ndarray.dtype` | type of elements in the array and not be confused with the object type of array, which is `ndarray` | `arr.dtype` |
| `ndarray.itemsize` | size (in bytes) of each element of the array, which is equivalent to `ndarray.dtype.itemsize` | `arr.itemsize` |

### Vektor, Array 1-Dimensi

Untuk mendefinisikan sebuah array 1-dimensi, kita menggunakan fungsi di atas dan menyediakan sebuah list seperti di bawah ini.

```python
np.array([1, 2, 3])
```

<div align="middle">
<img src="../../assets/images/array-1d.png">
</div>

Ingat bahwa semua elemen dalam sebuah array harus homogen atau memiliki tipe data yang sama, jika tidak, maka array yang dihasilkan akan bertipe `object` yang sama tidak efektifnya dengan list untuk operasi aljabar.

In [None]:
int_array = np.array([1, 2, 3])
float_array = np.array([.1, .2, .3, .4])

print(int_array, type(int_array), int_array.dtype)
print(float_array, type(int_array), float_array.dtype)

[1 2 3] <class 'numpy.ndarray'> int64
[0.1 0.2 0.3 0.4] <class 'numpy.ndarray'> float64


Pada cell di atas, terlihat bahwa tipe objek dari kedua array tersebut adalah `ndarray`, di mana `ndarray` merupakan kelas utama dalam NumPy untuk merepresentasikan sebuah array.

Tipe data elemen dalam suatu array (`dtype`), secara default, ditentukan oleh tipe data barisan yang kita sediakan atau kita tentukan sendiri. Jika kita berikan barisan bilangan integer, maka tipe data nya adalah integer, dan float jika **ada salah satu elemen bertipe data `float`**. Kita juga bisa sediakan tipe data yang diinginkan dengan menyediakan nilai pada `dtype`.

In [None]:
print(np.array([.1, .2, .4], dtype="int"))
print(np.array([1, 3, 4], dtype="float"))

[0 0 0]
[1. 3. 4.]


Dari segi dimensi array, kita sudah tahu bahwa array di atas berdimensi 1. Kita bisa buktikan dengan mengakses atribut seperti `shape`, `ndim`, dan `size` di bawah ini.

In [None]:
print(int_array.ndim, float_array.ndim)
print(int_array.shape, float_array.shape)
print(int_array.size, float_array.size)

1 1
(3,) (4,)
3 4


Pertama, jumlah dimensi kedua array `int_array` dan `float_array` adalah 1 karena memang merupakan vektor 1-dimensi. Khusus untuk array 1-dimensi, nilai dari dimensi sama dengan panjang dari array tersebut jika kita gunakan fungsi `len`.

> Karena atribut `shape` mengembalikan sebuah `tuple`, maka notasi ukuran dari array 1-dimensi juga berbentuk tuple dengan 1 elemen (`(3,)`), yaitu jumlah elemen dari array tersebut. Nanti akan kita lihat notasi ukuran dari array 2-dimensi atau bahkan n-dimensi juga berbentuk tuple yang terdiri dari 2 atau n elemen.

> **Kuis:**
>
> Dengan menggunakan fungsi `np.array`, buatlah:
> 1. array berukuran `(5,)` yang semua elemennya adalah **0**.
> 2. array dengan ukuran yang sama dengan array nomor 1 yang elemennya adalah bilangan genap

In [None]:
array_kuis = np.array ([[0,0,0,0,0]])
print (array_kuis, array_kuis.shape)

[[0 0 0 0 0]] (1, 5)


### Matriks, Array 2-Dimensi

Sama halnya dengan array 1-dimensi, kita gunakan `np.array` untuk membuat array 2-dimensi. Hanya saja, kita harus menyediakan sebuah barisan 2 dimensi. Barisan 2D ini bisa berupa list yang berisi list atau jenis barisan lain yang disediakan oleh Python.

<div align="middle">
<img src="../../assets/images/array-2d.png">
</div>

In [None]:
array_2x2 = np.array([[1, 2], [3, 4]])
array_1x2 = np.array([[5, 5]])
array_2x1 = np.array([[2], [4]])

print(array_2x2)
print(array_1x2)
print(array_2x1)

In [None]:
print([[1, 2], [3, 4]])

Terlihat jelas perbedaan saat kita menampilkan array 2-dimensi di atas dengan list bawaan Python. Sedalam-dalamnya list dalam list yang kita buat, masih akan ditampilkan satu baris saja seperti di atas. Dengan NumPy, kita seakan-akan bisa tahu masing-masing dimensi dan jumlah elemen tiap dimensi.

Sekarang, mari kita coba akses beberapa atribut penting seperti sebelumnya.

In [None]:
print(array_2x2.ndim, array_1x2.ndim, array_2x1.ndim)
print(array_2x2.shape, array_1x2.shape, array_2x1.shape)
print(array_2x2.size, array_1x2.size, array_2x1.size)

Bisa kita lihat jumlah dimensi ketiga array tersebut adalah 2, yang menunjukkan bahwa ketiganya merupakan array 2-dimensi. Karena merupakan aray 2-dimensi, elemen dari dimensi masing-masing array sejumlah 2 yang merepresentasikan jumlah elemen pada masing-masing dimensi.

Sebagai contoh, `array_2x2` berukuran `(2,2)` dan `array_1x2` berukuran `(1, 2)`. Khusus untuk `array_2x1` dan `array_1x2`, meskipun merupakan array 2D, kita bisa anggap kedua array tersebut sebagai **vektor kolom** dan **vektor baris** secara berturut-turut.

> Barisan yang disediakan untuk membuat sebuah array harus memiliki ukuran dan panjang yang sama. Misalkan, kita ingin membuat array 2D berukuran `2x3` maka untuk setiap elemen pada dimensi pertama (baris), harus berukuran atau memiliki panjang elemen (kolom) `3`. Jika ternyata tidak sama, maka kita akan mendapatkan *array of list*, yaitu array yang setiap elemennya adalah list bawaan Python. Sehingga, kita tidak bisa melakukan operasi atau komputasi array secara efisien.

In [None]:
np.array([[1, 2], [3]])

### Array N-Dimensi

Semua sifat, karakter, dan aturan dalam membuat array 1D ataupun 2D, juga berlaku untuk pembuatan array n-dimensi. Sebagai contoh, misalkan kita ingin membuat sebuah array 3D atau bahkan 4D, kita bisa langsung sediakan *nested list* yang terdiri dari **3 lapis list** dan **4 lapis list** secara berturut-turut.

In [None]:
array_3d = np.array([[[1, 2, 1], [3, 4, 3]], [[5, 4, 5], [6, 5, 6]]])
array_4d = np.array([[[[1, 2, 1], [3, 4, 3]], [[5, 6, 5], [7, 8, 7]]], [[[12, 13, 12], [11, 12, 11]], [[13, 14, 13], [15, 16, 15]]]])

print(array_3d)
print(array_4d)

[[[1 2 1]
  [3 4 3]]

 [[5 4 5]
  [6 5 6]]]
[[[[ 1  2  1]
   [ 3  4  3]]

  [[ 5  6  5]
   [ 7  8  7]]]


 [[[12 13 12]
   [11 12 11]]

  [[13 14 13]
   [15 16 15]]]]


In [None]:
array_3d.shape, array_4d.shape

((2, 2, 3), (2, 2, 2, 3))

Semakin banyak dimensi sebuah array, memang semakin membingungkan untuk dibayangkan karena susah dibayangkan representasi objek di atas 3D. Sebagai analogi, anggap saja array multidimensi adalah array yang berisi array yang juga berisi array dan seterusnya. Ini akan semakin jelas kita sudah mengakses atribut yang berkaitan dengan dimensi.

In [None]:
print(array_3d.ndim, array_4d.ndim)
print(array_3d.shape, array_4d.shape)
print(array_3d.size, array_4d.size)

> **Kuis:**
>
> Buatlah array multidimensional dengan elemen sebarang dan dengan ukuran sebagai berikut:
> 1. `(3, 3, 3)`
> 2. `(2, 1, 4)`
> 3. `(2, 2, 1, 2, 1)`

In [None]:
# KETIK DI SINI


In [None]:
# KETIK DI SINI

In [None]:
# KETIK DI SINI

## Penciptaan Array

Selain menggunakan `np.array`, NumPy menyediakan fungsi untuk membuat array khusus seperti array yang semua elemennya `0` atau `1`, array yang semua elemennya sama, dan lain-lain, tanpa harus mengetik elemennya satu per satu.

### `numpy.linspace` dan `numpy.arange`

Dua fungsi pertama adalah `numpy.linspace` dan `numpy.arange`. Kedua fungsi ini akan membangkitkan array 1-dimensi dengan menyediakan minimal **2 masukan**:
* `start` sebagai batas bawah nilai
* `stop` sebagai batas atas nilai

> Satu *optional argument* yang bisa kita kasih adalah `step` yang berfungsi sebagai besar penambahan/pengurangan dari `start` sampai tepat sebelum mencapai `stop`.

`numpy.arange` akan membuat sebuah array dengan nilai yang bertambah/berkurang secara teratur. Fungsi ini mirip dengan fungsi bawaan Python `range`, di mana yang berbeda adalah hasilnya, yang pertama array dan yang kedua list.

In [None]:
np.arange(10)

In [None]:
# providing a dtype
np.arange(1, 10, dtype=float)

In [None]:
np.arange(0, 11, 2)

Untuk membangkitkan array dengan nilai yang konsisten menurun, kita tinggal menyediakan nilai `start` yang lebih besar daripada `stop`, dan `step` yang bernilai negatif seperti di bawah ini. Akan tetapi, jika kita gunakan `step` yang negatif untuk array yang konsisten naik, kita akan mendapatkan array kosong.

In [None]:
np.arange(10, 0, -1)

In [None]:
np.arange(1, 10, -1)

`numpy.linspace` membuat array dengan jumlah elemen yang sudah kita berikan sebagai parameter `num`, sedemikian hingga jarak antar elemen selalu sama. Dengan kata lain, `numpy.linspace` akan membagi array dengan nilai antara `start` sampai dengan `stop` menjadi `num` bagian.

In [None]:
np.linspace(1, 10, 20)

In [None]:
np.linspace(0, 100, 50)

### `numpy.eye`

`numpy.eye(n, m)` akan membuat array 2-dimensi dengan elemen diagonalnya (ketika `i=j`) sama dengan 1 dan 0 untuk lainnya. Kita mengenal array 2-dimensi jenis ini sebagai **matriks identitas**. Kita juga harus menyediakan ukuran array yang akan kita buat dalam `n` dan `m` (opsional) sebagai jumlah elemen dimensi pertama (baris) dan kedua (kolom).

In [None]:
print(np.eye(5))

In [None]:
print(np.eye(4, 6))

Jika kita hanya menyediakan satu argumen `N`, maka array yang dihasilkan adalah berupa matriks persegi, yaitu `nxn`. Jika diberikan `n` dan `m`, maka array yang dihasilkan akan berukuran `nxm`, meskipun $n \neq m$. Khusus untuk $n \neq m$, semua elemennya akan bernilai 0 kecuali untuk elemen-elemen di mana `i=j` yang bernilai 1.

> **Tugas Eksplorasi**
>
> Silakan mencoba fungsi lain untuk membuat sebuah matriks atau array 2-dimensi, seperti `numpy.tri`, `numpy.tril`, dan `numpy.triu`.

### Array Nol, Satuan, dan Acak

Kita akan mencoba beberapa fungsi untuk membuat array n-dimensi yang bisa kita tentukan ukurannya. Ukuran yang kita tentukan tidak terbatas sampai 3-dimensi saja, tapi bisa berapapun dimensi dan panjang elemen di setiap dimensi tersebut.

`numpy.zeros` akan membuat array yang semua elemennya bernilai 0 dengan ukuran yang kita tentukan. Tipe data dalam array tersebut adalah `float64` secara default yang bisa juga diubah.

In [None]:
print(np.zeros(10))

In [None]:
print(np.zeros((3, 3)))

In [None]:
print(np.zeros((2, 3, 2)))

In [None]:
print(np.zeros((3, 2, 4)))

`numpy.ones` akan membuat array yang semua elemennya bernilai 1. Fungsi ini mirip dengan `zeros` dalam hal penciptaan array seperti di bawah ini.

In [None]:
np.ones(10)

In [None]:
print(np.ones((3, 3)))

In [None]:
print(np.ones((2, 3, 2)))

In [None]:
print(np.ones((3, 2, 4)))

`numpy.random` adalah sebuah modul digunakan untuk memangkitkan bilangan acak dari beberapa distribusi. Pada versi terbaru NumPy, sangat disarankan untuk menggunakan `numpy.random` dengan modul `default_rng`. Beberapa distribusi yang disediakan meliputi normal, uniform, integers, binomial, dan bahkan permutasi. Kita akan mencoba beberapa distribusi di sini sebagai contoh.

Pertama, kita harus mendefinisikan sebuah `Generator` dengan menggunakan `default_rng` yang akan kita gunakan untuk membangkitkan bilangan acak.

In [None]:
rng = np.random.default_rng()

print(rng, type(rng))

`rng` memiliki beberapa metode yang digunakan untuk membangkitkan bilangan acak dengan distribusi tertentu. Di bawah ini beberapa contoh distribusi yang bisa kita bangkitkan.

In [None]:
print(rng.standard_normal(size=5))

In [None]:
print(rng.standard_normal(size=(3, 3)))

In [None]:
print(rng.integers(5, 10, size=10))

In [None]:
print(rng.uniform(size=(2, 5)))

In [None]:
print(rng.uniform(10, size=(1, 6)))

`default_rng` juga bisa menerima sebuah integer yang berfungsi sebagai *random state* atau *seed* supaya bilangan acak yang dibangkitkan selalu sama. Jika tidak, seperti pada `rng` di atas, maka setiap kali dilakukan pembangkitan, bilangan acak yang dihasilkan akan selalu berbeda. Ini biasanya menjadi isu dalam hal *reproducibility*.

In [None]:
rng_with_seed = np.random.default_rng(111)

print(rng_with_seed, type(rng_with_seed))

In [None]:
print(rng.integers(5, 10, size=10))

In [None]:
print(rng_with_seed.integers(5, 10, size=10))

In [None]:
print(rng_with_seed.integers(5, 10, size=10))

## *Indexing*, *Slicing*, dan Perulangan

*Indexing* di sini merujuk kepada penggunaan kurung siku (`[]`) untuk mengakses nilai dari suatu array. Secara umum, prinsip *indexing* dalam NumPy array mirip dengan list bawaan Python. Kita juga bisa menggunakan *slicing* dengan cara yang sama dengan list.

<div align="middle">
<img src="../../assets/images/numpy-array-slice.png">
</div>

In [None]:
print("array:", int_array)
print(int_array[2])
print(int_array[-2])
print(int_array[:2])

Yang membedakan *indexing* dalam array dan list adalah saat kita mengakses nilai pada array 2-dimensi. Misalkan, untuk mengakses nilai kedua pada list pertama dalam sebuah list `[[1, 2], [4, 5]]` digunakan notasi `[0][0]`, untuk nilai pertama pada list kedua dengan notasi `[1][0]` atau `[-1][0]`. Pada array serupa, kita bisa mengakses kedua nilai tersebut secara berturut-turut dengan notasi `[0, 0]` dan `[1, 0]`. Untuk array multidimensi, notasi umum nya berbentuk `[i, j, k, ...]`, di mana $i, j, k, ...$ adalah indeks dalam tiap dimensi.

In [None]:
print("array 2D:", array_2x2)
print(array_2x2[0, 1])
print(array_2x2[:, 0])
print(array_2x2[1])

In [None]:
print(array_4d, array_4d.shape)
print(array_4d[0])
print(array_4d[0, 0])
print(array_4d[1, :, 1, :])
print(array_4d[:, :, :, 0])

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=755892f1-a617-4a5f-868e-ec54428f8e09' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>