# Introduction

Pada sesi ini kita akan belajar mengenai beberapa topik dasar dalam melakukan data wrangling menggunakan Numpy library. Beberapa materi tentang manipulasi array dasar yang akan dibahas dalam sesi kali ini antara lain adalah:

* Attributes of arrays
* Indexing of arrays
* Slicing of arrays
* Reshaping of arrays
* Join/concat and splitting of arrays



# Quick Recall: Numpy vs List

Sebelum kita masuk ke dalam materi, mari kita bahas ulang sedikit mengenai struktur data list dan bagaimana perbedaannya di dalam library Numpy

In [85]:
import numpy as np
import random

In [88]:
low = 1
high = 10
cols = 10
rows = 2
x0 = list(random.choices(range(low,high), k=cols)) # one dimensional
x0_ = list(random.choices(range(low,high), k=cols) for _ in range(rows)) # multi dimensional
x0_

[[6, 9, 1, 7, 4, 4, 1, 4, 5, 4], [6, 2, 5, 9, 9, 4, 2, 6, 6, 1]]

In [None]:
type(x0)

list

In [37]:
x1 = np.random.randint(10, size=6)  # One-dimensional array
x1

array([58, 23, 79, 13, 85, 48])

# Numpy Array Attributes

Pada sub-materi ini kita akan belajar mengenai attributes pada NumPy array. Sebelumnya, mari kita membuat 3 buah random array terlebih dahulu menggunakan NumPy's random number generator. One-dimensional, two-dimensional, dan three-dimensional array. 

In [105]:
import numpy as np
np.random.seed(0)  # seed for reproducibility

x1 = np.random.randint(10, size=6)  # One-dimensional array
x2 = np.random.randint(10, size=(3, 4))  # Two-dimensional array
x3 = np.random.randint(10, size=(3, 4, 5))  # Three-dimensional array

|Attribut|Keterangan|
|---|---|
|ndim|untuk mengecek dimensi dari suatu array|
|shape|untuk mengecek ukuran dari tiap dimensi suatu array|
|size|untuk mengecek total ukuran dari suatu array|
|dtype|untuk mengecek tipe data dari nilai yang disimpan Numpy array|

Untuk mengecek dimensi dari suatu array bisa digunakan `ndim`, untuk mengecek ukuran dari tiap dimensi bisa gunakan `shape`, dan kita bisa gunakan `size` untuk mengecek total ukuran dari suatu array

In [45]:
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)
print("x3 size: ", x3.dtype)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60
x3 size:  int64


Attribute lain yang berguna adalah `dtype`, berguna untuk mengecek tipe data

In [46]:
print("dtype:", x3.dtype)

dtype: int64


Beberapa attribute lain yang bisa kita gunakan adalah `itemsize` (untuk mengecek size dari tiap elemen pada array dalam bentuk bytes) dan `nbytes` (yang berguna untuk mengecek total size dari sebuah array dalam bentuk bytes)

In [4]:
print("itemsize:", x3.itemsize, "bytes")
print("nbytes:", x3.nbytes, "bytes")

itemsize: 8 bytes
nbytes: 480 bytes


# Array Indexing: Accessing Single Elements

Indexing pada Numpy array kurang lebih tidak jauh berbeda dengan list pada Python standar. Perhitungan index dimulai dari 0

In [113]:
x1 = np.random.randint(10, size=6)
x1

array([4, 3, 4, 4, 8, 4])

Mengakses elemen pertama pada array (index=0)

In [None]:
x1[0]

4

Mengakses elemen kelima pada array

In [None]:
x1[4]

8

Mengakses elemen dari paling belakang

In [None]:
x1[-1]

4

Mengakses elemen kedua dari belakang

In [None]:
x1[-2]

8

Pada multi-dimensional array, item-item pada array dapat di akses menggunakan notasi seperti tuple (comma-separated tuple of indices). Contoh di bawah kita buat array dua dimensi terlebih dahulu

In [127]:
x2 = np.random.randint(10, size=(3, 4))
x2

array([[9, 7, 7, 5],
       [1, 2, 2, 8],
       [1, 5, 8, 4]])

Mengakses index `(0, 0)` --> `(index baris, index kolom)`

In [128]:
x2[1, 3]

8

Mengakses index (2, 0)

In [129]:
x2[2, 0]

1

Mengakses index (2, -1)

In [131]:
x2[2, -1]

4

Nilai pada tiap item juga dapat dimodifikasi menggunakan index-index tuple di atas. Misal kita ingin mengganti index (0, 0) maka:

In [53]:
x2[0, 0] = 12 # from 5 to 12

In [None]:
x2[0, 0]

12

In [None]:
x2

array([[12,  7,  5,  5],
       [ 0,  1,  5,  9],
       [ 3,  0,  5,  0]])

Perhatikan bahwa, tidak seperti pada List, dalam NumPy sebuah array memiliki tipe yang fixed. Hal ini berarti jika kita ingin melakukan insert value dengan floating-point ke dalam integer array, nilai tsb akan terpotong (truncated).

In [None]:
x1[0] = 3.14159

In [None]:
x1

array([3, 3, 4, 4, 8, 4])

# Array Slicing: Accessing Subarrays

Pada indexing kita telah belajar bagaimana `[]` dapat mengakses tiap elemen dari array. Pada submateri ini kita akan belajar bagaimana cara mengakses beberapa item sekaligus atau yg sering disebut dengan slicing. Caranya kurang lebih sama dengan indexing, namun kita hanya perlu menambahkan `:` untuk jarak index yang ingin kita ambil. Syntax slicing pada Numpy adalah sbb:

```
x[start:stop:step]
```

Jika salah satu dari parameter ini tidak diisi, maka default value-nya adalah `start=0`, `stop=size of dimension`, `step=1`

## One-Dimensional Subarrays

Pertama, kita buat kembali one-dimensional array dengan panjang 10 elemen

In [56]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Mengakses 5 elemen pertama pada array

In [57]:
x[:5]  # first five elements

array([0, 1, 2, 3, 4])

Mengakses elemen-elemen setelah index ke 5

In [None]:
x[5:]  # elements after index 5

array([5, 6, 7, 8, 9])

### Exercises:
1. Tampilkan elemen yang berada pada tengah-tengah array. Hint: sub-array antara index 4 dan 7

In [13]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
x[4:7]  # middle sub-array

array([4, 5, 6])

2. Tampilkan elemen angka bilangan genap saja

In [16]:
x = np.arange(20)

In [17]:
x[::2]

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

3. Tampilkan elemen angka bilangan ganjil

In [18]:
x = np.arange(50)

In [135]:
x[1::2]

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33,
       35, 37, 39, 41, 43, 45, 47, 49])

4. Tampilkan keseluruhan elemen urut dari belakang

In [132]:
x = np.arange(50)

In [134]:
x[::-1]  # all elements, reversed

array([49, 48, 47, 46, 45, 44, 43, 42, 41, 40, 39, 38, 37, 36, 35, 34, 33,
       32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16,
       15, 14, 13, 12, 11, 10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0])

5. Tampilkan seluruh elemen ganjil dari belakang

In [25]:
x = np.arange(10)

In [26]:
x[::-2]

array([9, 7, 5, 3, 1])

## Multi-Dimensional Subarrays

In [138]:
x2 = np.random.randint(10, size=(3, 4))  # Two-dimensional array
x2

array([[4, 4, 0, 9],
       [3, 7, 3, 2],
       [1, 1, 2, 1]])

In [63]:
x2[:1, 1:4]  # two rows, three columns

array([[1, 4, 6]])

In [None]:
x2[:3, ::2]  # all rows, every other column

array([[1, 4],
       [0, 2],
       [7, 9]])

In [None]:
x2[::-1, ::-1]

array([[0, 9, 5, 7],
       [0, 2, 3, 0],
       [2, 4, 2, 1]])

### Accessing array rows and columns

In [139]:
print(x2[:, 0])  # first column of x2

[4 3 1]


In [140]:
print(x2[0, :])  # first row of x2

[4 4 0 9]


In [None]:
print(x2[0])  # equivalent to x2[0, :]

[1 2 4 2]


## Subarrays as No-Copy Views

## Creating Copies of Arrays

In [68]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

[[9 6]
 [8 8]]


In [None]:
x2_sub_copy[0, 0] = 42
print(x2_sub_copy)

[[42  2]
 [ 0  3]]


In [None]:
print(x2)

[[1 2 4 2]
 [0 3 2 0]
 [7 5 9 0]]


# Reshaping of Arrays

Reshaping array adalah suatu metode untuk merubah bentuk dimensi dari array. Sesuai namanya, reshape berarti merubah bentuk. Cara yang paling mudah untuk melakukan metode ini adalah dengan menggunakan `reshape` method.

Contoh, jika kita ingin merubah array satu dimensi dengan panjang elemen 9 menjadi sebuah matrix (array dua dimensi) berukuran $3 \times 3$, dapat dilakukan dengan cara sbb:

In [74]:
grid = np.arange(1, 11).reshape((2, 5))
print(grid)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


Perhatikan bahwa ukuran array awal harus sesuai dengan ukuran array yang ingin dibentuk. Misal ingin membuat matrix $2 \times 2$ maka kita butuh one-dimensional array berukuran panjang 4 elemen

In [28]:
x = np.array([1, 2, 3])

# row vector via reshape
x.reshape((1, 3))

array([[1, 2, 3]])

In [29]:
# row vector via newaxis
x[np.newaxis, :]

array([[1, 2, 3]])

In [None]:
# column vector via reshape
x.reshape((3, 1))

array([[1],
       [2],
       [3]])

In [None]:
# column vector via newaxis
x[:, np.newaxis]

array([[1],
       [2],
       [3]])

# Array Concatenation and Splitting



## Concatenation of Arrays

Array concat, atau join dua array pada NumPy dapat dilakukan dengan menggunakan method `np.concatenate`, `np.vstack`, dan `np.hstack`. `np.concatenate` menggunakan format tuple atau list of array sebagai argumen/parameternya, seperti yang dapat kita lihat pada contoh di bawah ini:

In [75]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

Kita juga dapat melakukan concat pada lebih dari dua array dalam satu buah syntax

In [None]:
z = [99, 99, 99]
print(np.concatenate([x, y, z]))

[ 1  2  3  3  2  1 99 99 99]


Dapat dilakukan juga pada array dua dimensi

In [76]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])

In [77]:
# concatenate along the first axis
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

Jika kita mengaktifkan `axis=1` maka array akan di concat secara horizontal

In [82]:
# concatenate along the second axis (zero-indexed)
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

Jika kita bekerja dengan array mixed dimensions, maka akan lebih mudah dan jelas jika kita menggunakan `np.vstack` (untuk melakukan stacking/concat secara vertikal) dan `np.hstack` (untuk melakukan stacking/concat secara horizontal)

In [83]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])

# vertically stack the arrays
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [None]:
# horizontally stack the arrays
y = np.array([[99],
              [99]])
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

## Splitting of Arrays

Pada data array, lawan dari concat/join/stack adalah splitting, dimana pada Numpy, splitting diimplementasi dengan function `np.split`, `np.hsplit` dan `np.vsplit`

In [84]:
x = [1, 2, 1, 2, 1, 2]
x1, x2, x3 = np.split(x, [2,4])
print(x1, x2, x3)

[1 2] [1 2] [1 2]


In [34]:
grid = np.arange(16).reshape((4, 4))
grid


array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [None]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [None]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]
