**Python Collections**

Pada materi kali ini kita akan belajar beberapa jenis Python Collection yang biasa sering digunakan dalam berbagai pekerjaan Data Analytics dan Data Science. 

Python Collection secara singkat dapat dikatakan juga sebagai "wadah sementara" dimana kita dapat meletakan value yang ingin kita proses dalam menggunakan bahasa pemgrograman Python. Python collection memiliki beragam jenis dengan fungsi yang berbeda, dan penggunaannya dapat disesuaikan dengan kebutuhan kita ketika mengolah data.  

# Tuple

## Apa itu tuple?

Tuple merupakan *core* data struktur pada Python yang memungkinkan untuk menyimpan data atau *value*. Misalnya, kita bisa menyimpan data dari nama-nama karyawan di kantor, daftar nilai siswa, dan sebagainya. 

Tuple bersifat *immutable*, artinya data yang disimpan pada tuple tidak dapat diubah atau dimanipulasi. Setiap nilai yang disimpan pada tuple biasa disebut sebagai *item*. 

## Bagaimana membuat tuple?

Untuk memasukan *value* pada tuple, antara *value* tersebut akan dipisahkan dengan ***koma ","*** dan diletakan di dalam ***paranthesis ( )*** Contohnya seperti di bawah ini:

In [3]:
karyawan = ("andi", "ani", "budi", "siska")
nilai_siswa = (100, 90, 75, 65)

# print tuple
print(karyawan)
print(nilai_siswa)

#cek tipe variable di atas
print(type(karyawan))
print(type(nilai_siswa))

('andi', 'ani', 'budi', 'siska')
(100, 90, 75, 65)
<class 'tuple'>
<class 'tuple'>


## Mengakses value pada tuple

Setiap item yang ada pada tuple memiliki nilai index. Index adalah urutan. Pada bahasa pemrograman Python, index dimulai dari **0**. Untuk mengakses item tertentu yang ada pada tuple, dapat menggunakan **[ ]** (*square brackets*)

In [2]:
karyawan = ("andi", "ani", "budi", "siska")

# pilih "ani" dari tuple diatas
karyawan[1]

'ani'

Akses tuple dari index belakang atau *negative index value*.
negative index value dimulai dari -1

In [15]:
karyawan = ("andi", "ani", "budi", "siska")

# pilih "siska" dengan menggunakan negative index value
print(karyawan[-1])

# pilih "budi" dengan menggunakan negative index value
print(karyawan[-2])

siska
budi


## Slicing Tuple

Slicing dapat dilakukan ketika kita hendak mengakses lebih dari satu item dengan index yang berurutan. Untuk melakukan slicing dapat menggunakan **":"**. 

            start_index : ending_index

*ending index dianggap ekslusif*. Artinya tidak akan ikut dieksekusi. Sehingga jika kita hendak slicing data dari index ke-2 hingga ke-6, yang kita lakukan adalah:

             variable_tuple[1:7]

In [4]:
nilai_siswa = (100, 90, 75, 65)

#pilih nilai dari 90 hingga 65
nilai_siswa[1:4]

(90, 75, 65)

Kita juga dapat slicing tuple dengan menggunakan negative index value

In [9]:
# slice dua value terakhir pada variabel nilai_siswa
nilai_siswa[-2:]

(75, 65)

## Tuple Operators

Operators aritmatika yang dapat digunakan pada tuple sangat terbatas. Misalnya operator *addition **+*** dapat digunakan hanya untuk *concatenate* (menggabungkan) dua atau beberapa tuple.

In [11]:
a = (1, 2, 3, 4, 5)
b = (6, 7, 8, 9, 20)
c = (10, 11)

# merge (gabungkan) a dan b
a + b + c

(1, 2, 3, 4, 5, 6, 7, 8, 9, 20, 10, 11)

Namun tuple tidak bisa digabung dengan single value. Maka kalian akan menjumpai **error**, seperti contoh dibawah ini:

In [12]:
# masukan angka 21 ke dalam item tuple b

b + 21

TypeError: can only concatenate tuple (not "int") to tuple

## Iterating Through a Tuple

Seperti Python collection yang lain, tuple juga dapat digunakan pada iterasi "looping". Contohnya seperti di bawah ini:

In [16]:
karyawan = ('andi', 'ani', 'budi', 'siska')

('andi', 'ani', 'budi', 'siska')

In [18]:
for i in karyawan:
    print(f"nama karyawan: {i}")

nama karyawan: andi
nama karyawan: ani
nama karyawan: budi
nama karyawan: siska


# List
List merupakan salah satu python collection yang bersifat **mutable**, atau dapat dimodifikasi. Yang mencirikan list adalah *data* atau *value* akan diletakan di dalam **[ ]** (square brackets). Dengan list kita dapat melakukan hal-hal berikut:
- memodifikasi list (mutable)
- basic kalkukasi matematika
- list bisa menyimpan lebih dari satu tipe data

Namun list memiliki keterbatasan, yaitu list tidak dapat digunakan untuk operasi matematika yang kompleks.

### Membuat list

### list yang simpel

Untuk membuat list yang sederhana, kita dapat melakukannya seperti pada contoh di bawah ini:

In [9]:
my_list1 = [1, 2, 3, 4, 5]
my_list1

[1, 2, 3, 4, 5]

In [10]:
type(my_list1)

list

### membuat list dengan fungsi **list()** dan **range()**

In [21]:
#membuat list dengan range 5, secara otomatis nilai yang dimasukan dimulai dari 0
my_list2 = list(range(5)) 
my_list2

[0, 1, 2, 3, 4]

In [6]:
# membuat list dengan range 10, dimulai dari 1 sampai angka 10. 
# angka 11 tidak akan dimasukan, karena dianggap sebagai "ending". 
# ending selalu ekslusive atau dihitung ending - 1

my_list2 = list(range(1, 11)) 
my_list2 

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [17]:
# membuat list dari angka 10 sampai 20, dengan interval 2.
# urutannya adalah: range(start, end, interval)
xlist = list(range(10, 21, 2)) 
xlist


[10, 12, 14, 16, 18, 20]

### membuat list of list

Untuk membuat list of list kita dapat melakukannya dengan menambahkan [ ] ke dalam *main list*. 

In [24]:
xy = [[10, 11],
     [12, 13],
     [14, 15]]
xy

[[10, 11], [12, 13], [14, 15]]

In [25]:
zy = [["a"], ["b"]]
zy

[['a'], ['b']]

## **subsetting & slicing list**
- Subsetting adalah metode untuk mengakses *value* tertentu yang ada pada list dengan menyebut nilai index. Setiap value yang ada pada list memiliki nilai index. Index adalah urutan. Pada bahasa pemrograman Python, index dimulai dari **0**. Untuk mengakses item tertentu yang ada pada list, dapat menggunakan **[ ]** (*square brackets*)

- Slicing dapat dilakukan ketika kita hendak mengakses lebih dari satu item dengan index yang berurutan. Untuk melakukan slicing dapat menggunakan **":"**. 

            start_index : ending_index

*ending index dianggap ekslusif. Artinya tidak akan ikut dieksekusi. Sehingga jika kita hendak slicing data dari index ke-2 hingga ke-6, yang kita lakukan adalah*

variable_list[1:7]

### Subsetting

In [37]:
list_c = [1, 1, 2, 3, 4, 5, 5, 6, 6, 6]
list_c

[1, 1, 2, 3, 4, 5, 5, 6, 6, 6]

In [36]:
list_c[1] = 1.5 #subsetting berdasarkan index value positif
list_c

[1, 1.5, 2, 3, 4, 5, 5, 6, 6, 6]

In [152]:
list_c[-1] # subsetting -1 artinya mengakses element pertama dari belakang

6

In [39]:
list_c[-3] #  subsetting -3 artinya mengakses element ketiga dari belakang

6

### Slicing

In [40]:
list_c

[1, 1, 2, 3, 4, 5, 5, 6, 6, 6]

In [42]:
list_c[3:6] # start : end --> index pada end akan diabaikan, dan slicing berhenti index sebelumnya

[3, 4, 5]

In [45]:
# start : sampai element akhir --> (end-nya tidak didefinisikan)
# ambil element ke-6 sampai index terakhir
list_c[5:] 

[5, 5, 6, 6, 6]

In [46]:
# dari element awal : end --> (start-nya tidak didefinisikan) 
# ambil element awal sampai index ke 4)
list_c[:5]

[1, 1, 2, 3, 4]

## List operations

Seperti yang sudah dijelaskan di awal, List memiliki keterbatasan dalam hal mathematical operation. Untuk lebih jelasnya dapat dilihat pada contoh-contoh di bawah ini.

### list operation dengan aritmatika

Contoh kelemahan list, ketika kita hendak menggunakan operator aritmatika **+** maka list hanya akan menambahkan (*extending*) element-nya.

In [186]:
a_list = [1, 2, 3]
b_list = [4, 5, 6]

a_list + b_list

[1, 2, 3, 4, 5, 6]

Untuk melakukan kalkulasi matematika, yang bisa dilakukan adalah dengan mengakses value tertentu dan kalkulasi dengan value tertentu dari list lainnya. contoh:

In [188]:
a_list[2] + b_list[2]

9

atau value tertentu dengan single value (bukan list)

In [191]:
a_list[2] * 10

30

### list operation dengan simpel statistical functions

Beberapa fungsi dasar statistik dapat digunakan pada list, misalnya: min(), max(), sum(). Sedangkan untuk mean() tidak dapat digunakan pada list. Sehingga perlu melakukannya secara manual, seperti pada contoh dibawah ini (see: "mean a")

In [48]:

a = [90, 96]
b = [95, 80]
c = [95, 85]

nilai_student = ["mean a", sum(a)/len(a), 
                 "sum b", sum(b),
                 "minimum c", min(c)]
nilai_student

['mean a', 93.0, 'sum b', 175, 'minimum c', 85]

## Manipulasi List

List merupakan python collection yang "mutable", artinya nilai yang ada pada list dapat diubah-ubah atau dimanipulasi. Hal itu berbeda dengan tuple yang "immutable". Pada contoh dibawah ini, coba perhatikan perbedaan antara list dan tuple

### Mengganti element pada list

**Contoh pada tuple**

In [55]:
# variable "buah" sebagai tuple
buah = ('anggur', 'jeruk', 'sirsak', 'mangga')

print(type(buah))
print(buah)

<class 'tuple'>
('anggur', 'jeruk', 'sirsak', 'mangga')


In [56]:
# Ganti "sirsak" dengan "salak"
buah[2] = "salak" #dengan tuple tidak bisa dilakukan, karena tuple bersifat "immutable"

TypeError: 'tuple' object does not support item assignment

**contoh pada list**

In [69]:
# ubah tuple buah menjadi bentuk list
list_buah = list(buah)

print(type(list_buah))
print((list_buah))

<class 'list'>
['anggur', 'jeruk', 'sirsak', 'mangga']


In [58]:
# sekarang ganti "sirsak" dengan "Salak"
list_buah[2] = "Salak" # BERHASIL, setelah tuple diubah menjadi list, operasi tersebut dapat dilakukan. Hal ini membuktikan bahwa list mutable dan berbeda dari tuple
list_buah

['anggur', 'jeruk', 'Salak', 'mangga']

Selain mengubah element pada list dengan menyebut urutan index, kita juga bisa menyebut "value"-nya dengan metode **.index()**

In [70]:
list_buah.append("mangga") # menambahkan element/value ke list
list_buah

['anggur', 'jeruk', 'sirsak', 'mangga', 'mangga']

In [71]:
list_buah.index("mangga") # untuk mengetahui "mangga" ada pada index ke berapa?. Hanya untuk mangga yang disebut lebih dahulu

3

In [72]:
# mengganti value tanpa harus menyebut urutan index-nya
list_buah[list_buah.index("mangga")] = "rambutan" #Hanya untuk mengganti mangga yang disebut lebih dahulu

In [73]:
list_buah

['anggur', 'jeruk', 'sirsak', 'rambutan', 'mangga']

### Menambahkan value pada list
#### **.append()**

untuk menambahkan value baru pada list setelah *element terakhir* dapat dilakukan dengan .append()

In [74]:
list_buah

['anggur', 'jeruk', 'sirsak', 'rambutan', 'mangga']

In [75]:
list_buah.append("sirsak") # menambahkan sirsak ke dalam list
list_buah

['anggur', 'jeruk', 'sirsak', 'rambutan', 'mangga', 'sirsak']

#### **.insert()**

untuk menambahkan value dengan index yang kita tentukan sendiri (*lokasi yang fleksible*)

In [76]:
# menambahkan "Apel" ke list_buah di index ke-1
list_buah.insert(1, "Apel")
list_buah

['anggur', 'Apel', 'jeruk', 'sirsak', 'rambutan', 'mangga', 'sirsak']

In [77]:
# menambahkan "Apel" ke list_buah di index ke-4

list_buah.insert(3, "stroberi")
list_buah

['anggur',
 'Apel',
 'jeruk',
 'stroberi',
 'sirsak',
 'rambutan',
 'mangga',
 'sirsak']

In [85]:
list_buah.insert(5, 1.5)
list_buah.insert(6, 1.7)

### Sorting list values
**.sort()**

sorting (mengurutkan) value pada list. *By default* (dari sananya) reverse = False, artinya dari kecil ke terbesar. 

Namun sorting juga bisa dilakukan dari besar ke kecil:
- mylist.sort(reverse = True)
- mylist.reverse()

In [88]:
list_acak = [10, 5, 16, 3, 17, 20]
list_acak

[10, 5, 16, 3, 17, 20]

In [89]:
list_acak.sort() #dari kecil ke terbesar
list_acak

[3, 5, 10, 16, 17, 20]

In [90]:
list_acak.sort(reverse = True) # untuk sorting dari besar ke kecil
list_acak

[20, 17, 16, 10, 5, 3]

### removing element pada list dengan .pop() atau .remove()

- .pop() --- otomatis menghapus value pada element/index terakhir
- .remove() -- menghapus value yang kita tentukan, dengan menyebutkan valuenya atau index-nya

#### **.pop()**

In [91]:
list_a = [10, 5, 16, 3, 17, 20]
list_a

[10, 5, 16, 3, 17, 20]

In [92]:
list_a.pop()

20

In [94]:
list_a

[10, 5, 16, 3, 17]

#### **.remove()**

In [95]:
list_a.remove(10) # dengan langsung menyebut valuenya
list_a

[5, 16, 3, 17]

In [96]:
list_a.remove(list_acak[2]) #remove value berdasarkan index-nya dengan subseting

In [98]:
list_a

[5, 3, 17]

## Check Frequency Values & Panjang element list

**.count() & .len() pada list**

- count() untuk cek frequency value
- len() untuk cek panjang value

### .len() panjang element
untuk mengecek panjang element

In [101]:
list_b = [1, 1, 2, 3, 4, 5, 5, 6, 6, 6,]
list_b

[1, 1, 2, 3, 4, 5, 5, 6, 6, 6]

In [100]:
# cek berapa panjang element pada list
len(list_b)

10

### **.count()** frequency value
untuk cek frequensi / seberapa sering sebuah value muncul/disebut dalam list

In [117]:
list_b.count(6) # berapa kali angka 6 muncul dalam list_b

3

In [110]:
# cek frequensi / seberapa sering sebuah value muncul/disebut dalam list
print(f"angka dua: {list_b.count(2)} kali")

angka dua: 1 kali


In [115]:
a = 4.0
b = "angka"

f"{a} {b}"

'4.0 angka'

# SET

Set adalah Python collection yang hanya memungkinkan kita untuk menyimpan value/data yang "unik" saja. Dalam kata lain Set tidak dapat menyimpan value yang duplikat. Sehingga set ini sangat cocok digunakan jika kita hanya ingin menyimpan nilai yang "unik" dan mencegah adanya nilai yang duplikat.

contohnya, kita memiliki sebuah list_a dengan value [1, 1, 2, 3, 4, 5, 5, 6, 6, 6,]. Jika kita akan mengubahnya menjadi set, maka element yang duplikat akan hilang.

Seperti pada contoh dibawah ini:

In [22]:
# contoh saat sebagai list

list_a= [1, 1, 2, 3, 4, 5, 5, 6, 6, 6,]
list_a

[1, 1, 2, 3, 4, 5, 5, 6, 6, 6]

In [24]:
# contoh saat list sudah diubah menjadi set, nilai yang duplikat akan otomatis dihilangkan
set_a = set(list_a)
set_a

{1, 2, 3, 4, 5, 6}

In [21]:
type(set_a)

set

# NumPy Array

NumPy **(Numeric Python)** merupakan open source Python library yang sangat sering digunakan pada bidang data science dan analytic. NumPy merupakan *core* dari scientific numerical operation yang ada pada Python. Sehingga NumPy dianggap sangat powerful dalam melakukan berbagai operasi untuk jenis data "numeric".

Untuk menggunakan Numpy kita perlu melakukan instalasi numpy library dan juga import library tersebut ke dalam IDE (Integarated Development Environmet). 

            pip install numpy
            import numpy as np

## Apa itu Array?

Array merupakan *central data structure* dari NumPy library. Array terdiri dari nilai yang memuat informasi *raw data*. Nilai-nilai yang disimpan pada array biasa disebut sebagai **element** dan setiap element tersebut memiliki **index values**. Urutan index dimulai dari index **0**.

Array dapat terdiri dari berbagai dimensi. Mulai dari 1D, 2D, 3D dan seterusnya. Pada pelajaran kali ini kita akan lebih banyak fokus pada 1D dan 2D array. Pada NumPy, dimension biasa disebut juga sebagai **axis**.

1D array hanya memiliki 1 axis. Sedangkan pada 2D array memiliki 2 axis, dimana axis pertama bersifat vertical (seperti **row**) dan axis kedua bersifat horizontal (seperti **column**).

Misalnya, pada 2D array dibawah ini:

                [[0., 0., 0.],
                 [1., 1., 1.]]
* Memiliki panjang axis pertama (vertical) = 2
* Memiliki panjang axis kedua (horizontal) = 3

## Membuat Basic Array

Untuk membuat array, ada beberapa cara yang dapat dilakukan. Diantaranya dengan menggunakan fungsi-fungsi berikut:
* np.array()
* np.zeros()
* np.ones()
* np.random.rand(), np.random.randint()
* np.arange()

Untuk menjalankan fungsi-fungsi diatas, kita perlu import library numpy terlebih dahulu. Untuk membuat array dengan lebih dari satu value, kita perlu menempatkan value ke dalam **[ ]**, dan antara value dipisahkan dengan **,** (koma)

In [2]:
import numpy as np

### np.array()

Cara yang paling simpel dan sering digunakan adalah dengan menggunakan np.array(). 

In [3]:
# Membuat 1D Array
a_array = np.array([1, 1, 2, 3, 4, 5, 5, 6, 6, 6])
a_array

array([1, 1, 2, 3, 4, 5, 5, 6, 6, 6])

In [4]:
type(a_array)

numpy.ndarray

In [130]:
# Membuat 2D array
b = np.array([[1, 2, 3, 4, 5],
            [6, 7, 8, 9, 10]])
b

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

### np.zeros() & np.ones()

np.zeros() digunakan ketika hendak membuat array yang memiliki value **0**. Sedangkan np.ones() digunakan ketika hendak membuat array yang memiliki value **1**.

In [131]:
# buat array dengan value 0 dan panjang elementnya 5
zero = np.zeros(5)
zero

array([0., 0., 0., 0., 0.])

In [132]:
# buat array dengan value 1 dan panjang elementnya 5

ones = np.ones(5)
ones

array([1., 1., 1., 1., 1.])

### np.random.rand() & np.random.randint()

np.random adalah metode yang dapat digunakan untuk membuat array dengan random value. Ada beberapa cara yang bisa digunakan.

#### np.random.rand()
untuk membuat array dengan random value yang terletak antara **0** dan **1**

In [137]:
# membuat array (value >0 dan < 1) dengan 10 element.

rand = np.random.rand(10)
rand

array([0.30982027, 0.28810206, 0.85089779, 0.61826552, 0.69819395,
       0.23719096, 0.25225795, 0.90421444, 0.41217479, 0.95058248])

#### np.random.randint()
untuk membuat array dengan random value yang berbentuk bilangan bulat atau **integer**

In [178]:
# membuat array random value antara 1 dan 10, dengan panjang element 5

randint = np.random.randint(1, 10, size = 10)
randint

array([3, 4, 8, 7, 2, 2, 9, 1, 8, 9])

### np.arange()

np.arange() dapat digunakan untuk membuat array dengan range value tertentu, dan juga dapat didefinisikan interval (jarak) antar value tersebut.

            np.arange(start, end, interval)

In [181]:
a = list(range(1, 10, 2)) 
a

[1, 3, 5, 7, 9]

In [182]:
# array dengan value dari 1 hingga 10, dengan interval 3

arange = np.arange(1, 10, 3)
arange

array([1, 4, 7])

## Manipulasi array: Sorting, Concatenate, append Array

sorting array dapat dilakukan ketika kita hendak mengurutkan value yang ada pada array dari kecil ke besar (*ascending*) ataupun dari besar ke kecil (*descending*).

dan concatenate dilakukan ketika kita hendak menggabungkan element suatu array dengan element pada array lain.

### sorting array

In [8]:
a = np.array([90, 70, 100, 65, 75, 74, 59, 84])

In [74]:
# sorting nilai siswa dari kecil ke besar

np.sort(a)

array([ 59,  65,  70,  74,  75,  84,  90, 100])

In [69]:
# sorting nilai siswa dari besar ke kecil

np.sort(a)[::-1]

array([100,  90,  84,  75,  74,  70,  65,  59])

### np.concatenate() function
untuk melakukan concatenate / menggabungkan beberapa array menjadi satu

In [193]:
a = np.array([90, 70, 100, 65, 75, 74, 59, 84])
b = np.array([40, 60])

In [201]:
# concatenate array a and b

c = np.concatenate((a, b))
c

array([ 90,  70, 100,  65,  75,  74,  59,  84,  40,  60])

## append()
untuk menambahkan element baru ke dalam sebuah array

In [199]:
# menambahkan 80 ke urutan pertama array
np.append(80, c)

array([ 80,  90,  70, 100,  65,  75,  74,  59,  84,  40,  60])

In [197]:
# menambahkan 70 keurutan terakhir array
np.append(c, 70)

array([ 90,  70, 100,  65,  75,  74,  59,  84,  40,  60,  70])

## Shape, Reshape and Convert Dimension Array

### check dimensi, size, shape

Array memiliki dimensi, shape, dan size element. Kita dapat mengeceknya menggunakan:

* ndarray.ndim  -> untuk mengecek jumlah dimensi atau axis pada array
* ndarray.size  -> untuk mengecek size/jumlah element pada array
* ndarray.shape -> untuk mengecek shape atau jumlah rows & column) pada array

In [203]:
array_example = np.array([[0, 1, 2, 3],
                          [4, 5, 6, 7],
                          [0, 1, 2, 3],
                          [4, 5, 6, 7]])

In [204]:
# check jumlah dimensi pada array_example
array_example.ndim

2

In [207]:
# check jumlah element pada array_example
array_example.size

16

In [89]:
# check shape (jumlah rows and column) pada array_example
array_example.shape

(4, 4)

In [208]:
c

array([ 90,  70, 100,  65,  75,  74,  59,  84,  40,  60])

In [209]:
c.shape

(10,)

### Reshape & Change dimension array

Untuk reshape bentuk array, kita dapat melakukannya dengan:
* np.reshape(array_name, newshape = (rows, columns) )

untuk menentukan jumlah rows dan columns, harus memperhatikan size element pada numpy tersebut. Contohnya, jika sizenya adalah 20. maka dapat dibuat dengan perpaduan: rows x columns = 20

    4 x 5
* 4 rows, 5 columns atau 5 rows, 4 columns

    10 x 2
* 10 rows, 2 column atau 2 rows, 5 columns

jika size 20, maka tidak bisa di reshape dengan perpaduan
3 rows, 8 columns

karena 3 x 8 != 20

In [7]:
a = np.arange(1, 21)
a

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20])

In [8]:
print(f"shape array: {a.shape}")
print(f"dimensi array: {a.ndim}")
print(f"size array: {a.size}")

shape array: (20,)
dimensi array: 1
size array: 20


In [9]:
# karena size array 20, maka kita bisa reshape menjadi 5 columns dan 4 rows, atau 4 columns dan 5 rows

b = np.reshape(a, newshape = (4, 5))
b

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20]])

In [218]:
print(f"shape array: {b.shape}")
print(f"dimensi array: {b.ndim}")
print(f"size array: {b.size}")

shape array: (4, 5)
dimensi array: 2
size array: 20


Selain merubah 1D menjadi 2D, 3D dan seterusnya. Kita juga dapat mengubah *multidimensional array* menjadi *flat* atau 1D, dengan menggunakan **np.ravel()**

In [219]:
c = np.ravel(b)
c

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20])

## Subsetting & Slicing

Sama seperti list dan tuple, index array juga dimulai dari 0. Dan memiliki cara yang sama ketika hendak mengakses dan slicing nilai berdasarkan index values. yaitu dengan menggunakan **"[ ]"** dan juga **":"** untuk slicing. 

### subsetting & slicing 1D array

In [220]:
data = np.arange(1, 11)
data

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [221]:
data[1]

2

Sama seperti pada list dan tuple, slicing akan stop pada index sebelum index terakhir yang disebutkan.

        start     :   end
        (inklusif)  (ekslusif)

In [222]:
# slicing index ke-3 hingga ke-6

data[3:7]

array([4, 5, 6, 7])

Seperti pada list & tuple, kita juga bisa mengakses element pada numpy array dengan menggunakan negative index value.

In [223]:
# pilih value kedua dari belakang
data[-2]

9

In [224]:
# pilih tiga value dari belakang, dengan jumping index
data[-1::-4] #-4 interval index

array([10,  6,  2])

Selain itu, kita juga dapat mengakses (subsetting) array menggunakan kondisi tertentu dengan menerapkan "comparison operator" yang akan kita pelajari pada pertemuan khusus.

### Subsetting & Slicing 2D array

Karena dalam 2D array terdapat axis (rows & columns) maka cara mengakses value pada 2D array sedikit berbeda dengan yang biasa kita lakukan pada 1D array atau pada tuple & list.

Kita perlu mendefinisikan 2 hal ketika ingin mengakses 2D array:

            data[row_index, column_index]
            
Cara subsetting dan slicing 2D array juga akan diimplementasikan ketika kita sudah mulai menggunakan DataFrame, yang akan dipelajari pada modul pertemuan berikutnya.

In [225]:
# contoh 2D array
array_2d = np.array([[ 1,  2,  3,  4,  5],
                     [ 6,  7,  8,  9, 10],
                     [11, 12, 13, 14, 15],
                     [16, 17, 18, 19, 20]])

In [227]:
# pilih angka 12 pada array_2D
# lokasi angka 12 ada pada row index ke-2 dan column index ke-1

array_2d[3, 0]

16

In [237]:
# pilih row ke 1 hingga ke 3, pada column ke-2 dan ke-3

array_2d[1:4, 2:4] 

array([[ 8,  9],
       [13, 14],
       [18, 19]])

## Array Operations

Dibandingkan dengan list & tuple, NumPy array sangat powerful dalam melakukan berbagai "numeric operations". Misalnya, ketika kita hendak menggunakan operator aritmatika, maka NumPy akan memperlakukannya sebagai "metric calculation". Untuk lebih jelasnya dapat kita lihat pada contoh-contoh dibawah ini:

### Operasi Aritmatik: array dengan array

Ketika kita melakukan mathematical operation antara dua array dengan panjang element yang sama, maka setiap element pada index yang sama dari masing-masing array akan secara otomatis menjalankan operasi tersebut. 

Pada contoh dibawah ini dapat diperhatikan, angka **2 dari array_a** akan dikalikan dengan **angka 10 dari array_b**, karena keduanya **sama-sama terletak pada index ke-0**. Begitu juga terjadi pada setiap element di index selanjutnya.

In [244]:
array_a = np.array([2, 4, 6])
array_b = np.array([10,20, 30])

print(array_a * array_b)
print(array_a + array_b)

[ 20  80 180]
[12 24 36]


**Kemudian, bagaimana jika kedua array tersebut tidak memiliki panjang element yang sama. Apa yang akan terjadi? Perhatikan pada contoh-contoh di bawah ini:**

array dapat dioperasikan dengan array yang memiliki shape berbeda, jika salah satunya hanya memiliki shape 1. 
Sebagai contoh, **array dengan shape 2×3** juga dapat dioperasikan dengan **array shape 3x1**.

Contoh dibawah adalah operasi perkalian antara array_c yang memiliki shape 3x1, dan array_d 3x3. Sehingga operasi ini tetap bisa dilakukan. 

In [10]:
# array shape 3x1
array_c = np.array([2, 2, 2]) 

# array shape 3x3
array_d = np.array([[10, 20, 30], 
                   [40, 50, 60]])

array_c * array_d

array([[ 20,  40,  60],
       [ 80, 100, 120]])

Pada contoh ke-2 dibawah ini, array_f dan array_g sama-sama memiliki 1D namun masing-masing array memiliki panjang element yang berbeda. Dan tidak ada yang memiliki shape 1. Sehingga operasi aritmatik tidak dapat dilakukan.

In [263]:
array_f = np.array([1, 2, 3])
array_g = np.array([10, 20, 30, 40])

array_f + array_g

ValueError: operands could not be broadcast together with shapes (3,) (4,) 

### Broadcasting

Broadcasting adalah bentuk operasi antara array dengan single number, atau biasa juga disebut operasi antara *vector* dan *scalar*. Contoh broadcasting akan sangat mudah untuk dipahami:

In [264]:
array_d = np.array([[10, 20, 30], 
                   [40, 50, 60]])

array_d / 10

array([[1., 2., 3.],
       [4., 5., 6.]])

In [265]:
array_f = np.array([1, 2, 3])

array_f * 20

array([20, 40, 60])

Pada contoh diatas dapat dilihat, bahwa masing-masing element pada array_d dibagi oleh 10 (as a single value). dan setiap element pada array_f dikalikan oleh 20 (as a single value)

### Basic Array Statistical Functions

Ada beragam fungsi basic statistik yang dapat diterapkan pada NumPy array. Beberapa akan kita bahas disini:

* max() --> untuk menemukan nilai maximum pada array element
* min() --> untuk menemukan nilai minimum pada array element
* mean()--> untuk menemukan nilai rata-rata dari array element
* sum() --> untuk mentotal seluruh nilai pada array element
* std() --> untuk mencari standar deviasi dari array element

In [266]:
# array dengan random integer antara 1 dan 10, panjang element 20.
array_x = np.random.randint(1, 100, 20)
array_x

array([83,  8, 33, 91, 79, 51, 94, 61, 23, 60, 83, 69,  5,  4, 71, 37, 36,
       88, 30, 68])

In [267]:
# mencari nilai maximum. Kedua cara dibawah ini sama-sama benar

print(np.max(array_x))
print(array_x.max())

94
94


In [268]:
# mencari nilai minimum. Kedua cara dibawah ini sama-sama benar

print(np.min(array_x))
print(array_x.min())

4
4


In [269]:
# mencari nilai rata-rata. Kedua cara dibawah ini sama-sama benar

print(np.mean(array_x))
print(array_x.mean())

53.7
53.7


In [270]:
# mencari nilai standar deviasi. Kedua cara dibawah ini sama-sama benar

print(np.round(np.std(array_x))) #np.round untuk membulatkan nilai desimal
print(array_x.std())

29.0
29.019131620363833


In [273]:
array_y = np.random.randint(1, 100, 20).reshape(5, 4)
array_y

array([[11, 55,  6, 79],
       [46, 62, 44, 38],
       [93, 68, 10, 61],
       [22, 58, 79, 59],
       [58,  7, 78, 77]])

In [274]:
# mencari sum. Kedua cara dibawah ini sama-sama benar

print(np.sum(array_y, axis = 0)) #mentotal secara vertical
print(np.sum(array_y, axis = 1)) #mentotal secara horizontal
print(np.sum(array_y)) #mentotal seluruh values

[230 250 217 314]
[151 190 232 218 220]
1011


# Dictionary 

Dictionary adalah salah satu jenis Python Collection yang
merupakan sebuah kumpulan data yang terdiri dari **key (kata kunci)** dan
**values (nilai)**. Key harus berisifat *unik*, dan setiap key bisa menampung multiple values. 

Untuk membuat dictionary kita membutuhkan **{}** *curly brackets* dan **:** *double dots* untuk memisahkan antara **key** dan **value**. 

contohnya:

                    {"key1" : "value",
                     "key2" : "value"}
                     
Key & value dapat berbentuk apapun, baik itu *numeric* ataupun *text*
                    

## Membuat Dictionary secara basic

In [8]:
# dictionary kita simpan dalam variable: indonesia
indonesia = {"Jawa Barat": "Bandung",
            "Banten" : "Serang",
            "Sumatra Utara" : "Medan"}

In [9]:
# kita check type apakah variable Indonesia sudah merupakan "dictionary"
type(indonesia)

dict

In [10]:
# mengakses "key" yang ada pada dictionary
indonesia["Jawa Barat"]

'Bandung'

## Membuat dictionary dari list

Misalnya kita memiliki 2 list, dan ingin menjadikannya sebagai dictionary. Maka kita akan memasangkan kedua list tersebut, dengan menjadikan salah satu list sebagai "key" dan list lainnya sebagai "value". Hal ini dapat dilakukan dengan menggunakan fungsi *dict()*, dan fungsi *zip()*

In [9]:
a = [1, 2, 3, 4, 5]
b = ["a", "b", "c", "d", "e"]

dic_ab = dict(zip(b, a))

In [10]:
dic_ab

{'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}

## Mengakses key & value pada Dictionary

Berbeda dengan Python collection yang lain, *Dictionary tidak memiliki Index value*. Sehingga cara untuk mengakses key dan value pada dictionary memiliki cara yang berbeda.

Beberapa method yang dapat kita gunakan untuk mengakses "key" dan "value" pada Dictionary:

1)  .keys() ---> untuk mengakses keys yang ada pada sebuah dictionary
2)  .values() ---> untuk mengakses values yang ada pada sebuah dictionary
3)  .items() ---> untuk mengakses keys dan juga values secara bersamaan
4)  ["sebutkan_key"] --> untuk mengakses value dengan menyebutkan "key"-nya saja
5) *sebutkan key* **in** *dictionary*" --> untuk mengecek apakah "key" tersebut ada pada dictionary
6) .get("sebutkan_key", "tulis_message") --> untuk mengecek apakah "key" tersebut ada pada dictionary, dan mendapatkan "output message" jika key tidak ditemukan.

In [11]:
# dictionary kita simpan dalam variable: indonesia
indonesia = {"Jawa Barat": "Bandung",
            "Banten" : "Serang",
            "Sumatra Utara" : "Medan"}

In [14]:
#1. mengakses keys yang ada pada dictionary "indonesia"
indonesia.keys()

dict_keys(['Jawa Barat', 'Banten', 'Sumatra Utara'])

In [21]:
#2. mengeluarkan valuenya saja dari dictionary
indonesia.values() 

dict_values(['Bandung', 'Serang', 'Medan'])

In [22]:
#3. print keys dan valuesnya juga
indonesia.items()

dict_items([('Jawa Barat', 'Bandung'), ('Banten', 'Serang'), ('Sumatra Utara', 'Medan')])

In [12]:
#4. mengakses value dengan menyebutkan "key"-nya saja
indonesia["Banten"]

'Serang'

In [15]:
#5. mengecek apakah "key" ada pada dictionary. 
# output True jika ada, dan False jika tidak ada

"Kuala Lumpur" in indonesia

False

In [16]:
#6. mengecek apakah "key" ada pada dictionary. 
# output: jika ada maka akan memunculkan valuenya
# output: jika tidak ada maka akan memunculkan message yang tertulis.

#contoh key tidak ditemukan
indonesia.get("Jakarta", "tidak ditemukan")

'tidak ditemukan'

In [18]:
#contoh jika key ditemukan
indonesia.get("Banten", "tidak ditemukan")

'Serang'