# STRUKTUR DATA: `List, Tuple, Set, & Dictionary`

## `List`
> `List` adalah sebuah objek kelas dalam Python yang berupa sebuah koleksi/kontainer berisi objek bertipe rangkaian (*sequence*), sehingga seringkali dirujuk sebagai *containers* atau *collections*.

`List`, yang merupakan sebuah objek kelas fundamental, memiliki seperangkat fitur yang memungkinkan pengelolaan sekaligus manipulasi beragam tipe data secara efisien. Sebuah `list` akan memiliki beberapa karakteristik sebagai berikut:
1. ***Ordered***: Urutan setiap elemen pada sebuah list akan sesuai dengan urutan penginputan masing-masing elemen;
2. ***Zero-based***: Indeks posisional dari setiap elemen pada sebuah `list` akan dimulai dari indeks 0;
3. ***Mutable***: Memungkinkan untuk melakukan perubahan (*mutations*) terhadap elemen yang ada didalamnya;
4. ***Heterogeneous***: Dapat memuat objek dengan tipe yang bermacam-macam (`int`, `float`, `str`, `list`, `tuple`, `dictionary`, `set`, & bahkan `function`);
5. ***Growable & Dynamic***: Memungkinkan untuk melakukan penambahan, penginputan, dan penghapusan elemen;
6. ***Nestable***: Dapat memuat `list` lain di dalamnya;
7. ***Iterable***: Memungkinkan untuk dilakukan iterasi terhadap setiap elemen di dalamnya dengan menggunakan `loop` atau `list comprehension`;
8. ***Sliceable***: Memungkinkan untuk melakukan operasi *slicing* untuk mengakses elemennya;
9. ***Combinable***: Memungkinkan untuk melakukan proses *concatenation* terhadap satu `list` dengan `list` lain;
10. ***copyable***: Memungkinkan untuk membuat duplikat dari `list` ke dalam sebuah `list` yang lain.

### `List` Construction
Terdapat tiga cara untuk membangun sebuah `list`:
1. Menggunakan `list literals`:
```python
nama_list = [] # Membuat list kosong
nama_list = [elemen_1, elemen_2, ..., elemen_n]
```
2. Menggunakan `type constructor`:
```python
nama_list = list() # Membuat list kosong
nama_list = list(iterable)
```
3. Menggunakan `list comprehension`:
```python
nama_list = [expression(item) for item in iterable if conditional]
```

In [1]:
# Membuat sebuah list berisi nama-nama teman menggunakan list literals

nama_teman = ['Amir', 'Budi', 'Cinta', 'Dimas', 'Edi']
print(nama_teman)

['Amir', 'Budi', 'Cinta', 'Dimas', 'Edi']


In [2]:
# Membuat sebuah list berisi angka 0-9 dengan menggunakan list() constructors

angka = list(range(0, 10, 1))
print(angka)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [3]:
# Membuat sebuah list berisi angka ganjil dari list angka menggunakan list comprehension

angka_ganjil = [num for num in angka if num % 2 == 1]
print(angka_ganjil)

[1, 3, 5, 7, 9]


In [4]:
# Cara lain untuk membuat list berisi angka ganjil dengan menggunakan list comprehension???
angka_ganjil_lain = [angka[x] for x in range(1, len(angka), 2)]
print(angka_ganjil_lain)

[1, 3, 5, 7, 9]


In [5]:
# CHALLENGE: Ada cara lain untuk menyusun list berisi angka ganjil pada range 0-10 secara lebih sederhana??
# HINT: lakukan slicing dengan step
angka[1::2]

[1, 3, 5, 7, 9]

### Accessing elements of a `list`
Beberapa operasi yang digunakan untuk mengakses elemen pada sebuah list antara lain:
1. `indexing`, menghasilkan sebuah data yang merupakan elemen dari sebuah `list`. Sebagai ilustrasi, di bawah berikut dapat diamati cara untuk menampilkan angka 5 yang merupakan sebuah elemen pada `angka` yang kita buat pada exercise sebelumnya.
```python
angka[5] # dituliskan nomor index dari elemen 5
# Output = 5
```
2. `slicing`, menghasilkan sebuah `list` berisi sebuah atau beberapa elemen dari sebuah `list` lainnya. Sebagai ilustrasi, di bawah berikut dapat diamati cara mengambil angka 1, 2, 3 yang merupakan elemen pada `angka`.
```python
angka[1:4:1] # dituliskan index awal, index akhir+1, dan step
# Output = [1, 2, 3]
```

In [6]:
# Memanggil elemen list menggunakan indexing

print("Nama pertama pada list adalah: %s." % nama_teman[0])      # Mengakses elemen pertama pada list nama_teman
print("Nama ke-%d pada list adalah: %s." % (1+1, nama_teman[1])) # Mengakses elemen kedua pada list nama_teman
print("Nama terakhir pada list adalah: %s." % nama_teman[-1])    # Mengakses elemen paling akhir pada list nama_teman

Nama pertama pada list adalah: Amir.
Nama ke-2 pada list adalah: Budi.
Nama terakhir pada list adalah: Edi.


In [7]:
# Memanggil elemen list menggunakan slicing

print(nama_teman[:2])   # Mengakses elemen pada nama_teman, dari elemen indeks 0 hingga elemen indeks 1
print(nama_teman[::2])  # Mengakses seluruh elemen pada nama_teman yang bernomor indeks genap
print(nama_teman[::-1]) # Mengakses seluruh elemen pada nama_teman, dari urutan paling akhir hingga ke awal

['Amir', 'Budi']
['Amir', 'Cinta', 'Edi']
['Edi', 'Dimas', 'Cinta', 'Budi', 'Amir']


In [11]:
# CHALLENGE: Bagaimana cara slicing agar dapat menampilkan elemen ['Edi', 'Cinta'] dari nama_teman??
print(nama_teman[-1:-4:-2])

['Edi', 'Cinta']


### Membuat copy dari sebuah `list`
Operasi yang jarang dilakukan, akan tetapi, terkadang membuat duplikat dari sebuah `list` merupakan sebuah *good practice*, jika kita hendak melakukan pengolahan terhadap elemen dari `list` tersebut. Hal ini untuk memastikan bahwa data orijinal tidak mengalami perubahan, sehingga pada saat terjadi kesalahan dalam proses pengolahan, kita dapat melakukan *trace back* ke kondisi sebelumnya.

Untuk membuat copy dari sebuah `list` kita dapat menggunakan method `copy` seperti dicontohkan berikut di bawah ini:
```python
# Membuat sebuah copy dari nama_teman
nama_teman_copy = nama_teman.copy()
```

In [12]:
# Membuat duplikat list angka ganjil
angka_ganjil_copy = angka_ganjil.copy()
print(angka_ganjil_copy)

# Membuat duplikat nama_teman
nama_teman_baru = nama_teman.copy()
print(nama_teman_baru)

[1, 3, 5, 7, 9]
['Amir', 'Budi', 'Cinta', 'Dimas', 'Edi']


In [13]:
# CHALLENGE: Lakukan operasi pembagian terhadap elemen index 2 pada angka_ganjil_copy dengan angka 4!!
angka_ganjil_copy[2] = angka_ganjil_copy[2] / 4

# Cek hasil
print("List orijinal:", angka_ganjil)
print("List olahan:", angka_ganjil_copy)

List orijinal: [1, 3, 5, 7, 9]
List olahan: [1, 3, 1.25, 7, 9]


### [***Common Sequence Operations***](https://docs.python.org/3/library/stdtypes.html#common-sequence-operations)
*Common Sequence Operations* adalah berbagai fungsi, methods dan operasi yang dapat dikenakan terhadap data bertipe sequence, antara lain:
1. Fungsi `len()`;
2. Method `count()`;
3. Method `index()`;
4. Method `sort()`;
5. Method `reverse()`;
6. Operasi Concatenate `list_1 + list_2`;
7. Operasi Repetition `2 * list_1`;
8. Fungsi `max()`; dan
9. Fungsi `min()`;
10. Operasi `in`;
11. Operasi `not in`.

In [14]:
# Menampilkan jumlah elemen pada sebuah list

print(f"Jumlah elemen pada list nama_teman = {len(nama_teman)}")
print(f"Jumlah elemen pada list nama_teman_baru = {len(nama_teman_baru)}")

Jumlah elemen pada list nama_teman = 5
Jumlah elemen pada list nama_teman_baru = 5


In [15]:
# Menghitung banyaknya kemunculan sebuah elemen

nama_teman.count('Beni')

0

In [16]:
# Menampilkan index dari elemen tertentu
# jika elemen memiliki duplikat maka index yang ditampilkan adalah index terkecil

nama_teman.index('Dimas')

3

In [17]:
# Mengurutkan elemen pada list menggunakan method sort()
# Method sort() akan melakukan perubahan secara 'inplace'

# Ascending sorting
nama_teman.sort()
print(f'List diurut secara Ascending: {nama_teman}')

# Descending sorting
nama_teman.sort(reverse=True)
print(f'List diurut secara Descending: {nama_teman}')

List diurut secara Ascending: ['Amir', 'Budi', 'Cinta', 'Dimas', 'Edi']
List diurut secara Descending: ['Edi', 'Dimas', 'Cinta', 'Budi', 'Amir']


In [18]:
# Membalikkan posisi elemen pada list dari belakang ke depan: BUKAN MENGURUTKAN!!!
# Method reverse() akan melakukan perubahan secara 'inplace'

nama_teman.reverse()
print(nama_teman)

['Amir', 'Budi', 'Cinta', 'Dimas', 'Edi']


In [19]:
# Concatenation, menggabungkan list dengan list lain

print(f"Hasil concatenation nama_teman dan angka: {nama_teman+angka}")

Hasil concatenation nama_teman dan angka: ['Amir', 'Budi', 'Cinta', 'Dimas', 'Edi', 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [20]:
# Repetition, mengulang list

print(2 * nama_teman)
print(2 * angka)

['Amir', 'Budi', 'Cinta', 'Dimas', 'Edi', 'Amir', 'Budi', 'Cinta', 'Dimas', 'Edi']
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [21]:
# Mencari elemen dengan value paling besar

max(nama_teman)

'Edi'

In [22]:
# Mencari elemen dengan value paling kecil

min(nama_teman)

'Amir'

**GOTCHA!!**<br>
'Edi' dan 'Amir' bukan data bertipe numeric, mengapa bisa dicari max dan min???

In [23]:
# Melakukan pengecekan keberadaan 'Rhoma' pada list nama_teman

'Rhoma' in nama_teman

False

In [24]:
# Melakukan pengecekan ketidak-adaan 'Rhoma' pada list nama_teman

'Rhoma' not in nama_teman

True

### Growing & shrinking `list`
Beberapa methods yang dapat mengubah ukuran dari sebuah `list`:
1. Menambah elemen baru pada akhir sebuah list:
```python
nama_list.append(elemen_baru)
```
2. Menyisipkan elemen baru pada posisi tertentu:
```python
nama_list.insert(index_posisi, elemen_baru)
```
3. Menghapus elemen pada posisi index tertentu:
```python
nama_list.pop(indeks)
```
4. Menghapus elemen tertentu dari `list`:
```python
nama_list.remove(elemen)
```
5. Mengosongkan seluruh elemen dari `list:
```python
nama_list.clear()
```

In [25]:
# Menambahkan elemen baru di akhir list

nama_teman_baru.append('Ferdi')
print(nama_teman_baru)

['Amir', 'Budi', 'Cinta', 'Dimas', 'Edi', 'Ferdi']


In [26]:
# Menyisipkan elemen baru pada indeks posisi tertentu

nama_teman_baru.insert(2, 'Canda')
print(nama_teman_baru)

['Amir', 'Budi', 'Canda', 'Cinta', 'Dimas', 'Edi', 'Ferdi']


In [27]:
# Menghapus elemen pada index posisional tertentu

nama_teman_baru.pop(2)
print(nama_teman_baru)

['Amir', 'Budi', 'Cinta', 'Dimas', 'Edi', 'Ferdi']


In [28]:
# Menghapus elemen tertentu
# Jika terdapat elemen yang terduplikat maka yang dihapus adalah value yang muncul pertama kali

nama_teman_baru.remove('Cinta')
print(nama_teman_baru)

['Amir', 'Budi', 'Dimas', 'Edi', 'Ferdi']


In [29]:
# Mengosongkan nama_teman

nama_teman_baru.clear()
print(nama_teman_baru)

[]


### `List` elements mutations
Cara melakukan mutasi terhadap elemen sebuah list:
```python
nama_list[indeks_posisional]=elemen_pengganti
```

In [30]:
# Mengganti elemen pada index tertentu dari list nama_teman
# Budi akan digantikan dengan Beni
# Ketika terjadi mutasi terhadap elemen pada list hasil copy,
# elemen pada list original tidak mengalami perubahan!!!

nama_teman[1] = 'Beni'
print(f"Elemen pada list nama_teman: {nama_teman}")
print(f"Elemen pada list teman_baru: {nama_teman_baru}")

Elemen pada list nama_teman: ['Amir', 'Beni', 'Cinta', 'Dimas', 'Edi']
Elemen pada list teman_baru: []


### `LIST` EXERCISE!!!
Lakukan mutasi pada setiap elemen pada list angka_ganjil:
1. Lakukan duplikat terhadap `angka_ganjil` dan assign ke variabel baru bernama `angka_untuk_dirubah`;
2. Lakukan operasi pangkat 2 terhadap elemen `angka_untuk_dirubah` dengan indeks == 4;
3. Lakukan operasi pangkat 0 terhadap seluruh elemen pada `angka_ganjil`, lalu assign ke variabel bernama `angka_satu`;
4. Lakukan operasi perkalian angka 10 dengan setiap elemen ber-**indeks ganjil** pada `angka_ganjil`, lalu assign ke sebuah variabel bernama `perkalian_sepuluh_terpilih`.

In [33]:
# 1. Duplikat angka_ganjil
angka_untuk_dirubah = angka_ganjil.copy()

In [35]:
# 2. Mutasi elemen ber-index == 4 pada angka_untuk_dirubah
angka_untuk_dirubah[4] = angka_untuk_dirubah[4]**2

print(angka_untuk_dirubah)

[1, 3, 5, 7, 81]


In [36]:
# 3. Operasi pangkat 0 terhadap seluruh elemen angka_ganjil
angka_satu = [angka**0 for angka in angka_ganjil]
print(angka_satu)

[1, 1, 1, 1, 1]


In [130]:
# 4. Operasi perkalian 10 terhadap elemen berindeks ganjil dari angka_ganjil
perkalian_sepuluh_terpilih = [angka_ganjil[idx]*10 if idx % 2 == 1 else angka_ganjil[idx] for idx in range(0, len(angka_ganjil))]
print(perkalian_sepuluh_terpilih)

[1, 30, 5, 70, 9]


---
## `Tuple`
> Serupa dengan `list`, sebuah `tuple` berisikan objek bertipe rangkaian (*sequence*).

Sebuah `tuple` memiliki karakteristik yang hampir seluruhnya mirip dengan `list`. Satu-satunya perbedaan karakteristik `tuple` dari `list` adalah sifatnya yang ***immutable***, dengan kata lain sebuah `tuple` bersifat *fixed* dan *unchangeable*. Oleh karena sifat *immutable* tersebut, biasanya `tuple` dipergunakan untuk menyimpan data yang bersifat konstan, seperti:
1. Menyimpan nilai warna dalam format RGB (exp. red = (255, 0, 0));
2. Menyimpan data geometri (exp. koordinat = (106.888111, 17.132424)).

### `Tuple` construction
Beberapa cara untuk membuat sebuah `tuple`:
1. Menggunakan `comma literals`:
```python
nama_tuple = item_1, item_2, ..., item_n
```
2. Menggunakan `tuple literals`:
```python
nama_tuple = () # Membuat tuple kosong
nama_tuple = (elemen_1, elemen_2, ..., elemen_n)
```

3. Menggunakan `type constructor`:
```python
nama_tuple = tuple() # Membuat tuple kosong
nama_tuple = tuple(iterable)
```

In [39]:
# Membuat tuple dengan comma literals
gaji_tuple = 1_000_000, 2_000_000, 3_000_000, 4_000_000, 5_000_000
print(gaji_tuple)

(1000000, 2000000, 3000000, 4000000, 5000000)


In [40]:
# Membuat tuple dengan tuple literals
umur_tuple = (25, 20, 30, 40, 50)
print(umur_tuple)

(25, 20, 30, 40, 50)


In [41]:
# Membuat tuple dengan type constructor
kode_tuple = tuple(range(100, 501, 100))
print(kode_tuple)

(100, 200, 300, 400, 500)


### *Common Sequence Operators*
Berbagai *common sequence operators* yang berlaku bagi `list` juga dapat diberlakukan terhadap `tuple`.

In [42]:
# Menampilkan jumlah elemen pada puluhan_tuple
print(f"Jumlah elemen pada umur_tuple: {len(umur_tuple)} elemen")

Jumlah elemen pada umur_tuple: 5 elemen


In [43]:
# Menampilkan kemunculan elemen bernilai 10 pada puluhan_tuple
print(f"Banyaknya nilai 20 pada umur_tuple: {umur_tuple.count(20)} elemen")

Banyaknya nilai 20 pada umur_tuple: 1 elemen


In [44]:
# Menampilkan indeks posisional dari sebuah elemen pada puluhan_tuple
print(f"Posisi index dari 30 pada umur_tuple adalah: ke-{umur_tuple.index(30)}")

Posisi index dari 30 pada umur_tuple adalah: ke-2


In [45]:
# Menampilkan elemen dengan index posisional 3 pada tuple
print(f"Elemen pada posisi indeks ke-3 adalah: {umur_tuple[3]}")

Elemen pada posisi indeks ke-3 adalah: 40


In [46]:
# Slicing pada tuple
print(umur_tuple[::2])

(25, 30, 50)


In [47]:
# Repetition sebanyak 3 kali
print(umur_tuple*3)

(25, 20, 30, 40, 50, 25, 20, 30, 40, 50, 25, 20, 30, 40, 50)


In [48]:
# Concatenation
print(f"Hasil concatenation umur_tuple dengan gaji_tuple = {umur_tuple+gaji_tuple}")

Hasil concatenation umur_tuple dengan gaji_tuple = (25, 20, 30, 40, 50, 1000000, 2000000, 3000000, 4000000, 5000000)


In [49]:
# Mencari nilai max
max(umur_tuple)

50

In [50]:
# Mencari nilai min
min(umur_tuple)

20

In [51]:
# Melakukan pengecekan keberadaan 70 pada puluhan_tuple
70 in umur_tuple

False

In [52]:
# Melakukan pengecekan ketidak-adaan 70 pada puluhan_tuple

70 not in umur_tuple

True

### `TUPLE` EXERCISES!!!
**EXERCISE 1** -- Buatlah sebuah `tuple` sebagai berikut:
  1. Berisi angka bulat yang bernilai antara 100 hingga 0, dengan step penurunan sebesar 5;
  3. Assign `tuple` tersebut ke variable `tuple_menurun`;
  4. Tampilkan `tuple_menurun` ke layar.


In [56]:
tuple_menurun = tuple(range(100, 0, -5))

print(tuple_menurun)

(100, 95, 90, 85, 80, 75, 70, 65, 60, 55, 50, 45, 40, 35, 30, 25, 20, 15, 10, 5)


**EXERCISE 2** -- Lakukan operasi pangkat 25 terhadap terhadap elemen berindex 25 pada `tuple_menurun`.

In [57]:
tuple_menurun[25]**25

IndexError: tuple index out of range

___
#### 1. PENGENALAN OBJECT `pd.Series`

> `pd.Series` adalah sebuah objek modul `pandas` yang berupa rangkaian object 1 dimensi.

Sebuah `pd.Series` dapat disusun dengan cara:
1. Memasukkan sebuah `list` atau `tuple` ke dalam method `pd.Series`;
2. Mengambil setiap elemen pada sebuah `columns` dari sebuah `DataFrame`; atau
3. Mengambil setiap elemen pada sebuah `row` dari sebuah `DataFrame`.

Sebuah `pd.Series` akan memiliki attribut/karakteristik hampir serupa dengan yang dimiliki oleh sebuah `list`, kecuali `zero-based`, karena index dari sebuah `pd.Series` dapat bertipe data apapun selama bersifat unik.



In [58]:
# Mengimpor modul yang diperlukan
import pandas as pd

# Set file path
file_path = "https://storage.googleapis.com/dqlab-dataset/SuperStore.csv"

# Mengimport dataset ke dalam sebuah DataFrame
df_sales = pd.read_csv(file_path)

In [59]:
# 1.a. Membuat sebuah Series dari sebuah `list`
print("`nama_teman` adalah sebuah", type(nama_teman))
# Masukkan `nama_teman` ke dalam `pd.Series`
nama_teman_series = pd.Series(nama_teman, name='Nama_Teman')
# `nama_teman_series` adalah sebuah `pd.Series`
print("'nama_teman_series' adalah sebuah", type(nama_teman_series))
# Lihat isi nama_teman_series
nama_teman_series

`nama_teman` adalah sebuah <class 'list'>
'nama_teman_series' adalah sebuah <class 'pandas.core.series.Series'>


Unnamed: 0,Nama_Teman
0,Amir
1,Beni
2,Cinta
3,Dimas
4,Edi


In [60]:
# 1.b. Membuat sebuah Series dari sebuah `tuple`
print("`umur_tuple` adalah sebuah", type(umur_tuple))
# Masukan `puluhan_tuple` ke dalam `pd.Series`
umur_tuple_series = pd.Series(umur_tuple, name='Umur')
# `puluhan_tuple_series` adalah sebuah `pd.Series`
print("'umur_tuple_series' adalah sebuah", type(umur_tuple_series))
# lihat isi puluhan_tuple_series
umur_tuple_series

`umur_tuple` adalah sebuah <class 'tuple'>
'umur_tuple_series' adalah sebuah <class 'pandas.core.series.Series'>


Unnamed: 0,Umur
0,25
1,20
2,30
3,40
4,50


In [61]:
# 2. Membuat sebuah Series dari sebuah kolom pada dataframe
isi_kolom_sales = df_sales['Sales']
# Cek tipe object dari `isi_kolom_sales`
print("Seluruh elemen pada kolom `Sales` dari dataframe `df_sales` adalah", type(isi_kolom_sales))
# Melihat seluruh isi sebuah series berasal dari kolom dataframe
isi_kolom_sales

Seluruh elemen pada kolom `Sales` dari dataframe `df_sales` adalah <class 'pandas.core.series.Series'>


Unnamed: 0,Sales
0,261.9600
1,731.9400
2,14.6200
3,957.5775
4,22.3680
...,...
9989,25.2480
9990,91.9600
9991,258.5760
9992,29.6000


In [62]:
# 3. Membuat sebuah Series dari sebuah row pada dataframe
isi_row_tertentu = df_sales.loc[0, :]
# Cek tipe object `isi_row_tertentu`
print("Setiap row pada sebuah dataframe pada dasarnya adalah sebuah", type(isi_row_tertentu))
# Melihat isi sebuah series berasal dari row dataframe
isi_row_tertentu

Setiap row pada sebuah dataframe pada dasarnya adalah sebuah <class 'pandas.core.series.Series'>


Unnamed: 0,0
Order_ID,CA-2019-152156
Customer_ID,CG-12520
Postal_Code,42420
Product_ID,FUR-BO-10001798
Sales,261.96
Quantity,2
Discount,0.0
Profit,41.9136
Category,Furniture
Sub-Category,Bookcases


In [63]:
# Menunjukkan nama dari sebuah Series dilakukan dengan menggunakan attribut `name`
nama_teman_series.name

'Nama_Teman'

In [64]:
# Menunjukkan berbagai index pada sebuah Series dilakukan dengan menggunakan attribut `index`
isi_row_tertentu.index

Index(['Order_ID', 'Customer_ID', 'Postal_Code', 'Product_ID', 'Sales',
       'Quantity', 'Discount', 'Profit', 'Category', 'Sub-Category',
       'Product_Name', 'Order_Date', 'Ship_Date', 'Ship_Mode', 'Customer_Name',
       'Segment', 'Country/Region', 'City', 'State', 'Region'],
      dtype='object')

In [65]:
# Menunjukkan besaran dimensi dari sebuah Series
isi_row_tertentu.shape

(20,)

In [66]:
# Menampilkan elemen tertentu dari sebuah Series dapat dilakukan menggunakan indexnya
print("Elemen dengan index `0` pada `nama_teman_series` adalah", nama_teman_series[0])
print("Elemen dengan index `0` pada `isi_kolom_sales` adalah", isi_kolom_sales[0])
print("Elemen dengan index `State` pada `isi_row_tertentu` adalah", isi_row_tertentu['State'])

Elemen dengan index `0` pada `nama_teman_series` adalah Amir
Elemen dengan index `0` pada `isi_kolom_sales` adalah 261.96
Elemen dengan index `State` pada `isi_row_tertentu` adalah Kentucky


---
## `Set`
> `Set` adalah sebuah objek berisi koleksi objek yang *unordered*, bersifat unik, dan *hashable*.

`Set` adalah sebuah tipe data di Python yang berisi kumpulan elemen unik dan *unordered*. Artinya, tidak ada elemen yang terduplikasi dalam `Set`, dan elemen-elemen di dalamnya tidak memiliki urutan tertentu seperti halnya pada *list* atau *tuple*. Ini berguna saat kita hanya perlu memastikan bahwa setiap item hanya muncul sekali.

Setiap elemen dalam `Set` bersifat *hashable*, yang berarti elemen-elemen tersebut dapat memiliki nilai unik yang memudahkan Python untuk memproses dan mencari elemen dalam `Set` dengan cepat. Struktur data `Set` ini dioptimalkan untuk operasi keanggotaan (membership testing) dan perbandingan.

Python menyediakan beberapa operasi bawaan yang efisien untuk bekerja dengan `Set`, seperti:
- **Gabungan (Union)**, untuk menggabungkan dua atau lebih set.
- **Irisan (Intersection)**, untuk mendapatkan elemen yang ada di kedua set.
- **Selisih (Difference)**, untuk mendapatkan elemen yang ada di satu set tetapi tidak di set lain.
- **Eksklusif (Symmetric Difference)**, untuk mendapatkan elemen yang hanya ada di salah satu set saja.

Dalam praktek pengolahan data dengan menggunakan Python, `Set` sering digunakan untuk:
- Menyaring duplikasi dari data.
- Melakukan tes cepat apakah suatu item terdapat dalam kumpulan.
- Melakukan operasi himpunan seperti penggabungan dan irisan pada data yang unik.

### `Set` Construction
Beberapa cara membuat set:
1. Menggunakan `set constructor`:
```python
nama_set = set() # Membuat set kosong
nama_set = set(iterable)
```
2. Menggunakan `type literals`:
```python
nama_set = {objek_1, objek_2, ..., objek_n}
```

In [67]:
# Membuat set dari list nama_teman menggunakan constructor

nama_teman_set = set(nama_teman)
print(nama_teman_set)

{'Cinta', 'Beni', 'Amir', 'Dimas', 'Edi'}


In [68]:
# Membuat set menggunakan literals

teman_lama_set = {"Rhoma", "Ani", "Ridho", "Soneta"}
print(teman_lama_set)

{'Rhoma', 'Soneta', 'Ridho', 'Ani'}


### Growing & Shrinking `set`

In [69]:
# Menambah sebuah elemen baru ke dalam set

nama_teman_set.add('Ani')
print(nama_teman_set)

{'Cinta', 'Beni', 'Amir', 'Dimas', 'Edi', 'Ani'}


In [70]:
# Menambahkan sebuah set lain,

nama_teman_set.update({'Firman','Rudi', 'Beni'})
# Apa yang terjadi jika menambah elemen yang sudah ada sebelumnya??

print(nama_teman_set)

{'Cinta', 'Beni', 'Amir', 'Firman', 'Dimas', 'Edi', 'Rudi', 'Ani'}


In [71]:
# Me-remove 'Rudi' dari himpunan

nama_teman_set.remove('Rudi')

print(nama_teman_set)

{'Cinta', 'Beni', 'Amir', 'Firman', 'Dimas', 'Edi', 'Ani'}


In [72]:
# Apa yang terjadi jika mencoba untuk me-remove elemen yang tidak ada pada set??

nama_teman_set.remove('Tina')
print(nama_teman_set)

KeyError: 'Tina'

In [73]:
# Men-discard 'Firman' dari set

nama_teman_set.discard('Firman')

print(nama_teman_set)

{'Cinta', 'Beni', 'Amir', 'Dimas', 'Edi', 'Ani'}


In [74]:
# Men-discard elemen yang tidak ada pada set

nama_teman_set.discard('Paimin')
print(nama_teman_set)

{'Cinta', 'Beni', 'Amir', 'Dimas', 'Edi', 'Ani'}


### *Common Sequence Operators*

Karena perbedaan karakteristik elemen pada `set`, maka tidak seluruh *common sequence operators* dapat dikenakan. Berikut ini adalah beberapa operators yang dapat dikenakan terhadap sebuah `set`:

In [75]:
# Menampilkan jumlah elemen pada nama_teman_set
print(f"Jumlah elemen pada nama_teman_set: {len(nama_teman_set)} elemen")

Jumlah elemen pada nama_teman_set: 6 elemen


In [76]:
# Mencari nilai max
max(nama_teman_set)

'Edi'

In [77]:
# Mencari nilai min
min(nama_teman_set)

'Amir'

In [78]:
# Melakukan pengecekan keberadaan 'Ani' pada nama_teman_set
'Ani' in nama_teman_set

True

In [79]:
# Melakukan pengecekan ketidak-adaan 'Ani' pada nama_teman_set
'Ani' not in nama_teman_set

False

### `Set` Operations & Methods

In [80]:
# Menggabungkan dua buah set dengan method 'union()'

print(f"Union dari nama_teman_set & teman_lama_set: {nama_teman_set.union(teman_lama_set)}")

Union dari nama_teman_set & teman_lama_set: {'Cinta', 'Amir', 'Beni', 'Ridho', 'Rhoma', 'Soneta', 'Dimas', 'Edi', 'Ani'}


In [81]:
# Menggabungkan dua buah set dengan operator '|'

print(f"Union dari nama_teman_set & teman_lama_set: {nama_teman_set | teman_lama_set}")

Union dari nama_teman_set & teman_lama_set: {'Cinta', 'Amir', 'Beni', 'Ridho', 'Rhoma', 'Soneta', 'Dimas', 'Edi', 'Ani'}


In [82]:
# Mencari elemen yang berbeda pada dua buah set dengan method 'difference()'

print(f"Elemen nama_teman_set yang tidak ada pada teman_lama_set: {nama_teman_set.difference(teman_lama_set)}")

Elemen nama_teman_set yang tidak ada pada teman_lama_set: {'Cinta', 'Amir', 'Beni', 'Dimas', 'Edi'}


In [83]:
# Mencari elemen yang berbeda pada dua buah set dengan operator '-'

print(f"Elemen nama_teman_set yang tidak ada pada teman_lama_set: {nama_teman_set - teman_lama_set}")

Elemen nama_teman_set yang tidak ada pada teman_lama_set: {'Cinta', 'Amir', 'Beni', 'Dimas', 'Edi'}


In [84]:
# Mencari elemen yang beririsan pada dua buah set dengan method 'intersection()'

print(f"Elemen nama_teman_set yang beririsan dengan teman_lama_set: {nama_teman_set.intersection(teman_lama_set)}")

Elemen nama_teman_set yang beririsan dengan teman_lama_set: {'Ani'}


In [85]:
# Mencari elemen yang beririsan pada dua buah set dengan operator '&'

print(f"Elemen nama_teman_set yang beririsan dengan teman_lama_set: {nama_teman_set & teman_lama_set}")

Elemen nama_teman_set yang beririsan dengan teman_lama_set: {'Ani'}


___
### `SET` EXERCISE
1. Buat sebuah object `pd.Series` berisi setiap elemen pada kolom `State` pada `df_sales`;
2. Cek Tipe object yang dihasilkan proses di atas;
3. Cek jumlah elemen pada object tersebut;
4. Ubah object tersebut menjadi sebuah `set`;
5. Cek jumlah elemen pada `set` tersebut;
6. Cek isi dari `set` tersebut;
7. Cobalah untuk melihat elemen urutan pertama dari `set` tersebut;
8. Tampilkan ke layar setiap elemen pada `set` tersebut menggunakan loop.


In [86]:
# Buat series assign ke variabel `States_Recorded`
States_Recorded = df_sales['State']

In [87]:
# Cek Tipe data
type(States_Recorded)

In [88]:
# Check panjang dari series
len(States_Recorded)

9994

In [89]:
# Buat sebuah set dari `States_Recorded` assign ke variabel `States_Set`
States_Set = set(States_Recorded)

In [90]:
# Cek panjang dari set
len(States_Set)

49

In [91]:
# Lihat isi dari Set
States_Set

{'Alabama',
 'Arizona',
 'Arkansas',
 'California',
 'Colorado',
 'Connecticut',
 'Delaware',
 'District of Columbia',
 'Florida',
 'Georgia',
 'Idaho',
 'Illinois',
 'Indiana',
 'Iowa',
 'Kansas',
 'Kentucky',
 'Louisiana',
 'Maine',
 'Maryland',
 'Massachusetts',
 'Michigan',
 'Minnesota',
 'Mississippi',
 'Missouri',
 'Montana',
 'Nebraska',
 'Nevada',
 'New Hampshire',
 'New Jersey',
 'New Mexico',
 'New York',
 'North Carolina',
 'North Dakota',
 'Ohio',
 'Oklahoma',
 'Oregon',
 'Pennsylvania',
 'Rhode Island',
 'South Carolina',
 'South Dakota',
 'Tennessee',
 'Texas',
 'Utah',
 'Vermont',
 'Virginia',
 'Washington',
 'West Virginia',
 'Wisconsin',
 'Wyoming'}

In [93]:
# Cobalah untuk melihat elemen pertama
States_Set[0]

TypeError: 'set' object is not subscriptable

In [100]:
# Print setiap elemen pada States_Set menggunakan for loop
for state in States_Set:
 print(state)

Arizona
Nebraska
Indiana
Vermont
Virginia
Missouri
New Mexico
North Carolina
Massachusetts
Florida
Wisconsin
Rhode Island
District of Columbia
Alabama
Iowa
New Jersey
Kentucky
Wyoming
Michigan
Tennessee
Minnesota
Oklahoma
Maryland
South Dakota
Washington
West Virginia
South Carolina
Louisiana
North Dakota
Utah
Ohio
Nevada
Montana
New York
Mississippi
Idaho
Texas
Maine
Arkansas
Georgia
Delaware
New Hampshire
Illinois
Colorado
California
Oregon
Kansas
Connecticut
Pennsylvania


---
## `Dictionary`
> `Dictionary` adalah struktur data dalam Python yang menyimpan data dalam bentuk pasangan *key*--*value*, merupakan jenis data yang sangat berguna saat kita ingin mengasosiasikan atau melakukan pemetaan data.

Dictionary memiliki karakteristik sebagai berikut:
- ***Unordered***: Urutan pasangan `key-value` dalam `dictionary` tidak dijamin konsisten dan bisa berubah seiring waktu.
- ***Mutable***: Dimungkinkan untuk mengubah, menambah, atau menghapus pasangan `key-value` setelah `dictionary` dibuat.
- ***Indexed by Keys***: Akses elemen `dictionary` dilakukan menggunakan `key`, bukan posisi index seperti pada `list`.
- ***Unique Keys***: Setiap *key* dalam `dictionary` harus unik. Jika terdapat `value` dengan `key` terduplikat, maka value terakhir yang ditambahkan akan otomatis menggantikan `value` sebelumnya.
- ***Heterogeneous Values***: `value` yang disimpan dalam `dictionary` dapat berupa objek dengan tipe data apa pun, termasuk `list`, `tuple`, `set`, atau bahkan `dictionary` lainnya.

### `Dictionary` Construction
Beberapa cara yang lazim digunakan untuk menyusun `dictionary`:
1. `type literals`:
```python
nama_dictionary = {} # Membuat dictionary kosong
nama_dictionary = {
  'key_1': 'value_1',
  'key_2': 'value_2',
  'key_n': 'value_n'
}
```
2. `dict constructor`:
```python
nama_dictionary = dict() # Membuat dictionary kosong
nama_dictionary = dict(
   key_1='value_1',
   key_2='value_2',
   key_n='value_n'
)
```
3. `zip method`:
```python
keys = ['key1', 'key2', 'key3']
values = ['value1', 'value2', 'value3']
nama_dict = dict(zip(keys, values))
```

In [101]:
# Membuat dictionary dengan literals

pegawai_1 = {
	'Nama': 'Dicky',
	'Usia': 30,
	'Role': 'Data Analyst',
	'Dept': 'Marketing'
}
print(pegawai_1)

{'Nama': 'Dicky', 'Usia': 30, 'Role': 'Data Analyst', 'Dept': 'Marketing'}


In [102]:
# Membuat dictionary dengan constructor

pegawai_2 = dict(
    Nama='Dika',
    Usia=25,
    Role='Data Analyst',
    Dept='Marketing'
)
print(pegawai_2)

{'Nama': 'Dika', 'Usia': 25, 'Role': 'Data Analyst', 'Dept': 'Marketing'}


### Accessing elements of `dictionary`

In [103]:
# Memanggil value dari dictionary menggunakan key

print(pegawai_1['Nama'])
print(pegawai_1['Gaji']) # Memanggil key yang tidak terdapat pada dictionary akan menyebabkan error

Dicky


KeyError: 'Gaji'

In [104]:
# Memanggil value dari dictionary menggunakan method 'get()'

print(pegawai_1.get('Nama'))
print(pegawai_1.get('Gaji')) # Memanggil key yang tidak ada, tidak menyebabkan error
print(pegawai_1.get('Gaji', 'Key tersebut tidak ada!'))

Dicky
None
Key tersebut tidak ada!


### Growing and Shrinking `dictionary`

In [105]:
# Mengganti nilai pada dictionary

pegawai_1['Nama'] = 'Ricky'

print(pegawai_1)

{'Nama': 'Ricky', 'Usia': 30, 'Role': 'Data Analyst', 'Dept': 'Marketing'}


In [106]:
# Menambahkan key baru beserta valuenya

pegawai_1['Gaji'] = 10_000_000
pegawai_2['Gaji'] = 9_500_000

print(pegawai_1)
print(pegawai_2)

{'Nama': 'Ricky', 'Usia': 30, 'Role': 'Data Analyst', 'Dept': 'Marketing', 'Gaji': 10000000}
{'Nama': 'Dika', 'Usia': 25, 'Role': 'Data Analyst', 'Dept': 'Marketing', 'Gaji': 9500000}


In [107]:
# Menghapus key beserta valuenya

del pegawai_1['Gaji']
del pegawai_2['Gaji']

print(pegawai_1)
print(pegawai_2)

{'Nama': 'Ricky', 'Usia': 30, 'Role': 'Data Analyst', 'Dept': 'Marketing'}
{'Nama': 'Dika', 'Usia': 25, 'Role': 'Data Analyst', 'Dept': 'Marketing'}


### `Dictionary` methods

In [108]:
# Menampilkan daftar key dari dictionary

pegawai_1.keys()

dict_keys(['Nama', 'Usia', 'Role', 'Dept'])

In [109]:
# Menampilkan daftar values

pegawai_1.values()

dict_values(['Ricky', 30, 'Data Analyst', 'Marketing'])

In [110]:
# Menampilkan pasangan key value dalam bentuk list of tuples

pegawai_1.items()

dict_items([('Nama', 'Ricky'), ('Usia', 30), ('Role', 'Data Analyst'), ('Dept', 'Marketing')])

In [111]:
# menyalin dictionary

copy_of_pegawai_1 = pegawai_1.copy()
print(copy_of_pegawai_1)

{'Nama': 'Ricky', 'Usia': 30, 'Role': 'Data Analyst', 'Dept': 'Marketing'}


In [112]:
# menghapus seluruh isi dictionary

copy_of_pegawai_1.clear()
print(copy_of_pegawai_1)

{}


In [113]:
# Menampilkan data yang disimpan pada sebuah dictionary
pegawai_1['Nama']

'Ricky'

In [114]:
# Jika key yang diinput tidak ditemukan pada dictionary
pegawai_1['Alamat']

KeyError: 'Alamat'

In [115]:
# Agar tidak menghasilkan error saat pencarian data
pegawai_1.get('Alamat')

In [116]:
# Untuk memberikan keterangan "Data yang dicari tidak ada dalam database!"
pegawai_1.get('Alamat', "Data yang dicari tidak ada dalam database!")

'Data yang dicari tidak ada dalam database!'

### `DICTIONARY` EXERCISE
1. Buat sebuah `list` berisikan dua `dictionary` pegawai_1 dan pegawai_2, lalu *assign* ke variabel `list_pegawai`;
2. Gunakan teknik `list comprehension` untuk mengambil hanya setiap *values* dari kedua pegawai pada `list_pegawai`;
3. Gunakan teknik `list comprehension` untuk mengambil hanya data `Nama` dan `Usia` dari kedua pegawai pada `list_pegawai`;
4. Gunakan teknik `list comprehension` untuk melakukan filtering data
 `Usia` pada `list_pegawai` yang memiliki value `Nama` == 'Dika';
5. Gunakan teknis `list comprehension` untuk melakukan filtering data pegawai yang memiliki nilai gaji dibawah 10 juta.

In [117]:
# 1. Buat list_pegawai
list_pegawai = [pegawai_1, pegawai_2]
print(list_pegawai)

[{'Nama': 'Ricky', 'Usia': 30, 'Role': 'Data Analyst', 'Dept': 'Marketing'}, {'Nama': 'Dika', 'Usia': 25, 'Role': 'Data Analyst', 'Dept': 'Marketing'}]


In [119]:
# 2. Tampilkan hanya item values saja
[data.values() for data in list_pegawai]

[dict_values(['Ricky', 30, 'Data Analyst', 'Marketing']),
 dict_values(['Dika', 25, 'Data Analyst', 'Marketing'])]

In [120]:
# 3. Tampilkan data 'Nama' dan 'Usia' saja
[[data['Nama'], data['Usia']] for data in list_pegawai]

[['Ricky', 30], ['Dika', 25]]

In [121]:
# 4. Tampilkan hanya data 'Usia' dari pegawai bernama 'Dika'
[data['Usia'] for data in list_pegawai if data['Nama']=='Dika']

[25]

In [122]:
# 5. Tampilkan data pegawai yang nilai 'Gaji' di bawah 10 juta
[data['Gaji'] for data in list_pegawai if data['Gaji'],10_000_000]

SyntaxError: invalid syntax (<ipython-input-122-ee48ccdc8114>, line 2)

---
#### 2. PENGENALAN DATAFRAME CONSTRUCTOR

Seperti telah dicontohkan pada pertemuan ke-7 sebelumnya, kegiatan data analytics akan mengharuskan seorang data analyst untuk biasa bekerja dengan object `pd.DataFrame`. Seperti dicontohkan pada ilustrasi di pertemuan tersebut, bahwa data dari kegiatan survey dapat disimpan dalam berbagai object data fundamental python, seperti `list` dan `tuple`, dan di konversi menjadi object `pd.DataFrame` agar memudahkan proses pengolahan, dan analisis lebih lanjutnya.

Pada exercise di bawah ini, akan diperkenalkan beberapa methods pada modul `pandas` yang umumnya dipergunakan untuk membangun sebuah dataframe, yaitu:
1. `pd.DataFrame`; dan
2. `pd.concat`.

##### METHOD `pd.DataFrame`
Method ini merupakan method yang cukup fleksibel, karena dapat dimanfaatkan untuk menkonversi data yang tersimpan di dalam berbagai jenis object python fundamental, atau pada sebuah object `pd.series`.

Hal penting yang harus dipastikan dalam penggunaan method ini adalah:
1. Setiap data yang akan dikonversi memiliki **jumlah elemen** yang sama;
2. Setiap data yang akan dikonversi memiliki **penulisan index** yang seragam; dan
3. Setiap data yang akan dikonversi tersimpan dalam **tipe object** (object fundamental python atau `pd.series`) yang seragam.

Berikut ini dicontohkan cara penggunaannya yang disesuaikan dengan jenis object yang akan dikonversi.

In [124]:
# 1. Mengkonversi beberapa object fundamental python menjadi dataframe
# Buat list berisi `kode_tuple`, `nama_teman`, `umur_tuple`, dan `gaji_tuple`
list_of_objects = [kode_tuple, nama_teman, umur_tuple, gaji_tuple]
# Proses list_of_data menjadi dataframe
df_fundamental = (pd                                               # Dari modul pandas
                  .DataFrame(                                      # Gunakan method `DataFrame`
                      list_of_objects,                             # Untuk mengkonversi list_of_objects
                      index=['Kode', 'Nama', 'Umur', 'Gaji'])      # Dengan index sesuai dengan list yang disediakan
                  .T                                               # Transpose dataframe
                  .set_index('Kode'))                              # Set kolom 'Kode' menjadi index
# Check hasil konversi
df_fundamental

Unnamed: 0_level_0,Nama,Umur,Gaji
Kode,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
100,Amir,25,1000000
200,Beni,20,2000000
300,Cinta,30,3000000
400,Dimas,40,4000000
500,Edi,50,5000000


In [126]:
# 2. Mengkonversi beberapa series menjadi dataframe
# Buat list berisi kode_tuple, nama_teman, umur_tuple, dan gaji_tuple yang telah diubah menjadi object series
list_of_series = [pd.Series(kode_tuple, name='Kode'),
                  pd.Series(nama_teman, name='Nama'),
                  pd.Series(umur_tuple, name='Usia'),
                  pd.Series(gaji_tuple, name='Gaji')
]
# Proses list_of_series menjadi dataframe
df_series = pd.DataFrame(list_of_series).T.set_index('Kode')
df_series

Unnamed: 0_level_0,Nama,Usia,Gaji
Kode,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
100,Amir,25,1000000
200,Beni,20,2000000
300,Cinta,30,3000000
400,Dimas,40,4000000
500,Edi,50,5000000


In [127]:
# 3. Menkonversi dictionary menjadi dataframe
# Buat dictionary kengan keys=['Kode', 'Nama', 'Umur', 'Gaji'] dan values=[kode_tuple, nama_teman, umur_tuple, gaji_tuple]
data_teman = {'Kode' :kode_tuple,
              'Nama' :nama_teman,
              'Umur' :umur_tuple,
              'Gaji' :gaji_tuple,
}
# Konversi dictionary menjadi dataframe
df_dictionary = pd.DataFrame(data_teman).set_index('Kode')
df_dictionary

Unnamed: 0_level_0,Nama,Umur,Gaji
Kode,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
100,Amir,25,1000000
200,Beni,20,2000000
300,Cinta,30,3000000
400,Dimas,40,4000000
500,Edi,50,5000000


##### METHOD `pd.concat`
Method ini hanya dapat dipergunakan untuk menggabungkan object `dataframe` atau `series` menjadi sebuah dataframe.

Salah satu parameter pada method ini adalah `axis` yang akan menentukan bagaimana penggabungan akan dilakukan.
1. `axis` = 0, maka `series`/`dataframe` akan digabungkan secara tumpang tindih;
2. `axis`= 1, maka `series`/`dataframe` akan digabungkan secara bersebelahan.

Hal yang harus dipastikan adalah:
1. Jika `axis`=0, nama kolom pada setiap `dataframe`/`series` yang digabungkan sama;
2. Jika `axis`=1, penulisan index baris setiap `dataframe`/`series` yang digabungkan sama.

In [129]:
# Menggabungkan data pada list_of_series
pd.concat(list_of_series, axis=1)

Unnamed: 0,Kode,Nama,Usia,Gaji
0,100,Amir,25,1000000
1,200,Beni,20,2000000
2,300,Cinta,30,3000000
3,400,Dimas,40,4000000
4,500,Edi,50,5000000


---