# Meet 3 Managing Big Data with Python (2)
Pada sesi ini dibagi menjadi dua sub bahasan yaitu: \\
- Python data Structure
- Packages in Python

# **1. Python Data Structure**
Pada pertemuan sebelumnya, sudah menyinggung beberapa struktur data seperti **List** dan **Dictionaries**. Pada pertemuan kali ini, kita akan mendalami contoh dan penggunaan struktur data di program python. Tujuan mempelajari struktur data adalah: \\
- Data yang terkumpul memiliki format yang berbeda-beda, seperti angka, huruf, gambar, suara, dll
- Sangat besar ukuran data sehingga operasi data semakin tidak efisien \\

Sehingga Struktur data memungkinkan untuk mengatur data sedemikian rupa sehingga dapat dengan mudah untuk menyimpan kumpulan data, menghubungkannya dan melakukan operasi yang sesuai.

## **1.1 Lists**
**Lists** digunakan untuk menyimpan data dari berbagai tipe data secara berurutan. Ada yang ditetapkan ke setiap elemen **Lists**, yang disebut sebagai **indeks**. Struktur data ini paling sederhana dengan Python. **List** adalah kumpulan item (string, bilangan bulat, atau bahkan daftar lainnya). Mari kita sekarang memahami **Lists** dengan lebih baik dengan bantuan contoh program.

Berikut metode **List** yang dapat digunakan :


|Method  | Deskripsi                                                                              |
|--------------|---------------------------------------------------------------------------------------|
| append()      | menambahkan sebuah elemen diakhir sebuah list | 
| clear() |menghapus semua elemen disebuah lists | 
| copy()      | membuat salinan list                                                                          | 
| count()       | menghitung jumlah element dalam nilai yang spesifik     | 
| extend()       | menambahkan elemen pada list (atau beberapa iterable), ke akhir list saat ini  | 
| index()          | mengembalikan indeks elemen pertama dengan nilai yang ditentukan     | 
| insert() | menambahkan elemen pada posisi yang ditentukan                                | 
| pop() | Menghapus elemen pada posisi yang ditentukan |
| remove() | Menghapus item dengan nilai yang ditentukan |
|sort() | mengurutkan list

**Cara membuat List di Python**

In [1]:
# contoh List dengan beberapa tipe data
laci = ["buku", 21, True, 34.12]
laci

['buku', 21, True, 34.12]

In [2]:
# inisialisasi list buah
buah = ["apel", "anggur", "mangga", "jeruk"]
buah

['apel', 'anggur', 'mangga', 'jeruk']

**Mengambil Nilai dari List**

In [3]:
# mengambil item buah pada indeks ke-4
print(buah[1])

# mengambil item buah pada indeks -2
print(buah[-2])

anggur
mangga


**Mengganti Nilai dalam List**

In [4]:
# mengganti list buah pada indeks 2 dengan durian
buah[2] = "durian"
buah

['apel', 'anggur', 'durian', 'jeruk']

**Menambahkan Item List**

1. **Menambahkan Item dari Belakang**

In [5]:
# inisialisasi list
buah = ["apel", "anggur", "mangga", "jeruk"]

# menambahkan item manggis di akhir list dengan method append()
buah.append("manggis")
buah

['apel', 'anggur', 'mangga', 'jeruk', 'manggis']

In [6]:
# inisialisasi list
buah = ["apel", "anggur", "mangga", "jeruk"]

# menambahkan item manggis di akhir list tanpa method
buah = buah + ["manggis"]
buah

['apel', 'anggur', 'mangga', 'jeruk', 'manggis']

**Perbedaan append() dan extend()**

In [7]:
# membuat duplikasi list buah utk percobaan method append() dan extend()
buah_append = buah.copy()
buah_extend = buah.copy()

In [8]:
# pakai append()
buah_append.append(["pisang", "nangka"])
print("Pakai Append : ", buah_append)
print("Panjang List : ", len(buah_append))

Pakai Append :  ['apel', 'anggur', 'mangga', 'jeruk', 'manggis', ['pisang', 'nangka']]
Panjang List :  6


In [9]:
# pakai extend()
buah_extend.extend(["pisang", "nangka"])
print("Pakai Extend : ", buah_extend)
print("Panjang List : ", len(buah_extend))

Pakai Extend :  ['apel', 'anggur', 'mangga', 'jeruk', 'manggis', 'pisang', 'nangka']
Panjang List :  7


> **Terlihat bahwa method extend() dapat menambahkan beberapa item sekaligus, sedangkan method append() hanya dapat menambahkan 1 item. Hal itu dapat dibuktikan dari panjang listnya**

2. **Menambahkan Item pada Indeks Tertentu**

In [10]:
# menambahkan item rambutan pada indeks ke-3
buah.insert(3, "rambutan")
buah

['apel', 'anggur', 'mangga', 'rambutan', 'jeruk', 'manggis']

## **1.2 Dictionary**
Sama seperti pengertian **dictionary** dalam suatu bahasa, **dictionary** adalah struktur data yang bentuknya seperti kamus. Ada kata kunci **(key)** kemudian ada nilainya **(value)**. Dimana **key** harus unik, sedangkan **value** boleh diisi dengan apa saja. \\
- Dalam Python, **dictionary** ditulis dengan kurung **kurawal {}**, dengan serangkaian pasangan nilai kunci di dalam kurung kurawal.

Berikut metode **dictionary** yang dapat digunakan :

|Method  | Deskripsi                                                                              |
|--------------|---------------------------------------------------------------------------------------|
| clear() |menghapus semua elemen disebuah dictionary | 
| copy()      | membuat salinan dictionary                                                                      | 
|fromkeys()       | kembali ke dictionary dengan kunci dan nilai yang ditentukan     | 
| get()       | mengembalikan nilai kunci yang ditentukan  | 
| items()          | mengembalikan list yang berisi tupel untuk setiap pasangan nilai kunci    | 
|keys() | mengembalikan list yang mengandung kunci dictionary                             | 
| pop()                  |Menghapus elemen dengan kunci yang ditentukan|
|update() | memperbarui dictionary dengan pasangan nilai kunci yang ditentukan |
|values()|Mengembalikan sebuah list dari semua nilai di dictionary  |

[sumber](https://www.engineeringbigdata.com/wp-content/uploads/python-dictionary-methods.jpg)

**Cara membuat Dictionary di Python**

In [11]:
# contoh dictionary 
s20 = {"Color": "Black", "Size": 6.5, "Price": 19000000}
iphone_11 = {"Color": "Dark Grey", "Size": 6.1, "Price": 18500000}
print(s20)
print(iphone_11)

{'Color': 'Black', 'Size': 6.5, 'Price': 19000000}
{'Color': 'Dark Grey', 'Size': 6.1, 'Price': 18500000}


**Mengambil Nilai dari Dictionary**



In [12]:
# mengambil tanpa method get()
print(s20["Price"])

# mengambil dengan method get()
print(iphone_11.get("Size"))

19000000
6.1


**Mengganti Nilai dalam Dictionary**

In [13]:
# mengganti nilai pada key 'Size'
iphone_11["Size"] = 5.85
iphone_11

{'Color': 'Dark Grey', 'Size': 5.85, 'Price': 18500000}

**Menghapus Nilai dalam Dictionary**

In [14]:
# inisialisasi dict
iphone_11 = {"Color": "Dark Grey", "Size": 6.1, "Price": 18500000}

# menghapus pada key 'Color' dengan Pop
iphone_11.pop("Color")
iphone_11

{'Size': 6.1, 'Price': 18500000}

In [15]:
# inisialisasi dict
iphone_11 = {"Color": "Dark Grey", "Size": 6.1, "Price": 18500000}

# menghapus pada key 'Size' dengan del
del iphone_11["Size"]
iphone_11

{'Color': 'Dark Grey', 'Price': 18500000}

**Iterasi dalam Dictionary**

In [16]:
# Metode dictionary
pelajaran = {0 : 'Math', 1 : 'English', 2 : 'Science', 3 : 'Social'}
print(pelajaran)

# looping dalam dictionary
for key, value in pelajaran.items():
    print("Key = {}, Value = {}".format(key, value))

{0: 'Math', 1: 'English', 2: 'Science', 3: 'Social'}
Key = 0, Value = Math
Key = 1, Value = English
Key = 2, Value = Science
Key = 3, Value = Social


# **2. To be Familiar with Packages in Python**

Secara umum, ada beberapa tipe/struktur objek yang sering dikenal :
1. **Scalar** : single number
2. **Vector** : Array of numbers
3. **Matrix** : 2D array of numbers
4. **Tensor** : n-D array of numbers where n>2 



<img src="https://miro.medium.com/max/617/0*Vh-pKXTJsdL-9FT0.png"/>

[source](https://miro.medium.com/max/617/0*Vh-pKXTJsdL-9FT0.png)




<img src="https://www.oreilly.com/library/view/python-for-data/9781449323592/httpatomoreillycomsourceoreillyimages2172112.png" width="350px"/>

[sumber](https://www.oreilly.com/library/view/python-for-data/9781449323592/httpatomoreillycomsourceoreillyimages2172112.png)

**Cara menggunakan Packages Python (Contoh : Package Math)**

In [17]:
# import packages math
import math

# math.pi merupakan sintak untuk memanggil fungsi
print("Nilai pi adalah:", math.pi)

Nilai pi adalah: 3.141592653589793


 **Import Packages Menggunakan Rename atau Alias :**

In [18]:
 # menggunakan m sebagai package rename atau alias
import math as m               

# m.pi merupakan sintak untuk memanggil fungsi​
print("Nilai pi adalah:", m.pi) 

Nilai pi adalah: 3.141592653589793


> **Pada suatu package tidak bisa dipungkiri di dalamnya bisa terdiri dari puluhan bahkan ribuan fungsi. Namun, yang kita butuhkan hanya 1 atau 2 fungsi saja. Untuk meminimalisir ketidakefisienan suatu program dalam load suatu package bisa dilakukan import package namun hanya beberapa fungsi saja yang kita import ke dalam code.**

In [19]:
# import fungsi pi pada package Math
from math import pi

print("Nilai pi adalah", pi)	

Nilai pi adalah 3.141592653589793


> **Namun, jika memang yang dibutuhkan import packages semua atau banyak fungsi, semisal lebih dari 10 atau bahkan ratusan fungsi, bisa dilakukan import semuanya dengan menggunakan format from module_name import *. Tanda * disini menunjukan semua fungsi diimport ke dalam code.**

In [20]:
from math import *

print("Nilai pi adalah:", pi)

Nilai pi adalah: 3.141592653589793


## **2.1. Numpy**
NumPy (Numeric Python) adalah  salah satu packages pada Python yang berfungsi melakukan proses komputasi numerik. Packages ini sudah disediakan dalam python sehingga hanya perlu memanggil saja tanpa instalasi. Numpy sering digunakan dalam membuat program di python karena memiliki kelebihan dapat digunakan sebagai wadah multi-dimensi yang efisien untuk data generik dan banyak digunakan untuk operasi perhitungan matematika yang kompleks.

Kita dapat menginisialisasi array NumPy dengan cara memanggil package numpy di python seperti di bawah ini :


In [21]:
import numpy as np

Fitur utama NumPy adalah kelas objek array. Array mirip dengan list di Python,
kecuali bahwa setiap elemen larik harus berjenis sama, biasanya jenis numerik seperti float atau int. Array membuat operasi dengan data numerik dalam jumlah besar sangat cepat umumnya jauh lebih efisien daripada list.
Membuat array dengan menggunakan syntax `np.array`()




**Contoh membuat array pada Numpy**

In [22]:
# array dengan ukuran 4x1
array1 = np.array([1, 4, 5, 8], float)
print(f"array 1= ",array1)

# array dengan ukuran 2x3
array2=np.array([[1, 2, 3], [4, 5, 6]], float)
print(f"array2 =\n {array2}\n")

array 1=  [1. 4. 5. 8.]
array2 =
 [[1. 2. 3.]
 [4. 5. 6.]]



**Melihat ukuran array yang dibuat**

In [23]:
array1.shape

(4,)

In [24]:
array2.shape

(2, 3)

**Mengubah ukuran array**

In [25]:
# mengubah ukuran array dari 6x1 menjadi 2x3
array4 = np.array(range(6), float).reshape((2, 3))
print(f"array 4 =\n {array4}\n")


array 4 =
 [[0. 1. 2.]
 [3. 4. 5.]]



**Transpose array**

In [26]:
array4.transpose()

array([[0., 3.],
       [1., 4.],
       [2., 5.]])

**Menggabungkan beberapa array**

In [27]:
a = np.array([1,2,5], float)
b = np.array([3,4,5], float)
c = np.array([7,8,9], float)
np.concatenate((a, b, c))

array([1., 2., 5., 3., 4., 5., 7., 8., 9.])

In [28]:
a = np.array([[1, 2], [3, 4]], float)
b = np.array([[5, 6], [7,8]], float)
np.concatenate((a,b))


array([[1., 2.],
       [3., 4.],
       [5., 6.],
       [7., 8.]])

In [29]:
np.concatenate((a,b), axis=0)

array([[1., 2.],
       [3., 4.],
       [5., 6.],
       [7., 8.]])

In [30]:
np.concatenate((a,b), axis=1)

array([[1., 2., 5., 6.],
       [3., 4., 7., 8.]])

## **2.2. Pandas**

Pandas menyediakan dua struktur data yang sangat berguna untuk memproses data, yaitu **Series** dan **DataFrame**, yang dibahas
di bagian ini.

In [31]:
# import package pandas
import pandas as pd

### **Series**
`Series` adalah array satu dimensi yang dapat menyimpan berbagai tipe data, termasuk tipe data campuran. Label baris dalam Seri disebut indeks. Setiap list, tuple dan dictionaries dapat diubah menjadi Series menggunakan metode 'series' seperti yang ditunjukkan di bawah ini,

**Converting List to Series**

In [32]:
# converting list to Series
h = ['AA', '2012-02-01', 100, 10.2]
s = pd.Series(h)
s

0            AA
1    2012-02-01
2           100
3          10.2
dtype: object

In [33]:
# cek tipe data
type(s)

pandas.core.series.Series

**Converting Dictionary to Series**

In [34]:
# converting dict to Series
d = {'name' : 'IBM', 'date' : '2010-09-08', 'shares' : 100, 'price' : 10.2}
ds = pd.Series(d)
ds

name             IBM
date      2010-09-08
shares           100
price           10.2
dtype: object

In [35]:
# cek tipe data
type(ds)

pandas.core.series.Series

### **DataFrame**
DataFrame adalah struktur data pandas yang banyak digunakan. Perhatikan bahwa, Series digunakan untuk bekerja dengan satu dimensi array, sedangkan DataFrame dapat digunakan dengan array dua dimensi. DataFrame memiliki dua indeks berbeda yaitu kolom-indeks dan baris-indeks.

**Membuat DataFrame dari Dictionary**

In [36]:
# inisialisasi data dictionary
data = { 'name' : ['AA', 'IBM', 'GOOG'],
 'date' : ['2001-12-01', '2012-02-10', '2010-04-09'],
 'shares' : [100, 30, 90],
 'price' : [12.3, 10.3, 32.2]
 }

In [37]:
# converting dictionary to DataFrame
df = pd.DataFrame(data)
df

Unnamed: 0,name,date,shares,price
0,AA,2001-12-01,100,12.3
1,IBM,2012-02-10,30,10.3
2,GOOG,2010-04-09,90,32.2


In [38]:
# cek tipe data
type(df)

pandas.core.frame.DataFrame

**Mengubah index Dataframe**

In [39]:
df.index = ['one', 'two', 'three']
df

Unnamed: 0,name,date,shares,price
one,AA,2001-12-01,100,12.3
two,IBM,2012-02-10,30,10.3
three,GOOG,2010-04-09,90,32.2


In [40]:
df = df.set_index(['name'])
df

Unnamed: 0_level_0,date,shares,price
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AA,2001-12-01,100,12.3
IBM,2012-02-10,30,10.3
GOOG,2010-04-09,90,32.2


**Akses Kolom pada DataFrame**

In [41]:
# Akses kolom menggunakan index kolom
df['shares']

name
AA      100
IBM      30
GOOG     90
Name: shares, dtype: int64

> **Setiap kolom dapat dihapus menggunakan perintah `del` atau `drop`**

In [42]:
# membuat kolom baru
df['owner'] = 'Unknown'
df

Unnamed: 0_level_0,date,shares,price,owner
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,2001-12-01,100,12.3,Unknown
IBM,2012-02-10,30,10.3,Unknown
GOOG,2010-04-09,90,32.2,Unknown


In [43]:
# menghapus kolom del
del df['owner']
df

Unnamed: 0_level_0,date,shares,price
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AA,2001-12-01,100,12.3
IBM,2012-02-10,30,10.3
GOOG,2010-04-09,90,32.2
