## 1. Installing Pandas

Proses download dan install `pandas` library dapat dilakukan execute baris di bawah ini di local environment's console masing-masing:

`pip install pandas`

Jika menggunakan google colab, maka pandas sudah ada sehingga tidak usah menginstall lagi (cukup import). Bila menggunakan anaconda, dapat run baris tersebut di anaconda prompt.

In [None]:
import pandas
pandas.__version__    #cek versi

import pandas dan dinamakan sbg 'pd' agar lebih mudah dan efisisen

In [None]:
import pandas as pd

# Reviewing Pandas Object

1. **`Series`** : struktur data dasar yang bisa diibaratkan sebagai array satu dimensi yang mempunyai index 
2. **`DataFrame`**: struktur data 2 dimensi yang berbentuk tabular (mempunyai baris dan kolom). 
Kita dapat memikirkan dataframe sebagai kumpulan series

In [None]:
import numpy as np
import pandas as pd

### 2.1. Pandas `Series` Object

 ``Series`` merupakan array 1 dimensi yang mempunyai index. Dapat dibuat dari list maupun array seperti berikut:

In [None]:
data = pd.Series([0.15, 0.5, 0.75, 1.0])
data

0    0.15
1    0.50
2    0.75
3    1.00
dtype: float64

Output `Series` mempunyai `values` di sebelah kanan and `index` di sebelah kiri

In [None]:
data.values

array([0.15, 0.5 , 0.75, 1.  ])

In [None]:
data.index

RangeIndex(start=0, stop=4, step=1)

Seperti pada Numpy, kita dapat melakukan slicing pada index untuk mengeluarkan output value yang diinginkan

In [None]:
data[1]

0.5

In [None]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Seperti yang dapat dilihat,  ``Series`` pandas jauh lebih umum dan fleksibel dibandingkan dengan array satu dimensi.



#### 2.1.1. `Series` as generalized NumPy array

Membuat `series` dengan `index` tertentu. Perhatikan, banyaknya index dan value ditetapkan harus sama jumlahnya.

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [None]:
data['b']  #slicing index

0.5

Dapat juga digunakan index sembarang/bebas dalam membuat sebuah series.

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [None]:
data[5]

0.5

#### 2.1.2 `Series` as specialized dictionaries

Dictionary adalah koleksi data yang berisi key dan value. Disini, kita akan membuat series dari dictionary.

In [None]:
menu_dict = {'Ayam goreng': 12000,
             'Ayam bakar': 12001,
             'Ayam hidup': 190000,
             'Ayam': 20000,
             'Ayam juga': 20000}     #nama ayam disebut key dan harga disebut value

menu = pd.Series(menu_dict)
menu

Ayam goreng     12000
Ayam bakar      12001
Ayam hidup     190000
Ayam            20000
Ayam juga       20000
dtype: int64

In [None]:
menu['Ayam']

20000

In [None]:
menu['Ayam goreng':'Ayam hidup']    #dari ayam goreng sampai ayam hidup saja

Ayam goreng     12000
Ayam bakar      12001
Ayam hidup     190000
dtype: int64

### 2.2. Pandas `DataFrame` Object

``DataFrame`` merupakan array dua dimensi yang mempunyai column serta index yang fleksibel. Kedepannya, konsep penggunaan dataframe ini akan banyak digunakan dalam data science & machine learning, terutama dalam data preprocessing/cleaning sebelum melakukan modelling.

In [None]:
df_menu1 = pd.DataFrame(list(menu_dict.items()),
                   columns = ['Menu','Harga'])

In [None]:
df_menu1

In [None]:
menu_dict2 = {'Menu':['ayam goreng','ayam bakar','ayam rebus'],
              'Harga':[17000,15000,10000]}

In [None]:
df_menu2 = pd.DataFrame(menu_dict2)

In [None]:
df_menu2

In [None]:
menu = ['ayam goreng','ayam bakar','ayam rebus']
harga = [17000,15000,10000]
df_menu3 = pd.DataFrame({'nama':menu,
                         "biaya":harga})

In [None]:
df_menu3

Pertama-tama akan dilakukan ``Import`` melalui pd.read_csv (untuk format csv) atau pd.read_excel

In [None]:
#jika dataset dari url
url = 'masukkan url disini'
df = pd.read_csv(url)

In [None]:
#jika upload dataset
path = 'masukkan path filenya disini' #jangan lupa nama file.csv nya
df = pd.read_csv(path)

bisa tambahkan parameter sep="," atau sep = ";" tergantung delimiter file yang kamu upload

Untuk export/save ke bentuk csv, gunakan .to_csv()

In [None]:
df.to_csv('nama_file.csv')   #Untuk google colab, file akan muncul di folder layar kiri. Tinggal di download sadja.

In [None]:
pd.DataFrame.info(df)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 267 entries, 0 to 266
Data columns (total 25 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   TAHUN                 267 non-null    int64 
 1   NAMA PROVINSI         267 non-null    object
 2   NAMA KABUPATEN/KOTA   267 non-null    object
 3   NAMA KECAMATAN        267 non-null    object
 4   NAMA KELURAHAN        267 non-null    object
 5   LUAS WILAYAH (KM2)    267 non-null    object
 6   KEPADATAN (JIWA/KM2)  267 non-null    int64 
 7   35-39 Laki-Laki       267 non-null    int64 
 8   35-39 Perempuan       267 non-null    int64 
 9   40-44 Laki-Laki       267 non-null    int64 
 10  40-44 Perempuan       267 non-null    int64 
 11  45-49 Laki-Laki       267 non-null    int64 
 12  45-49 Perempuan       267 non-null    int64 
 13  50-54 Laki-Laki       267 non-null    int64 
 14  50-54 Perempuan       267 non-null    int64 
 15  55-59 Laki-Laki       267 non-null    in

1. `DataFrame.head()` -> menampilkan 5 baris pertama
2. `DataFrame.tail()` -> menampilkan 5 baris terakhir
3. `DataFrame.shape` -> jumlah baris kolom dan
4. `DataFrame.columns` -> menampilkan nama kolom
5. `DataFrame.index` -> menampilkan index baris
6. `DataFrame.info(data)`-> menampilkan informasi mengenai data

In [None]:
df.head()

Unnamed: 0,TAHUN,NAMA PROVINSI,NAMA KABUPATEN/KOTA,NAMA KECAMATAN,NAMA KELURAHAN,LUAS WILAYAH (KM2),KEPADATAN (JIWA/KM2),35-39 Laki-Laki,35-39 Perempuan,40-44 Laki-Laki,40-44 Perempuan,45-49 Laki-Laki,45-49 Perempuan,50-54 Laki-Laki,50-54 Perempuan,55-59 Laki-Laki,55-59 Perempuan,60-64 Laki-Laki,60-64 Perempuan,65-69 Laki-Laki,65-69 Perempuan,70-74 Laki-Laki,70-74 Perempuan,>75 Laki-Laki,>75 Perempuan
0,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. PANGGANG,0.91,6779,231,235,233,210,171,158,137,126,98,106,72,65,36,33,33,20,13,27
1,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. KELAPA,3.76,1705,84,88,99,88,72,63,34,29,30,39,29,24,12,21,13,5,5,8
2,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. HARAPAN,3.59,628,255,238,232,234,212,193,150,161,139,101,73,56,18,35,24,25,18,26
3,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU SLT,P. UNTUNG JAWA,0.59,3625,199,185,178,176,162,139,100,119,97,83,58,56,40,54,26,27,16,13
4,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU SLT,P. TIDUNG,1.57,3084,98,75,73,94,67,69,60,40,37,32,22,13,18,15,10,18,11,17


In [None]:
df.tail()

Unnamed: 0,TAHUN,NAMA PROVINSI,NAMA KABUPATEN/KOTA,NAMA KECAMATAN,NAMA KELURAHAN,LUAS WILAYAH (KM2),KEPADATAN (JIWA/KM2),35-39 Laki-Laki,35-39 Perempuan,40-44 Laki-Laki,40-44 Perempuan,45-49 Laki-Laki,45-49 Perempuan,50-54 Laki-Laki,50-54 Perempuan,55-59 Laki-Laki,55-59 Perempuan,60-64 Laki-Laki,60-64 Perempuan,65-69 Laki-Laki,65-69 Perempuan,70-74 Laki-Laki,70-74 Perempuan,>75 Laki-Laki,>75 Perempuan
262,2013,PROVINSI DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,MUNJUL,1.9,12734,1167,1112,1026,977,839,800,668,622,482,482,302,291,173,137,118,94,52,51
263,2013,PROVINSI DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,SETU,3.25,6028,937,928,857,824,705,640,512,471,392,354,254,211,124,115,64,83,59,64
264,2013,PROVINSI DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,BAMBU APUS,3.17,8400,1242,1187,1062,1063,984,917,731,841,596,476,377,250,169,179,108,96,70,84
265,2013,PROVINSI DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,LUBANG BUAYA,3.72,18055,3258,2988,2732,2660,2311,2222,1766,1788,1376,1308,959,739,393,385,293,291,160,165
266,2013,PROVINSI DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,3.63,5492,1007,930,874,804,701,652,493,503,416,390,279,214,110,153,101,53,45,44


In [None]:
df.head(1)  #menampilkan 1 baris pertama saja

Unnamed: 0,TAHUN,NAMA PROVINSI,NAMA KABUPATEN/KOTA,NAMA KECAMATAN,NAMA KELURAHAN,LUAS WILAYAH (KM2),KEPADATAN (JIWA/KM2),35-39 Laki-Laki,35-39 Perempuan,40-44 Laki-Laki,40-44 Perempuan,45-49 Laki-Laki,45-49 Perempuan,50-54 Laki-Laki,50-54 Perempuan,55-59 Laki-Laki,55-59 Perempuan,60-64 Laki-Laki,60-64 Perempuan,65-69 Laki-Laki,65-69 Perempuan,70-74 Laki-Laki,70-74 Perempuan,>75 Laki-Laki,>75 Perempuan
0,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. PANGGANG,0.91,6779,231,235,233,210,171,158,137,126,98,106,72,65,36,33,33,20,13,27


In [None]:
df.columns  #melihat nama kolom apa aja

Index(['TAHUN', 'NAMA PROVINSI', 'NAMA KABUPATEN/KOTA', 'NAMA KECAMATAN',
       'NAMA KELURAHAN', 'LUAS WILAYAH (KM2)', 'KEPADATAN (JIWA/KM2)',
       '35-39 Laki-Laki', '35-39 Perempuan', '40-44 Laki-Laki',
       '40-44 Perempuan', '45-49 Laki-Laki', '45-49 Perempuan',
       '50-54 Laki-Laki', '50-54 Perempuan', '55-59 Laki-Laki',
       '55-59 Perempuan', '60-64 Laki-Laki', '60-64 Perempuan',
       '65-69 Laki-Laki', '65-69 Perempuan', '70-74 Laki-Laki',
       '70-74 Perempuan', '>75 Laki-Laki', '>75  Perempuan'],
      dtype='object')

In [None]:
df.index

RangeIndex(start=0, stop=267, step=1)

In [None]:
df.shape

(267, 25)

 ### 2.3. Pandas `Index` Object

Slicing pada Index object dapat dilakukan dalam bentuk list maupun array. 

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])   #define sebuah index
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [None]:
ind[1] # menampilkan elemen pada posisi 1 (index python dimulai dari 0)

3

In [None]:
ind[::2] # menampilkan elemen dimulai dari posisi 0 dua per dua.

Int64Index([2, 5, 11], dtype='int64')

salah satu perbedaan ``Index`` object dan array `Numpy` arrays adalah indices-nya yang **immutable**. Artinya, indicenya tidak dapat dilakukan modifikasi / update value ke dalamnya.

In [None]:
ind[1] = 0 #akan error

TypeError: ignored

## 3. Data Indexing and Selection

### 3.1. Data Selection in `Series`

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])      #buat sebuah series
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [None]:
data['d'] = 0.95 # update value dari index 'd' menjadi 0.95
data

a    0.25
b    0.50
c    0.75
d    0.95
dtype: float64

In [None]:
data['e'] = 1.25 # Menambah value baru dengan index 'e'
data

a    0.25
b    0.50
c    0.75
d    0.95
e    1.25
dtype: float64

Melakukan slicing dapat dilakukan dengan dua cara, secara explicit dan implicit (integer index)

In [None]:
data['a':'c']   #explicit

a    0.25
b    0.50
c    0.75
dtype: float64

In [None]:
data[0:3]  #implicit integer index

a    0.25
b    0.50
c    0.75
dtype: float64

Kita dapat menampilkan sekumpulan indices yang telah ditentukan dengan menaruhnya ke dalam sebuah list

In [None]:
data[['a', 'e']]      #  'a' dan 'e' dimasukkan dalam list menjadi ['a','e']

a    0.25
e    1.25
dtype: float64

Perhatikan, saat melakukan slicing dengan explicit index (misal, `data ['a':'c']`), final index diikutsertakan dalam outputnya, sementara ketika melakukan slicing dengan implicit index (misal, `data[0:2]`), final index tidak diikutsertakan dalam outputnya. Ketika slicing melalui list (misal, `data [['a', 'e']]`), semua indices dari a sampai e akan ditampilkan.

### 3.2. Indexers: loc, iloc for `Series`

Secara sederhana,
**loc** : slicing & indexing melalui explicit index. Sedangkan **iloc** : slicing & indexing melalui implisit index (angka)

In [None]:
data = pd.Series(['Hello', 'DPhi', 'world'], index=['a', 'b', 'c'])     #define sebuah series baru
data

a    Hello
b     DPhi
c    world
dtype: object

#### 3.2.1. `loc` attribute

In [None]:
data.loc['a']    #menampilkan value dari index 'a'

'Hello'

#### 3.2.2. `iloc` attribute

In [None]:
data.iloc[1]   # menampilkan index ke 1

'DPhi'

In [None]:
data.iloc[1:3]   #menampilkan index ke 1 dan 2

b     DPhi
c    world
dtype: object

### 3.3. Data Selection in `DataFrame`

In [None]:
df.head(1)

Unnamed: 0,TAHUN,NAMA PROVINSI,NAMA KABUPATEN/KOTA,NAMA KECAMATAN,NAMA KELURAHAN,LUAS WILAYAH (KM2),KEPADATAN (JIWA/KM2),35-39 Laki-Laki,35-39 Perempuan,40-44 Laki-Laki,40-44 Perempuan,45-49 Laki-Laki,45-49 Perempuan,50-54 Laki-Laki,50-54 Perempuan,55-59 Laki-Laki,55-59 Perempuan,60-64 Laki-Laki,60-64 Perempuan,65-69 Laki-Laki,65-69 Perempuan,70-74 Laki-Laki,70-74 Perempuan,>75 Laki-Laki,>75 Perempuan
0,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. PANGGANG,0.91,6779,231,235,233,210,171,158,137,126,98,106,72,65,36,33,33,20,13,27


In [None]:
df['TAHUN']  #menampilkan satu kolom saja (outputnya series)

0      2013
1      2013
2      2013
3      2013
4      2013
       ... 
262    2013
263    2013
264    2013
265    2013
266    2013
Name: TAHUN, Length: 267, dtype: int64

Output yang sama di atas dapat diperoleh dengan :

In [None]:
df.TAHUN    #Tidak dapat dilakukan pada nama kolom yang mempunyai spasi

0      2013
1      2013
2      2013
3      2013
4      2013
       ... 
262    2013
263    2013
264    2013
265    2013
266    2013
Name: TAHUN, Length: 267, dtype: int64

In [None]:
df[['TAHUN']]     #outputnya dataframe

Unnamed: 0,TAHUN
0,2013
1,2013
2,2013
3,2013
4,2013
...,...
262,2013
263,2013
264,2013
265,2013


Bisa juga membuat sebuah kolom baru yang diperoleh dari gabungan dua kolom lain. Misalkan disini ingin digabung jumlah laki2 dan perempuan yang berusia 50-54

In [None]:
df['gabungan_50-54'] = df['50-54 Laki-Laki'] + df['50-54 Perempuan']
df[['gabungan_50-54','50-54 Laki-Laki','50-54 Perempuan']] .head(3)   #lihat tiga kolom ini aja

Unnamed: 0,gabungan_50-54,50-54 Laki-Laki,50-54 Perempuan
0,263,137,126
1,63,34,29
2,311,150,161


### 3.4. Indexers: loc, iloc for `DataFrame`

Sama seperti pada series, **loc** digunakan untuk slicing menggunakan explicit index(nama indexnya langsung) dan **iloc** menggunakan implicit index (angka/urutan)

yang penting pahami bahwa functionnya itu

df.iloc[baris, kolom]

#### 3.4.1. `loc` attribute

Definisikan sebuah dataframe baru menggunakan dataset penduduk sebelumnya dengan set 'NAMA KELUARAHAN' sebagai index  (untuk contoh saja)

In [None]:
df1 = df.set_index('NAMA KELURAHAN')

In [None]:
df1.head(3)

Unnamed: 0_level_0,TAHUN,NAMA PROVINSI,NAMA KABUPATEN/KOTA,NAMA KECAMATAN,LUAS WILAYAH (KM2),KEPADATAN (JIWA/KM2),35-39 Laki-Laki,35-39 Perempuan,40-44 Laki-Laki,40-44 Perempuan,45-49 Laki-Laki,45-49 Perempuan,50-54 Laki-Laki,50-54 Perempuan,55-59 Laki-Laki,55-59 Perempuan,60-64 Laki-Laki,60-64 Perempuan,65-69 Laki-Laki,65-69 Perempuan,70-74 Laki-Laki,70-74 Perempuan,>75 Laki-Laki,>75 Perempuan,gabungan_50-54
NAMA KELURAHAN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1
P. PANGGANG,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,0.91,6779,231,235,233,210,171,158,137,126,98,106,72,65,36,33,33,20,13,27,263
P. KELAPA,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,3.76,1705,84,88,99,88,72,63,34,29,30,39,29,24,12,21,13,5,5,8,63
P. HARAPAN,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,3.59,628,255,238,232,234,212,193,150,161,139,101,73,56,18,35,24,25,18,26,311


In [None]:
df1.loc[  :'P. TIDUNG', :'NAMA KECAMATAN']   #menampilkan baris hingga 'P. TIDUNG', kolom hingga 'NAMA KECAMATAN'

Unnamed: 0_level_0,TAHUN,NAMA PROVINSI,NAMA KABUPATEN/KOTA,NAMA KECAMATAN
NAMA KELURAHAN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
P. PANGGANG,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR
P. KELAPA,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR
P. HARAPAN,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR
P. UNTUNG JAWA,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU SLT
P. TIDUNG,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU SLT


In [None]:
df1.loc[['P. KELAPA']]   #menampilkan data dari index 'P. KELAPA'

Unnamed: 0_level_0,TAHUN,NAMA PROVINSI,NAMA KABUPATEN/KOTA,NAMA KECAMATAN,LUAS WILAYAH (KM2),KEPADATAN (JIWA/KM2),35-39 Laki-Laki,35-39 Perempuan,40-44 Laki-Laki,40-44 Perempuan,45-49 Laki-Laki,45-49 Perempuan,50-54 Laki-Laki,50-54 Perempuan,55-59 Laki-Laki,55-59 Perempuan,60-64 Laki-Laki,60-64 Perempuan,65-69 Laki-Laki,65-69 Perempuan,70-74 Laki-Laki,70-74 Perempuan,>75 Laki-Laki,>75 Perempuan
NAMA KELURAHAN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
P. KELAPA,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,376,1705,84,88,99,88,72,63,34,29,30,39,29,24,12,21,13,5,5,8


In [None]:
df1.loc[['P. KELAPA']]

Unnamed: 0_level_0,TAHUN,NAMA PROVINSI,NAMA KABUPATEN/KOTA,NAMA KECAMATAN,LUAS WILAYAH (KM2),KEPADATAN (JIWA/KM2),35-39 Laki-Laki,35-39 Perempuan,40-44 Laki-Laki,40-44 Perempuan,45-49 Laki-Laki,45-49 Perempuan,50-54 Laki-Laki,50-54 Perempuan,55-59 Laki-Laki,55-59 Perempuan,60-64 Laki-Laki,60-64 Perempuan,65-69 Laki-Laki,65-69 Perempuan,70-74 Laki-Laki,70-74 Perempuan,>75 Laki-Laki,>75 Perempuan
NAMA KELURAHAN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
P. KELAPA,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,376,1705,84,88,99,88,72,63,34,29,30,39,29,24,12,21,13,5,5,8


#### 3.4.2. `iloc` attribute

In [None]:
df1.iloc[:5, :4]

Unnamed: 0_level_0,TAHUN,NAMA PROVINSI,NAMA KABUPATEN/KOTA,NAMA KECAMATAN
NAMA KELURAHAN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
P. PANGGANG,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR
P. KELAPA,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR
P. HARAPAN,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR
P. UNTUNG JAWA,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU SLT
P. TIDUNG,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU SLT


In [None]:
df['LUAS WILAYAH (KM2)']>1

0      False
1       True
2       True
3      False
4       True
       ...  
262     True
263     True
264     True
265     True
266     True
Name: LUAS WILAYAH (KM2), Length: 267, dtype: bool

In [None]:
df1.iloc[[222]]

Unnamed: 0_level_0,TAHUN,NAMA PROVINSI,NAMA KABUPATEN/KOTA,NAMA KECAMATAN,LUAS WILAYAH (KM2),KEPADATAN (JIWA/KM2),35-39 Laki-Laki,35-39 Perempuan,40-44 Laki-Laki,40-44 Perempuan,45-49 Laki-Laki,45-49 Perempuan,50-54 Laki-Laki,50-54 Perempuan,55-59 Laki-Laki,55-59 Perempuan,60-64 Laki-Laki,60-64 Perempuan,65-69 Laki-Laki,65-69 Perempuan,70-74 Laki-Laki,70-74 Perempuan,>75 Laki-Laki,>75 Perempuan,gabungan_50-54
NAMA KELURAHAN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1
CIPINANG BESAR UTARA,2013,PROVINSI DKI JAKARTA,JAKARTA TIMUR,JATINEGARA,1.15,48850,2704,2409,2344,2180,1856,1784,1480,1463,1170,1126,742,765,403,441,307,350,228,247,2943


### 3.5. Subsetting a `Dataframe`

condition = ... (disarankan conditionnya dimasukkin ke variabel gini biar ga bingung dalam penulisannya)

df[condition]

ingat bahwa di condition merupakan logical statement dimana harus bernilai TRUE atau FALSE (Boolean)

Memungkinkan kita untuk mengekstrak/filter bagian dari data yang diinginkan. Misal kita ingin menampilkan data yang luas wilayahnya memenuhi 1 (KM2).

In [None]:
df['LUAS WILAYAH (KM2)']>1

0      False
1       True
2       True
3      False
4       True
       ...  
262     True
263     True
264     True
265     True
266     True
Name: LUAS WILAYAH (KM2), Length: 267, dtype: bool

Diperoleh sebuah series yang berisi boolean value. Jika kita slice data awal dengan boolean value ini, maka akan diperoleh data dengan luas wilayah >1 (yang akan ditampilkan adalah yang True saja)

In [None]:
df[df['LUAS WILAYAH (KM2)']>1].head()  #head akan menunjukkan 5 baris pertama, ga pakai head juga sabi

Unnamed: 0,TAHUN,NAMA PROVINSI,NAMA KABUPATEN/KOTA,NAMA KECAMATAN,NAMA KELURAHAN,LUAS WILAYAH (KM2),KEPADATAN (JIWA/KM2),35-39 Laki-Laki,35-39 Perempuan,40-44 Laki-Laki,40-44 Perempuan,45-49 Laki-Laki,45-49 Perempuan,50-54 Laki-Laki,50-54 Perempuan,55-59 Laki-Laki,55-59 Perempuan,60-64 Laki-Laki,60-64 Perempuan,65-69 Laki-Laki,65-69 Perempuan,70-74 Laki-Laki,70-74 Perempuan,>75 Laki-Laki,>75 Perempuan
1,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. KELAPA,3.76,1705,84,88,99,88,72,63,34,29,30,39,29,24,12,21,13,5,5,8
2,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. HARAPAN,3.59,628,255,238,232,234,212,193,150,161,139,101,73,56,18,35,24,25,18,26
4,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU SLT,P. TIDUNG,1.57,3084,98,75,73,94,67,69,60,40,37,32,22,13,18,15,10,18,11,17
5,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU SLT,P. PARI,1.39,1968,113,112,108,80,66,62,61,63,37,36,32,26,21,14,17,11,8,7
6,2013,PROVINSI DKI JAKARTA,JAKARTA PUSAT,GAMBIR,GAMBIR,2.58,1350,166,174,130,165,176,162,129,97,108,90,88,42,68,34,37,32,34,23
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
262,2013,PROVINSI DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,MUNJUL,1.90,12734,1167,1112,1026,977,839,800,668,622,482,482,302,291,173,137,118,94,52,51
263,2013,PROVINSI DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,SETU,3.25,6028,937,928,857,824,705,640,512,471,392,354,254,211,124,115,64,83,59,64
264,2013,PROVINSI DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,BAMBU APUS,3.17,8400,1242,1187,1062,1063,984,917,731,841,596,476,377,250,169,179,108,96,70,84
265,2013,PROVINSI DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,LUBANG BUAYA,3.72,18055,3258,2988,2732,2660,2311,2222,1766,1788,1376,1308,959,739,393,385,293,291,160,165


Terlihat yang ditampilkan adalah data2 dengan luas wilayah >1. Bisa juga diberikan 2 kondisi dan gunakan logical operator

In [None]:
df[(df['LUAS WILAYAH (KM2)']>1) & (df['KEPADATAN (JIWA/KM2)'] < 1000)]  #  & (and) artinya dua2nyah harus terpenuhi

Unnamed: 0,TAHUN,NAMA PROVINSI,NAMA KABUPATEN/KOTA,NAMA KECAMATAN,NAMA KELURAHAN,LUAS WILAYAH (KM2),KEPADATAN (JIWA/KM2),35-39 Laki-Laki,35-39 Perempuan,40-44 Laki-Laki,40-44 Perempuan,45-49 Laki-Laki,45-49 Perempuan,50-54 Laki-Laki,50-54 Perempuan,55-59 Laki-Laki,55-59 Perempuan,60-64 Laki-Laki,60-64 Perempuan,65-69 Laki-Laki,65-69 Perempuan,70-74 Laki-Laki,70-74 Perempuan,>75 Laki-Laki,>75 Perempuan,gabungan_50-54
2,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. HARAPAN,3.59,628,255,238,232,234,212,193,150,161,139,101,73,56,18,35,24,25,18,26,311


In [None]:
df[(df['LUAS WILAYAH (KM2)']>1) | (df['KEPADATAN (JIWA/KM2)'] < 1000)].head(3)  #  | (or) artinya yg penting salah satu terpenuhi

Unnamed: 0,TAHUN,NAMA PROVINSI,NAMA KABUPATEN/KOTA,NAMA KECAMATAN,NAMA KELURAHAN,LUAS WILAYAH (KM2),KEPADATAN (JIWA/KM2),35-39 Laki-Laki,35-39 Perempuan,40-44 Laki-Laki,40-44 Perempuan,45-49 Laki-Laki,45-49 Perempuan,50-54 Laki-Laki,50-54 Perempuan,55-59 Laki-Laki,55-59 Perempuan,60-64 Laki-Laki,60-64 Perempuan,65-69 Laki-Laki,65-69 Perempuan,70-74 Laki-Laki,70-74 Perempuan,>75 Laki-Laki,>75 Perempuan,gabungan_50-54
1,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. KELAPA,3.76,1705,84,88,99,88,72,63,34,29,30,39,29,24,12,21,13,5,5,8,63
2,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. HARAPAN,3.59,628,255,238,232,234,212,193,150,161,139,101,73,56,18,35,24,25,18,26,311
4,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU SLT,P. TIDUNG,1.57,3084,98,75,73,94,67,69,60,40,37,32,22,13,18,15,10,18,11,17,100


Selain operator & dan |, dapat digunakan juga operator ~, yaitu negasi.

In [None]:
df[~((df['LUAS WILAYAH (KM2)']>1) & (df['LUAS WILAYAH (KM2)']<3))] .head(3)  #selain yang di range 1-3

Unnamed: 0,TAHUN,NAMA PROVINSI,NAMA KABUPATEN/KOTA,NAMA KECAMATAN,NAMA KELURAHAN,LUAS WILAYAH (KM2),KEPADATAN (JIWA/KM2),35-39 Laki-Laki,35-39 Perempuan,40-44 Laki-Laki,40-44 Perempuan,45-49 Laki-Laki,45-49 Perempuan,50-54 Laki-Laki,50-54 Perempuan,55-59 Laki-Laki,55-59 Perempuan,60-64 Laki-Laki,60-64 Perempuan,65-69 Laki-Laki,65-69 Perempuan,70-74 Laki-Laki,70-74 Perempuan,>75 Laki-Laki,>75 Perempuan,gabungan_50-54
0,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. PANGGANG,0.91,6779,231,235,233,210,171,158,137,126,98,106,72,65,36,33,33,20,13,27,263
1,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. KELAPA,3.76,1705,84,88,99,88,72,63,34,29,30,39,29,24,12,21,13,5,5,8,63
2,2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. HARAPAN,3.59,628,255,238,232,234,212,193,150,161,139,101,73,56,18,35,24,25,18,26,311
