### **Pandas**

- Library Pandas digunakan memanipulasi data.
- Pandas dibangun dengan NumPy package sebagai basisnya.
- Data struktur pada Pandas disebut Series dan DataFrame.

**Series**
- Koleksi data seperti list dan array 1D yang bisa menampung berbagai tipe data pada Python, bukan hanya data numerik saja.
- Yang membedakan Series dengan list dan array adalah Series meiliki nama atau label pada index-nya.

**DataFrame**
- Kumpulan dari Series yang memiliki index yang sama.
- Bentuk DataFrame seperti tabel, dengan baris dan kolom, di mana tiap kolom berisi satu variabel dan tiap baris berisi satu observasi.
- Misal: Nama, Umur, Kota, Pekerjaan adalah contoh variabel (kolom), dan data dari tiap individu adalah isi barisnya.

In [1]:
# Import libraries
import numpy as np
import pandas as pd 

#### **Membuat Series**

In [15]:
my_list = [10, 20, 30]
my_array = np.array([10, 20, 30])
my_dict = {'A': 10, 'B': 20, 'C': 30}
label = 'A B C'.split()

In [8]:
# Membuat Series dari list
pd.Series(my_list, index=label, name='Dari List')

A    10
B    20
C    30
Name: Dari List, dtype: int64

In [14]:
# Bisa langsung mereferensikan data dan index-nya saja
# Kalau dictionary, key akan menjadi index, dan value akan menjadi isi Series-nya.
# Tidak bisa memasukkan label jika referensi datanya adalah dictionary.
pd.Series(my_dict)

A    10
B    20
C    30
dtype: int64

In [10]:
# Contoh lain
pd.Series(my_array, index=['No. 1', 'No. 2', 'No. 3'])

No. 1    10
No. 2    20
No. 3    30
dtype: int32

**Operasi aritmatika pada Series**

In [18]:
seri_1 = pd.Series(my_list, index=label)
seri_2 = pd.Series(my_array, index='B C D'.split())

print(seri_1)
print(seri_2)

A    10
B    20
C    30
dtype: int64
B    10
C    20
D    30
dtype: int32


In [17]:
seri_1 + seri_2

# Operasi aritmatik pada Series akan terjadi hanya pada index dengan label yang sama.
# Jika tidak ada label yang sama, maka output-nya adalah NaN (Not a Number).
# Label adalah nama yang diberikan untuk index.

A     NaN
B    30.0
C    50.0
D     NaN
dtype: float64

In [20]:
# Label dengan menggunakan data type yang lain
labels = ['a', 'b', 'c']

pd.Series(labels)

0    a
1    b
2    c
dtype: object

In [21]:
# Series juga dapat menampung functions
pd.Series([sum, print, len])

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

**DataFrame**

Ada 3 parameter yang harus dimasukkan saat membuat DataFrame:
1. Parameter data: Untuk memasukkan data yang ingin dimasukkan. Misal: berupa kumpulan list. Pastikan ukuran list-nya sama.
2. Parameter index: Untuk memberi nama atau label pada index-nya.
3. Parameter columns: Untuk memberi nama atau label pada kolom DataFrame.

In [22]:
# Membuat array
my_array = np.random.randint(1, 16, 9).reshape(3, 3)

# Membuat list
list1 = [1, 2, 3]
list2 = [4, 5, 6]
list3 = [6, 7, 8]

In [23]:
# Membuat DataFrame dari Array
pd.DataFrame(my_array, columns='A B C'.split(), index='X Y Z'.split())

Unnamed: 0,A,B,C
X,3,5,2
Y,15,11,14
Z,11,2,11


In [24]:
# Membuat DataFrame dari List
pd.DataFrame([list1, list2, list3], columns='A B C'.split()) # Masing-masing list akan menjadi 1 baris

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,6,7,8


In [25]:
# Contoh lain
a = [i for i in range (1, 5)]
b = [i for i in range (5, 9)]
c = [i for i in range (9, 13)]

In [29]:
# Setiap list menjadi 1 baris
pd.DataFrame(data=[a, b, c],
            index='A B C'.split(),
            columns='W X Y Z'.split())

Unnamed: 0,W,X,Y,Z
A,1,2,3,4
B,5,6,7,8
C,9,10,11,12


In [32]:
# Mengubah menjadi 1 list = 1 kolom
# Cara 1: Menggunakan zip()
pd.DataFrame(data=list(zip(a, b, c)),
            index='W X Y Z'.split(),
            columns='A B C'.split())

Unnamed: 0,A,B,C
W,1,5,9
X,2,6,10
Y,3,7,11
Z,4,8,12


In [33]:
# Mengubah menjadi 1 list = 1 kolom
# Cara 2: Menggunakan .T (transpose)
pd.DataFrame(data=[a, b, c],
            index='A B C'.split(),
            columns='W X Y Z'.split()).T

Unnamed: 0,A,B,C
W,1,5,9
X,2,6,10
Y,3,7,11
Z,4,8,12


In [36]:
# Membuat DataFrame dari nested list
new_list = [[1, 2, 3, 4],
            [5, 6, 7, 8],
            [9, 10, 11, 12]]

print(pd.DataFrame(new_list,
            index='A B C'.split(),
            columns='W X Y Z'.split()))

print(pd.DataFrame(new_list,
            index='A B C'.split(),
            columns='W X Y Z'.split()).T)

   W   X   Y   Z
A  1   2   3   4
B  5   6   7   8
C  9  10  11  12
   A  B   C
W  1  5   9
X  2  6  10
Y  3  7  11
Z  4  8  12


In [43]:
# Membuat DataFrame dari Dictionary
# Key pada dictionary akan otomatis menjadi nama kolom.
new_dict = {'A': [1, 2, 3, 4],
            'B': [5, 6, 7, 8],
            'C': [9, 10, 11, 12]}

pd.DataFrame(new_dict, index='W X Y Z'.split())

Unnamed: 0,A,B,C
W,1,5,9
X,2,6,10
Y,3,7,11
Z,4,8,12


**Menamai kolom dan index pada DataFrame**

In [44]:
# Cara 1
# Menggunakan split()
# Antar nama kolom dipisahkan spasi saja, dan dimasukkan ke dalam satu string.

pd.DataFrame([list1, list2, list3],
            columns='kolom_1 kolom_2 kolom_3'.split(),
            index='index_1 index_2 index_3'.split())

Unnamed: 0,kolom_1,kolom_2,kolom_3
index_1,1,2,3
index_2,4,5,6
index_3,6,7,8


In [45]:
# Cara 2
# Memasukkan nama kolom dan index pada sebuah list.
# Tidak perlu menggunakan split().

pd.DataFrame([list1, list2, list3],
            columns=['kolom_1', 'kolom_2', 'kolom_3'],
            index=['index_1', 'index_2', 'index_3'])

Unnamed: 0,kolom_1,kolom_2,kolom_3
index_1,1,2,3
index_2,4,5,6
index_3,6,7,8


**Latihan**

In [46]:
# Cara 1
# Langsung definisikan data dan menggunakan split()
df = pd.DataFrame({'name': ['Raven Bierman', 'Valter Havers', 'Marko Mendell', 'Takahiro Momota', 'Yahiko Tilemans', 'Dina Rebaine'],
                    'gender': ['Female', 'Male', 'Male', 'Male', 'Male', 'Female'],
                    'hire date': ['2016-12-04', '2018-04-13', '2018-07-04', '2016-11-18', '2017-05-26', '2015-03-20'],
                    'gross salary': [7000000, 7000000, 15000000, 12000000, 20000000, 15000000]}, 
                    index='100111 100112 200210 200211 200312 300207'.split())

df

Unnamed: 0,name,gender,hire date,gross salary
100111,Raven Bierman,Female,2016-12-04,7000000
100112,Valter Havers,Male,2018-04-13,7000000
200210,Marko Mendell,Male,2018-07-04,15000000
200211,Takahiro Momota,Male,2016-11-18,12000000
200312,Yahiko Tilemans,Male,2017-05-26,20000000
300207,Dina Rebaine,Female,2015-03-20,15000000


In [47]:
# Cara 2
# Definisikan dahulu datanya pada tiap variabel
name = ['Raven Bierman', 'Valter Havers', 'Marko Mendell', 'Takahiro Momota', 'Yahiko Tilemans', 'Dina Rebaine']
gender = ['Female', 'Male', 'Male', 'Male', 'Male', 'Female']
hire_date = ['2016-12-04', '2018-04-13', '2018-07-04', '2016-11-18', '2017-05-26', '2015-03-20']
gross_salary = [7000000, 7000000, 15000000, 12000000, 20000000, 15000000]
index = [100111, 100112, 200210, 200211, 200312, 300207]

In [48]:
# Menggunakan zip() untuk mengepak ulang tiap variabel
pd.DataFrame(list(zip(name, gender, hire_date, gross_salary)),
            index=index,
            columns=['Name', 'Gender', 'Hire Data', 'Gross Salary'])

Unnamed: 0,Name,Gender,Hire Data,Gross Salary
100111,Raven Bierman,Female,2016-12-04,7000000
100112,Valter Havers,Male,2018-04-13,7000000
200210,Marko Mendell,Male,2018-07-04,15000000
200211,Takahiro Momota,Male,2016-11-18,12000000
200312,Yahiko Tilemans,Male,2017-05-26,20000000
300207,Dina Rebaine,Female,2015-03-20,15000000


#### **Indexing & Selection**

Kita juga bisa melakukan indexing pada DataFrame untuk memilih atau mengakses data tertentu, seperti halnya pada list dan array.

- Untuk memilih data di dalam DataFrame, index pertama yang harus dituliskan adalah nama kolom.
<br><br>
- Misalnya, kita ingin memilih kolom pertama di tabel df yang bernama name, maka kodenya adalah df['name'], bukan df[0].
- Penulisan nama kolom harus tepat, karena case sensitive.
- Selanjutnya, di kolom 'Name' ini kita ingin menampilkan baris pertama saja, maka tuliskan posisi elemen sesuai index barisnya.
- Jalankan df['name'][0] untuk menampilkan baris pertama pada kolom 'name'.
- Jika ingin menampilkan lebih dari satu baris, maka lakukan start:stop:step pada index kedua.
- Misal: Jalankan df['name'][:2] untuk menampilkan nilai pertama dan kedua pada kolom 'name'. Dengan cara indexing seperti ini, output-nya adalah Pandas Series.

In [49]:
df

Unnamed: 0,name,gender,hire date,gross salary
100111,Raven Bierman,Female,2016-12-04,7000000
100112,Valter Havers,Male,2018-04-13,7000000
200210,Marko Mendell,Male,2018-07-04,15000000
200211,Takahiro Momota,Male,2016-11-18,12000000
200312,Yahiko Tilemans,Male,2017-05-26,20000000
300207,Dina Rebaine,Female,2015-03-20,15000000


In [51]:
# Indexing menggunakan nama kolom
df['name']

100111      Raven Bierman
100112      Valter Havers
200210      Marko Mendell
200211    Takahiro Momota
200312    Yahiko Tilemans
300207       Dina Rebaine
Name: name, dtype: object

In [54]:
# Indexing lebih dari satu kolom, perhatikan jumlah kurung sikunya.
# Kurung siku harus berjumlah 2 jika ingin memanggil data lebih dari 1 kolom.
# Output-nya akan berupa DataFrame
df[['name', 'gross salary']]

Unnamed: 0,name,gross salary
100111,Raven Bierman,7000000
100112,Valter Havers,7000000
200210,Marko Mendell,15000000
200211,Takahiro Momota,12000000
200312,Yahiko Tilemans,20000000
300207,Dina Rebaine,15000000


In [58]:
# Indexing dari kolom nama dan baris index pertama.
# Output yang akan ditampilkan berarti nama orang berdasarkan nomor index yang dimasukkan.
df['name']['100111']

'Raven Bierman'

In [60]:
# Jumlah data yang diakses bisa lebih dari 1. Perhatikan jumlah kurung siku.
df['name'][['100111', '300207']]

100111    Raven Bierman
300207     Dina Rebaine
Name: name, dtype: object

    Selain menggunakan kurung siku, mengakses suatu kolom pada DataFrame juga dapat menggunakan tanda titik (attribute access).

- Misal, jika ingin menampilkan kolom 'name', maka kodenya adalah df.name
- Namun, metode ini tidak direkomendasikan, karena jika nama kolomnya kebetulan sama dengan nama atribut atau fungsi dalam Pandas, maka output-nya tidak akan sesuai.

In [61]:
# Contoh: Menambahkan kolom yang namanya sama dengan nama fungsi pada Pandas
df['min'] = [1, 2, 3, 4, 5, 6]
df

Unnamed: 0,name,gender,hire date,gross salary,min
100111,Raven Bierman,Female,2016-12-04,7000000,1
100112,Valter Havers,Male,2018-04-13,7000000,2
200210,Marko Mendell,Male,2018-07-04,15000000,3
200211,Takahiro Momota,Male,2016-11-18,12000000,4
200312,Yahiko Tilemans,Male,2017-05-26,20000000,5
300207,Dina Rebaine,Female,2015-03-20,15000000,6


In [62]:
# Mengakses kolom dengan metode kurung siku
df['min']

100111    1
100112    2
200210    3
200211    4
200312    5
300207    6
Name: min, dtype: int64

In [63]:
# Mengakses kolom menggunakan cara attribute access (tidak disarankan)
df.min

<bound method NDFrame._add_numeric_operations.<locals>.min of                    name  gender   hire date  gross salary  min
100111    Raven Bierman  Female  2016-12-04       7000000    1
100112    Valter Havers    Male  2018-04-13       7000000    2
200210    Marko Mendell    Male  2018-07-04      15000000    3
200211  Takahiro Momota    Male  2016-11-18      12000000    4
200312  Yahiko Tilemans    Male  2017-05-26      20000000    5
300207     Dina Rebaine  Female  2015-03-20      15000000    6>

**.loc**

    Bagaimana jika kita ingin menampilkan data bukan berdasarkan kolom, tetapi berdasarkan index-nya?

- Gunakan .loc untuk menampilkan data berdasarkan index-nya.
- Misalnya, data di index '100111' ingin ditampilkan, makan jalankan kode df.loc['100111']. Hasilnya berupa series.
<br><br>

- Kita juga bisa melakukan slicing dengan menggunakan .loc
- Misalnya data di baris index 100111 sampai 200210 ingin ditampilkan, maka kodenya adalah df.loc['100111':'200210']
- df.loc['100111':'200210'] bukan berarti dimulai dari baris '100111' dan berhenti sebelum bari '200210', tapi baris '200210' juga ikut ditampilkan (inclusive).

- Perhatikan juga, tidak seperti function lainnya, function .loc tidak membutuhkan tanda kurung atau parenthesis setelahnya.

In [64]:
# Mengakses 1 baris data. Output berupa Series
df.loc['100111']

name            Raven Bierman
gender                 Female
hire date          2016-12-04
gross salary          7000000
min                         1
Name: 100111, dtype: object

In [65]:
# Mengakses beberapa baris sekaligus (slicing)
df.loc['100111':'200210']

Unnamed: 0,name,gender,hire date,gross salary,min
100111,Raven Bierman,Female,2016-12-04,7000000,1
100112,Valter Havers,Male,2018-04-13,7000000,2
200210,Marko Mendell,Male,2018-07-04,15000000,3


In [69]:
# Cara 2 mengakses semua kolom
df[['name', 'gender', 'hire date', 'gross salary', 'min']]['100111':'200210']

Unnamed: 0,name,gender,hire date,gross salary,min
100111,Raven Bierman,Female,2016-12-04,7000000,1
100112,Valter Havers,Male,2018-04-13,7000000,2
200210,Marko Mendell,Male,2018-07-04,15000000,3


In [72]:
# Cara 3 mengakses semua kolom
df[:]['100111':'200210']

Unnamed: 0,name,gender,hire date,gross salary,min
100111,Raven Bierman,Female,2016-12-04,7000000,1
100112,Valter Havers,Male,2018-04-13,7000000,2
200210,Marko Mendell,Male,2018-07-04,15000000,3


In [73]:
df[['name', 'gross salary']].loc['100111']

name            Raven Bierman
gross salary          7000000
Name: 100111, dtype: object

In [81]:
# .loc diletakkan setelah nama kolom didefinisikan
# Kalau slicing berarti dipisah dengan tanda kutip dan kurung sikunya hanya 1 saja.
df[['name', 'gross salary']].loc['100111':'200210']

Unnamed: 0,name,gross salary
100111,Raven Bierman,7000000
100112,Valter Havers,7000000
200210,Marko Mendell,15000000


In [82]:
# Kalau ingin menampilkan beberapa index tidak berurutan, gunakan koma sebagai pemisah. 
# Tanda kurung siku berjumlah 2.
df[['name', 'gross salary']].loc[['100111', '200210']]

Unnamed: 0,name,gross salary
100111,Raven Bierman,7000000
200210,Marko Mendell,15000000


In [83]:
df

Unnamed: 0,name,gender,hire date,gross salary,min
100111,Raven Bierman,Female,2016-12-04,7000000,1
100112,Valter Havers,Male,2018-04-13,7000000,2
200210,Marko Mendell,Male,2018-07-04,15000000,3
200211,Takahiro Momota,Male,2016-11-18,12000000,4
200312,Yahiko Tilemans,Male,2017-05-26,20000000,5
300207,Dina Rebaine,Female,2015-03-20,15000000,6


**.iloc**

- Pada .iloc, kita menggunakan nomor posisi index dan bukan nama index seperti pada .loc
- Seperti indexing pada umumnya di Python, nomor posisi index pada Pandas juga dimulai dari 0.
<br><br>
- Misalkan, baris '100111' ingin ditampilkan, maka jalankan df.iloc[0]
- Hasilnya berupa Pandas Series bernama '100111' dan berisi nilai baris dari index '100111'.
<br><br>
- Rangkaian start:stop:step bisa digunakan juga saat indexing dengan .iloc
- df.iloc[0:4:2] artinya menampilkan data dari baris 0 sampai sebelum baris 4 dan memilik jarak 2 antar baris.

In [85]:
# Mengakses data baris pertama dengan menggunakan .iloc
df.iloc[0]

name            Raven Bierman
gender                 Female
hire date          2016-12-04
gross salary          7000000
min                         1
Name: 100111, dtype: object

In [86]:
# Sama hasilnya dengan .loc berikut:
df.loc['100111']

name            Raven Bierman
gender                 Female
hire date          2016-12-04
gross salary          7000000
min                         1
Name: 100111, dtype: object

In [87]:
df.iloc[0:4:2] # Angka pada stop bersifat exlcusive

Unnamed: 0,name,gender,hire date,gross salary,min
100111,Raven Bierman,Female,2016-12-04,7000000,1
200210,Marko Mendell,Male,2018-07-04,15000000,3


In [88]:
df

Unnamed: 0,name,gender,hire date,gross salary,min
100111,Raven Bierman,Female,2016-12-04,7000000,1
100112,Valter Havers,Male,2018-04-13,7000000,2
200210,Marko Mendell,Male,2018-07-04,15000000,3
200211,Takahiro Momota,Male,2016-11-18,12000000,4
200312,Yahiko Tilemans,Male,2017-05-26,20000000,5
300207,Dina Rebaine,Female,2015-03-20,15000000,6


In [89]:
# Mirip fancy indexing. Mengakses baris 0 dan 1, serta kolom 0 dan 3 saja.
df.iloc[0:2, [0, 3]]

Unnamed: 0,name,gross salary
100111,Raven Bierman,7000000
100112,Valter Havers,7000000


In [90]:
# Ingin menampilkan data di baris ketiga (index 2) dan kolom ketiga
df.iloc[2, 3]

15000000

In [91]:
# Perhatikan jumlah kurung siku saat indexing.
# Seperti fancy indexing, berarti menampilkan data index ke-2 dan ke-3 dari semua kolom.
df.iloc[[2, 3]] # inclusive

Unnamed: 0,name,gender,hire date,gross salary,min
200210,Marko Mendell,Male,2018-07-04,15000000,3
200211,Takahiro Momota,Male,2016-11-18,12000000,4


**Conditional Selection**

- Conditional selection pada Pandas mirip dengan Numpy Array.
- Ketika kita memberikan syarat pada DataFrame, maka Pandas akan mengecek apakah tiap-tiap data pada DataFrame memenuhi syarat atau tidak.
<br><br>
- Misalnya df['gross salary'] > 10000000, maka outputnya berupa True atau False.
- True berarti data memenuhi syarat, dan False tidak memenuhi.

In [92]:
df

Unnamed: 0,name,gender,hire date,gross salary,min
100111,Raven Bierman,Female,2016-12-04,7000000,1
100112,Valter Havers,Male,2018-04-13,7000000,2
200210,Marko Mendell,Male,2018-07-04,15000000,3
200211,Takahiro Momota,Male,2016-11-18,12000000,4
200312,Yahiko Tilemans,Male,2017-05-26,20000000,5
300207,Dina Rebaine,Female,2015-03-20,15000000,6


In [93]:
df['gross salary'] > 10000000

100111    False
100112    False
200210     True
200211     True
200312     True
300207     True
Name: gross salary, dtype: bool

In [94]:
# Conditional selection bisa dilakukan dengan memanggil semua kolom yang ada pada output
df[df['gross salary'] > 10000000]

Unnamed: 0,name,gender,hire date,gross salary,min
200210,Marko Mendell,Male,2018-07-04,15000000,3
200211,Takahiro Momota,Male,2016-11-18,12000000,4
200312,Yahiko Tilemans,Male,2017-05-26,20000000,5
300207,Dina Rebaine,Female,2015-03-20,15000000,6


In [95]:
# Bisa juga dimasukkan ke dalam variabel
gaji_besar = df['gross salary'] > 10000000
gaji_besar

100111    False
100112    False
200210     True
200211     True
200312     True
300207     True
Name: gross salary, dtype: bool

In [96]:
df[gaji_besar]

Unnamed: 0,name,gender,hire date,gross salary,min
200210,Marko Mendell,Male,2018-07-04,15000000,3
200211,Takahiro Momota,Male,2016-11-18,12000000,4
200312,Yahiko Tilemans,Male,2017-05-26,20000000,5
300207,Dina Rebaine,Female,2015-03-20,15000000,6


In [97]:
# Hanya menampilkan 1 kolom tertentu yang memenuhi syarat kondisi. Output berupa series
df[df['gross salary'] > 10000000]['name']

200210      Marko Mendell
200211    Takahiro Momota
200312    Yahiko Tilemans
300207       Dina Rebaine
Name: name, dtype: object

In [104]:
# Menampilkan beberapa kolom saja setelah memasukkan kondisi. Kurung siku harus berjumlah 2.
# Output-nya DataFrame
df[df['gross salary'] > 10000000][['name', 'gender']]

Unnamed: 0,name,gender
200210,Marko Mendell,Male
200211,Takahiro Momota,Male
200312,Yahiko Tilemans,Male
300207,Dina Rebaine,Female


In [105]:
# Memasukkan lebih dari 1 kondisi
    # AND --> &
    # OR --> |
    # NOT --> ~

# Conditional selection dengan 2 kondisi dan juga data text
# Menampilkan data yang gajinya > 10 juta dan gender-nya adalah female.
df[(df['gross salary'] > 10000000) & (df['gender'] == 'Female')]

# Tiap kondisi diapit oleh () dan dipisahkan oleh logical operators.

Unnamed: 0,name,gender,hire date,gross salary,min
300207,Dina Rebaine,Female,2015-03-20,15000000,6


In [106]:
df[(df['gross salary'] < 10000000) & (df['gender'] == 'Female')]['name']

100111    Raven Bierman
Name: name, dtype: object

In [110]:
df[(df['gross salary'] < 10000000) | (df['gender'] == 'Female')][['name', 'gender']] # Semua data yang memenuhi salah 1 kondisi akan ditampilkan di output

Unnamed: 0,name,gender
100111,Raven Bierman,Female
100112,Valter Havers,Male
300207,Dina Rebaine,Female
