`November 16, 2022`

## **Pandas**

- Library Pandas digunakan untuk memanipulasi data.
- Pandas dibangun dengan Numpy package sebagai basisnya.
- Data struktur pada Pandas disebut Series dan DataFrame.

**Series**

- Koleksi data seperti list dan array 1 dimensi, yang bisa menampung berbagai tipe data pada Python, bukan hanya data numerik saja.
- Yang membedakan Series dengan list dan array adalah Series memiliki nama atau label pada index-nya.

**DataFrame**

- Kumpulan dari Series yang memiliki index yang sama.
- Bentuk DataFrame seperti tabel, dengan baris dan kolom, di mana tiap kolom berisi satu jenis variabel dan tiap baris berisi satu observasi.
- Misal: Nama, Umur, Gaji, Kota adalah contoh variabel (kolom) dan data dari tiap individu adalah isi barisnya.

### **Series & DataFrame**

In [1]:
# Import libraries
import numpy as np
import pandas as pd

#### **Create a Series**

In [2]:
my_list = [100, 200, 300]
my_array = np.array([400, 500, 600])
my_dict = {'A': 25, 'B': 50, 'C': 75}

labels = 'Data1 Data2 Data3'.split()

In [4]:
# Create a Series from a list & array

# List
print(pd.Series(my_list, labels))

print()
# Array
print(pd.Series(my_array, labels))


Data1    100
Data2    200
Data3    300
dtype: int64

Data1    400
Data2    500
Data3    600
dtype: int32


In [5]:
# From dictionary
    # By default, key akan menjadi index value

pd.Series(my_dict)

A    25
B    50
C    75
dtype: int64

In [8]:
# Jika data diambil dari dictionary dan mau customize index,
    # solusinya menggunakan .values pada object variable
    # agar dapat mengambil setiap nilainya.
    # Jika tidak, maka munculnya akan NaN.
pd.Series(my_dict.values(), labels)

Data1    25
Data2    50
Data3    75
dtype: int64

In [9]:
x = pd.Series(data=labels)
x

0    Data1
1    Data2
2    Data3
dtype: object

In [10]:
# Cek index
    # Kalau index-nya default, output-nya akan berupa RangeIndex
x.index

RangeIndex(start=0, stop=3, step=1)

In [13]:
# Jika index-nya di-customize, maka outcome-nya akan menyesuaikan
    # dengan nilai index-nya.
list_series = pd.Series(my_list, labels)
list_series.index

Index(['Data1', 'Data2', 'Data3'], dtype='object')

In [14]:
# Mengekstrak values pada Series
list_series.values

array([100, 200, 300], dtype=int64)

In [15]:
# Seriues juga dapat menampung built-in Function
pd.Series([sum, len, print, min])

0      <built-in function sum>
1      <built-in function len>
2    <built-in function print>
3      <built-in function min>
dtype: object

#### **Create a DataFrame**

    Ada 3 parameter yang harus dimasukkan saat membuat DataFrame:
    
    1. Data: untuk memasukkan data yang ingin dimasukkan. Misal, berupa kumpulan lists, etc.
    2. Index (bisa menjadi optional): untuk memberi nama/label pada index.
    3. Columns: Untuk memberi nama/label pada kolom dari suatu DataFrame.

In [29]:
# Create an array
my_arr = np.random.randint(30, 60, 9).reshape(3, 3)
my_arr

array([[43, 43, 50],
       [40, 51, 30],
       [43, 59, 53]])

In [30]:
# Create a DataFrame from an array
# Variasi 1 untuk declare nama columns/index
pd.DataFrame(data=my_arr, columns='Col1 Col2 Col3'.split())

Unnamed: 0,Col1,Col2,Col3
0,43,43,50
1,40,51,30
2,43,59,53


In [31]:
# Variasi 2 untuk declare nama columns/index
pd.DataFrame(data=my_arr, columns=['Col1', 'Col2', 'Col3'])

Unnamed: 0,Col1,Col2,Col3
0,43,43,50
1,40,51,30
2,43,59,53


In [35]:
# Create a DataFrame from lists
list1 = [1, 2, 3, 4]
list2 = [5, 6, 7, 8]
list3 = [9, 10, 11, 12]

pd.DataFrame(data=[list1, list2, list3], columns=['Col1', 'Col2', 'Col3', 'Col4'])

Unnamed: 0,Col1,Col2,Col3,Col4
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


In [36]:
pd.DataFrame(data=[list1, list2, list3],
            index=[10, 11, 12],
            columns=['Col1', 'Col2', 'Col3', 'Col4'])

Unnamed: 0,Col1,Col2,Col3,Col4
10,1,2,3,4
11,5,6,7,8
12,9,10,11,12


In [37]:
# Contoh lain
a = [x for x in range(10, 15)]
b = [x for x in range(30, 35)]
c = [x for x in range(50, 55)]

pd.DataFrame(data=[a, b, c], 
             index='a b c'.split(),
             columns=['Col1', 'Col2', 'Col3', 'Col4', 'Col5']
)

Unnamed: 0,Col1,Col2,Col3,Col4,Col5
a,10,11,12,13,14
b,30,31,32,33,34
c,50,51,52,53,54


In [39]:
# Cara pertama mengubah kolom jadi baris
pd.DataFrame(data=list(zip(a, b, c)), 
             index='a b c d e'.split(),
             columns=['Col1', 'Col2', 'Col3']
)

Unnamed: 0,Col1,Col2,Col3
a,10,30,50
b,11,31,51
c,12,32,52
d,13,33,53
e,14,34,54


In [43]:
# Cara kedua mengubah kolom jadi baris
pd.DataFrame(data=[a, b, c], 
             index='a b c'.split(),
             columns='Col1 Col2 Col3 Col4 Col5'.split()).T

Unnamed: 0,a,b,c
Col1,10,30,50
Col2,11,31,51
Col3,12,32,52
Col4,13,33,53
Col5,14,34,54


In [44]:
# Data diambil dari nested list
nested_list = [[1, 2, 3, 4],
                [5, 6, 7, 8],
                [9, 10, 11, 12]]

pd.DataFrame(nested_list,
            index='A B C'.split(),
            columns='W X Y Z'.split()
            )

Unnamed: 0,W,X,Y,Z
A,1,2,3,4
B,5,6,7,8
C,9,10,11,12


In [47]:
# Create a DataFrame from a dictionary
    # Key akan menjadi nama kolom secara otomatis

new_dict = {'A': [1, 2, 3, 4],
            'B': [5, 6, 7, 8],
            'C': [9, 10, 11, 12]}

pd.DataFrame(new_dict)

Unnamed: 0,A,B,C
0,1,5,9
1,2,6,10
2,3,7,11
3,4,8,12


**Mini Exercise**

In [58]:
# Cara 1: Menggunakan dictionary
df = pd.DataFrame({'name': ['Resta', 'Vano', 'Marko', 'Tata', 'Yuri', 'Dina'],
                    'gender': 'Female Male Male Male Male Female'.split(),
                    'hired date': '2016-12-04 2018-04-13 2018-07-04 2016-11-18 2017-05-26 2015-03-20'.split(),
                    'gross salary': [7000000, 7000000, 15000000, 12000000, 20000000, 15000000]},
                    index=['100111', '100112', '200210', '200211', '200312', '300207']
)

df

Unnamed: 0,name,gender,hired date,gross salary
100111,Resta,Female,2016-12-04,7000000
100112,Vano,Male,2018-04-13,7000000
200210,Marko,Male,2018-07-04,15000000
200211,Tata,Male,2016-11-18,12000000
200312,Yuri,Male,2017-05-26,20000000
300207,Dina,Female,2015-03-20,15000000


In [54]:
# Cara 2: Menggunakan list dan zip

# Definisikan dahulu datanya pada tiap variabel
name = ['Resta', 'Vano', 'Marko', 'Tata', 'Yuri', 'Dina']
gender = ['Female', 'Male', 'Male', 'Male', 'Male', 'Female']
hired_date = ['2016-12-04', '2018-04-13', '2018-07-04', '2016-11-18', '2017-05-26', '2015-03-20']
gross_salary = [7000000, 7000000, 15000000, 12000000, 20000000, 15000000]
index=['100111', '100112', '200210', '200211', '200312', '300207']

df_2 = pd.DataFrame(list(zip(name, gender, hired_date, gross_salary)),
                    index=index,
                    columns=['name', 'gender', 'hired_date', 'gross_salary'])

df_2

Unnamed: 0,name,gender,hired_date,gross_salary
100111,Resta,Female,2016-12-04,7000000
100112,Vano,Male,2018-04-13,7000000
200210,Marko,Male,2018-07-04,15000000
200211,Tata,Male,2016-11-18,12000000
200312,Yuri,Male,2017-05-26,20000000
300207,Dina,Female,2015-03-20,15000000


In [56]:
# Cara 3: Dengan memanfaatkan fungsi transpose

df_3 = pd.DataFrame([name, gender, hired_date, gross_salary],
                    columns=index,
                    index=['name', 'gender', 'hired_date', 'gross_salary']).T

df_3

Unnamed: 0,name,gender,hired_date,gross_salary
100111,Resta,Female,2016-12-04,7000000
100112,Vano,Male,2018-04-13,7000000
200210,Marko,Male,2018-07-04,15000000
200211,Tata,Male,2016-11-18,12000000
200312,Yuri,Male,2017-05-26,20000000
300207,Dina,Female,2015-03-20,15000000


### **Indexing & Selection**

Kita juga bisa melakukan indexing pada DataFrame untuk memilih data tertentu, seperti halnya pada list dan array.

- Untuk memilih data di dalam DataFrame, index pertama yang harus ditulis adalah nama kolom.
- Misalnya, kita ingin memilih kolom pertama di df yang bernama 'name', maka jalankan df['name'], bukan df[0].
- Penulisan nama kolom harus tepat, karena case sensitive.

Selanjutnya, di kolom 'name' ini kita ingin menampilkan baris pertama saja, maka tuliskan posisi elemen sesuai index baris.

- Jalankan df['name'][0] untuk menampilkan baris pertama pada kolom name.
- Jika ingin menampilkan lebih dari satu baris, gunakan konsep start: stop: step.
- Jalankan df ['name'][0:2] untuk menampilkan nilai pertama dan kedua pada kolom name. Tipe data dari output akan terlihat berupa Pandas Series.

In [59]:
df

Unnamed: 0,name,gender,hired date,gross salary
100111,Resta,Female,2016-12-04,7000000
100112,Vano,Male,2018-04-13,7000000
200210,Marko,Male,2018-07-04,15000000
200211,Tata,Male,2016-11-18,12000000
200312,Yuri,Male,2017-05-26,20000000
300207,Dina,Female,2015-03-20,15000000


In [66]:
# Indexing menggunakan satu nama kolom
    # Kalau square bracketnya hanya 1 pasang, maka akan mengembalikan sebuah Series.
    # Jika return value-nya ingin DataFrame, maka tambahkan 1 pasang [] lagi
df['name']

100111    Resta
100112     Vano
200210    Marko
200211     Tata
200312     Yuri
300207     Dina
Name: name, dtype: object

In [67]:
# Mengakses satu kolom dan return value berupa DataFrame
df[['name']]

Unnamed: 0,name
100111,Resta
100112,Vano
200210,Marko
200211,Tata
200312,Yuri
300207,Dina


In [68]:
# Error, karena butuh 2 pasang [] jika ingin mengakses lebih dari 1 kolom
df['name', 'gender']

KeyError: ('name', 'gender')

In [69]:
# Mengakses lebih dari 1 kolom (menggunakan konsep fancy indexing)
df[['name', 'gender']]

Unnamed: 0,name,gender
100111,Resta,Female
100112,Vano,Male
200210,Marko,Male
200211,Tata,Male
200312,Yuri,Male
300207,Dina,Female


In [72]:
# Slicing
df['name'][0:2]

100111    Resta
100112     Vano
Name: name, dtype: object

In [75]:
# Mengakses nama dari suatu customized index (jadikan dalam string)
df['name']['100112']

'Vano'

In [76]:
# Cara lain
df['name'][1]

'Vano'

In [78]:
# Mengakses lebih dari 1 data pada suatu kolom
df['name'][['100112', '200211']]

100112    Vano
200211    Tata
Name: name, dtype: object

In [79]:
# Cara lain
df['name'][[1, 3]]

100112    Vano
200211    Tata
Name: name, dtype: object

**Cara yang tidak direkomendasikan untuk mengakses data**

    Selain menggunakan kurung siku, mengakses suatu kolom pada DataFrame dapat menggunakan tanda titik (attribute access).

    Misal, jika ingin menampilkan kolom 'name', maka kodenya adalah df.name

    Namun, metode ini tidak direkomendasikan, karena jika nama kolomnya kebetulan sama dengan nama atribut atau fungsi dalam Pandas, maka outputnya tidak akan sesuai.

In [80]:
df.name

100111    Resta
100112     Vano
200210    Marko
200211     Tata
200312     Yuri
300207     Dina
Name: name, dtype: object

In [82]:
df['sum'] = [1, 2, 3, 4, 5, 6]
df

Unnamed: 0,name,gender,hired date,gross salary,sum
100111,Resta,Female,2016-12-04,7000000,1
100112,Vano,Male,2018-04-13,7000000,2
200210,Marko,Male,2018-07-04,15000000,3
200211,Tata,Male,2016-11-18,12000000,4
200312,Yuri,Male,2017-05-26,20000000,5
300207,Dina,Female,2015-03-20,15000000,6


In [83]:
# Mengakses data pada kolom sum
# Cara 1: Menggunakan square bracket
df['sum'] # Akan mengembalikan values sesuai yang diharapkan

100111    1
100112    2
200210    3
200211    4
200312    5
300207    6
Name: sum, dtype: int64

In [84]:
# Cara 2: Menggunakan metode attribute access (not recommended)
df.sum

# Jika nama kolom kebetulan sama dengan nama built-in function yang ada di Python/Pandas,
    # maka return value-nya tidak akan sesuai dengan yang diharapkan.

<bound method NDFrame._add_numeric_operations.<locals>.sum of          name  gender  hired date  gross salary  sum
100111  Resta  Female  2016-12-04       7000000    1
100112   Vano    Male  2018-04-13       7000000    2
200210  Marko    Male  2018-07-04      15000000    3
200211   Tata    Male  2016-11-18      12000000    4
200312   Yuri    Male  2017-05-26      20000000    5
300207   Dina  Female  2015-03-20      15000000    6>

In [86]:
# Kekurangan lainnya dari metode attribute access
df.hired date # Error karena invalid syntax

SyntaxError: invalid syntax (Temp/ipykernel_6936/2216868365.py, line 2)

In [87]:
# Bandingkan dengan metode square bracket
df['hired date']

100111    2016-12-04
100112    2018-04-13
200210    2018-07-04
200211    2016-11-18
200312    2017-05-26
300207    2015-03-20
Name: hired date, dtype: object

In [92]:
# Drop kolom sum
df.drop(columns='sum', axis=1, inplace=True)

#### **loc & iloc**

Bagaimana jika kita ingin menampilkan data bukan berdasarkan kolom, tetapi berdasarkan index-nya?

**Label based**

- Gunakan .loc untuk menampilkan data berdasarkan index-nya.
- Misalnya, data dengan index yang sudah custom, seperti index '100111' ingin ditampilkan, maka jalankan df.loc['100111']. Hasilnya berupa series bernama A berisi data di baris A dan nama kolom sebagai index-nya.

- Kita juga bisa melakukan slicing menggunakan .loc.
- Misalnya data di baris 100111 sampai 200210 ingin ditampilkan, maka jalankan df.loc['100111': '200210'].
- df.loc['100111': '200210'] bukan berarti dimulai dari baris '100111' dan berhenti pada baris '200210'. Baris '200210' juga ikut ditampilkan karena stop value pada loc slicing bersifat inclusive.

    Perhatikan, tidak seperti fungsi pada umumnya, fungsi .loc menggunakan kurung siku.

**loc**

In [93]:
# loc
df.loc['300207']

name                  Dina
gender              Female
hired date      2015-03-20
gross salary      15000000
Name: 300207, dtype: object

In [94]:
# Slicing pada .loc, stop value bersifat inclusive.
df.loc['200210': '300207']

Unnamed: 0,name,gender,hired date,gross salary
200210,Marko,Male,2018-07-04,15000000
200211,Tata,Male,2016-11-18,12000000
200312,Yuri,Male,2017-05-26,20000000
300207,Dina,Female,2015-03-20,15000000


In [97]:
df[['name', 'gender', 'gross salary']].loc['200210']

name               Marko
gender              Male
gross salary    15000000
Name: 200210, dtype: object

In [98]:
# Subset of data

# Menggunakan konsep fancy indexing, sehingga tidak bisa dikenakan
    # operasi slicing
    
# Cara 1
df.loc[['200210', '300207'], ['name', 'gender', 'gross salary']]

Unnamed: 0,name,gender,gross salary
200210,Marko,Male,15000000
300207,Dina,Female,15000000


In [99]:
# Cara 2
df[['name', 'gender', 'gross salary']].loc[['200210', '300207']]

Unnamed: 0,name,gender,gross salary
200210,Marko,Male,15000000
300207,Dina,Female,15000000


In [100]:
# Error karena index pada data sudah customized. Solusinya adalah dengan menggunakan iloc
df[['name', 'gender', 'gross salary']].loc[[2, 5]]

KeyError: "None of [Int64Index([2, 5], dtype='int64')] are in the [index]"

In [101]:
df[['name', 'gender', 'gross salary']].iloc[[2, 5]]

Unnamed: 0,name,gender,gross salary
200210,Marko,Male,15000000
300207,Dina,Female,15000000


**iloc**

- Pada .iloc, kita memakai nomor posisi index dan bukan nama index seperti pada .loc.
- Seperti indexing pada umumnya, nomor posisi index pada Pandas juga dimulai dari 0.

- Misalkan, baris '100111' ingin ditampilkan, maka jalankan df.iloc[0].
- Hasilnya berupa pandas series bernama '100111' berisi nilai di baris '100111' dengan nama kolom sebagai index-nya.

- Rangkaian start: stop: step bisa digunakan saat indexing dengan .iloc.
- df.iloc[0:4:2] artinya menampilkan data dari baris 0 sampai sebelum baris 4 dan memiliki jarak 2 antar baris (stop value bersifat exclusive). Hasilnya adalah DataFrame berisi baris '100111', atau baris di index 0, dan baris '200210' atau baris di index 2.

In [103]:
# Mengakses data baris pertama dengan menggunakan .iloc
df.iloc[0]

name                 Resta
gender              Female
hired date      2016-12-04
gross salary       7000000
Name: 100111, dtype: object

In [105]:
# Slicing baris data pada iloc, stop value bersifat exclusive
df.iloc[0:4]

Unnamed: 0,name,gender,hired date,gross salary
100111,Resta,Female,2016-12-04,7000000
100112,Vano,Male,2018-04-13,7000000
200210,Marko,Male,2018-07-04,15000000
200211,Tata,Male,2016-11-18,12000000


In [106]:
df

Unnamed: 0,name,gender,hired date,gross salary
100111,Resta,Female,2016-12-04,7000000
100112,Vano,Male,2018-04-13,7000000
200210,Marko,Male,2018-07-04,15000000
200211,Tata,Male,2016-11-18,12000000
200312,Yuri,Male,2017-05-26,20000000
300207,Dina,Female,2015-03-20,15000000


In [107]:
# Fancy indexing untuk akses baris dan kolom tertentu
    # Jangan lupa, tidak ada slicing di fancy indexing
df.iloc[0:2, [0, 3]] # 0:2 berarti mau akses data baris index 0 dan 1
                     # 0, 3 berarti mau akses data kolom index 0 dan 3

Unnamed: 0,name,gross salary
100111,Resta,7000000
100112,Vano,7000000


In [108]:
# Hanya mengakses value pada baris index 0 dan kolom index 3
df.iloc[0, 3]

7000000

In [109]:
# Perhatikan jumlah kurung siku saat indexing.
# Mengakses data index baris 2 dan 5 dari semua kolom.
df.iloc[[2, 5]]

Unnamed: 0,name,gender,hired date,gross salary
200210,Marko,Male,2018-07-04,15000000
300207,Dina,Female,2015-03-20,15000000


    Jika index bernilai default, maka akses index dengan loc & iloc dapat menggunakan cara yang sama dan akan menghasilkan return value yang sama.

In [113]:
# Create a copy of df
df_new = df.copy()
df_new.reset_index(drop=True, inplace=True)
df_new

Unnamed: 0,name,gender,hired date,gross salary
0,Resta,Female,2016-12-04,7000000
1,Vano,Male,2018-04-13,7000000
2,Marko,Male,2018-07-04,15000000
3,Tata,Male,2016-11-18,12000000
4,Yuri,Male,2017-05-26,20000000
5,Dina,Female,2015-03-20,15000000


In [115]:
# Indexing baris index 1 dan 2 dengan loc
df_new.loc[[1, 2]]

Unnamed: 0,name,gender,hired date,gross salary
1,Vano,Male,2018-04-13,7000000
2,Marko,Male,2018-07-04,15000000


In [116]:
# Indexing baris index 1 dan 2 dengan iloc
df_new.iloc[[1, 2]]

Unnamed: 0,name,gender,hired date,gross salary
1,Vano,Male,2018-04-13,7000000
2,Marko,Male,2018-07-04,15000000


### **Conditional Selection**

In [117]:
df

Unnamed: 0,name,gender,hired date,gross salary
100111,Resta,Female,2016-12-04,7000000
100112,Vano,Male,2018-04-13,7000000
200210,Marko,Male,2018-07-04,15000000
200211,Tata,Male,2016-11-18,12000000
200312,Yuri,Male,2017-05-26,20000000
300207,Dina,Female,2015-03-20,15000000


In [119]:
# Cara seperti ini akan mengembalikan boolean value dalam bentuk series
df['gross salary'] > 10000000

100111    False
100112    False
200210     True
200211     True
200312     True
300207     True
Name: gross salary, dtype: bool

In [120]:
# Jika ingin return value-nya berupa DataFrame beserta data poin yang memenuhi
    # condition, maka gunakan cara di bawah ini.
df[df['gross salary'] > 10000000]

Unnamed: 0,name,gender,hired date,gross salary
200210,Marko,Male,2018-07-04,15000000
200211,Tata,Male,2016-11-18,12000000
200312,Yuri,Male,2017-05-26,20000000
300207,Dina,Female,2015-03-20,15000000


In [121]:
# Bisa juga ditampung dulu di sebuah variable
gaji_filtered = df['gross salary'] > 10000000

df[gaji_filtered]

Unnamed: 0,name,gender,hired date,gross salary
200210,Marko,Male,2018-07-04,15000000
200211,Tata,Male,2016-11-18,12000000
200312,Yuri,Male,2017-05-26,20000000
300207,Dina,Female,2015-03-20,15000000


In [124]:
# Hanya ingin mengetahui siapa saja yang gross salary nya > 10 juta
# Return value dalam bentuk Series
df[df['gross salary'] > 10000000]['name']

200210    Marko
200211     Tata
200312     Yuri
300207     Dina
Name: name, dtype: object

In [123]:
# Hanya ingin mengetahui siapa saja yang gross salary nya > 10 juta
# Return value dalam bentuk DataFrame
df[df['gross salary'] > 10000000][['name']]

Unnamed: 0,name
200210,Marko
200211,Tata
200312,Yuri
300207,Dina


    Pada conditional selection, loc bisa menerima boolean Series, tetapi iloc tidak.

    iloc hanya bisa menerima boolean list.

In [126]:
# Jika ingin mengakses return value dalam bentuk list
list(df['gross salary'] > 10000000)

[False, False, True, True, True, True]

In [128]:
# iloc tidak bisa menerima boolean Series
df.iloc[df['gross salary'] > 10000000]

TypeError: unhashable type: 'Series'

In [130]:
# Solusinya, ubah menjadi boolean list
df.iloc[list(df['gross salary'] > 10000000)]

Unnamed: 0,name,gender,hired date,gross salary
200210,Marko,Male,2018-07-04,15000000
200211,Tata,Male,2016-11-18,12000000
200312,Yuri,Male,2017-05-26,20000000
300207,Dina,Female,2015-03-20,15000000


In [132]:
# loc bisa menerima boolean Series
df.loc[df['gross salary'] > 10000000]

Unnamed: 0,name,gender,hired date,gross salary
200210,Marko,Male,2018-07-04,15000000
200211,Tata,Male,2016-11-18,12000000
200312,Yuri,Male,2017-05-26,20000000
300207,Dina,Female,2015-03-20,15000000


**Lebih dari satu kondisi**

    Di Pandas, logical operator dinyatakan dalam bentuk simbol.

    - AND --> &
    - OR --> |
    - Negasi --> ~

    Syntax: df[() & () & () . . .]
    
    Tiap kondisi diapit dengan ()

In [134]:
# Menampilkan data yang memiliki gross salary > 10 jt dan gender male
df[(df['gross salary'] > 10000000) & (df['gender'] == 'Male')]

Unnamed: 0,name,gender,hired date,gross salary
200210,Marko,Male,2018-07-04,15000000
200211,Tata,Male,2016-11-18,12000000
200312,Yuri,Male,2017-05-26,20000000


In [135]:
# Cara lain, dengan menggunakan loc
df.loc[(df['gross salary'] > 10000000) & (df['gender'] == 'Male')]

Unnamed: 0,name,gender,hired date,gross salary
200210,Marko,Male,2018-07-04,15000000
200211,Tata,Male,2016-11-18,12000000
200312,Yuri,Male,2017-05-26,20000000


**Callable Function**

In [136]:
# loc & iloc dapat menerima callable function, tapi hanya untuk satu expression saja
df.loc[:, lambda df: ['name', 'gender']]

Unnamed: 0,name,gender
100111,Resta,Female
100112,Vano,Male
200210,Marko,Male
200211,Tata,Male
200312,Yuri,Male
300207,Dina,Female


In [137]:
df.loc[:, ['name', 'gender']]

Unnamed: 0,name,gender
100111,Resta,Female
100112,Vano,Male
200210,Marko,Male
200211,Tata,Male
200312,Yuri,Male
300207,Dina,Female


In [138]:
# Filter data menggunakan loc dan lambda function
df.loc[lambda df: df['gender'] == 'Female']

Unnamed: 0,name,gender,hired date,gross salary
100111,Resta,Female,2016-12-04,7000000
300207,Dina,Female,2015-03-20,15000000


In [140]:
# Filter data menggunakan iloc (konversi ke list jika return value adalah boolean Series)
df.iloc[lambda df: list(df['gender'] == 'Female')]

Unnamed: 0,name,gender,hired date,gross salary
100111,Resta,Female,2016-12-04,7000000
300207,Dina,Female,2015-03-20,15000000
