# Pandas

In [1]:
# import library
import numpy as np
import pandas as pd

## Creating Series
Series adalah koleksi data seperti list dan array 1D, yang hanya bisa menampung 1 tipe data. Series memiliki nama dan label pada index

In [4]:
myList=[10,20,30]
labels=['a','b','c']

In [5]:
#from list
pd.Series(myList) #secara default index akan berupa angka dimulai dari 0

0    10
1    20
2    30
dtype: int64

In [6]:
pd.Series(myList,labels) #kalau mau mengubah nama index

a    10
b    20
c    30
dtype: int64

In [8]:
pd.Series(index=labels,data=myList) 
#diingat, pada pemakaian function, kita bisa memasukkan nilai argumen secara acak dengan menulis nama parameter

a    10
b    20
c    30
dtype: int64

In [9]:
list1=[1,2,'a','c']
pd.Series(list1) #data tipe menjadi object

0    1
1    2
2    a
3    c
dtype: object

In [10]:
# from array
arr=np.array([10,20,30])

In [11]:
pd.Series(arr)

0    10
1    20
2    30
dtype: int32

In [12]:
pd.Series(arr,labels)

a    10
b    20
c    30
dtype: int32

In [13]:
# from dictionary
dict1={'a':10, 'b':20, 'c':30}
dict1


{'a': 10, 'b': 20, 'c': 30}

In [14]:
pd.Series(dict1) #key akan menjadi nama index

a    10
b    20
c    30
dtype: int64

## Creating DataFrame
dataframe adalah kumpulan dari series, bentuknya seperti tabel, dengan baris dan kolom, di mana tiap kolom berisi satu jenis varibel yang bertipe sama, dan 1 baris adalah 1 observasi data.

In [15]:
#  from list
kota=['Jakarta','Surabaya','Bandung']
toko=[4,4,2]
penjualan=[1000,6000, 8000]

In [16]:
pd.DataFrame(data=[kota,toko,penjualan]) #secara default, tiap list akan menjadi 1 baris
# padahal biasanya kita ingin 1 list menjadi 1 kolom

Unnamed: 0,0,1,2
0,Jakarta,Surabaya,Bandung
1,4,4,2
2,1000,6000,8000


In [17]:
pd.DataFrame(list(zip(kota,toko,penjualan))) 
#Zip untuk membuat tuple berisikan data di posisi tertentu secara berurutan dari beberapa list

Unnamed: 0,0,1,2
0,Jakarta,4,1000
1,Surabaya,4,6000
2,Bandung,2,8000


In [19]:
pd.DataFrame(list(zip(kota,toko,penjualan)), columns=['kota','toko','penjualan'],index=('a b c'.split())) #memberi label pada kolom dan index

Unnamed: 0,kota,toko,penjualan
a,Jakarta,4,1000
b,Surabaya,4,6000
c,Bandung,2,8000


In [20]:
pd.DataFrame(data=[kota,toko,penjualan]).T

Unnamed: 0,0,1,2
0,Jakarta,4,1000
1,Surabaya,4,6000
2,Bandung,2,8000


In [25]:
pd.DataFrame(data=[kota,toko,penjualan]).T[1] # kalau pakai cara ini data tipenya bisa tidak sesuai

0    4
1    4
2    2
Name: 1, dtype: object

In [27]:
# from array
mat=np.arange(1,25).reshape(4,-1)
mat

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12],
       [13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24]])

In [29]:
pd.DataFrame(mat, columns='a b c d e f'.split(), index= 'w x y z'.split())

Unnamed: 0,a,b,c,d,e,f
w,1,2,3,4,5,6
x,7,8,9,10,11,12
y,13,14,15,16,17,18
z,19,20,21,22,23,24


In [31]:
# from dictionary

dict1={
    'Kota':['Jakarta','Bandung','Surabaya'],
    'Toko':[4,2,2],
    'Penjualan':[1000,6000,8000]
}
dict1

{'Kota': ['Jakarta', 'Bandung', 'Surabaya'],
 'Toko': [4, 2, 2],
 'Penjualan': [1000, 6000, 8000]}

In [33]:
pd.DataFrame(dict1, index='a b c'.split()) #key menjadi nama kolom

Unnamed: 0,Kota,Toko,Penjualan
a,Jakarta,4,1000
b,Bandung,2,6000
c,Surabaya,2,8000


In [36]:
pd.DataFrame(
    {'Kota':['Jakarta','Bandung','Surabaya'],
    'Toko':[4,2,2],
    'Penjualan':[1000,6000,8000,2000]}) #panjang dari setiap value di dictionary harus sama

ValueError: arrays must all be same length

tugas: buat dataframe berikut

In [39]:
df=pd.DataFrame({'name': ['Raven Bierman', 'Valter Havers', 'Marko Mendell', 'Takahiro Momota','Yahiko Tilemans', 'Dina Rebaine'],
    'gender': ['Female','Male','Male','Male','Male','Female'],
    'hire date': ['2016-12-04','2018-04-13','2018-07-04','2016-11-18','2017-05-26','2015-03-20'],
    'gross salary':[7000000,7000000,15000000,12000000,20000000,15000000]},
    index=[100111,100112,200210,200211,200312,300207])
df

Unnamed: 0,name,gender,hire date,gross salary
100111,Raven Bierman,Female,2016-12-04,7000000
100112,Valter Havers,Male,2018-04-13,7000000
200210,Marko Mendell,Male,2018-07-04,15000000
200211,Takahiro Momota,Male,2016-11-18,12000000
200312,Yahiko Tilemans,Male,2017-05-26,20000000
300207,Dina Rebaine,Female,2015-03-20,15000000


## INDEXING and SELECTION
[]  
.loc[]  
.iloc[]  
attribute access  

In [41]:
df['gross salary'] #menampilkan isi kolom gross salary dari dataframe df
#nama kolom case sensitive

100111     7000000
100112     7000000
200210    15000000
200211    12000000
200312    20000000
300207    15000000
Name: gross salary, dtype: int64

In [42]:
df['gross salary'][200211] # menampilkan gross salary dari karyawan dengan index nomor 200211

12000000

In [43]:
df['name'][[100111,300207]] #fancy indexing

100111    Raven Bierman
300207     Dina Rebaine
Name: name, dtype: object

In [55]:
contoh=pd.DataFrame(mat, columns='a b c d e f'.split())
contoh

Unnamed: 0,a,b,c,d,e,f
0,1,2,3,4,5,6
1,7,8,9,10,11,12
2,13,14,15,16,17,18
3,19,20,21,22,23,24


In [57]:
contoh['c'][1:] #slicing

1     9
2    15
3    21
Name: c, dtype: int32

In [58]:
type(df['name']) #data tipe dari 1 kolom adalah series

pandas.core.series.Series

In [60]:
type(df['name'][100111])

str

In [62]:
df[['name','gross salary']] #fancy indexing, memanggil lebih dari 1 kolom. perharikan jumlah kurung siku 

Unnamed: 0,name,gross salary
100111,Raven Bierman,7000000
100112,Valter Havers,7000000
200210,Marko Mendell,15000000
200211,Takahiro Momota,12000000
200312,Yahiko Tilemans,20000000
300207,Dina Rebaine,15000000


In [64]:
df.name #attribute acces, tidak disarankan
# kalau ada spasi di nama kolom, tidak bisa dipakai
# Kalau nama kolom sama dengan nama function, bisa menyebabkan error

100111      Raven Bierman
100112      Valter Havers
200210      Marko Mendell
200211    Takahiro Momota
200312    Yahiko Tilemans
300207       Dina Rebaine
Name: name, dtype: object

In [68]:
contoh['min']=[22,23,24,25] #menambahkan kolom min pada contoh
contoh

Unnamed: 0,a,b,c,d,e,f,min
0,1,2,3,4,5,6,22
1,7,8,9,10,11,12,23
2,13,14,15,16,17,18,24
3,19,20,21,22,23,24,25


In [70]:
contoh.min #output aneh, karena min juga merupakan nama method di pandas

<bound method DataFrame.min of     a   b   c   d   e   f  min
0   1   2   3   4   5   6   22
1   7   8   9  10  11  12   23
2  13  14  15  16  17  18   24
3  19  20  21  22  23  24   25>

In [72]:
contoh['min'] #lebih disarankan penggunaan bracket

0    22
1    23
2    24
3    25
Name: min, dtype: int64

In [73]:
# loc --> index baris, kolom
df


Unnamed: 0,name,gender,hire date,gross salary
100111,Raven Bierman,Female,2016-12-04,7000000
100112,Valter Havers,Male,2018-04-13,7000000
200210,Marko Mendell,Male,2018-07-04,15000000
200211,Takahiro Momota,Male,2016-11-18,12000000
200312,Yahiko Tilemans,Male,2017-05-26,20000000
300207,Dina Rebaine,Female,2015-03-20,15000000


In [74]:
df.loc[100112] # menampilkan isi dari baris dengan index 100112
# perhatikan bahwa .loc memakai [] bukan ()

name            Valter Havers
gender                   Male
hire date          2018-04-13
gross salary          7000000
Name: 100112, dtype: object

In [75]:
df.loc[100111:200211]
# slicing indec menggunakan .loc
# perhatikan bahwa index terakhir adalah index yang 200211, tidak seperti slicing biasa yang berhenti di 1 sebelum stop

Unnamed: 0,name,gender,hire date,gross salary
100111,Raven Bierman,Female,2016-12-04,7000000
100112,Valter Havers,Male,2018-04-13,7000000
200210,Marko Mendell,Male,2018-07-04,15000000
200211,Takahiro Momota,Male,2016-11-18,12000000


In [76]:
df.loc[:, 'name'] # menampilkan kolom name menggunakan cara .loc

100111      Raven Bierman
100112      Valter Havers
200210      Marko Mendell
200211    Takahiro Momota
200312    Yahiko Tilemans
300207       Dina Rebaine
Name: name, dtype: object

In [77]:
df.loc[100112,'gender'] # menampilkan gender dari karyawan pada index 100112

'Male'

In [78]:
# iloc : indexing berdasarkan posisi index
df

Unnamed: 0,name,gender,hire date,gross salary
100111,Raven Bierman,Female,2016-12-04,7000000
100112,Valter Havers,Male,2018-04-13,7000000
200210,Marko Mendell,Male,2018-07-04,15000000
200211,Takahiro Momota,Male,2016-11-18,12000000
200312,Yahiko Tilemans,Male,2017-05-26,20000000
300207,Dina Rebaine,Female,2015-03-20,15000000


In [80]:
df.iloc[0,1] # memanggil data di posisi index baris 0 dan posisi index kolom 1 

'Female'

In [None]:
df.iloc[[1,3]] #fancy indexing, menampilkan data di index paris 1 dan 3

## conditional selection

In [84]:
contoh2=pd.DataFrame(np.arange(0,20).reshape(4,-1))
contoh2

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [85]:
contoh2>5 #cek apakah data di suatu dataframe lebih besar dari 5
#output true/false dalam bentuk data frame

Unnamed: 0,0,1,2,3,4
0,False,False,False,False,False
1,False,True,True,True,True
2,True,True,True,True,True
3,True,True,True,True,True


In [86]:
contoh2[contoh2>5] # kondisi bisa dimasukan ke dalam bracket
# maka akan menampilkan DATA yang memenuhi kondisi

Unnamed: 0,0,1,2,3,4
0,,,,,
1,,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [87]:
df

Unnamed: 0,name,gender,hire date,gross salary
100111,Raven Bierman,Female,2016-12-04,7000000
100112,Valter Havers,Male,2018-04-13,7000000
200210,Marko Mendell,Male,2018-07-04,15000000
200211,Takahiro Momota,Male,2016-11-18,12000000
200312,Yahiko Tilemans,Male,2017-05-26,20000000
300207,Dina Rebaine,Female,2015-03-20,15000000


In [90]:
# apakah gender karyawan tertentu di df adalah Female?

df['gender']=='Female' #kondisi

100111     True
100112    False
200210    False
200211    False
200312    False
300207     True
Name: gender, dtype: bool

In [91]:
# menampilkan data karyawan yang memiliki gender female
df[df['gender']=='Female'] 

Unnamed: 0,name,gender,hire date,gross salary
100111,Raven Bierman,Female,2016-12-04,7000000
300207,Dina Rebaine,Female,2015-03-20,15000000


In [93]:
# menampilkan NAMA dari karyawan yang gendernya 'Female'
df['name'][df['gender']=='Female']

100111    Raven Bierman
300207     Dina Rebaine
Name: name, dtype: object

In [94]:
df[df['gender']=='Female']['name']

100111    Raven Bierman
300207     Dina Rebaine
Name: name, dtype: object

In [95]:
# menampilkan NAMA dan gross salary dari karyawan yang gendernya 'Female'
df[df['gender']=='Female'][['name','gross salary']]

Unnamed: 0,name,gross salary
100111,Raven Bierman,7000000
300207,Dina Rebaine,15000000


In [98]:
# menampilkan data karyawan yang gendernya adalah female dan gross salarynya lebih besar dari 10000000
df[(df['gender']=='Female')&(df['gross salary']>10000000)]

# untuk kondisi lebih dari 1, masukkan masing-masing kondisi ke dalam ()
# lalu dipisahkan dengan & (untuk and) atau | (untuk or)

Unnamed: 0,name,gender,hire date,gross salary
300207,Dina Rebaine,Female,2015-03-20,15000000
