# 7 Fungsi Tanggal Pada Pandas Yang Wajib Diketahui

Artikel berikut merupakan tutorial Pandas yang akan membahasa mengenai fungsi-fungsi Pandas yang wajib diketahui jika berurusan dengan tipe data **DATE**. Seringkali dalam analisa data kita menggunakan DATE atau tanggal sebagai sebuah dimensi atau variable atau feature, karena banyak hal yang dihitung berdasarkan tanggal.

Artikel tutorial Pandas ini dibuat karena ada seorang teman yang bertanya mengenai salah satu fungsi yang berhubungan dengan tanggal, setelah tutorial Pandas sebelumnya 1 dan 2 dipublikasikan. Yuk langsung saja kita **KODING !**

## Dataset

Dataset yang digunakan adalah data sintetis yang terdiri dari tanggal dengan **3 format penulisan tanggal** dan field **value**.

In [1]:
import pandas as pd

df_sample = pd.DataFrame(
    {'date_fmt1' :['4/1/20', '4/2/20', '4/3/20', '4/4/20', '4/5/20', '4/6/20', '4/7/20'], 
     'date_fmt2' :['20200401', '20200402', '20200403', '20200404', '20200405', '20200406', '20200407'],
     'date_fmt3' :['Apr.01.2020', 'Apr.02.2020', 'Apr.03.2020', 'Apr.04.2020', 'Apr.05.2020', 'Apr.06.2020', 'Apr.07.2020'],
     'value' :[103, 112, 134, 150, 164, 192, 204]
    })

df_sample

Unnamed: 0,date_fmt1,date_fmt2,date_fmt3,value
0,4/1/20,20200401,Apr.01.2020,103
1,4/2/20,20200402,Apr.02.2020,112
2,4/3/20,20200403,Apr.03.2020,134
3,4/4/20,20200404,Apr.04.2020,150
4,4/5/20,20200405,Apr.05.2020,164
5,4/6/20,20200406,Apr.06.2020,192
6,4/7/20,20200407,Apr.07.2020,204


In [2]:
df_sample.dtypes

date_fmt1    object
date_fmt2    object
date_fmt3    object
value         int64
dtype: object

## 1. Merubah format string ke tipe date

Panda memiliki fungsi **to_datetime** yang bisa digunakan untuk mengkonversi STRING menjadi tipe data DATETIME. Format pembacaan tanggal dapat disesuaikan dengan menggunakan parameter **format**.

Berikut ini kita akan mengkonversi field date_fmt1 yang memiliki format **'%m/%d/%y'** ke dalam field baru yaitu **date01**

In [3]:
df_sample['date01'] = pd.to_datetime(df_sample['date_fmt1'], format='%m/%d/%y')
df_sample

Unnamed: 0,date_fmt1,date_fmt2,date_fmt3,value,date01
0,4/1/20,20200401,Apr.01.2020,103,2020-04-01
1,4/2/20,20200402,Apr.02.2020,112,2020-04-02
2,4/3/20,20200403,Apr.03.2020,134,2020-04-03
3,4/4/20,20200404,Apr.04.2020,150,2020-04-04
4,4/5/20,20200405,Apr.05.2020,164,2020-04-05
5,4/6/20,20200406,Apr.06.2020,192,2020-04-06
6,4/7/20,20200407,Apr.07.2020,204,2020-04-07


Sebagai contoh lain adalah format tanggal seperti 20200401, jika dibaca maka menggunakan format **'%Y%m%d'**

In [4]:
df_sample['date02'] = pd.to_datetime(df_sample.date_fmt2, format='%Y%m%d')
df_sample

Unnamed: 0,date_fmt1,date_fmt2,date_fmt3,value,date01,date02
0,4/1/20,20200401,Apr.01.2020,103,2020-04-01,2020-04-01
1,4/2/20,20200402,Apr.02.2020,112,2020-04-02,2020-04-02
2,4/3/20,20200403,Apr.03.2020,134,2020-04-03,2020-04-03
3,4/4/20,20200404,Apr.04.2020,150,2020-04-04,2020-04-04
4,4/5/20,20200405,Apr.05.2020,164,2020-04-05,2020-04-05
5,4/6/20,20200406,Apr.06.2020,192,2020-04-06,2020-04-06
6,4/7/20,20200407,Apr.07.2020,204,2020-04-07,2020-04-07


Jika penulisan bulan dengan menggunakan format singkatan 3 karakter nama bulan, seperti Apr untuk April, maka parameter format untuk pembacaannya dapat menggunakan **%b**

In [5]:
df_sample['date03'] = pd.to_datetime(df_sample['date_fmt3'], format='%b.%d.%Y')
df_sample

Unnamed: 0,date_fmt1,date_fmt2,date_fmt3,value,date01,date02,date03
0,4/1/20,20200401,Apr.01.2020,103,2020-04-01,2020-04-01,2020-04-01
1,4/2/20,20200402,Apr.02.2020,112,2020-04-02,2020-04-02,2020-04-02
2,4/3/20,20200403,Apr.03.2020,134,2020-04-03,2020-04-03,2020-04-03
3,4/4/20,20200404,Apr.04.2020,150,2020-04-04,2020-04-04,2020-04-04
4,4/5/20,20200405,Apr.05.2020,164,2020-04-05,2020-04-05,2020-04-05
5,4/6/20,20200406,Apr.06.2020,192,2020-04-06,2020-04-06,2020-04-06
6,4/7/20,20200407,Apr.07.2020,204,2020-04-07,2020-04-07,2020-04-07


Terlihat dibawah, bahwa field **date01**, **date02** dan **date03** memiliki tipe data **datetime64**

In [6]:
df_sample.dtypes

date_fmt1            object
date_fmt2            object
date_fmt3            object
value                 int64
date01       datetime64[ns]
date02       datetime64[ns]
date03       datetime64[ns]
dtype: object

## 2. Mengekstrak Feature Pada Date

Sebelum meneruskan, kita melakukan persiapan untuk dataframe yang akan digunakan, yaitu membentuknya menjadi 2 field yaitu **date_id** dan **value**

In [7]:
df = df_sample[['date01', 'value']].copy()
df.rename(columns={'date01': 'date_id'}, inplace=True)

In [8]:
df.dtypes

date_id    datetime64[ns]
value               int64
dtype: object

Dengan tipe data **datetime64**, kita akan dengan mudah mengekstrak fitur, seperti tahun, bulan, tanggal dan fitur lain dengan mudah. Panda menyediakan beberapa atribut yang dapat digunakan seperti dt.year, dt.month, dt.day dan dt.quarter untuk memperoleh nilai tahun, bulan, tanggal dan quarter.

In [9]:
df['year'] = df['date_id'].dt.year
df['month'] = df['date_id'].dt.month
df['day'] = df['date_id'].dt.day
df['querter-of-year'] = df['date_id'].dt.quarter

Untuk memperoleh nilai minggu, dapat menggunakan **dt.isocalendar().week**. Atrubut **dt.weekofyear** and **dt.week** disarankan untuk tidak digunakan lagi.

In [10]:
df['week-of-year'] = df['date_id'].dt.isocalendar().week

Hasil yang didapat adalah

In [11]:
df

Unnamed: 0,date_id,value,year,month,day,querter-of-year,week-of-year
0,2020-04-01,103,2020,4,1,2,14
1,2020-04-02,112,2020,4,2,2,14
2,2020-04-03,134,2020,4,3,2,14
3,2020-04-04,150,2020,4,4,2,14
4,2020-04-05,164,2020,4,5,2,14
5,2020-04-06,192,2020,4,6,2,15
6,2020-04-07,204,2020,4,7,2,15


## 3. Menghitung Selisih Antar Tanggal

Menghitung selisih hari biasanya digunakan ketika menghitung durasi dalam satuan hari. Untuk melakukan perhitungan selisih hari antara 2 tanggal, dapat dilakukan dengan mudah jika telah memiliki tipe data **DATETIME64**

In [12]:
df['diff'] = df.date_id - pd.to_datetime('20200330', format='%Y%m%d')
df

Unnamed: 0,date_id,value,year,month,day,querter-of-year,week-of-year,diff
0,2020-04-01,103,2020,4,1,2,14,2 days
1,2020-04-02,112,2020,4,2,2,14,3 days
2,2020-04-03,134,2020,4,3,2,14,4 days
3,2020-04-04,150,2020,4,4,2,14,5 days
4,2020-04-05,164,2020,4,5,2,14,6 days
5,2020-04-06,192,2020,4,6,2,15,7 days
6,2020-04-07,204,2020,4,7,2,15,8 days


Untuk mengkonversikan menjadi numerik, dapat menngunakan atribut **dt.days**

In [13]:
df['diff-in-days'] = df['diff'].dt.days
df

Unnamed: 0,date_id,value,year,month,day,querter-of-year,week-of-year,diff,diff-in-days
0,2020-04-01,103,2020,4,1,2,14,2 days,2
1,2020-04-02,112,2020,4,2,2,14,3 days,3
2,2020-04-03,134,2020,4,3,2,14,4 days,4
3,2020-04-04,150,2020,4,4,2,14,5 days,5
4,2020-04-05,164,2020,4,5,2,14,6 days,6
5,2020-04-06,192,2020,4,6,2,15,7 days,7
6,2020-04-07,204,2020,4,7,2,15,8 days,8


In [14]:
df.dtypes

date_id             datetime64[ns]
value                        int64
year                         int64
month                        int64
day                          int64
querter-of-year              int64
week-of-year                UInt32
diff               timedelta64[ns]
diff-in-days                 int64
dtype: object

## 4. Operasi Penambahan n Hari

Jika ingin melakukan penambahan hari, maka dapat dilakukan seperti kode dibawah ini

In [15]:
df['seven-days-later'] = df.date_id + pd.Timedelta(days=7)
df

Unnamed: 0,date_id,value,year,month,day,querter-of-year,week-of-year,diff,diff-in-days,seven-days-later
0,2020-04-01,103,2020,4,1,2,14,2 days,2,2020-04-08
1,2020-04-02,112,2020,4,2,2,14,3 days,3,2020-04-09
2,2020-04-03,134,2020,4,3,2,14,4 days,4,2020-04-10
3,2020-04-04,150,2020,4,4,2,14,5 days,5,2020-04-11
4,2020-04-05,164,2020,4,5,2,14,6 days,6,2020-04-12
5,2020-04-06,192,2020,4,6,2,15,7 days,7,2020-04-13
6,2020-04-07,204,2020,4,7,2,15,8 days,8,2020-04-14


## 5. Mengkonversi DATE ke format STRING

Salah satu fungsi yang dapat digunakan untuk mengkonversi **DATE** ke tipe **STRING** adalah **dt.strftime**. Fungsi ini memiliki paramater untuk format yang diinginkan, seperti halnya fungsi to_datetime.

In [16]:
df['weekday-name'] = df.date_id.dt.strftime('%a')
df['month-name'] = df.date_id.dt.strftime('%b')
df['day-of-week'] = df.date_id.dt.strftime('%w')
df

Unnamed: 0,date_id,value,year,month,day,querter-of-year,week-of-year,diff,diff-in-days,seven-days-later,weekday-name,month-name,day-of-week
0,2020-04-01,103,2020,4,1,2,14,2 days,2,2020-04-08,Wed,Apr,3
1,2020-04-02,112,2020,4,2,2,14,3 days,3,2020-04-09,Thu,Apr,4
2,2020-04-03,134,2020,4,3,2,14,4 days,4,2020-04-10,Fri,Apr,5
3,2020-04-04,150,2020,4,4,2,14,5 days,5,2020-04-11,Sat,Apr,6
4,2020-04-05,164,2020,4,5,2,14,6 days,6,2020-04-12,Sun,Apr,0
5,2020-04-06,192,2020,4,6,2,15,7 days,7,2020-04-13,Mon,Apr,1
6,2020-04-07,204,2020,4,7,2,15,8 days,8,2020-04-14,Tue,Apr,2


https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

## 6. Filtering

Secara umum fungsi-fungsi yang telah dijelaskan diatas dapat digunakan untuk memfilter data. Misalkan kita akan memfilter untuk menampilkan data-data antara tanggal 3 April hingga 7 April 

In [17]:
df[['date_id', 'value']] [(df.date_id > '04-03-2020') & (df.date_id < '04-07-2020')]

Unnamed: 0,date_id,value
3,2020-04-04,150
4,2020-04-05,164
5,2020-04-06,192


Perintah diatas memiliki 3 bagian:
1. df adalah data frame yang digunakan
2. **[['date_id', 'value']]** adalah nama field yang akan ditampilkan
3. **[(df.date_id > '04-03-2020') & (df.date_id < '04-09-2020')]** adalah filter yang digunakan, dalam hal ini adalah untuk menampilkan data-data antara tanggal 3 April hingga 9 April

Contoh lain adalah menampilkan data-data pada hari Rabu

In [18]:
df[['date_id', 'value']] [(df.date_id.dt.strftime('%a') == 'Wed')]

Unnamed: 0,date_id,value
0,2020-04-01,103


## 7. Filtering menggunakan index

Jika akan melakukan banyak filtering menggunakan field **date_id**, akan lebih cepat jika field tanggal digunakan sebagai index, sehingga dapat memanfaatkan optimasi yang disediakan oleh Pandas.

In [19]:
df = df.set_index(['date_id'])
df

Unnamed: 0_level_0,value,year,month,day,querter-of-year,week-of-year,diff,diff-in-days,seven-days-later,weekday-name,month-name,day-of-week
date_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2020-04-01,103,2020,4,1,2,14,2 days,2,2020-04-08,Wed,Apr,3
2020-04-02,112,2020,4,2,2,14,3 days,3,2020-04-09,Thu,Apr,4
2020-04-03,134,2020,4,3,2,14,4 days,4,2020-04-10,Fri,Apr,5
2020-04-04,150,2020,4,4,2,14,5 days,5,2020-04-11,Sat,Apr,6
2020-04-05,164,2020,4,5,2,14,6 days,6,2020-04-12,Sun,Apr,0
2020-04-06,192,2020,4,6,2,15,7 days,7,2020-04-13,Mon,Apr,1
2020-04-07,204,2020,4,7,2,15,8 days,8,2020-04-14,Tue,Apr,2


Untuk memfilter berdasarkan urutan tanggal, misal data antara tanggal **5 April hingga 7 April**, dapat dilakukan dengan menggunakan index seperti berikut

In [26]:
df.loc['2020-04-05' : '2020-04-07']

Unnamed: 0_level_0,value,year,month,day,querter-of-year,week-of-year,diff,diff-in-days,seven-days-later,weekday-name,month-name,day-of-week
date_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2020-04-05,164,2020,4,5,2,14,6 days,6,2020-04-12,Sun,Apr,0
2020-04-06,192,2020,4,6,2,15,7 days,7,2020-04-13,Mon,Apr,1
2020-04-07,204,2020,4,7,2,15,8 days,8,2020-04-14,Tue,Apr,2


Untuk menampilkan data bulan **April** dengan menggunakan index, dapat dilakukan seperti berikut

In [27]:
df.loc['2020-4']

Unnamed: 0_level_0,value,year,month,day,querter-of-year,week-of-year,diff,diff-in-days,seven-days-later,weekday-name,month-name,day-of-week
date_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2020-04-01,103,2020,4,1,2,14,2 days,2,2020-04-08,Wed,Apr,3
2020-04-02,112,2020,4,2,2,14,3 days,3,2020-04-09,Thu,Apr,4
2020-04-03,134,2020,4,3,2,14,4 days,4,2020-04-10,Fri,Apr,5
2020-04-04,150,2020,4,4,2,14,5 days,5,2020-04-11,Sat,Apr,6
2020-04-05,164,2020,4,5,2,14,6 days,6,2020-04-12,Sun,Apr,0
2020-04-06,192,2020,4,6,2,15,7 days,7,2020-04-13,Mon,Apr,1
2020-04-07,204,2020,4,7,2,15,8 days,8,2020-04-14,Tue,Apr,2


## Penutup

Demikian tutorial Pandas, dengan 7 fungsi DATE yang bakalan sering kamu gunakan jika melakukan pengolahan data. Semoga kamu bisa memperoleh ide bagaimana (sebetulnya) mudah melakukan pengolahan data dengan menggunakan Pandas.

Tutorial ini juga dipublikasikan di (idBigData

Untuk yang belum pernah menggunakan Python dapat membaca Berkenalan dengan Python

Enjoy learning and have fun with data !