## Biến thời gian

Biến ngày là một kiểu biến hạng mục đặc biệt. Về bản chất, biến ngày sẽ chứa nhiều nhãn khác nhau, mỗi nhãn tương ứng với một ngày cụ thể và đôi khi là thời gian. Biến ngày khi được tiền xử lý đúng cách có thể làm tập dữ liệu phong phú hơn. Ví dụ: từ biến ngày, chúng ta có thể trích xuất:

- Tuần
- Tháng
- Quý
- Kỳ
- Năm
- Ngày (số)
- Ngày trong tuần
- Cuối tuần
- Khác biệt về thời gian trong năm, tháng, tuần, ngày, giờ,...

Không nên sử dụng biến ngày làm biến hạng mục khi xây dựng mô hình học máy. Không chỉ bởi vì chúng có vô số hạng mục mà còn do khi chúng ta thực sự sử dụng mô hình để đánh giá một quan sát mới, quan sát này rất có thể ở trong tương lai, do đó nhãn ngày có thể khác với những nhãn có trong tập huấn luyện, các nhãn này được sử dụng để huấn luyện thuật toán học máy.


## Trong bản mô phỏng này: Cho vay ngang hàng (lĩnh vực Tài chính)

Chúng ta sẽ sử dụng tập dữ liệu toy từ công ty tài chính ngang hàng để trích xuất các đặc trưng khác nhau từ biến thời gian.

In [1]:
import pandas as pd
import numpy as np

import datetime

In [2]:
# load tập dữ liệu với các cột đã chọn

use_cols = ['date_issued', 'date_last_payment']

data = pd.read_csv('../dataset/loan.csv', usecols=use_cols)

data.head()

Unnamed: 0,date_issued,date_last_payment
0,2013-06-11,2016-01-14
1,2014-05-08,2016-01-25
2,2013-10-26,2014-09-26
3,2015-08-20,2016-01-26
4,2014-07-22,2016-01-11


In [4]:
## Yêu cầu 1
# hãy phân tích thời gian, ép kiểu thành string, thành định dạng thời gian

## VIẾT CODE Ở ĐÂY:
data['issue_dt'] = pd.to_datetime(data['date_issued'])
data['last_pymnt_dt'] = pd.to_datetime(data['date_last_payment'])

data[['date_issued','issue_dt','date_last_payment', 'last_pymnt_dt']].head()

Unnamed: 0,date_issued,issue_dt,date_last_payment,last_pymnt_dt
0,2013-06-11,2013-06-11,2016-01-14,2016-01-14
1,2014-05-08,2014-05-08,2016-01-25,2016-01-25
2,2013-10-26,2013-10-26,2014-09-26,2014-09-26
3,2015-08-20,2015-08-20,2016-01-26,2016-01-26
4,2014-07-22,2014-07-22,2016-01-11,2016-01-11


<details><summary> Gợi ý </summary>

[to_datetime()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html)

</details>

### Trích xuất tuần trong năm

In [10]:
## Yêu cầu 2
# Trích xuất tuần trong năm từ ngày, biến thiên từ 1 đến 52

## VIẾT CODE Ở ĐÂY:
data['issue_dt_week'] = data['issue_dt'].dt.week

data[['issue_dt', 'issue_dt_week']].head()

AttributeError: 'DatetimeProperties' object has no attribute 'week'

<details><summary> Gợi ý </summary>

Using ```week``` attribute

</details>

In [None]:
data['issue_dt_week'].unique()

array([24, 19, 43, 34, 30, 39, 12,  7, 52, 47, 14, 44, 46, 17,  8,  2, 25,
       51, 15, 11, 36, 21, 16, 49, 23,  6, 40, 29, 38, 33, 27, 28, 41, 20,
       50,  9,  5, 32, 45, 10, 42, 48,  4,  1, 26, 13, 37,  3, 22, 35, 18,
       31], dtype=int64)

### Trích xuất tháng

In [None]:
## Yêu cầu 3
# Trích xuất tháng từ 1 đến 12

## VIẾT CODE Ở ĐÂY:
data['issue_dt_month'] = data[...].dt....

## VIẾT CODE Ở ĐÂY:
data[['issue_dt', ...]].head()

Unnamed: 0,issue_dt,issue_dt_month
0,2013-06-11,6
1,2014-05-08,5
2,2013-10-26,10
3,2015-08-20,8
4,2014-07-22,7


<details><summary> Gợi ý </summary>

Using ```month``` attribute

</details>

In [None]:
data['issue_dt_month'].unique()

array([ 6,  5, 10,  8,  7,  9,  3,  2, 12, 11,  4,  1], dtype=int64)

### Trích xuất quý

In [None]:
## Yêu cầu 4
# Trích xuất quý từ 1 đến 4

## VIẾT CODE Ở ĐÂY:
data['issue_dt_quarter'] = data[...].dt....

## VIẾT CODE Ở ĐÂY:
data[['issue_dt', ...]].head()

Unnamed: 0,issue_dt,issue_dt_quarter
0,2013-06-11,2
1,2014-05-08,2
2,2013-10-26,4
3,2015-08-20,3
4,2014-07-22,3


<details><summary> Gợi ý </summary>

Using ```quarter``` attribute

</details>

In [None]:
data['issue_dt_quarter'].unique()

array([2, 4, 3, 1], dtype=int64)

### Trích xuất kỳ

In [None]:
## Yêu cầu 5
# Chúng ta cũng có thể trích xuất kỳ

## VIẾT CODE Ở ĐÂY:
...['issue_dt_semester'] = np.where(...['issue_dt_quarter'].isin([1,2]), 1, 2)

data.head()

Unnamed: 0,date_issued,date_last_payment,issue_dt,last_pymnt_dt,issue_dt_week,issue_dt_month,issue_dt_quarter,issue_dt_semester
0,2013-06-11,2016-01-14,2013-06-11,2016-01-14,24,6,2,1
1,2014-05-08,2016-01-25,2014-05-08,2016-01-25,19,5,2,1
2,2013-10-26,2014-09-26,2013-10-26,2014-09-26,43,10,4,2
3,2015-08-20,2016-01-26,2015-08-20,2016-01-26,34,8,3,2
4,2014-07-22,2016-01-11,2014-07-22,2016-01-11,30,7,3,2


In [None]:
data['issue_dt_semester'].unique()

array([1, 2])

###  Trích xuất năm

In [None]:
## Yêu cầu 6
# trích xuất năm

## VIẾT CODE Ở ĐÂY:
data['issue_dt_year'] = data[...].dt....

## VIẾT CODE Ở ĐÂY:
data[['issue_dt', ...]].head()

Unnamed: 0,issue_dt,issue_dt_year
0,2013-06-11,2013
1,2014-05-08,2014
2,2013-10-26,2013
3,2015-08-20,2015
4,2014-07-22,2014


<details><summary> Gợi ý </summary>

Using ```year``` attribute

</details>

In [None]:
data['issue_dt_year'].unique()

array([2013, 2014, 2015, 2011, 2009, 2012, 2010, 2008, 2007], dtype=int64)

### Trích xuất ngày ở nhiều định dạng khác nhau

In [None]:
## Yêu cầu 7
# ngày - số từ 1-31

## VIẾT CODE Ở ĐÂY:
data['issue_dt_day'] = data[...].dt....

## VIẾT CODE Ở ĐÂY:
data[['issue_dt', ...]].head()

Unnamed: 0,issue_dt,issue_dt_day
0,2013-06-11,11
1,2014-05-08,8
2,2013-10-26,26
3,2015-08-20,20
4,2014-07-22,22


<details><summary> Gợi ý </summary>

Using ```day``` attribute

</details>

In [None]:
data['issue_dt_day'].unique()

array([11,  8, 26, 20, 22, 21, 27, 14, 25,  4, 13, 23, 19, 18, 24, 17,  6,
        1, 12, 10,  5,  3,  7,  2,  9, 16, 15], dtype=int64)

In [None]:
## Yêu cầu 8
# ngày trong tuần - từ 0 đến 6

## VIẾT CODE Ở ĐÂY:
data['issue_dt_dayofweek'] = data[...].dt....

## VIẾT CODE Ở ĐÂY:
data[['issue_dt', ...]].head()

Unnamed: 0,issue_dt,issue_dt_dayofweek
0,2013-06-11,1
1,2014-05-08,3
2,2013-10-26,5
3,2015-08-20,3
4,2014-07-22,1


<details><summary> Gợi ý </summary>

Using ```dayofweek``` attribute

</details>

In [None]:
data['issue_dt_dayofweek'].unique()

array([1, 3, 5, 2, 6, 4, 0], dtype=int64)

In [None]:
## Yêu cầu 9
# ngày trong tuần - tên

## VIẾT CODE Ở ĐÂY:
data['issue_dt_dayofweek'] = data[...].dt....

## VIẾT CODE Ở ĐÂY:
data[['issue_dt', ...]].head()

Unnamed: 0,issue_dt,issue_dt_dayofweek
0,2013-06-11,Tuesday
1,2014-05-08,Thursday
2,2013-10-26,Saturday
3,2015-08-20,Thursday
4,2014-07-22,Tuesday


<details><summary> Gợi ý </summary>

Using ```day_name()``` function

</details>

In [None]:
data['issue_dt_dayofweek'].unique()

array(['Tuesday', 'Thursday', 'Saturday', 'Wednesday', 'Sunday', 'Friday',
       'Monday'], dtype=object)

In [None]:
## Yêu cầu 10
# ứng dụng có được thực hiện vào cuối tuần không?

## VIẾT CODE Ở ĐÂY:
...['issue_dt_is_weekend'] = np.where(...['issue_dt_dayofweek'].isin(['Sunday', ...]), 1,0)

## VIẾT CODE Ở ĐÂY:
data[['issue_dt', 'issue_dt_dayofweek',...]].head()

Unnamed: 0,issue_dt,issue_dt_dayofweek,issue_dt_is_weekend
0,2013-06-11,Tuesday,0
1,2014-05-08,Thursday,0
2,2013-10-26,Saturday,1
3,2015-08-20,Thursday,0
4,2014-07-22,Tuesday,0


In [None]:
data['issue_dt_is_weekend'].unique()

array([0, 1])

### Trích xuất thời gian trôi qua giữa các ngày

In [None]:
## Yêu cầu 11
# thú vị hơn, trích xuất chênh lệch ngày giữa 2 ngày

## VIẾT CODE Ở ĐÂY:
...['issue_dt'] - ...['last_pymnt_dt']

0      -947 days
1      -627 days
2      -335 days
3      -159 days
4      -538 days
          ...   
9995   -293 days
9996   -312 days
9997   -253 days
9998   -404 days
9999   -362 days
Length: 10000, dtype: timedelta64[ns]

In [None]:
## Yêu cầu 12
# tương tự như trên, chỉ nắm chênh lệch về thời gian

## VIẾT CODE Ở ĐÂY:
(data['last_pymnt_dt'] - data['issue_dt']).dt.....head()

0    947
1    627
2    335
3    159
4    538
dtype: int64

<details><summary> Gợi ý </summary>

Using ```days``` attribute

</details>

In [None]:
## Yêu cầu 13
# tính số tháng trôi qua giữa 2 ngày

## VIẾT CODE Ở ĐÂY:
data['months_passed'] = (...['last_pymnt_dt'] - ...['issue_dt']) / np.timedelta64(1, 'M')
data['months_passed'] = np.round(...['months_passed'],0)

## VIẾT CODE Ở ĐÂY:
data[['last_pymnt_dt', 'issue_dt', ...]].head()

Unnamed: 0,last_pymnt_dt,issue_dt,months_passed
0,2016-01-14,2013-06-11,31.0
1,2016-01-25,2014-05-08,21.0
2,2014-09-26,2013-10-26,11.0
3,2016-01-26,2015-08-20,5.0
4,2016-01-11,2014-07-22,18.0


In [None]:
## Yêu cầu 14
# hoặc chênh lệch về thời gian với hôm nay

## VIẾT CODE Ở ĐÂY:
(datetime.datetime.today() - ...['issue_dt']).head()

0   2620 days 12:42:49.744220
1   2289 days 12:42:49.744220
2   2483 days 12:42:49.744220
3   1820 days 12:42:49.744220
4   2214 days 12:42:49.744220
Name: issue_dt, dtype: timedelta64[ns]

In [None]:
(datetime.datetime.today() - data['issue_dt']).unique()

array([226413769786250000, 197815369786250000, 214576969786250000, ...,
       314887369786250000, 353421769786250000, 333895369786250000],
      dtype='timedelta64[ns]')

## Biến thời gian

Trong mô phỏng này, chúng ta sẽ trích xuất các biểu diễn khác nhau của thời gian từ một dấu thời gian (timestamp). Chúng ta sẽ trích xuất:

- giờ
- phút
- giây
- dữ liệu
- thời gian trôi qua

Chúng ta sẽ tạo tập dữ liệu toy để minh họa.

In [None]:
# tạo tập dữ liệu toy: 1 cột 7 dâu thời gian khác nhau,
# chênh lệch 1 giờ giữa các dấu thời gian
 
date = pd.Series(pd.date_range('2015-1-5 11:20:00', periods=7, freq='H'))

df = pd.DataFrame(dict(date=date))

df

### Trích xuất giờ, phút, giây

In [None]:
## Yêu cầu 15

## VIẾT CODE Ở ĐÂY:
df['hour'] = df['date'].dt....
df['min'] = df['date'].dt....
df['sec'] = df['date'].dt....

df

<details><summary> Gợi ý </summary>

Using ```hour```, ```minute``` and ```second``` attribute

</details>

### Trích xuất phần thời gian

In [None]:
## Yêu cầu 16

## VIẾT CODE Ở ĐÂY:
df['time'] = df['date'].dt....

df

<details><summary> Gợi ý </summary>

Using ```time``` attribute

</details>

### Trích xuất giờ, phút, giây cùng lúc

In [None]:
## Yêu cầu 17
# hãy lặp lại những gì chúng ta đã thực hiện ở cell 3 trong một lệnh

## VIẾT CODE Ở ĐÂY:
df[['h','m','s']] = pd.DataFrame([(x..., x.minute, x....) for ... in df['time']])

df

## Tính chênh lệch thời gian

In [None]:
## Yêu cầu 18
# tạo một toy dataframe khác với 2 cột dấu thời gian
# và 7 hàng, ở cột đầu tiên các dấu thời gian thay đổi theo tháng,
# ở cột thứ hai dấu thời gian thây đổi theo tuần

## VIẾT CODE Ở ĐÂY:
date1 = pd.Series(pd....('2012-1-1 12:00:00', periods=7, freq='M'))
date2 = pd.Series(pd....('2013-3-11 21:45:00', periods=7, freq='W'))
 
df = pd.DataFrame(dict(Start_date = date1, End_date = date2))

df

<details><summary> Gợi ý </summary>

[date_ranger()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.date_range.html)

</details>

In [None]:
## Yêu cầu 19
# tính thời gian trôi qua theo giây

## VIẾT CODE Ở ĐÂY:
df['diff_seconds'] = df['End_date'] - df['Start_date']
df['diff_seconds'] = df[...]/np.timedelta64(1,'s')
df

In [None]:
## Yêu cầu 20
# tính thời gian trôi qua theo phút

## VIẾT CODE Ở ĐÂY:
df['diff_seconds'] = ...
df['diff_seconds'] = df['diff_seconds']/np.timedelta64(1,'m')
df

Để biết thêm chi tiết, hãy xem [bài viết này](http://www.datasciencemadesimple.com/difference-two-timestamps-seconds-minutes-hours-pandas-python-2/)

## Làm việc với các múi giờ khác nhau

Trong các cell tiếp theo, chúng ta sẽ xem cách làm việc với các dấu thời gian ở các múi giờ khác nhau.

In [None]:
#trước tiên, tạo toy dataframe với một số dấu thời gian trong các múi giờ khác nhau

df = pd.DataFrame()

df['time'] = pd.concat([
    pd.Series(
        pd.date_range(
            start='2014-08-01 09:00', freq='H', periods=3,
            tz='Europe/Berlin')),
    pd.Series(
        pd.date_range(
            start='2014-08-01 09:00', freq='H', periods=3, tz='US/Central'))
    ], axis=0)

df

Chúng ta thấy các múi giờ khác nhau thể hiện bằng +2 và -5 theo kinh tuyến. 

In [None]:
## Yêu cầu 21
# để làm việc với các múi giờ khác nhau, trước tiên chúng ta thống nhất múi giờ trung tâm
# đặt utc = True

## VIẾT CODE Ở ĐÂY:
df['time_utc'] = pd....(df['time'], utc=True)

# tiếp theo, thay đổi tất cả các dấu thời gian theo múi giờ mong muốn, chẳng hạn như Europe/London
# trong ví dụ này

df['time_london'] = df['time_utc'].dt.tz_convert('Europe/London')


df

<details><summary> Gợi ý </summary>

[to_datetime()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html)

</details>

Tất nhiên với feature engineering, chúng ta có thể thiết lập tất cả các múi giờ theo múi giờ trung tâm utc=True và trích xuất thời gian đã trôi qua,...Mã hóa múi giờ bổ sung chủ yếu để mọi người có thể đọc được.
