<a href="https://colab.research.google.com/github/k5yi/econ2005/blob/master/notebooks/03Datetime.ipynb">
  <img src="https://img.shields.io/badge/%EC%84%9C%EA%B0%95%EA%B2%BD%EC%A0%9C-3%20datetime-crimson?labelColor=navy&logo=googlecolab&logoClolor=crimson" align='left'/>
</a> <br>

# datetime

- 시간 표시법은 상당히 복잡하고 비체계적으로 정의와 비교가 쉽지 않다.<br>
- 시간은 24진수, 분과 초는 60진수, 그 이하 단위는 10진수를 사용한다.<br>
- 12시간제(12 hour clock)를 사용하면서 오전/오후로 나누기도 하고 정오를 사용하는 경우도 있다.<br>
- 1개월의 날짜 수는 달마다 다르고 1년의 정확한 길이는 정기적으로 조정된다.<br>
- 여기에 time zone과 daylight saving까지 고려하면 시간 비교는 아주 골치아픈 문제가 된다.


- 여기선 기본적인 구조와 pandas에서 사용할 datatime 관련 명령어를 살펴본다.

[참고 블로그](https://spoqa.github.io/2019/02/15/python-timezone.html)

## import datetime

- `datetime`을 alias `dt`로 import하여 사용하는 경우가 많다.

```python
import datetime as dt
```

- 조심하면 별 문제는 없지만 dt를 시간변화량으로 사용하는 경우도 있고
- `pandas.Series`의 속성으로 `pd.Series.dt.date`과 같이 자료 정리에 `dt`가 흔히 등장한다.


- datetime에서 많이 사용하는 sub-module 중 `time`을 제외한 `datetime`, `tzinfo`, `timezone` 등은
다른 함수나 속성들의 이름과 중복되는 일이 거의 없으므로 각 sub-module의 이름을 그대로 사용하는 것을 많이 볼 수 있다.

## datetime object의 생성

- `datetime.date` object는 date(년월일),<br>
- `datetime.time` object는 time(시분초, timezone)에 대한 정보를 포함하고 있으며,<br>
- `datetime.datetime()`은 `datetime.date`와 `datetime.time`의 모든 attribute을 포함하고 있다.


- datetime의 기본 format은 `년-월-일 시:분:초:백만분의 1초`이므로 순서대로 입력하여 생성한다.

In [1]:
from datetime import datetime, timedelta, tzinfo, timezone

hangul_publish_day = datetime(1443, 12, 30)
print(hangul_publish_day)

1443-12-30 00:00:00


### 현재 시각

현재 시간 필요할 때는 `now`나 `today`를 사용한다.

In [2]:
print(datetime.now()) # tz=pytz.timezone('Asia/Seoul')
print(datetime.today())

2022-03-11 14:36:47.593095
2022-03-11 14:36:47.594148


## attributes

- 유럽방식은 일주일의 시작이 월요일, 미국은 일요일이다. 요일은 0-6으로 표시하며 0은 월요일에 해당한다.<br>
- 날짜 역시 유럽은 DD/MM/YYYY, 미국은 MM/DD/YYYY로 사용한다. Python의 기본형식은 YYYY-MM-DD이다.

In [3]:
day_names = ("Monday","Tuesday","Wednesday","Thursday","Friday","Saturday","Sunday")
weekdays = dict(zip(range(6), day_names))

print("date        :", hangul_publish_day)
print("year        :", hangul_publish_day.year)
print("month       :", hangul_publish_day.month)
print("day         :", hangul_publish_day.day)
print("weekday     :", hangul_publish_day.weekday(), "\b,", weekdays[hangul_publish_day.weekday()])
print("hour        :", hangul_publish_day.hour)
print("minute      :", hangul_publish_day.minute)
print("second      :", hangul_publish_day.second)
print("microsecond :", hangul_publish_day.microsecond)
print("time zone   :", hangul_publish_day.tzinfo)
print("\nFirst day   :", hangul_publish_day.min)
print("Last day    :", hangul_publish_day.max)
print("Resolution  :", hangul_publish_day.resolution)

date        : 1443-12-30 00:00:00
year        : 1443
month       : 12
day         : 30
weekday     : 5 , Saturday
hour        : 0
minute      : 0
second      : 0
microsecond : 0
time zone   : None

First day   : 0001-01-01 00:00:00
Last day    : 9999-12-31 23:59:59.999999
Resolution  : 0:00:00.000001


## Time interval

- 시간에 대한 정보는 시(time)과 시간(interval, period)을 구분해야 한다.
- Time zone의 offset과 시간 차이(time gap)는 기준의 변화이며, 
- 시간의 흐름은 `timedelta`로 계산한다.

```python
datetime.timedelta(days=0, seconds=0, microseconds=0, milliseconds=0, minutes=0, hours=0, weeks=0)
```

In [4]:
from datetime import timedelta

first_attack_launched = datetime(1969,7,14,16)
print("War began on", first_attack_launched.strftime("%B %d, %Y"),
      "at", first_attack_launched.strftime("%I:00 %p"), end=".\n")

football_war_duration = timedelta(hours=100)
print("War duration was", football_war_duration.days, end=" days.")

end_war = first_attack_launched + football_war_duration
print("\nWar ended on", end_war.strftime("%B %d, %Y"), end=".")

War began on July 14, 1969 at 04:00 PM.
War duration was 4 days.
War ended on July 18, 1969.

월과 년 단위 기간은 `dateutil.relativedelta.relativedelta`를 이용한다.<br>
복수를 표시하는 `s`를 사용하지 않으면 `month=10`는 시월로 해석한다. 주의하자.

In [5]:
import dateutil
print(hangul_publish_day + dateutil.relativedelta.relativedelta(years=148, months=5, days=-7, hours=0))

1592-05-23 00:00:00


가능한 연산은 다음과 같다.

- `datetime2 = datetime1 + timedelta`
- `datetime2 = datetime1 - timedelta`
- `timedelta = datetime2 - datetime1`


- `timedelta1 + timedelta2`
- `timedelta1 - timedelta2`
- `timedelta1 / timedelta2`
- `timedelta1 % timedelta2`
- `float * timedelta`

## Timezone

### Aware and Naive Objects

- timezone 정보의 포함 여부로 offset-naive와 offset-aware datetime으로 구분한다.
 - offset-naive: timezone 정보가 `None`, 즉 정보가 없는 object
 - offset-aware: timezone 정보가 포함된 object

```python
offset_naive_datetime.tzinfo
> None
```

- `datetime.datetime()`은 time zone에 대한 정보를 포함하지 않으므로 
`datetime.datetime(tz)`와 구분하여 사용한다.
- 두 형식은 서로 호완성이 없어 연산을 하려면 변환을 거쳐야 한다.

```python
offset_naive_datetime.replace(tzinfo=timezone(timedelta(hours=9)))
offset_aware_datetime.replace(tzinfo=None)
```

- `replace`는 datatime object의 내용을 바꾸는데 사용하는 method이다.
- 시간 자체를 변환하는 것이 아니라 속성만 바꾸므로 사용에 주의한다.

```python
KST = pytz.timezone('Asia/Seoul')
assert KST.localize(datetime.now()) != datetime.now().replace(tzinfo=KST)
```

### datetime(tzinfo)를 이용하는 방법

- timezone object를 생성하여 tzinfo 지정에 사용한다.
- offset을 직접 지정하여 사용한다. offset은 timedelta 유형이다.


- localized timezone은 명시적으로 지정해야 한다.
- `datetime.timezone`은 fixed offset from the UTC 크기를 직접 지정한다.

In [6]:
kr = timedelta(hours=9)

independence_day = datetime(1945,8,15,12,0,0,0, tzinfo = timezone(kr))

print(independence_day)

1945-08-15 12:00:00+09:00


### pytz.timezone 을 이용하는 방법

In [7]:
import pytz

time_zones = pytz.all_timezones

def name(subs):
    country_name = list(filter(lambda x: subs.lower() in x.lower(), time_zones))
    if subs in country_name: return subs
    else: return ", ".join(country_name)
    
name('seoul')

'Asia/Seoul'

In [8]:
ko = pytz.timezone('Asia/Seoul')
naive_aware_independence_day = datetime(1945,8,15,12,0,0,0, tzinfo = ko)

print(naive_aware_independence_day)

1945-08-15 12:00:00+08:28


- 마지막 `+08:28`는 timezone offset 크기이며, pytz.timezone은 naive한 offset을 사용한다. (naive를 두가지 의미로.)
  - 오래전 사용하던 offset으로 현재는 UTC+9:00을 사용한다.

In [9]:
local_independence_day = ko.localize(datetime(1945,8,15,12,0,0,0))

print(local_independence_day)

1945-08-15 12:00:00+09:00


#### dateutil.tz를 이용한 방법

In [10]:
import dateutil
kor = dateutil.tz.gettz('Asia/Seoul')

In [11]:
independence_day = datetime(1945,8,15,12,0,0,0, tzinfo=kor)
print(independence_day)

1945-08-15 12:00:00+09:00


- 이 timezone은 dateutil에 일본 표준시로 등록이 되어 있다.

In [12]:
independence_day.tzname() #Japan Standard Time

'JST'

- dateutil.tz는 사용하는 operating system을 이용해 시간을 결정한다.<br>
- 이에 반해 pytz는 자체 timezone file을 이용하므로 좀더 일관성이 있다.

### timezone 의 변환

- 여러 시간대의 자료를 사용할 때는 시간대를 통일시켜 분석하기도 한다.
- 모든 자료를 표준시간대로 변환한 후 지역 시간으로 변환하는 것이 편할 수 있다.

In [13]:
#ko = pytz.timezone('Asia/Seoul')
independence_day = datetime(1945,8,15,12,0,0,0)
independence_day_local = ko.localize(independence_day)
independence_day_local

datetime.datetime(1945, 8, 15, 12, 0, tzinfo=<DstTzInfo 'Asia/Seoul' JST+9:00:00 STD>)

In [14]:
independence_day_utc = independence_day_local.astimezone(pytz.utc)
independence_day_utc

datetime.datetime(1945, 8, 15, 3, 0, tzinfo=<UTC>)

In [15]:
independence_day_local.replace(tzinfo=ko)

datetime.datetime(1945, 8, 15, 12, 0, tzinfo=<DstTzInfo 'Asia/Seoul' LMT+8:28:00 STD>)

## time module

Runtime을 구할 때는 `time` module을 많이 사용한다.<br>
datetime을 사용해도 결과는 동일하다. 편한데로 사용하자.

In [16]:
import time

start = time.time()
time.sleep(1.5)  # the execution is pause for 1.5 seconds
end = time.time()
round(end-start, 2)

1.51

In [17]:
start = datetime.now()
time.sleep(1.5)
end = datetime.now()
round((end-start).total_seconds(),2)

1.51

## 구문해석 parsing

### dateutil module

입력으로 string을 사용할 수도 있다. <br>
자료를 정리할 때 유용하며 `dateutil`을 이용하면 형식을 자동으로 인식해 변환한다.

In [18]:
import dateutil

print(dateutil.parser.parse('06/09/2020 15:30:00'))
print(dateutil.parser.parse('06.09.2020, 15:30:00-09:00'))
print(dateutil.parser.parse('Jun 09, 2020. 15:30:00-09:00'))
print(dateutil.parser.parse('06/09/2020, 03h30 PM'))

2020-06-09 15:30:00
2020-06-09 15:30:00-09:00
2020-06-09 15:30:00-09:00
2020-06-09 15:30:00


연도의 두 자리만 사용할 경우
연월일의 순서는 `yearfirst`와 `dayfirst`로 구분한다.

`yearfirst=True`인 경우 `dayfirst`은 YDM과 YMD를 구분한다.

In [19]:
dateutil.parser.parse('06/09/2020', dayfirst=True)

datetime.datetime(2020, 9, 6, 0, 0)

### sub-modules of datetime

datetime의 기본 format과 다른 형식으로 정리된 시간을 읽거나 출력해야 하는 경우에는<br>
`datetime.strptime()`과 `datetime.strftime()`


표현에 대한 거의 완벽한 통제가 가능하다.<br>
표준화된 [format code](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes) 참조


**str**ing **p**arse **time**과 **str**ing **f**ormat(from) **time**으로 기억하자.

#### parsing strings - strptime(), string parse time

- 자료를 정리하다보면 특히 날짜의 경우에 여러가지 형식으로 입력을 한다. <br> (한국 통계 사이트에서 내려받은 자료들은 숫자들도 string으로 입력되어 있는 경우도 흔하게 볼 수 있다.)


- `dateutil.parser.parse`는 사용이 간편하지만 string의 형태가 특이하거나 정확한 변환이 필요할 때는 strptime을 사용한다.

In [20]:
# string parse time
datetime.strptime('03/01/17, 10h03 PM', '%m/%d/%y, %Ih%M %p')

datetime.datetime(2017, 3, 1, 22, 3)

In [21]:
a = datetime.strptime("82/11/22", '%y/%m/%d')
b = datetime.strptime("09-Feb", '%d-%b')
print(a)
print(b)

1982-11-22 00:00:00
1900-02-09 00:00:00


- strptime은 연월일시분을 출력한다. 만일 정보가 없으면 연은 1900, 월과 일은 1, 시간과 분은 0을 default 값으로 사용한다.

In [22]:
datetime.strptime("09-Feb", '%d-%b').replace(year=2022)

datetime.datetime(2022, 2, 9, 0, 0)

#### customize string format - strftime(), string format time

- datetime format에서 시간에 대한 정보를 원하는 형식의 문자열로 만들 수 있다.


- 출력 방법은 [format code](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes)를 참고하자.

In [23]:
# string from time
datetime.strftime(independence_day, 'It is %A, the %dth of %B in %Y.')

'It is Wednesday, the 15th of August in 1945.'

In [24]:
print("American style :", independence_day.strftime("%m/%d/%Y"))
print("European style :", independence_day.strftime("%d/%b/%Y"))

American style : 08/15/1945
European style : 15/Aug/1945


In [25]:
format_list = [independence_day.strftime(i) for i in ["%A", "%d", "%B", "%Y"]]
print("British style  : {:}, the {:}th of {:}, {:}".format(*format_list))

British style  : Wednesday, the 15th of August, 1945


In [26]:
print("month and date :", a.strftime("%B %d")+",", b.strftime("%B %d"))

month and date : November 22, February 09


## ISO 8601 format

- ISO week date system은 복잡한 Gregorian calendar 체계를 윤주(leap week)로 정리한 것으로<br>
- Gregorian 달력에서 매년 첫 번째 목요일이 포함된 주를 그 해의 시작 주로 정하고<br>
- 온전한 52주 혹은 53주가 1년이 되며 모든 해는 월요일에서 시작해 일요일로 마친다.

In [27]:
print(independence_day.weekday())     # Wednesday (Monday is 0)
print(independence_day.isoweekday())  # Wednesday (Monday is 1)

2
3


- ISO format은 week date system과는 무관하게 Gregorian 달력의 날짜를 표시하는 방법으로<br>
- 날짜와 시간을 T로 분리하며 timezone offset을 포함한다.

<center> YYYY-MM-DD T HH:MM:SS+HH:MM </center> 


- ISO calendar는 1년은 W1-W52, 혹은 W1-W53으로 표시하므로 날짜는 년,주,요일로 표시한다.
- year, week of the year, day of the week 

In [28]:
print(independence_day.isoformat())
print(independence_day.isocalendar())

1945-08-15T12:00:00
(1945, 33, 3)


2010년 1월 2일은 iso calendar의 2009년 마지막 주 토요일에 해당한다.

In [29]:
print(datetime(2010,1,2))
print(datetime(2010,1,2).isocalendar())

2010-01-02 00:00:00
(2009, 53, 6)


## Epoch time

- Unix가 표준으로 자리잡은 시점인 1970년 1월 1일 00:00:00 (UTC)을 기준으로 경과시간을 초단위로 측정하는
- 날짜 체계 말미에 소개했던 `time` module이다.

경과시간을 `timestamp`라고 부르며, 사용은 1901년에서 2038년까지로 제한한다.

<img src="https://upload.wikimedia.org/wikipedia/commons/e/e9/Year_2038_problem.gif" alt="Year 2038 problem.gif">

- UTC(Coordinated Universal Time)는 Unix 표준시간으로 time zone의 기준인 GMT(Greenwich Mean Time)와 동일한 값이다.

In [30]:
import time

print(time.time())         # seconds passed since epoch
print(time.ctime())        # local time
print(time.localtime())    # local time in struct_time
print(time.gmtime())       # UTC/GMT in struct_time

1646977011.4988525
Fri Mar 11 14:36:51 2022
time.struct_time(tm_year=2022, tm_mon=3, tm_mday=11, tm_hour=14, tm_min=36, tm_sec=51, tm_wday=4, tm_yday=70, tm_isdst=0)
time.struct_time(tm_year=2022, tm_mon=3, tm_mday=11, tm_hour=5, tm_min=36, tm_sec=51, tm_wday=4, tm_yday=70, tm_isdst=0)


- 요일은 0 (Monday)부터 시작하고 `dst`가 분명하지 않을 때는 `tm_isdst=-1`이 된다.

`datatime`, `timestamp`,`struct_time` 객체는 서로 호완히 된다.

from timestamp to datetime: `datetime.fromtimestamp(timestamp)`, `datetime.utcfromtimestamp(timestamp)`<br>
from timestamp to struct_time:  `time.localtime(timestamp)`, `time.gmtime(timestamp)`<br>
from struct_time to timestamp: `time.mktime(struct)` <br>
from struct_time to datetime: `datetime(*time_tuple[0:6])`, `datetime.fromtimestamp(mktime(struct))` <br>
from datetime to timestamp: `DATETIME.timestamp()` <br>
from datetime to struct_time: `DATETIME.timetuple()` <br>

In [31]:
datetime.now().timetuple()

time.struct_time(tm_year=2022, tm_mon=3, tm_mday=11, tm_hour=14, tm_min=36, tm_sec=51, tm_wday=4, tm_yday=70, tm_isdst=-1)

In [32]:
timestamp = time.time()
datetime.fromtimestamp(timestamp)

datetime.datetime(2022, 3, 11, 14, 36, 51, 530768)

In [33]:
t = time.strptime('09/06/2020', '%m/%d/%Y')  # localtime

print(t)
print(time.mktime(t))   # to convert a struct_time in seconds

time.struct_time(tm_year=2020, tm_mon=9, tm_mday=6, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=6, tm_yday=250, tm_isdst=-1)
1599318000.0


## Proleptic Gregorian ordinal

- `.toordinal()` 와 `.fromordinal()` methods 는 0001.01.00를 시작으로 일 단위로 시간을 계산한다.
- `.timestamp()`과 마찬가지로 날짜를 정수로 표시한다.

In [34]:
print("number of days from Anno Domini :", datetime.today().toordinal())
print("143572 days after Anno Domini   :", datetime.fromordinal(143572))
print("143572 seconds after Epoch      :", datetime.fromtimestamp(143572, tz=None))

number of days from Anno Domini : 738225
143572 days after Anno Domini   : 0394-02-01 00:00:00
143572 seconds after Epoch      : 1970-01-03 00:52:52


## Numpy

- Numpy는 자체 date system인 [Numpy datetime](https://numpy.org/doc/stable/reference/arrays.datetime.html)를 사용하기 떄문에 
Numpy array로 변환한 날짜자료의 연산을 하려면 구조를 이해하고 있어야 한다.
- 하지만 시간과 관련된 자표를 변환할 때는 Pandas가 편리하다.


- ISO format을 사용하며, 함수 말미의 64는 datetime의 sub-module과 혼동을 피하기 위해 사용한다.

```python
np.datetime64
np.timedelta64
```

In [35]:
import numpy as np

print(np.datetime64('2005-02-25T03:30'))
print(np.datetime64('2009') + np.timedelta64(20, 'D'))

2005-02-25T03:30
2009-01-21


| code | meaning |
|----|----|
| Y |  year |
| M | month |
| W | week |
| D | day |
| h | hour |
| m | minute |
| s | second |
| ms | millisecond |

Conversion

> This convention is also used to define coarser types of date. So datetime64 [D] is a date to the day and datetime64 [m] to the minute. This is used when defining a dtype in Numpy (to round a date or to have a set of homogeneous dates by examples).

In [36]:
now = np.datetime64(datetime.now())
print(now) 
today = now.astype('datetime64[D]')
print(today)

2022-03-11T14:36:51.736878
2022-03-11


- Numpy로 '영업일'을 계산할 수 있지만 단순히 토요일과 일요일을 제외한 것으로 각 국가별 공휴일 정보는 [holidays](https://pypi.org/project/holidays/)를 이용한다. 정확히 말하면 'weekdays'를 계산하는 함수이다.
- 아직 한국 공휴일에 대한 정보는 정리되어 있지 않다.

In [37]:
np.busday_count(np.datetime64('2020'), today)

572

## Pandas

[Pandas](https://pandas.pydata.org/docs/user_guide/timeseries.html)의 시간 관련 명령어들은 Pandas에서 다룬다.

```pandas
pd.to_datetime
pd.DatetimeIndex
pd.timedelta_range
```