먼저 datetime 모듈을 알아봅시다.

# datetime 모듈

## datetime 모듈 사용하기

datetime 라이브러리는 날짜와 시간을 처리하는 등의 다양한 기능을 제공하는 파이썬 라이브러리

datetime 라이브러리에는 
- 날짜를 처리하는 date 클래스
- 시간을 처리하는 time 클래스
- 날짜와 시간을 모두 처리하는 datetime 클래스가 포함되어 있음.

In [None]:
from datetime import datetime

현재 날짜/시간을 생성하기

now, today 메서드를 사용하면 다음과 같이 현재 시간을 출력할 수 있음

In [None]:
from datetime import datetime
now1 = datetime.now() 
print(now1)

In [None]:
now2 = datetime.today()
print(now2) 

-

특정 날짜/시간을 생성하기

시간을 직접 입력하여 인자로 전달하여 datetime 객체를 생성

In [None]:
t1 = datetime.now() 
t2 = datetime(1970, 1, 1)
t3 = datetime(1970, 12, 12, 13, 24, 34)

print(t1)
print(t2)
print(t3)
print(type(t1))

입력한 시간을 바탕으로 datetime 객체가 생성됨

-

datetime 객체를 사용하는 이유: 시간으로 기록된 데이터를 분석하는 것이 매우 편리함.

In [None]:
diff1 = t1 - t2

print(diff1)
print(type(diff1)) # datetime.timedelta는 두 날짜 혹은 시간 사이의 기간을 표현

In [None]:
diff2 = t2 - t1

print(diff2)

-

## 문자열을 datetime 자료형으로 변환하기

우리가 접하는 많은 시간 데이터들은 문자형으로 저장되어 있는 경우가 많음

하지만 문자열은 시간 계산을 할 수 없기 때문에 datetime 객체로 변환해 주어야 함

In [None]:
import pandas as pd 
ebola = pd.read_csv('country_timeseries.csv')
ebola.iloc[:,:4].head()

In [None]:
print(ebola.info())

ebola 데이터 프레임을 보면 Date 열이 문자열로 지정되어 있는 것을 알 수 있음

to_datetime 메서드를 이용하면 Date 열의 자료형을 datetime 자료형으로 변환할 수 있음.


In [None]:
ebola['date_dt'] = pd.to_datetime(ebola['Date']) # Date열의 자료형을 datetime 자료형으로 변환한 다음 ebola 데이터프레임에 새로운 열로 추가하기
print(ebola.info())

date_dt 열이 datetime64 type으로 추가되었음을 확인할 수 있음

# 참고 
컴퓨터는 기본적으로 날짜와 시간을 표현하는 방법이 정해져 있지 않습니다. 그렇기 때문에 '운영체제'별로 날짜와 시간을 표현하는 방법이 다른 것입니다. 윈도우는 1601-01-01 00:00:00 부터 현재 시간까지 몇 100ns 떨어져 있는지를 8바이트로 나타냅니다. 반면 유닉스와 리눅스는 1970-01-01 00:00:00부터 현재 시간까지의 초를 누적한 시간을 사용합니다.

 이렇게 표현되는 시간을 '타임스탬프'라고 합니다.

In [None]:
print(ebola['date_dt'][0])
print(type(ebola['date_dt'][0]))
print(ebola['date_dt'][0].timestamp())

In [None]:
print(datetime.fromtimestamp(1420416000.0)) # 다시 datetime으로 변환

-

시간 형식 지정자(%d, %m, %y)와 기호(/,-)를 적절히 조합하여 format 인자에 전달하면 그 형식에 맞게 정리된 datetime 객체를 얻을 수 있음

In [None]:
test_df1 = pd.DataFrame({'order_day':['01/01/15', '02/01/15', '03/01/15']})

test_df1['date_dt1'] = pd.to_datetime(test_df1['order_day'], format='%d/%m/%y')
test_df1['date_dt2'] = pd.to_datetime(test_df1['order_day'], format='%m/%d/%y')
test_df1['date_dt3'] = pd.to_datetime(test_df1['order_day'], format='%y/%m/%d')

test_df1

In [None]:
test_df2 = pd.DataFrame({'order_day':['01-01-15', '02-01-15', '03-01-15']})
test_df2['date_dt'] = pd.to_datetime(test_df2['order_day'], format='%d-%m-%y')

test_df2

<시간 형식 지정자 표 추가 완료>

-

- strftime 메서드

now 메서드로 얻은 현재 시간의 시계열 데이터는 아주 정밀한 단위까지 시간을 표현함.

하지만 원하는 시계열 데이터의 시간 요소가 연도, 월, 일 뿐이라면 now 메서드로 얻은 시계열 데이터를 잘라내야 함

strftime 메서드와 시간 형식 지정자를 이용하면 시계열 데이터를 잘라낼 수 있음

In [None]:
now = datetime.now()
print(now)

In [None]:
nowDate = now.strftime('%Y-%m-%d')
print(nowDate)

In [None]:
nowTime = now.strftime('%H:%M:%S')
print(nowTime) 

In [None]:
nowDatetime = now.strftime('%Y-%m-%d %H:%M:%S')
print(nowDatetime) 

 -

앞에서는 to_datetime 메서드를 이용하여 문자열로 저장되어 있는 Date 열을 datetime 객체로 변환했음

하지만 datetime 객체로 변환하려는 열을 미리 지정하여 데이터 집합을 불러오는 것이 더 간단

## datetime 객체로 변환하려는 열을 지정하여 데이터 집합 불러오기

In [None]:
ebola1 = pd.read_csv('country_timeseries.csv', parse_dates=['Date']) 
print(ebola1.info())

결과를 보면 Date 열이 문자열이 아니라 datetime이라는 것을 확인할 수 있음

-

## 날짜 데이터 분리

In [None]:
# 문자열로 저장된 날짜를 시리즈에 담아 datetime 객체로 변환
date_series = pd.Series(['2018-05-16', '2018-05-17', '2018-05-18'])
d1 = pd.to_datetime(date_series) 
d1

datetime 객체(d1)의 year, month, day 속성을 이용하면 년,월,일 정보를 바로 추출 가능

In [None]:
print(d1[0].year)

In [None]:
print(d1[0].month)

In [None]:
print(d1[0].day)

## dt 접근자로 시계열 데이터 정리(분리)하기

dt 접근자를 이용하면 datetime 속성이나 메서드를 사용하여 시계열 데이터 처리 가능

In [None]:
# ebola 데이터 집합을 불러온 다음 Date 열을 datetime 객체로 변환하여 새로운 열(date_df)로 추가
ebola = pd.read_csv('country_timeseries.csv')
ebola['date_dt'] = pd.to_datetime(ebola['Date'])

In [None]:
ebola[['Date', 'date_dt']]

먼저 dt 접근자를 사용하지 않고, 인덱스가 3인 년,월,일의 데이터를 추출한 것

In [None]:
print(ebola['date_dt'][3].year)

In [None]:
print(ebola['date_dt'][3].month)

In [None]:
print(ebola['date_dt'][3].day)

이 방법은 date_dt 열의 특정 데이터를 인덱스로 접근해야 하기 때문에 불편

-

다음은 dt 접근자로 date_dt 열에 한 번에 접근한 다음 year 속성을 이용하여 연도값을 추출한 것

In [None]:
ebola['year'] = ebola['date_dt'].dt.year # 추출한 연도 값은 ebola 데이터프레임의 새로운 열(year)로 추가
ebola[['Date', 'date_dt', 'year']]

위 과정을 응용하여 월,일 데이터를 한 번에 추출해서 새로운 열(month, day)로 추가

In [None]:
ebola['month'], ebola['day'] = (ebola['date_dt'].dt.month, ebola['date_dt'].dt.day)

ebola[['Date', 'date_dt', 'year', 'month', 'day']]

In [None]:
print(ebola.info())

date_dt 열은 datetime 객체이고 나머지는 정수형

-

# (생략) 사례별 시계열 데이터 계산하기

##  에볼라 최초 발병일 계산하기

In [None]:
import pandas as pd 
ebola = pd.read_csv('country_timeseries.csv')

In [None]:
# 기존 데이터가 시간 역순으로 정렬되어 있기에, 시간 순으로 데이터를 보려면 마지막부터 봐야함
ebola.iloc[-5:, :5]

121행에서 볼 수 있듯이 에볼라가 발생하기 시작한 날은 2014년 03월 22일

1. 'Date'열을 이용하여 'date_dt'열을 datetime64 타입으로 새롭게 추가하시오.

2. min() 메서드를 사용하여 에볼라의 최초 발병일을 first_day로 저장하고 출력하시오.

In [None]:
ebola['date_dt'] = pd.to_datetime(ebola['Date'])

In [None]:
first_day = ebola['date_dt'].min()
print(first_day)

최초 발병 후 며칠째 되는 날인지 'outbreak_d'열로 새롭게 추가하시오.

In [None]:
ebola['outbreak_d'] = ebola['date_dt'] - first_day
ebola[['Date', 'Day', 'outbreak_d']]

## (퀴즈) 파산한 은행의 개수 계산하기

파산한 은행 데이터를 불러와 분기별로 파산한 은행이 얼마나 되는지 계산해보자.

In [None]:
import pandas as pd
banks = pd.read_csv('banklist.csv') 
print(banks.info())

1. Closing Date, Update Date열의 데이터 자료형이 문자열이므로, datetime64형으로 변환하여 banks로 다시 불러오세요

In [None]:
# 답
banks = pd.read_csv('banklist.csv', parse_dates=[5, 6]) 
print(banks.info())

2. 'Closing Date'열에 dt 접근자와 quarter 속성을 이용하여 은행이 파산한 연도를 'closing_year'로, 분기를 'closing_quarter'로 새로운 열에 추가하세요.

In [None]:
# 답
banks['closing_year'], banks['closing_quarter'] = (banks['Closing Date'].dt.year, banks['Closing Date'].dt.quarter)
banks.head()

3. groupby 메서드를 사용하여 연도별로 파산한 은행의 개수를 구하세요.

In [None]:
# 답
banks.groupby(['closing_year'])['Bank Name'].count()
# 혹은 closing_year = banks.groupby(['closing_year']).size()

4. groupby 메서드를 이용하여 연도별, 분기별로 파산한 은행의 개수를 구하세요.

In [None]:
# 답
banks.groupby(['closing_year', 'closing_quarter'])['Bank Name'].count()
# 혹은 banks.groupby(['closing_year', 'closing_quarter']).size()

그래프로 그리기

In [None]:
import matplotlib.pyplot as plt

fig, ax = plt.subplots()
ax = closing_year.plot() 
plt.show()

fig, ax = plt.subplots() 
ax = closing_year_q.plot() 
plt.show()

# 날짜 인덱스 활용

## 테슬라 주식 데이터로 시간 계산하기

주가 데이터를 가져오려면 Quandl에 가입하여 API 키를 받아야하는데 다소 번거로운 과정이기에 캐글 데이터를 활용하도록 하자.

https://www.kaggle.com/timoboz/tesla-stock-data-from-2010-to-2020

In [None]:
tesla = pd.read_csv('TSLA.csv', parse_dates=['Date'])
tesla.head()

In [None]:
tesla.loc[(tesla.Date.dt.year == 2010) & (tesla.Date.dt.month == 7)].head()

## datetime 객체를 인덱스로 설정하여 데이터 추출하기

데이터 프레임의 행 번호를 인덱스로 사용하지 않고
datetime 객체를 인덱스로 설정하면 원하는 시간의 데이터를 바로 추출할 수 있다.

In [None]:
tesla.index = tesla['Date'] 
print(tesla.index)

In [None]:
tesla['2017'].head()

In [None]:
tesla['2020-01'].head()

In [None]:
tesla['2019-07-12':'2019-07-26'].head()

In [None]:
tesla_2019_2020 = tesla['2019':'2020']

fig = plt.figure(figsize=(20,5))
ax = fig.add_subplot(1,1,1)

plt.rc('font', family = 'Malgun Gothic')

ax.plot(tesla_2019_2020['Date'],tesla_2019_2020['Close'])

ax. set_title('2019.01-2020.2 테슬라 주가 변화')

plt.show()

## 시간 간격을 인덱스로 설정하여 데이터 추출하기

주식 데이터에서 최초 5일간 수집된 데이터만 살펴보고 싶다면 시간 간격 인덱스로 지정하여 데이터를 추출하면 된다.

Date 열에서 Date 열의 최솟값을 빼면 데이터를 수집한 이후에 시간이 얼마나 흘렀는지 알 수 있다.

In [None]:
tesla['ref_date'] = tesla['Date'] - tesla['Date'].min()
tesla.tail()

ref_date 열을 인덱스로 지정하면 시간 간격(ref_date)을 이용하여 데이터를 추출할 수 있다.

In [None]:
tesla.index = tesla['ref_date']
tesla.head()

데이터를 수집한 이후 최초 7일간의 데이터

In [None]:
tesla[:'10days']

# 시간 배열

In [None]:
import pandas as pd

# Timestamp의 배열 만들기 - 월 간격, 월의 시작일 기준
ts_ms = pd.date_range(start='2019-01-01',    # 날짜 범위의 시작
                   end=None,                 # 날짜 범위의 끝
                   periods=6,                # 생성할 Timestamp의 개수
                   freq='MS',                # 시간 간격 (MS: 월의 시작일)
                   tz='Asia/Seoul')          # 시간대(timezone)
print(ts_ms)
print('\n')

# 월 간격, 월의 마지막 날 기준
ts_me = pd.date_range('2019-01-01', periods=6, 
                   freq='M',              # 시간 간격 (M: 월의 마지막 날)
                   tz='Asia/Seoul')       # 시간대(timezone)
print(ts_me)
print('\n')

# 분기(3개월) 간격, 월의 마지막 날 기준
ts_3m = pd.date_range('2019-01-01', periods=6, 
                   freq='3M',             # 시간 간격 (3M: 3개월)
                   tz='Asia/Seoul')       # 시간대(timezone)
print(ts_3m)

## 시간 범위 생성하여 인덱스로 지정하기

만일 특정 일에 누락된 데이터도 포함시켜 데이터를 살펴보려면 어떻게 해야 할까?

In [None]:
ebola = pd.read_csv('country_timeseries.csv', parse_dates=[0]) 
ebola.iloc[:, :5]

2015년 01월 01일과 2014년 03월 23일 등의 데이터가 누락되었음을 발견할 수 있다.

date_range 메서드를 사용하여 2014년 12월 31일부터 2015년 01월 05일 사이의 시간 인덱스 생성

In [None]:
head_range = pd.date_range(start='2014-12-31', end='2015-01-05') 
print(head_range)

시간 범위를 인덱스로 지정하면 datetimeIndex 자료형이 만들어진다.

datetimeIndex에는 freq 속성이 포함되어 있는데 freq 속성을 지정하면 시간 간격을 조절하여 datetimeIndex를 만들 수 있다.

디폴트 값은 freq='D' (달력 일자 단위)

In [None]:
# head_range는 ebola 데이터의 시간 순서와 반대로 되어 있다. 이를 바꿔준다.
head_range = reversed(head_range)

In [None]:
ebola.index = ebola['Date'] # Date 열을 인덱스로 먼저 지정하지 않으면 오류가 발생한다.
ebola = ebola.reindex(head_range) # 반드시 Date 열을 인덱스로 지정한 다음에 시간 범위를 인덱스로 지정해야 한다.
ebola

In [None]:
# head_range는 ebola 데이터의 시간 순서와 반대로 되어 있다. 이를 바꿔준다.
head_range = reversed(head_range) 

ebola.index = ebola['Date']
ebola = ebola.reindex(head_range)
ebola

## 시간 범위의 주기 설정하기

freq 인수로 특정한 날짜만 생성되도록 할 수도 있다. 많이 사용되는 freq 인수값은 다음과 같다.

- s: 초
- T: 분
- H: 시간
- D: 일(day)
- B: 주말이 아닌 평일
- W: 주(일요일)
- W-MON: 주(월요일)
- M: 각 달(month)의 마지막 날
- MS: 각 달의 첫날
- BM: 주말이 아닌 평일 중에서 각 달의 마지막 날
- BMS: 주말이 아닌 평일 중에서 각 달의 첫날
- WOM-2THU: 각 달의 두번째 목요일
- Q-JAN: 각 분기의 첫달의 마지막 날
- Q-DEC: 각 분기의 마지막 달의 마지막 날

In [None]:
print(pd.date_range('2017-01-01', '2017-01-07', freq='B')) # 평일만 포함

# Period

In [None]:
import pandas as pd

# 날짜 형식의 문자열로 구성되는 리스트 정의
dates = ['2019-01-01', '2020-03-01', '2021-06-01']

# 문자열 데이터(시리즈 객체)를 판다스 Timestamp로 변환
ts_dates = pd.to_datetime(dates)   
print(ts_dates)
print('\n')

# Timestamp를 Period로 변환
pr_day = ts_dates.to_period(freq='D')
print(pr_day)
pr_month = ts_dates.to_period(freq='M')
print(pr_month)
pr_year = ts_dates.to_period(freq='A')
print(pr_year)

In [None]:
import pandas as pd

# Period 배열 만들기 - 1개월 길이
pr_m = pd.period_range(start='2019-01-01',     # 날짜 범위의 시작
                   end=None,                   # 날짜 범위의 끝
                   periods=3,                  # 생성할 Period 개수
                   freq='M')                   # 기간의 길이 (M: 월)
print(pr_m)
print('\n')

# Period 배열 만들기 - 1시간 길이
pr_h = pd.period_range(start='2019-01-01',     # 날짜 범위의 시작
                   end=None,                   # 날짜 범위의 끝
                   periods=3,                  # 생성할 Period 개수
                   freq='H')                   # 기간의 길이 (H: 시간)
print(pr_h)
print('\n')

# Period 배열 만들기 - 2시간 길이
pr_2h = pd.period_range(start='2019-01-01',    # 날짜 범위의 시작
                   end=None,                   # 날짜 범위의 끝
                   periods=3,                  # 생성할 Period 개수
                   freq='2H')                  # 기간의 길이 (H: 시간)
print(pr_2h)