참고 : https://jakevdp.github.io/PythonDataScienceHandbook/03.11-working-with-time-series.html

In [10]:
from datetime import datetime, date, time, timedelta
import pandas as pd

### datetime, date, time

In [2]:
# 현재 시간
print( datetime.now() ) # datetime.today()
# 연, 월, 일, 시, 분, 초로 생성
t1 = datetime(2018,11,19,17,30,40)
print(t1)
# 연, 월, 일로 생성
t2 = date(2018,11,19)
print(t2)

2018-11-17 20:22:35.307563
2018-11-19 17:30:40
2018-11-19


In [3]:
now = datetime.now()
print( now.year, now.month, now.day ) # hour, minute, second 등 가능
datetime.now().weekday() # { 0:월, 1:화, 2:수, 3:목, 4:금, 5:토, 6:일 }

2018 11 17


5

#### - strftime & strptime

In [4]:
# strftime : datetime을 문자열로
print( now.strftime('%Y/%m/%d %h:%M') )
# strptime : 문자열을 datetime으로
print( datetime.strptime('2018-11-01 17:00', '%Y-%m-%d %H:%M') )

2018/11/17 Nov:22
2018-11-01 17:00:00


#### - replace
    year, month, day, hour, minute, ...

In [19]:
day1 = datetime(2015,7,3,1,10,0)
day1.replace(hour=3, minute=30) # 1시 10분을 3시 30분으로 변경

datetime.datetime(2015, 7, 3, 3, 30)

### timedelta - 날짜 개념을 단위로 파악 ( 날짜 계산에 유용 )
    timedelta(days=0, seconds=0, microseconds=0, milliseconds=0, minutes=0, hours=0, weeks=0)

In [63]:
# 날짜 차이 계산
res = datetime(2018,11,13,19) - datetime(2018,11,10,15)
print(res)
print(type(res)) 
print( res.days ) # 특정 일 수만

3 days, 4:00:00
<class 'datetime.timedelta'>
3


In [9]:
# 일 수 계산
date.today() - timedelta(days=5)

datetime.date(2018, 11, 12)

### pd.date_range - 설정 단위대로 날짜 추출
    pd.date_range(start=None, end=None, periods=None, freq=None, ... )

#### freq : 'D' - 달력일(default), 'B' - 평일, 'H' - 시간, 'T' - 분 ,'S' - 초 , ...

In [16]:
pd.date_range(start='2018-11-01', end='2018-11-10') # default는 일 수

DatetimeIndex(['2018-11-01', '2018-11-02', '2018-11-03', '2018-11-04',
               '2018-11-05', '2018-11-06', '2018-11-07', '2018-11-08',
               '2018-11-09', '2018-11-10'],
              dtype='datetime64[ns]', freq='D')

In [14]:
pd.date_range('2018-11-15', periods=10) # periods : 추출 개수를 의미

DatetimeIndex(['2018-11-15', '2018-11-16', '2018-11-17', '2018-11-18',
               '2018-11-19', '2018-11-20', '2018-11-21', '2018-11-22',
               '2018-11-23', '2018-11-24'],
              dtype='datetime64[ns]', freq='D')

In [20]:
pd.date_range('2018-11-15 00:00:00', periods=10, freq='30T') # 30분 단위

DatetimeIndex(['2018-11-15 00:00:00', '2018-11-15 00:30:00',
               '2018-11-15 01:00:00', '2018-11-15 01:30:00',
               '2018-11-15 02:00:00', '2018-11-15 02:30:00',
               '2018-11-15 03:00:00', '2018-11-15 03:30:00',
               '2018-11-15 04:00:00', '2018-11-15 04:30:00'],
              dtype='datetime64[ns]', freq='30T')

## pd.Series.first(last) _ valid _ index

#### 각 컬럼별로 데이터가 존재할 수 있는 기간이 존재한다. + Shift 함수와 활용 가능 (데이터 프레임 활용 참고)
#### 데이터 프레임에서 shift 함수와 활용하면 시작 점을 고정하고 컬럼 간의 데이터를 비교하는 데 효과적이다.

In [101]:
date_df = pd.DataFrame({'date': pd.date_range(start='2018-11-10', end='2018-11-20'),'col1':[None]*2+[10,20,30,15,8,40,3,22]+[None], 'col2':[None]*5+[50,30,20,10]+[None]*2})
date_df.set_index('date', inplace=True)
date_df

Unnamed: 0_level_0,col1,col2
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2018-11-10,,
2018-11-11,,
2018-11-12,10.0,
2018-11-13,20.0,
2018-11-14,30.0,
2018-11-15,15.0,50.0
2018-11-16,8.0,30.0
2018-11-17,40.0,20.0
2018-11-18,3.0,10.0
2018-11-19,22.0,


Series의 함수를 통해 첫번째와 마지막으로 값이 존재하는 날을 파악할 수 있다.

In [102]:
print('first : ', date_df.col1.first_valid_index(), 'last : ', date_df.col1.last_valid_index())
print('first : ', date_df.col2.first_valid_index(), 'last : ', date_df.col2.last_valid_index())

first :  2018-11-12 00:00:00 last :  2018-11-19 00:00:00
first :  2018-11-15 00:00:00 last :  2018-11-18 00:00:00


In [103]:
first_valid = date_df.apply(pd.Series.first_valid_index)
first_valid

col1   2018-11-12
col2   2018-11-15
dtype: datetime64[ns]