### - 날짜 인덱스 활용

Timestamp로 구성된 열을 행 인덱스로 지정하면 DatetimeIndex라는 고유 속성으로 변환된다.<br>
마찬가지로 Period로 구성된 열을 행 인덱스로 지정하면 PeriodIndex라는 속성을 갖는다.<br>
이와 같은 날짜 인덱스를 활용하면 시계열 데이터에 대한 인덱싱과 슬라이싱이 편리하다.

In [2]:
import pandas as pd

# read_csv() 함수로 CSV 파일을 가져와서 df로 변환
df = pd.read_csv('stock-data.csv')

# 문자열인 날짜 데이터를 판다스 Timestamp로 변환
df['new_Date'] = pd.to_datetime(df['Date'])     # 새로운 열에 추가
df.set_index('new_Date', inplace=True)          # 행 인덱스로 지정

print(df.head())
print('\n')
print(df.index)

                  Date  Close  Start   High    Low  Volume
new_Date                                                  
2018-07-02  2018-07-02  10100  10850  10900  10000  137977
2018-06-29  2018-06-29  10700  10550  10900   9990  170253
2018-06-28  2018-06-28  10400  10900  10950  10150  155769
2018-06-27  2018-06-27  10900  10800  11050  10500  133548
2018-06-26  2018-06-26  10800  10900  11000  10700   63039


DatetimeIndex(['2018-07-02', '2018-06-29', '2018-06-28', '2018-06-27',
               '2018-06-26', '2018-06-25', '2018-06-22', '2018-06-21',
               '2018-06-20', '2018-06-19', '2018-06-18', '2018-06-15',
               '2018-06-14', '2018-06-12', '2018-06-11', '2018-06-08',
               '2018-06-07', '2018-06-05', '2018-06-04', '2018-06-01'],
              dtype='datetime64[ns]', name='new_Date', freq=None)


---

날짜 인덱스를 사용하는 장점은 연-월-일 중에서 내가 필요로 하는 레벨을 선택적으로 인덱싱할 수 있다는 것이다.<br>
연도만을 기준으로 하거나 연-월 또는 연-월-일 기준으로 선택할 수 있다. 그리고 날짜 범위로 슬라이싱 추출도 가능하다.<br>
예를 들어, `df['2018']`과 같이 추출하려는 날짜를 입력하면 해당 날짜에 해당하는 모든 행을 선택할 수 있다.


In [11]:
# 날짜 인덱스를 이용하여 데이터 선택하기
df_y = df['2018']
print(df_y.head())
print('\n')

df_ym = df.loc['2018-07']                           # loc 인덱서 활용
print(df_ym)
print('\n')

df_ym_cols = df.loc['2018-07', 'Start':'High']      # 열 범위 슬라이싱
print(df_ym_cols)
print('\n')

df_ymd = df.loc['2018-07-02']   # -> 책의 예제대로 loc를 빼면 에러가 남
print(df_ymd)
print('\n')

df_ymd_range = df['2018-06-25':'2018-06-20']        # 날짜 범위 지정
print(df_ymd_range)

                  Date  Close  Start   High    Low  Volume
new_Date                                                  
2018-07-02  2018-07-02  10100  10850  10900  10000  137977
2018-06-29  2018-06-29  10700  10550  10900   9990  170253
2018-06-28  2018-06-28  10400  10900  10950  10150  155769
2018-06-27  2018-06-27  10900  10800  11050  10500  133548
2018-06-26  2018-06-26  10800  10900  11000  10700   63039


                  Date  Close  Start   High    Low  Volume
new_Date                                                  
2018-07-02  2018-07-02  10100  10850  10900  10000  137977


            Start   High
new_Date                
2018-07-02  10850  10900


Date      2018-07-02
Close          10100
Start          10850
High           10900
Low            10000
Volume        137977
Name: 2018-07-02 00:00:00, dtype: object


Empty DataFrame
Columns: [Date, Close, Start, High, Low, Volume]
Index: []


  df_y = df['2018']


---

Timestamp 객체로 표시된 두 날짜 사이의 시간 간격을 구할 수 있다.<br>
예제에서는 어떤 날짜로부터 경과한 날짜를 계산하여 행 인덱스로 지정하고, 데이터를 선택하는 과정까지 살펴본다.


In [18]:
# 시간 간격 계산. 최근 180일~189일 사이의 값들만 선택하기
today = pd.to_datetime('2018-12-25')        # 기준일 생성
df['time_delta'] = today - df.index         # 날짜 차이 계산
df.set_index('time_delta', inplace=True)    # 행 인덱스로 지정
df_180 = df['180 days':'189 days']
print(df_180)


                  Date  Close  Start   High    Low  Volume
time_delta                                                
180 days    2018-06-28  10400  10900  10950  10150  155769
181 days    2018-06-27  10900  10800  11050  10500  133548
182 days    2018-06-26  10800  10900  11000  10700   63039
183 days    2018-06-25  11150  11400  11450  11000   55519
186 days    2018-06-22  11300  11250  11450  10750  134805
187 days    2018-06-21  11200  11350  11750  11200  133002
188 days    2018-06-20  11550  11200  11600  10900  308596
189 days    2018-06-19  11300  11850  11950  11300  180656
