시계열 데이터
- 시간 표시방식
    - Timestamp
        - 특정한 시점을 기록
    - Period
        - 두 지점 사이의 일정한 기간을 나타냄

다른 자료형을 시계열 객체(Timestamp)로 변환
- 문자열등 다른 자료형을 Timestamp로 변환
    - 판다스 to_datetime(데이터) 함수 사용
    

In [4]:
# <예제 5-15> 문자열을 Timestamp로 변환

import pandas as pd
df = pd.read_csv("./stock-data.csv")

print(df.head())
print("\n")
print(df.info())

# Data열(문자열)을 시계열 객체로 변환하여 새로운 열(df["new_Date"])에 넣음
df["new_Date"] = pd.to_datetime(df["Date"])

print(df.head())
print("\n")
print(df.info())

print("\n")

# Date열을 제거후 new_Date열을 행 인덱스로 지정
df.drop("Date",axis = 1,inplace = True)
df.set_index("new_Date",inplace = True)

print(df.head())

         Date  Close  Start   High    Low  Volume
0  2018-07-02  10100  10850  10900  10000  137977
1  2018-06-29  10700  10550  10900   9990  170253
2  2018-06-28  10400  10900  10950  10150  155769
3  2018-06-27  10900  10800  11050  10500  133548
4  2018-06-26  10800  10900  11000  10700   63039


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    20 non-null     object
 1   Close   20 non-null     int64 
 2   Start   20 non-null     int64 
 3   High    20 non-null     int64 
 4   Low     20 non-null     int64 
 5   Volume  20 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 1.1+ KB
None
         Date  Close  Start   High    Low  Volume   new_Date
0  2018-07-02  10100  10850  10900  10000  137977 2018-07-02
1  2018-06-29  10700  10550  10900   9990  170253 2018-06-29
2  2018-06-28  10400  10900  10950  10150  155769 2018-06-28
3  2018-0

Timestamp를 Period로 변환
- 판다스 to_period()함수 사용
    - freq = 옵션 : 기준이 되는 기간 설정
        - ex) "D" : 1일, "M" : 한달, "A" : 1년

In [4]:
# <예제5-16> Tiemstamp를 Period로변환

import pandas as pd

dates = ["2019-01-01","2020-03-01","2021-06-01"]

# 문자열을 판다스 Timestamp로 변환
ts_dates =pd.to_datetime(dates)

# Timestamp를 Period로 변환
pr_day = ts_dates.to_period(freq = "D")
print(pr_day)
pr_month = ts_dates.to_period(freq = "M")
print(pr_month)
pr_year = ts_dates.to_period(freq = "A")
print(pr_year)

PeriodIndex(['2019-01-01', '2020-03-01', '2021-06-01'], dtype='period[D]', freq='D')
PeriodIndex(['2019-01', '2020-03', '2021-06'], dtype='period[M]', freq='M')
PeriodIndex(['2019', '2020', '2021'], dtype='period[A-DEC]', freq='A-DEC')


시계열 데이터 만들기
- Timestamp 배열
    - 판다스 date_range() 함수 사용
        - start = 날짜 범위 시작
        - end = 날짜 범위 끝
        - periods = 생성할 Timestamp 개수
        - freq = 시간 간격
            - "MS" = 월의 시작일
            - "M" = 월의 마지막 날
            - "3M" = 3개월 간격의 마지막 날
        - tz = 시간대(timezone)
            - "Asia/Seoul" 한국 시간대


- Period 배열
    - 판다스 period_range() 함수 사용
        - start = 날짜 범위 시작
        - end = 날짜 범위 끝
        - periods = 생성할 Period 개수
        - freq = 시간 간격
            - "MS" = 월의 시작일
            - "H" = 1시간 시작
            - "3H" = 3시간 간격
        - tz = 시간대(timezone)
            - "Asia/Seoul" 한국 시간대

In [10]:
# <예제 5-17> Timestamp 배열 만들기

import pandas as pd

# Timestamp 배열 만들기
ts_ms = pd.date_range(start = "2019-01-01",
                     end = None,
                     periods = 6,
                     freq = "MS",
                     tz = "Asia/Seoul")
print(ts_ms)

DatetimeIndex(['2019-01-01 00:00:00+09:00', '2019-02-01 00:00:00+09:00',
               '2019-03-01 00:00:00+09:00', '2019-04-01 00:00:00+09:00',
               '2019-05-01 00:00:00+09:00', '2019-06-01 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='MS')


In [12]:
# <예제 5-18> Period 배열 만들기

import pandas as pd

# Period 배열 만들기

pr_m = pd.period_range(start = "2019-01-01",
                      end =None,
                      periods = 3,
                      freq = "M")

print(pr_m)

print("\n")

# period 배열 만들기 - 2시간 길이
pr_2h = pd.period_range(start = "2019-01-01",
                      end =None,
                      periods = 3,
                      freq = "2H")

print(pr_2h)

PeriodIndex(['2019-01', '2019-02', '2019-03'], dtype='period[M]', freq='M')


PeriodIndex(['2019-01-01 00:00', '2019-01-01 02:00', '2019-01-01 04:00'], dtype='period[2H]', freq='2H')


시계열 데이터 활용
- 날짜 데이터 분리
    - 연-월-일 날짜 데이터에서 일부를 분리하여 추출
        - 년, 월, 일 각각 추출
            - dt속성 이용
            - dt.year = 연도
            - dt.month = 월
            - dt.day = 일
        - 연-월 또는 연도 추출
            - dt.to_period()
                - freq 옵션:
                    - "M" : 연-월
                    - "A" : 연도

In [15]:
# <예제 5-19> 날짜 데이터 분리

import pandas as pd

df = pd.read_csv("./stock-data.csv")

# 문자열인 Date열을 Timestamp로 변환하여 new_Date열 생성
df["new_Date"] = pd.to_datetime(df["Date"])

# dt속성을 이용하여 new_Date의 연-월-일 정보를 년,월,일 로 구분
df["Year"] = df["new_Date"].dt.year
df["Month"] = df["new_Date"].dt.month
df["Day"] = df["new_Date"].dt.day

print(df.head())

print("\n")

df["Date_m"] = df["new_Date"].dt.to_period(freq = "M")
df["Date_yr"] = df["new_Date"].dt.to_period(freq = "A")

print(df.head())

         Date  Close  Start   High    Low  Volume   new_Date  Year  Month  Day
0  2018-07-02  10100  10850  10900  10000  137977 2018-07-02  2018      7    2
1  2018-06-29  10700  10550  10900   9990  170253 2018-06-29  2018      6   29
2  2018-06-28  10400  10900  10950  10150  155769 2018-06-28  2018      6   28
3  2018-06-27  10900  10800  11050  10500  133548 2018-06-27  2018      6   27
4  2018-06-26  10800  10900  11000  10700   63039 2018-06-26  2018      6   26


         Date  Close  Start   High    Low  Volume   new_Date  Year  Month  \
0  2018-07-02  10100  10850  10900  10000  137977 2018-07-02  2018      7   
1  2018-06-29  10700  10550  10900   9990  170253 2018-06-29  2018      6   
2  2018-06-28  10400  10900  10950  10150  155769 2018-06-28  2018      6   
3  2018-06-27  10900  10800  11050  10500  133548 2018-06-27  2018      6   
4  2018-06-26  10800  10900  11000  10700   63039 2018-06-26  2018      6   

   Day   Date_m Date_yr  
0    2  2018-07    2018  
1   29  2

시계열 데이터 활용
- 날짜 인덱스 활용
    - Timestamp -> 행 인덱스 -> DatetimeIndex 라는 고유 속성을 가짐
        - 두 날짜 사이의 시간간격 계산 가능
    - Period -> 행 인덱스 -> PeriodtimeIndex라는 고유 속성을 가짐
    - 인덱싱과 슬라이싱이 편함
        - 연도, 월, 일 따로 또는 같이 기준을 정할 수 있음
        - 날짜 범위로 슬라이싱 추출 가능

In [16]:
# <예제 5-20> 날짜 인덱스 활용

import pandas as pd
df = pd.read_csv("./stock-data.csv")

# 문자열인 날짜데이터를 Timestamp로 변환
df["new_Date"] = pd.to_datetime(df["Date"])
df.set_index("new_Date",inplace =True)

# 날짜 인덱스를 활용하여 데이터 선택
df_y = df["2018"]
print(df_y.head())

print("\n")

# loc 인덱서 활용
df_ym = df.loc["2018-07"]
print(df_ym)

print("\n")

# 열 범위 슬라이싱
df_ym_cols= df.loc["2018-07",'Start':'High']
print(df_ym_cols)

print("\n")

df_ymd = df["2018-07-02"]
print(df_ymd)

print("\n")

# 날짜 범위 지정 - 슬라이싱
df_ymd_range = df["2018-06-25":"2018-06-20"]
print(df_ymd_range)

print("\n")

# Timestamp 객체로 시간 간격계산
# 최근 180~189일 사이의 값들만 선택하기
today = pd.to_datetime("2018-12-25") # 기준일생성
df["time_delta"] = today - df.index # 날짜 차이 생성
df.set_index("time_delta", inplace = True) # 행 인덱스 지정
df_180 = df["180 days":"189 days"] # 180~189 일 추출

print(df_180)

                  Date  Close  Start   High    Low  Volume
new_Date                                                  
2018-07-02  2018-07-02  10100  10850  10900  10000  137977
2018-06-29  2018-06-29  10700  10550  10900   9990  170253
2018-06-28  2018-06-28  10400  10900  10950  10150  155769
2018-06-27  2018-06-27  10900  10800  11050  10500  133548
2018-06-26  2018-06-26  10800  10900  11000  10700   63039


                  Date  Close  Start   High    Low  Volume
new_Date                                                  
2018-07-02  2018-07-02  10100  10850  10900  10000  137977


            Start   High
new_Date                
2018-07-02  10850  10900


                  Date  Close  Start   High    Low  Volume
new_Date                                                  
2018-07-02  2018-07-02  10100  10850  10900  10000  137977


                  Date  Close  Start   High    Low  Volume
new_Date                                                  
2018-06-25  2018-06-25  11150  1