## 01) Timestamp
- 시계열 데이터란 일정 시간 간격으로 배치된 데이터 셋의 집합
- 판다스는 파이썬에서 날짜와 시간을 표현하기 위해 사용하는 Datetime 타입과 유사한 Timestamp 클래스를 제공
- 판다스에 정의된 to_datetime 함수를 사용해서 "2021-01-02"라는 문자열을 Timestamp 타입의 객체로 변환할 수 있습

In [1]:
import pandas as pd

ts = pd.to_datetime("2021-01-02")
print(type(ts))
print(ts)

<class 'pandas._libs.tslibs.timestamps.Timestamp'>
2021-01-02 00:00:00


In [2]:
# to_datetime함수에 시간 정보를 "시:분:초" 형태로 추가할 수 있음.\
# 다음 코드는 2021-01-02의 오전 9시를 가리킴.
ts = pd.to_datetime("2021-01-02 09:00:00")
print(ts)

2021-01-02 09:00:00


In [3]:
ts = pd.to_datetime("20210102 090000")
print(ts)

2021-01-02 09:00:00


In [4]:
# 날짜를 표현하는 방법은 나라마다 다를 수 있음
# 미국은 월/일/년 형태로 표현하며, 영국은 일/월/년 형태로 표기
# 영국식 표기법으로 표현된 문자열의 날짜를 to_datetime은 어떻게 해석될까?
# 영국식 표기법이라 2020-07-06을 의도했지만 이러한 사실을 알 수 없는 to_datetime 함수는 
# 다음과 같이 2020-06-07로 변경
print(pd.to_datetime("06/07/20"))

2020-06-07 00:00:00


In [5]:
# 이런 문제를 해결하려면 to_datetime 함수의 format 파라미터로 날짜가 표현된 형태를 알려줘야 함.
# %Y는 네 자리의 연도를, %y는 2자리의 연도, %m은 두 자리로 구성된 월, %d 일을 의미
# 따라서 '%y/%m/%d'라고 적으면 앞에서부터 두 자리의 연도, 두 자리 월, 두 자리 날짜가 '/'으로 구분돼 있음을 to_datetime 함수에 알려주는 겁니다.
# 다음 코드는 영국식 표기법으로 표현된 날짜를 Timestamp 객체로 변환합니다.

print(pd.to_datetime("06/07/20", format="%d/%m/%y"))

2020-07-06 00:00:00


In [6]:
# Timestamp 클래스에는 년/월/일/시/분/초를 저장하는 속성(attribute)이 정의돼 있어서 
# 필요에 따라 Timestamp 객체에서 값을 꺼내 올 수 있습니다. 
# 해당 데이터를 위한 속성의 이름이 직관적이라 별도의 설명 없이 다음 코드를 이해할 수 있습니다.

ts = pd.to_datetime("2021-08-14")
print(ts.year)
print(ts.month)
print(ts.day)
print(ts.hour)
print(ts.minute)
print(ts.second)

2021
8
14
0
0
0


In [7]:
# Timestamp 클래스는 여러 메서드도 제공합니다.
# weekday 메서드는 요일 정보를 숫자로 반환합니다. 
# 월요일 0, 화요일 1, 수요일 2, 목요일 3, 금요일 4, 토요일 5, 일요일 6을 의미합니다.

ts = pd.to_datetime("2021-08-14")
print(ts.weekday())

5


In [8]:
# Timestamp객체를 다시 문자열 타입으로 변경할 수도 있습니다. 
# strftime 메서드로 변경할 문자열의 format을 지정합니다. 
# %Y는 네 글자 연도, %m은 두 글자 월, %d는 두 글자 일을 의미했었죠? 
# 다음 코드는 Timestamp 객체를 ‘연-월-일’로 표현된 문자열을 반환합니다. 
# 구분자로 "-"를 사용했습니다.

print(ts.strftime("%Y-%m-%d"))

2021-08-14


In [9]:
# 2021년 8월 14일부터 100일 뒤의 날짜는 언제일까요? 
# 문자열로 데이터가 정의돼 있다면 월마다 다른 일자와 윤달을 고려해야 돼서 
# 계산하기 쉽지 않습니다. 판다스는 Timedelta 객체로 날짜의 차이를 표현할 수 있습니다. 
# 클래스의 초기화자로 표현할 시간 정보를 넣어 주면 됩니다. 
# 파라미터의 이름이 모두 복수 형태로 표현돼 s가 붙었음에 주의하세요.

diff = pd.Timedelta(days=100, hours=2, minutes=30, seconds=30 )
print(diff)


100 days 02:30:30


In [10]:
# Timedelta 객체를 사용하면 Timestamp 객체와 덧셈, 뺄셈 연산으로 쉽게 100일 뒤의 날짜를 계산할 수 있습니다. 
# 다음 코드는 ts를 기준으로 100일 2시간 30분 30초 뒤의 시간을 계산합니다. 
# 아쉽지만 Timedelta를 사용하는 경우에도 월이나 연 단위로 차이를 표현할 수는 없습니다. 
# 예를 들어, 오늘로부터 2달 후의 날짜를 구하는 것이 불가능합니다.

print(ts + diff)

2021-11-22 02:30:30


In [11]:
# 판다스의 to_datetime 함수는 리스트에 저장된 모든 문자열을 Timestamp 객체로 변경할 수 있습니다.
# 다음은 문자열로 표현된 세 개의 날짜가 들어 있는 리스트를 to_datetime 함수로 전달합니다.

candidates = [ "2021-01-01", "2021-01-02", "2021-01-03"]
idx = pd.to_datetime(candidates)
print(idx)

DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03'], dtype='datetime64[ns]', freq=None)


In [12]:
# DatetimeIndex는 리스트와 비슷한 순서가 있는 자료구조로 정수를 사용한 인덱싱과 슬라이싱을 지원합니다. 
# 다음 코드를 실행하면 idx[0]에는 2021-01-01이 Timestamp 객체로 저장된 것을 알 수 있습니다. 
# idx[0:2]로 범위 슬라이싱하면, 2021-01-01과 2021-01-02 두 개의 Timestamp가 저장된 DatetimeIndex를 얻을 수 있습니다.

print(idx[0])
print(idx[0:2])


2021-01-01 00:00:00
DatetimeIndex(['2021-01-01', '2021-01-02'], dtype='datetime64[ns]', freq=None)


In [13]:
# DatetimeIndex에는 총 세 개의 Timestamp 객체가 저장돼 있습니다. 
# DatetimeIndex는 저장된 모든 Timestamp의 연/월/일/시/분/초 정보를 각각 한 번에 얻어올 수 있는 편의 기능을 제공합니다.

print(idx.year)
print(idx.month)
print(idx.day)

Int64Index([2021, 2021, 2021], dtype='int64')
Int64Index([1, 1, 1], dtype='int64')
Int64Index([1, 2, 3], dtype='int64')


In [14]:
# 특정 시스템에서는 시간 정보를 유닉스 시간(unix time)으로 저장합니다. 
# 유닉스 시간은 협정 세계시 (UTC)인 1970년 1월 1일부터 경과한 시간을 초(sec)로 환산하여 정수로 나타낸 것입니다. 
# 특정 시각을 하나의 정수로 나타내기 간편함 때문에 유닉스 계열의 운영체제나 파일 형식들에서 자주 사용됩니다. 
# 유닉스 시간은 에포크(epoch) 시간으로 부르기도 합니다.

# 연습을 위해 에포크로 표현된 1628899200이라는 숫자를 사람이 읽기 좋은 형태로 계산해 보겠습니다. 
# 다음 코드는 단위를 second에서 day, year로 변경합니다. 이때 윤달이 있을 수 있지만, 계산의 편의를 위해 단순히 365로 나눴습니다.

# 출력된 결과를 참고하면 대략 51년이 지났음을 알 수 있습니다. 
# 1970년에서 51년이 지났으니 2021년이며 0.65를 계산하면 8월 14일입니다.

day = 1628899200 / 60 / 60 / 24
year = day / 365
print(day, year)

18853.0 51.652054794520545


In [2]:
# to_datetime은 에포크 시간을 읽기 좋은 Timestamp 객체로 변환합니다. 
# 다만 입력하는 단위가 second라는 것을 unit 파라미터로 함수에 알려줘야 합니다.
import pandas as pd 

dt = pd.to_datetime(1628899200, unit='s')
print(dt)

2021-08-14 00:00:00


In [4]:
# Timestamp를 사용하는 이유를 실용적인 예제와 함께 알아봅시다. 
# 다음의 데이터프레임에는 시가/고가/저가/종가가 문자열로 된 인덱스와 함께 저장

data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가': 100, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  99, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]
df = pd.DataFrame(data, index=['20200615','20200616','20200717','20200718'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,100,112,80,95
20200717,99,115,70,85
20200718,70,80,60,75


In [17]:
print(df.iloc[[0,1]])
print(df.iloc[0:2])

cond = df.index.str[:6] == '202006'
print(df[cond])
print(df.loc[cond])

# 위와 같이 간단한 연산은 슬라이싱과 조건 비교로 구분할 수 있습니다. 
# 하지만 2020년 6월 이후의 모든 날짜를 선택하는 경우에는 문자열 비교 연산만으로 문제를 해결하기 어렵습니다.
# 이러한 이유로 날짜와 시간 데이터는 문자열로 저장하기보다 시간을 관리하는 Timestamp로 표현하는 것이 좋습니다.

           시가   고가  저가   종가
20200615  100  110  90  105
20200616  100  112  80   95
           시가   고가  저가   종가
20200615  100  110  90  105
20200616  100  112  80   95
           시가   고가  저가   종가
20200615  100  110  90  105
20200616  100  112  80   95
           시가   고가  저가   종가
20200615  100  110  90  105
20200616  100  112  80   95


In [20]:
# 위와 같이 간단한 연산은 슬라이싱과 조건 비교로 구분할 수 있습니다. 
# 하지만 2020년 6월 이후의 모든 날짜를 선택하는 경우에는 문자열 비교 연산만으로 문제를 해결하기 어렵습니다.
# 이러한 이유로 날짜와 시간 데이터는 문자열로 저장하기보다 시간을 관리하는 Timestamp로 표현하는 것이 좋습니다.
df.index = pd.to_datetime(df.index)
df


Unnamed: 0,시가,고가,저가,종가
2020-06-15,100,110,90,105
2020-06-16,100,112,80,95
2020-07-17,99,115,70,85
2020-07-18,70,80,60,75


In [21]:
# 날짜를 관리하는 객체로 인덱스를 표현하면 문자열에서는 불가능했던 슬라이싱을 사용할 수 있습니다. 
# 다음 코드는 2020년 6월의 모든 행을 선택합니다. 연도와 월 사이에 대시를 넣어줘야함에 주의하세요.

df.loc['2020-06']

Unnamed: 0,시가,고가,저가,종가
2020-06-15,100,110,90,105
2020-06-16,100,112,80,95


In [26]:
# 날짜로 변경한 DatetimeIndex를 컬럼에 저장할 경우 데이터 타입이 자동으로 변경됩니다. 
# 다음 코드를 실행하면 우변에 있는 DatetimeIndex가 date컬럼에 시리즈로 저장됩니다. 
# 시리즈에는 year 변수가 정의돼 있지 않아서 df[“date”].year 와 같은 형태로 전체 데이터의 연도를 한 번에 읽어올 수 없습니다.

df['date'] = df.index
df

Unnamed: 0,시가,고가,저가,종가,date
2020-06-15,100,110,90,105,2020-06-15
2020-06-16,100,112,80,95,2020-06-16
2020-07-17,99,115,70,85,2020-07-17
2020-07-18,70,80,60,75,2020-07-18


In [30]:
# 날짜가 저장된 시리즈에서는 dt 속성을 사용해 DatetimeIndex에 접근할 수 있습니다. 
# 다음 코드는 date 컬럼의 시리즈에 저장된 모든 연도를 Int64Index로 반환합니다. 
# 문자열에서는 str 속성, 날짜에는 dt 속성을 사용할 수 있습니다.

print(df['date'].dt.year)
print(df['date'].dt.month)
print(df['date'].dt.day)


2020-06-15    2020
2020-06-16    2020
2020-07-17    2020
2020-07-18    2020
Name: date, dtype: int64
2020-06-15    6
2020-06-16    6
2020-07-17    7
2020-07-18    7
Name: date, dtype: int64
2020-06-15    15
2020-06-16    16
2020-07-17    17
2020-07-18    18
Name: date, dtype: int64
