In [1]:
import numpy as np
import pandas as pd
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc("figure", figsize=(10, 6))
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_columns = 20
pd.options.display.max_rows = 20
pd.options.display.max_colwidth = 80
np.set_printoptions(precision=4, suppress=True)

In [2]:
# Chapter 11 시계열(Time Series)

In [3]:
# 시계열 데이터는 금융, 경제, 생태학, 신경과학, 물리학 등 여러 다양한 분야에서 사용되는 매우 중요한 구조화된 데이터다. 
# 시간 상의 여러 지점을 관측하거나 측정할 수 있는 모든 것이 시계열이다.

In [4]:
# 대부분의 시계열은 고정 빈도로 표현되는데 데이터가 존재하는 지점이 15초마다, 5분마다, 한 달에 한번 같은 특정 규칙에 따라 고정 간격을 가지게 된다.
# 시계열은 또한 고정된 단위나 시간 혹은 단위들 간의 간격으로 존재하지 않고 불규칙적인 모습으로 표현될 수도 있다. 
# 어떻게 시계열 데이터를 표시하고 참조할지는 애플리케이션에 의존적이며 다음 중 한 유형일 수 있다. 

In [6]:
# 시간 내에서 특정 순간의 타임스탬프
# 2007년 1월이나 2010년 전체 같은 고정된 기간
# 시작과 끝 타임스탬프로 표시되는 시간 간격. 기간은 시간 간격의 특수한 경우로 생각할 수 있다. 
# 실험 혹은 경과 시간. 각 타임스탬프는 특정 시작 시간에 상대적인 시간의 측정값이다. 

In [7]:
# 가장 단순하고 널리 사용되는 시계열의 종류는 타임스탬프로 색인된 데이터다.

In [8]:
# pandas는 표준 시계열 도구와 데이터 알고리즘을 제공한다. 

In [9]:
# 11.1 날짜, 시간 자료형, 도구

In [10]:
# 파이썬 표준 라이브러리는 날짜와 시간을 위한 자료형과 달력 관련 기능을 제공하는 자료형이 존재한다. 
# datetime, time 그리고 calendar 모듈은 처음 공부하기에 좋은 주제다. 
# datetime.datetime형이나 단순한 datetime이 널리 사용되고 있다.

In [11]:
from datetime import datetime

In [12]:
now = datetime.now()

In [13]:
now

datetime.datetime(2023, 1, 26, 10, 7, 3, 984523)

In [14]:
now.year, now.month, now.day

(2023, 1, 26)

In [15]:
# datetime은 날짜와 시간을 모두 저장하며 마이크로초까지 지원한다. 
# datetime.timedelta는 두 datetime 객체 간의 시간적인 차이를 표현할 수 있다.

In [16]:
delta = datetime(2011, 1, 7) - datetime(2008, 6, 24, 8, 15)

In [17]:
delta

datetime.timedelta(days=926, seconds=56700)

In [18]:
delta.days

926

In [19]:
delta.seconds

56700

In [20]:
# timedelta를 더하거나 빼면 그만큼의 시간이 datetime 객체에 적용되어 새로운 객체를 만들 수 있다.

In [21]:
from datetime import timedelta

In [22]:
start = datetime(2011, 1, 7)

In [23]:
start + timedelta(12)

datetime.datetime(2011, 1, 19, 0, 0)

In [24]:
start - 2 * timedelta(12)

datetime.datetime(2010, 12, 14, 0, 0)

In [26]:
# [표 11-1]에 datetime 모듈의 자료형을 정리해두었다. 페이지 425
# 이 장에서 주로 다루는 내용은 pandas의 자료형과 고수준의 시계열을 다루는 방법이며, 실제 파이썬을 사용하면서 다양한 곳에서 datetime 기반의 자료형을 마주치게 될 것이다.

In [27]:
# 11.1.1 문자열을 datetime으로 변환하기

In [28]:
# datetime 객체와 낮우에 소개할 pandas의 Timestamp 객체는 str 메서드나 strftime 메서드에 포맷 규칙을 넘겨서 문자열로 나타낼 수 있다.

In [29]:
stamp = datetime(2011, 1, 3)

In [30]:
str(stamp)

'2011-01-03 00:00:00'

In [31]:
stamp.strftime("%Y-%m-%d")

'2011-01-03'

In [32]:
# [표 11-2]에 포맷 코드를 모두 정리해두었다. 페이지 426

In [33]:
# 이 포맷 코드는 datetime.strptime을 사용해서 문자열을 날짜로 변환할 때 사용할 수 있다. 

In [34]:
value = "2011-01-03"

In [35]:
datetime.strptime(value, "%Y-%m-%d")

datetime.datetime(2011, 1, 3, 0, 0)

In [36]:
datestrs = ["7/6/2011", "8/6/2011"]

In [37]:
[datetime.strptime(x, "%m/%d/%Y") for x in datestrs]

[datetime.datetime(2011, 7, 6, 0, 0), datetime.datetime(2011, 8, 6, 0, 0)]

In [38]:
# datetime.strptime은 알려진 형식의 날짜를 파싱하는 최적의 방법이다. 
# 하지만 매번 포맷 규칙을 써야하는 건 귀찮은 일이다. 특히 흔히 쓰는 날짜 형식에 대해서는 더 그렇다.
# 이 경우에는 서드파티 패키지인 dateutil에 포함된 parser.parse 메서드를 사용하면 된다(pandas를 설치할 때 자동으로 함께 설치된다).

In [39]:
from dateutil.parser import parse

In [40]:
parse("2011-01-03")

datetime.datetime(2011, 1, 3, 0, 0)

In [41]:
# dateutil은 거의 대부분의 사람이 인지하는 날짜 표현 방식을 파싱할 수 있다.

In [42]:
# 국제 로케일의 경우 날짜가 월 앞에 오는 경우가 매우 흔하다. 
# 이런 경우에 dayfirst=True를 넘겨주면 된다.

In [43]:
parse("6/12/2011", dayfirst=True)

datetime.datetime(2011, 12, 6, 0, 0)

In [44]:
# pandas는 일반적으로 DataFrame의 컬럼이나 축 색인으로 날짜가 담긴 배열을 사용한다. 
# to_datetime 메서드는 많은 종류의 날짜 표현을 처리한다. 
# ISO 8601 같은 표준 날짜 형식은 매우 빠르게 처리할 수 있다. 

In [45]:
datestrs = ["2011-07-06 12:00:00", "2011-08-06 00:00:00"]

In [46]:
pd.to_datetime(datestrs)

DatetimeIndex(['2011-07-06 12:00:00', '2011-08-06 00:00:00'], dtype='datetime64[ns]', freq=None)

In [47]:
# 또한 누락된 값(None, 빈 문자열 등)으로 간주되어야 할 값도 처리해준다.

In [48]:
idx = pd.to_datetime(datestrs + [None])

In [49]:
idx

DatetimeIndex(['2011-07-06 12:00:00', '2011-08-06 00:00:00', 'NaT'], dtype='datetime64[ns]', freq=None)

In [50]:
idx[2]

NaT

In [51]:
pd.isnull(idx)

array([False, False,  True])

In [52]:
# Not a Time는 pandas에서 누락된 타임스탬프 데이터를 나타낸다. 

In [53]:
# CAUTION! dateutil.parser는 매우 유용하지만 완벽한 도구는 아니다. 날짜로 인식하지 않길 바라는 문자열을 날짜로 인식하기도 하는데, "42"를 2042년으로 해석하기도 한다.

In [55]:
# datetime 객체는 여러 나라 혹은 언어에서 사용하는 로케일에 맞는 다양한 포맷 옵션을 제공한다.
# 예를 들어 독일과 프랑스에서는 각 월의 단축명이 영문 시스템과 다르다. 
# [표 11-3]에서 로케일별 날짜 포맷을 확인하자. 페이지 428