# Chapter 11. 시계열

- 대부분의 시계열은 고정 빈도(Fixed Frequency)로 표현되는데 데이터가 존재하는 지점이 특정 규칙에 따라 고정 간격을 가지게 된다.
- 시계열은 또한 고정된 단위나 시간 혹은 단위들 간의 간격으로 존재하지 않고 불규칙적인 모습으로 표현될 수도 있다.
- 어떻게 시계열 데이터를 표시하고 참조할지는 애플리케이션에 의존적이며 다음 중 한 유형일 수 있다.
    - 시간 내에서 특정 순간의 타임 스탬프
    - 2007년 1월이나 2010년 전체 같은 고정된 기간
    - 시작과 끝 타임스탬프로 표시되는 시간 간격. 기간은 시간 간격의 특수한 경우로 생각할 수 있다.
- 가장 단순하고 널리 사용되는 시계열의 종류는 타임스탬프로 색인된 데이터다.
- pandas는 표준 시계열 도구와 데이터 알고리즘을 제공한다.

## 11.1 날짜, 시간 자료형, 도구
- 파이썬 표준 라이브러리는 `날짜와 시간을 위한 자료형`과 `달력 관련 기능`을 제공하는 자료형이 존재한다.  
- datetime, time 그리고 calendar 모듈은 처음 공부하기에 좋은 주제다.
- datetime.datetime 형이나 단순한 datetime이 널리 사용되고 있다.

In [2]:
from datetime import datetime

now = datetime.now()
now

datetime.datetime(2021, 10, 4, 21, 20, 12, 873658)

In [3]:
now.year, now.month, now.day

(2021, 10, 4)

> datetime은 날짜와 시간을 모두 저장하며 마이크로초까지 지원한다.  
> datetime.timedelta는 두 datetime 객체 간의 시간적인 차이를 표현할 수 있다.

In [6]:
delta = datetime(2011, 1, 7) - datetime(2008, 6, 24, 8, 15)
delta

datetime.timedelta(days=926, seconds=56700)

In [7]:
delta.days, delta.seconds

(926, 56700)

> timedelta를 더하거나 빼면 그만큼의 시간이 datetime 객체에 적용되어 새로운 객체를 만들 수 있다.

In [9]:
from datetime import timedelta

start = datetime(2011, 1, 7)

start - 2*timedelta(12)

datetime.datetime(2010, 12, 14, 0, 0)

#### datetime 모듈의 자료형

<details>
<summary>datetime 모듈의 자료형</summary>
<div markdown="1">

|자료형|설명|
|:--|:--|
|date|그레고리안 달력을 사용해서 날짜(연,월,일)를 저장한다.|
|time|하루의 시간을 시,분,초,마이크로초 단위로 저장한다.|
|datetime|날짜와 시간을 모두 저장한다.|
|timedelta|두 datetime 값 간의 차이(일, 초, 마이크로초)를 표현한다.|
|tzinfo|지역시간대를 저장하기 위한 기본 자료형|

    
</div>
</details>

### 11.1.1 문자열을 datetime으로 변환하기

> datetime 객체와 나중에 소개할 pandas의 Timestamp 객체는 str 메서드나 strftime 메서드에 포맷 규칙을 넘겨서 문자열로 나타낼 수 있다.

In [14]:
stamp = datetime(2011, 1, 3)

str(stamp)

'2011-01-03 00:00:00'

In [17]:
stamp.strftime("%Y-%m-%d")

'2011-01-03'

#### Datetime 포맷 규칙 (ISO C89 호환)

<details>
<summary>Datetime 포맷 규칙 (ISO C89 호환)</summary>
<div markdown="1">

|포맷|설명|
|:--|:--|
|%Y|4자리 연도|
|%y|2자리 연도|
|%m|2자리 월 [01,12]|
|%d|2자리 일 [01,31]|
|%H|시간(24시간 형식) [00,23]|
|%I|시간(12시간 형식) [01,12]|
|%M|2자리 분 [00,59]|
|%S|초 [00,61] (60,61은 윤초)|
|%w|정수로 나타낸 요일 [0(일요일), 6]|
|%U|연중 주차 [00,53]. 일요일을 그 주의 첫 번째 날로 간주하며, 그 해에서 첫 번째 일요일 앞에 있는 날은 0주차가 된다.|
|%W|연중 주차 [00,53]. 월요일을 그 주의 첫 번째 날로 간주하며, 그 해에서 첫 번째 월요일 앞에 있는 날은 0주차가 된다.|
|%z|UTC 시간대 오프셋을 +HHMM 또는 -HHMM으로 표현한다. 만약 시간대를 신경 쓰지 않는다면 비워둔다.|
|%F|%Y-%m-%d 형식에 대한 축약 (예:2012-4-18)|
|%D|%m/%d/%y 형식에 대한 축약 (예:04/18/12)|
    
</div>
</details>

> 이 포맷 코드는 datetime.strptime을 사용해서 문자열을 날자로 변환할 때 사용할 수 있다.

In [18]:
value = "2011-01-03"
datetime.strptime(value, '%Y-%m-%d')

datetime.datetime(2011, 1, 3, 0, 0)

In [19]:
datestrs = ['7/6/2011', '8/6/2011']

[datetime.strptime(x, '%m/%d/%Y') for x in datestrs]

[datetime.datetime(2011, 7, 6, 0, 0), datetime.datetime(2011, 8, 6, 0, 0)]

> datetime.strptime은 알려진 형식의 날자를 파싱하는 최적의 방법이다.  
> 하지만, 서드파티 패키지인 dateutil에 포함된 parser.parse 메서드를 사용하면 보다더 쉽게 변환할 수 있다. (pandas를 설치할 때 자동으로 함게 설치된다.)

In [20]:
from dateutil.parser import parse

parse('2011-01-03')

datetime.datetime(2011, 1, 3, 0, 0)

> dateutil은 거의 대부분의 사람이 인지하는 날자 표현 방식을 파싱할 수 있다.

In [21]:
parse("Jan 31, 1997 10:45 PM")

datetime.datetime(1997, 1, 31, 22, 45)

> 국제 로케일의 경우 날짜가 월 앞에 오는 경우가 매우 흔하다. 이런 경우에는 dayfirst = True를 넘겨주면 된다.

In [22]:
parse("6/12/2011", dayfirst= True)

datetime.datetime(2011, 12, 6, 0, 0)

> pandas는 일반적으로 DataFrame의 컬럼이나 축 색인으로 날짜가 담긴 배열을 사용한다.  
> to_datetime 메서드는 많은 종류의 날짜 표현을 처리한다. ISO 8601 같은 표준 날짜 형식은 매우 빠르게 처리할 수 있다.

In [25]:
datestrs = ['2011-07-06 12:00:00', '2011-08-06 00:00:00']

pd.to_datetime(datestrs)

DatetimeIndex(['2011-07-06 12:00:00', '2011-08-06 00:00:00'], dtype='datetime64[ns]', freq=None)

> 또한 누락된 값 (None, 빈 문자열 등)으로 간주되어야 할 값도 처리해 준다.  
> NaT (Not a Time)는 pandas에서 누락된 타임스탬프 데이터를 나타낸다.

In [26]:
idx = pd.to_datetime(datestrs + [None])
idx

DatetimeIndex(['2011-07-06 12:00:00', '2011-08-06 00:00:00', 'NaT'], dtype='datetime64[ns]', freq=None)

In [29]:
pd.isnull(idx)

array([False, False,  True])

> datetime 객체는 여러 나라 혹은 언어에서 사용하는 로케일에 맞는 다양한 포맷 옵션을 제공한다.  
> 예를 들어 독일과 프랑스에서는 각 월의 단축명이 영문 시스템과 다르다. 로케일 별 날짜 포맷을 확인할 필요가 있다.

#### 로케일별 날짜 포맷

<details>
<summary>로케일별 날짜 포맷</summary>
<div markdown="1">

|포맷|설명|
|:--|:--|
|%a|축약된 요일 이름|
|%A|요일 이름|
|%b|축약된 월 이름|
|%B|월 이름|
|%c|전체 날짜와 시간(예: 'Tue 01 May 2012 04:20:57 PM')|
|%p|해당 로케일에서 AM, PM에 대응되는 이름(AM은 오전, PM은 오후)|
|%x|로케일에 맞는 날짜 형식 (예:미국이라면 2012년 5월 1일은 '05/01/2012')|
|%X|로케일에 맞는 시간 형식 (예: '04:24:12 PM')|
    
</div>
</details>

## 11.2 시계열 기초

- pandas에서 찾아볼 수 있는 가장 기본적인 시계열 객체의 종류는 파이썬 문자열이나 datetime 객체로 표현되는 타임스탬프로 색인된 Series다.

In [35]:
from datetime import datetime

dates = [datetime(2011, 1, 2), datetime(2011, 1, 5),
         datetime(2011, 1, 7), datetime(2011, 1, 8),
         datetime(2011, 1, 10), datetime(2011, 1, 12)]

ts = pd.Series(np.random.randn(6), index = dates)
ts

2011-01-02    0.527093
2011-01-05   -1.081817
2011-01-07   -0.585182
2011-01-08    0.487272
2011-01-10   -1.200458
2011-01-12   -0.376832
dtype: float64

> 내부적으로 보면 이들 datetime 객체는 DatetimeIndex에 들어 있으며 ts 변수의 타입은 TimeSeries다.

In [38]:
ts.index

DatetimeIndex(['2011-01-02', '2011-01-05', '2011-01-07', '2011-01-08',
               '2011-01-10', '2011-01-12'],
              dtype='datetime64[ns]', freq=None)

> 다른 Series와 마찬가지로 서로 다르게 색인된 시계열 객체 간의 산술 연산은 자동으로 날짜에 맞춰진다.

In [39]:
ts + ts[::2]

2011-01-02    1.054187
2011-01-05         NaN
2011-01-07   -1.170364
2011-01-08         NaN
2011-01-10   -2.400915
2011-01-12         NaN
dtype: float64

> pandas는 NumPy의 datetime64 자료형을 사용해서 나노초의 정밀도를 가지는 타임스탬프를 저장한다.

In [40]:
ts.index.dtype

dtype('<M8[ns]')

> DatetimeIndex의 스칼라값은 pandas Timestamp 객체다.  
> Timestamp는 datetime 객체를 사용하는 어떤 곳에도 대체 사용이 가능하다.  
> 게다가 가능하다면 빈도에 관한 정보도 저장하며 시간대 변환을 하는 방법과 다른 종류의 조작을 하는 방법도 포함하고 있다.

In [42]:
stamp = ts.index[0]
stamp

Timestamp('2011-01-02 00:00:00')

### 11.2.1 색인, 선택, 부분 선택

> 시계열은 라벨에 기반해서 데이터를 선택하고 인덱싱할 때 pandas.Series와 동일하게 동작한다.

In [44]:
stamp = ts.index[2]
stamp

Timestamp('2011-01-07 00:00:00')

In [45]:
ts[stamp]

-0.5851821281381955

> 해석할 수 있는 날짜를 문자열로 넘겨서 편리하게 사용할 수 있다.

In [46]:
ts['1/10/2011']

-1.2004575143223382

In [49]:
ts['20110110']

-1.2004575143223382

> 긴 시계열에서는 연을 넘기거나 연, 월만 넘겨서 데이터의 일부 구간만 선택할 수도 있다.

In [51]:
longer_ts = pd.Series(np.random.randn(1000), index = pd.date_range('1/1/2000', periods = 1000))
longer_ts

2000-01-01    0.511902
2000-01-02    0.300940
2000-01-03    0.590463
2000-01-04   -1.085473
2000-01-05    0.950203
                ...   
2002-09-22    1.151353
2002-09-23    1.236167
2002-09-24    1.110303
2002-09-25   -0.151498
2002-09-26   -0.656942
Freq: D, Length: 1000, dtype: float64

In [52]:
longer_ts['2001']

2001-01-01    1.156484
2001-01-02   -0.839789
2001-01-03   -0.109572
2001-01-04    0.090570
2001-01-05   -0.128576
                ...   
2001-12-27    0.108491
2001-12-28   -0.177276
2001-12-29   -0.735996
2001-12-30    0.064573
2001-12-31   -1.574414
Freq: D, Length: 365, dtype: float64

> 연에 대해서도 마찬가지로 선택할 수 있다.

In [53]:
longer_ts['2001-05']

2001-05-01    1.355891
2001-05-02   -0.655497
2001-05-03   -1.522220
2001-05-04   -0.224103
2001-05-05    1.516159
2001-05-06   -0.784441
2001-05-07   -3.027601
2001-05-08    0.374262
2001-05-09   -0.319081
2001-05-10   -0.088985
2001-05-11    0.790988
2001-05-12   -0.829910
2001-05-13   -0.356047
2001-05-14   -0.383890
2001-05-15    0.470284
2001-05-16   -1.711977
2001-05-17    0.995628
2001-05-18    0.377491
2001-05-19   -0.716980
2001-05-20   -0.726000
2001-05-21    0.563092
2001-05-22   -0.636812
2001-05-23    0.751799
2001-05-24    1.596946
2001-05-25    0.310778
2001-05-26   -2.001816
2001-05-27    0.519565
2001-05-28    0.170625
2001-05-29   -0.925019
2001-05-30   -0.208023
2001-05-31   -1.436730
Freq: D, dtype: float64

> datetime 객체로 데이터를 잘라내는 작업은 일반적인 Series와 동일한 방식으로 할 수 있다.

In [54]:
ts[datetime(2011, 1, 7):]

2011-01-07   -0.585182
2011-01-08    0.487272
2011-01-10   -1.200458
2011-01-12   -0.376832
dtype: float64

> 대부분의 시계열 데이터는 연대순으로 정렬되기 때문에 범위를 지정하기 위해 시계열에 포함하지 않고 타임스탬프를 이용해서 Series를 나눌 수 있다.  
> 이런 방식으로 데이터를 나누면 NumPy 배열을 나누는 것처럼 원본 시계열에 대한 뷰를 생성한다는 사실을 기억하자.  
> 즉, 데이터 복사가 발생하지 않고 슬라이스에 대한 변경이 원본 데이터에도 반영된다.

In [56]:
ts['1/6/2011' : '1/11/2011']

2011-01-07   -0.585182
2011-01-08    0.487272
2011-01-10   -1.200458
dtype: float64

> 이와 동일한 인스턴스 메서드로 truncate가 있다. 이 메서드는 TimeSeries를 두 개의 날짜로 나눈다.

In [57]:
ts.truncate(after = '1/9/2011')

2011-01-02    0.527093
2011-01-05   -1.081817
2011-01-07   -0.585182
2011-01-08    0.487272
dtype: float64

> 위 방식은 DataFrame에서도 동일하게 적용되며 로우에 인덱싱된다.

In [60]:
dates = pd.date_range('1/1/2000', periods = 100, freq = 'W-WED')

long_df = pd.DataFrame(np.random.randn(100,4),
                       index = dates,
                       columns = ['Colorado', 'Texas', 'New York', 'Ohio'])

long_df.loc['5-2001']

Unnamed: 0,Colorado,Texas,New York,Ohio
2001-05-02,-0.206011,-0.961785,-0.135173,-0.615693
2001-05-09,-0.299818,-1.497059,0.649819,0.826794
2001-05-16,0.539239,1.781971,0.95275,0.557374
2001-05-23,1.025586,0.22613,0.287988,-0.628744
2001-05-30,-0.27425,1.42188,1.195972,-0.710915


### 11.2.2 중복된 색인을 갖는 시계열

> 어떤 애플리케이션에서는 여러 데이터가 특정 타임스탬프에 몰려 있는 것을 발견할 수 있다.

In [62]:
dates = pd.DatetimeIndex(['1/1/2000','1/2/2000','1/2/2000',
                          '1/2/2000','1/3/2000'])

dup_ts = pd.Series(np.arange(5), index = dates)
dup_ts

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int32

> is_unique 속성을 통해 확인해보면 색인이 유일하지 않음을 알 수 있다.

In [63]:
dup_ts.index.is_unique

False

> 이 시계열 데이터를 인덱싱하면 타임스탬프의 중복 여부에 다라 스칼라값이나 슬라이스가 생성된다.

In [64]:
dup_ts['1/3/2000']  # 중복 없음

4

In [65]:
dup_ts['1/2/2000']  # 중복 있음

2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int32

> 유일하지 않은 타임스탬프를 가지는 데이터를 집계한다고 할 때, 한 가지 방법은 groupby에 level=0 (단일 단계 인덱싱)을 넘기는 것이다.

In [67]:
grouped = dup_ts.groupby(level = 0)
grouped.mean()

2000-01-01    0
2000-01-02    2
2000-01-03    4
dtype: int32

In [68]:
grouped.count()

2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64