# 시계열 다루기

* Time stamps는 특정 시점을 말한다.(예: 2024년 8월 12일 오전2시)
* Time intervals and periods는 특정 시작점과 종료점 사이의 길이를 말한다.
* Time deltas or durations는 정확한 시간 길이를 말한다(예: 22.6초)


In [7]:
import numpy as np
import pandas as pd
from datetime import datetime
from dateutil import parser

In [6]:
# datetime 타입을 사용해 날짜를 직접 구성할 수 있다.
print(datetime(year = 2024, month=8, day=12))

# dateutil 모듈을 이용해 다양한 문자열 형태로부터 날짜를 해석할 수 있다.
date = parser.parse('8th of July, 2024')
print(date)

# 요일을 출력할 수 있다.
print(date.strftime('%A, %B %d, %Y'))


2024-08-12 00:00:00
2024-07-08 00:00:00
Monday, July 08, 2024


### 타입이 지정된 시간 배열: NumPy의 datetime64

In [12]:
date = np.array('2024-09-15', dtype=np.datetime64)
print(date)

# 벡터화 연산 가능
print(date + np.arange(12))

# 시간 단위를 나노초로 정함
print(np.datetime64('2024-09-15 12:59:59.50', 'ns'))

2024-09-15
['2024-09-15' '2024-09-16' '2024-09-17' '2024-09-18' '2024-09-19'
 '2024-09-20' '2024-09-21' '2024-09-22' '2024-09-23' '2024-09-24'
 '2024-09-25' '2024-09-26']
2024-09-15T12:59:59.500000000


### Pandas에서의 날짜와 시간

In [14]:
date = pd.to_datetime('4th of July, 2024')
print(date)

# 벡터화된 연산 가능
print(date + pd.to_timedelta(np.arange(12), 'D'))

2024-07-04 00:00:00
DatetimeIndex(['2024-07-04', '2024-07-05', '2024-07-06', '2024-07-07',
               '2024-07-08', '2024-07-09', '2024-07-10', '2024-07-11',
               '2024-07-12', '2024-07-13', '2024-07-14', '2024-07-15'],
              dtype='datetime64[ns]', freq=None)


### Pandas 시계열: 시간으로 인덱싱

In [15]:
index = pd.DatetimeIndex(['2024-07-04', '2024-08-04',
                          '2025-07-04', '2025-08-04'])
data = pd.Series([0, 1, 2, 3], index=index)
data

2024-07-04    0
2024-08-04    1
2025-07-04    2
2025-08-04    3
dtype: int64

In [19]:
# Series 인덱싱 가능
print(data['2024-07-04' : '2025-07-04'], '\n')

# 해당 연도의 모든 데이터 슬라이스 얻기
print(data['2024'])

2024-07-04    0
2024-08-04    1
2025-07-04    2
dtype: int64 

2024-07-04    0
2024-08-04    1
dtype: int64


### Pandas 시계열 데이터 구조

* Time stamps : Timestamp 타입을 제공한다.
* Time intervals and periods : Period 타입을 제공한다.
* Time deltas or durations : Timedelta 타입을 제공한다.



In [28]:
# 단일 날짜를 pd.to_datetime()에 전달하면 Timestamp를 생성하고, 일연의 날짜를 전달하면 DatetimeIndex를 생성하는 것이 기본이다.
dates = pd.to_datetime([datetime(2024, 8, 12), '13th of Aug, 2024', '2024-Aug-14', '08-15-2024', '20240816'])
print(dates,'\n')

# to_period() 함수에 주기 코드를 추가해 PeriodIndex로 전환할 수 있다. 'D'는 일별 주기를 가리킨다.
print(dates.to_period('D'), '\n')

# 어떤 날짜에서 다른 날짜를 빼면 TimedeltaIndex가 생성된다.
print(dates-dates[0])

DatetimeIndex(['2024-08-12', '2024-08-13', '2024-08-14', '2024-08-15',
               '2024-08-16'],
              dtype='datetime64[ns]', freq=None) 

PeriodIndex(['2024-08-12', '2024-08-13', '2024-08-14', '2024-08-15',
             '2024-08-16'],
            dtype='period[D]') 

TimedeltaIndex(['0 days', '1 days', '2 days', '3 days', '4 days'], dtype='timedelta64[ns]', freq=None)


### 정규 시퀀스: pd.date_range()

In [34]:
print(pd.date_range('2024-08-12', '2024-09-15'), '\n')

# 날짜 범위를 시작점과 종료점이 아니라 시작점과 기간의 수로 지정할 수 있다.
print(pd.date_range('2024-08-12', periods=8), '\n')

# freq 인수를 바꿔서 간격을 조정할 수 있는데 기본적으로 'D'로 돼 있다.
print(pd.date_range('2024-08-12', periods=8, freq='h'), '\n')

DatetimeIndex(['2024-08-12', '2024-08-13', '2024-08-14', '2024-08-15',
               '2024-08-16', '2024-08-17', '2024-08-18', '2024-08-19',
               '2024-08-20', '2024-08-21', '2024-08-22', '2024-08-23',
               '2024-08-24', '2024-08-25', '2024-08-26', '2024-08-27',
               '2024-08-28', '2024-08-29', '2024-08-30', '2024-08-31',
               '2024-09-01', '2024-09-02', '2024-09-03', '2024-09-04',
               '2024-09-05', '2024-09-06', '2024-09-07', '2024-09-08',
               '2024-09-09', '2024-09-10', '2024-09-11', '2024-09-12',
               '2024-09-13', '2024-09-14', '2024-09-15'],
              dtype='datetime64[ns]', freq='D') 

DatetimeIndex(['2024-08-12', '2024-08-13', '2024-08-14', '2024-08-15',
               '2024-08-16', '2024-08-17', '2024-08-18', '2024-08-19'],
              dtype='datetime64[ns]', freq='D') 

DatetimeIndex(['2024-08-12 00:00:00', '2024-08-12 01:00:00',
               '2024-08-12 02:00:00', '2024-08-12 03:00:00',
         

### 주기와 오프셋

* D : 일
* W : 주
* M : 월 말
* Q : 분기 말
* A : 연말
* h : 시간
* min : 분
* S : 초
* L : 밀리초
* U : 마이크로초
* N : 나노초

In [40]:
# 2시간 30분 간격의 주기를 만들려면 H + T를 결합하면 된다.
pd.timedelta_range(0, periods=9, freq="2h30min")

TimedeltaIndex(['0 days 00:00:00', '0 days 02:30:00', '0 days 05:00:00',
                '0 days 07:30:00', '0 days 10:00:00', '0 days 12:30:00',
                '0 days 15:00:00', '0 days 17:30:00', '0 days 20:00:00'],
               dtype='timedelta64[ns]', freq='150min')

# 고성능 Pandas: eval()과 query()

In [44]:
# Pandas의 eval함수는 연산을 효율적으로 계산하기 위해 문자열 표현식을 사용한다.
nrows, ncols = 100000, 100
rng = np.random.RandomState(42)
df1, df2, df3, df4 =  (pd.DataFrame(rng.rand(nrows, ncols)) for i in range(4))

%timeit df1 + df2 + df3 + df4
# 표현식을 문자열로 구성함으로써 더 빠르고 메모리도 훨씬 더 적게 사용한다.
%timeit pd.eval('df1 + df2 + df3 + df4')

11.1 ms ± 20.4 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
5.99 ms ± 25.3 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [45]:
df = pd.DataFrame(rng.rand(1000, 3), columns=['A', 'B', 'C'])
df.head()

Unnamed: 0,A,B,C
0,0.615875,0.525167,0.047354
1,0.330858,0.412879,0.441564
2,0.689047,0.559068,0.23035
3,0.290486,0.695479,0.852587
4,0.42428,0.534344,0.245216


In [47]:
result1 = (df['A'] + df['B']) / (df['C'] - 1)
result2 = pd.eval("(df.A + df.B) / (df.C - 1)")
np.allclose(result1, result2)

True

In [48]:
# eval DataFrame.eval 메서드를 사용해 훨씬 간결하게 할 수 있다.
result3 = df.eval('(A + B) / (C - 1)')
np.allclose(result1, result3)

True

### DataFrame.eval()의 지역변수

#### @ 기호는 열의 namespace와 파이썬 객체의 namespace를 포함하는 표현식을 효율적으로 평가할 수 있게 해준다.

In [51]:
column_mean = df.mean(1)
result1 = df['A'] + column_mean
result2 = df.eval('A + @column_mean')
np.allclose(result1, result2)

True

### DataFrame.query() 메서드

In [52]:
# DataFrame의 열을 포함하는 표현식이라서 df.eval()구문을 사용해 표현할 수 없다 따라서 query를 쓴다.
result1 = df[(df.A < 0.5) & (df.B < 0.5)]
result2 = df.query('A < 0.5 and B < 0.5')

np.allclose(result1, result2)


True