# 시계열 관련 NumPy 및 Pandas 기능

## python, numpy, pandas 날짜 타입 비교 및 정리

|라이브러리|날짜, 시간 클래스| 타임델타 클래스|
|-------|-------------|-------------|
|datatime|datetime, date, time|timedelta|
|numpy|datetime64|timedelta64|
|panads|Timestamp|Timedelta|

- datetime은 python 설치 시 기본적으로 내장된 라이브러리로, 날짜를 쓸 것인지, 시간을 쓸 것인지, 날짜와 시간을 합쳐쓸 것인지에 따라 클래스가 분화되어 있음.   
예를들어 `2021-3-16`을 표시하고 싶으면 `date` 클래스를 사용하고, `2021-3-16 12:34:2`'를 표시하고 싶으면 `datetime` 클래스를 사용.  


- `datetime64`나 `Timestamp`는 각각 numpy, pandas 라이브러리에서 새로 정의한 날짜시간 클래스.   
이 둘은 한 클래스로 날짜, 시간, 날짜시간을 모두 정의할 수 있는 것이 특징.

### 날짜 데이터 정의 - python 

In [111]:
import datetime

#날짜
print(datetime.date(2022, 5, 1))

#날짜 + 시간
print(datetime.datetime(2022, 5, 1, 15, 30, 45))

#시간
print(datetime.time(15, 30, 45))

2022-05-01
2022-05-01 15:30:45
15:30:45


### 날짜 데이터 정의 - numpy

In [112]:
import numpy as np 

#날짜
print(np.datetime64('2022-05-01'))

2022-05-01


### 날짜 데이터 정의 - pandas 

In [113]:
import pandas as pd 

#날짜
print(pd.Timestamp(2022, 5, 1)) 

#날짜 + 시간
print(pd.Timestamp(year=2022, month=5, day=1, hour=12, minute=30)) 

2022-05-01 00:00:00
2022-05-01 12:30:00


### Pandas 의 Timestamp 처리

In [114]:
df = pd.read_excel("datasets/Sample - Superstore.xls")
df.columns

Index(['Row ID', 'Order ID', 'Order Date', 'Ship Date', 'Ship Mode',
       'Customer ID', 'Customer Name', 'Segment', 'Country', 'City', 'State',
       'Postal Code', 'Region', 'Product ID', 'Category', 'Sub-Category',
       'Product Name', 'Sales', 'Quantity', 'Discount', 'Profit'],
      dtype='object')

In [115]:
df.head(3)

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,...,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit
0,1,CA-2013-152156,2013-11-09,2013-11-12,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,42420,South,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.96,2,0.0,41.9136
1,2,CA-2013-152156,2013-11-09,2013-11-12,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,42420,South,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3,0.0,219.582
2,3,CA-2013-138688,2013-06-13,2013-06-17,Second Class,DV-13045,Darrin Van Huff,Corporate,United States,Los Angeles,...,90036,West,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,14.62,2,0.0,6.8714


In [116]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9994 entries, 0 to 9993
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Row ID         9994 non-null   int64         
 1   Order ID       9994 non-null   object        
 2   Order Date     9994 non-null   datetime64[ns]
 3   Ship Date      9994 non-null   datetime64[ns]
 4   Ship Mode      9994 non-null   object        
 5   Customer ID    9994 non-null   object        
 6   Customer Name  9994 non-null   object        
 7   Segment        9994 non-null   object        
 8   Country        9994 non-null   object        
 9   City           9994 non-null   object        
 10  State          9994 non-null   object        
 11  Postal Code    9994 non-null   int64         
 12  Region         9994 non-null   object        
 13  Product ID     9994 non-null   object        
 14  Category       9994 non-null   object        
 15  Sub-Category   9994 n

###  시계열 데이터 단순화

- 여러 column 중에서 필요한 정보 (주문 날짜 및 범주별 총 판매액)만으로 data 를 단순화  시킵니다.

- 인덱스를 재설정하지 않으면 Pandas가 그룹 변수를 인덱스로 설정합니다. 

In [117]:
group_variables =  ['Order Date', 'Category']   # Grouping 할 columns

grouped_df = df.groupby(group_variables).sum()
grouped_df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Row ID,Postal Code,Sales,Quantity,Discount,Profit
Order Date,Category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2011-01-04,Office Supplies,7981,77095,16.448,2,0.2,5.5512
2011-01-05,Office Supplies,2223,181620,288.06,8,1.2,-65.9901
2011-01-06,Office Supplies,1760,19143,19.536,3,0.2,4.884
2011-01-07,Furniture,7475,42420,2573.82,9,0.0,746.4078
2011-01-07,Office Supplies,42423,290334,685.34,15,0.0,293.8612


In [118]:
sales = df.groupby(group_variables)['Sales'].sum().reset_index()
sales.head()

Unnamed: 0,Order Date,Category,Sales
0,2011-01-04,Office Supplies,16.448
1,2011-01-05,Office Supplies,288.06
2,2011-01-06,Office Supplies,19.536
3,2011-01-07,Furniture,2573.82
4,2011-01-07,Office Supplies,685.34


In [119]:
print("sales 데이터프레임의 columns:", sales.columns)
print("sales 데이터프레임의 index:", sales.index)

sales 데이터프레임의 columns: Index(['Order Date', 'Category', 'Sales'], dtype='object')
sales 데이터프레임의 index: RangeIndex(start=0, stop=2864, step=1)


In [120]:
print("sales 데이터프레임의 data types:\n\n", sales.dtypes)

sales 데이터프레임의 data types:

 Order Date    datetime64[ns]
Category              object
Sales                float64
dtype: object


### Numpy 의 datetime64 format

NumPy 날짜 배열은 ns(나노초) 단위의 datetime64 객체입니다. 

내부 저장 단위는 문자열 형태에서 자동으로 선택되며 날짜 단위 또는 시간 단위가 될 수 있습니다. 날짜 단위는 년('Y'), 월('M'), 주('W'), 일('D')이고 시간 단위는 시('h'), 분('m'), 초('s'), 밀리초('ms') 입니다.

In [121]:
order_date = sales['Order Date'].values
order_date

array(['2011-01-04T00:00:00.000000000', '2011-01-05T00:00:00.000000000',
       '2011-01-06T00:00:00.000000000', ...,
       '2014-12-31T00:00:00.000000000', '2014-12-31T00:00:00.000000000',
       '2014-12-31T00:00:00.000000000'], dtype='datetime64[ns]')

In [122]:
order_date_daily = np.array(order_date, dtype='datetime64[D]')
order_date_daily

array(['2011-01-04', '2011-01-05', '2011-01-06', ..., '2014-12-31',
       '2014-12-31', '2014-12-31'], dtype='datetime64[D]')

In [123]:
order_date_monthly = np.array(order_date, dtype='datetime64[M]')
order_date_monthly

array(['2011-01', '2011-01', '2011-01', ..., '2014-12', '2014-12',
       '2014-12'], dtype='datetime64[M]')

In [124]:
np.unique(order_date_monthly)

array(['2011-01', '2011-02', '2011-03', '2011-04', '2011-05', '2011-06',
       '2011-07', '2011-08', '2011-09', '2011-10', '2011-11', '2011-12',
       '2012-01', '2012-02', '2012-03', '2012-04', '2012-05', '2012-06',
       '2012-07', '2012-08', '2012-09', '2012-10', '2012-11', '2012-12',
       '2013-01', '2013-02', '2013-03', '2013-04', '2013-05', '2013-06',
       '2013-07', '2013-08', '2013-09', '2013-10', '2013-11', '2013-12',
       '2014-01', '2014-02', '2014-03', '2014-04', '2014-05', '2014-06',
       '2014-07', '2014-08', '2014-09', '2014-10', '2014-11', '2014-12'],
      dtype='datetime64[M]')

In [125]:
np.unique(np.array(order_date, dtype='datetime64[Y]'))

array(['2011', '2012', '2013', '2014'], dtype='datetime64[Y]')

## DateTimeIndex 를 가진 Pandas 시계열 data 생성 및 처리

- Timestamp을 index 로 하는 data 를 시계열데이터 (TimeSeries) 라고 부른다. 즉, index 가 DatetimeIndex 인 데이터이다.

- 시계열관련 class 와 생성 방법

| class         |           설명          |                               생성방법 |Pandas Class|
|---------------|:-----------------------:|---------------------------------------:|------------:|
| Timestamp     |     하나의 timestamp    |                 to_datetime, Timestamp |pandas.Timestamp|
| DatetimeIndex | timestamp 타입의 인덱스 | to_datetime, date_range, DatetimeIndex |pandas.DatetimeIndex|
| Period        |       time period       |                                 Period |pandas.Period|

In [126]:
a = np.random.standard_normal((12, 4))
df = pd.DataFrame(a, columns=['n1', 'n2', 'n3', 'n4'])
df.head()

Unnamed: 0,n1,n2,n3,n4
0,0.090511,0.192837,0.480328,-0.605934
1,-1.61719,-1.255065,0.427024,-0.36374
2,-2.131912,0.105174,-0.680414,0.025989
3,0.855593,0.55485,-0.047712,-0.596403
4,0.181862,-0.274348,-0.568944,1.455434


## to_datetime()

- 날짜/시간을 나타내는 여러 종류의 문자열을 자동으로 datetime 자료형으로 바꾼 후 DatetimeIndex 자료형 인덱스를 생성

In [127]:
date_str = ['2010-01-01', '2015, 7, 1', 'May, 1 2016', 
            'Dec, 25, 2019', 'DEC 1 2020', 'dec 20 2021', '2020 12 31']

pd.to_datetime(date_str)

DatetimeIndex(['2010-01-01', '2015-07-01', '2016-05-01', '2019-12-25',
               '2020-12-01', '2021-12-20', '2020-12-31'],
              dtype='datetime64[ns]', freq=None)

## date_range
```python
pd.date_range(start, end, periods, freq)
```

- 모든 날짜/시간을 일일히 입력할 필요없이 **시작일과 종료일** 또는 **시작일과 기간**을 입력하면 범위 내의 인덱스를 생성  

- freq
    - S: 초  
    - T: 분  
    - H: 시간  
    - D: 일(day)  
    - B: 주말이 아닌 평일 (Business Day)
    - W: 주(일요일)  
    - M: 각 달(month)의 마지막 날  
    - MS: 각 달의 첫날  

[frequency alias](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases) 참조

In [128]:
# start ~ 10일
pd.date_range(start='2016-9-1', periods=10)

DatetimeIndex(['2016-09-01', '2016-09-02', '2016-09-03', '2016-09-04',
               '2016-09-05', '2016-09-06', '2016-09-07', '2016-09-08',
               '2016-09-09', '2016-09-10'],
              dtype='datetime64[ns]', freq='D')

In [129]:
# start~end 사이 평일
pd.date_range('2019-5-1', '2019-5-10', freq='B')

DatetimeIndex(['2019-05-01', '2019-05-02', '2019-05-03', '2019-05-06',
               '2019-05-07', '2019-05-08', '2019-05-09', '2019-05-10'],
              dtype='datetime64[ns]', freq='B')

In [130]:
# start ~ 12 개월
dates = pd.date_range('2019-01-01', periods=12, freq='M')
dates

DatetimeIndex(['2019-01-31', '2019-02-28', '2019-03-31', '2019-04-30',
               '2019-05-31', '2019-06-30', '2019-07-31', '2019-08-31',
               '2019-09-30', '2019-10-31', '2019-11-30', '2019-12-31'],
              dtype='datetime64[ns]', freq='M')

In [131]:
#DataFrame의 index를 datetime으로 변경
df.index = dates
df.head()

Unnamed: 0,n1,n2,n3,n4
2019-01-31,0.090511,0.192837,0.480328,-0.605934
2019-02-28,-1.61719,-1.255065,0.427024,-0.36374
2019-03-31,-2.131912,0.105174,-0.680414,0.025989
2019-04-30,0.855593,0.55485,-0.047712,-0.596403
2019-05-31,0.181862,-0.274348,-0.568944,1.455434


In [132]:
df.index

DatetimeIndex(['2019-01-31', '2019-02-28', '2019-03-31', '2019-04-30',
               '2019-05-31', '2019-06-30', '2019-07-31', '2019-08-31',
               '2019-09-30', '2019-10-31', '2019-11-30', '2019-12-31'],
              dtype='datetime64[ns]', freq='M')

## Pandas DatetimeIndex를 이용한 작업

In [133]:
#기존의  numpy datetime64 format 변수를 사용하여 인덱스 설정
sales.set_index('Order Date', inplace=True)

sales.head()

Unnamed: 0_level_0,Category,Sales
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2011-01-04,Office Supplies,16.448
2011-01-05,Office Supplies,288.06
2011-01-06,Office Supplies,19.536
2011-01-07,Furniture,2573.82
2011-01-07,Office Supplies,685.34


In [134]:
sales.index

DatetimeIndex(['2011-01-04', '2011-01-05', '2011-01-06', '2011-01-07',
               '2011-01-07', '2011-01-07', '2011-01-08', '2011-01-08',
               '2011-01-10', '2011-01-10',
               ...
               '2014-12-28', '2014-12-29', '2014-12-29', '2014-12-29',
               '2014-12-30', '2014-12-30', '2014-12-30', '2014-12-31',
               '2014-12-31', '2014-12-31'],
              dtype='datetime64[ns]', name='Order Date', length=2864, freq=None)

### Subsetting data

이제 DatetimeIndex를 사용하여 데이터 하위 집합을 선택할 수 있습니다.

In [135]:
sales.loc['2011'].head()

Unnamed: 0_level_0,Category,Sales
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2011-01-04,Office Supplies,16.448
2011-01-05,Office Supplies,288.06
2011-01-06,Office Supplies,19.536
2011-01-07,Furniture,2573.82
2011-01-07,Office Supplies,685.34


In [136]:
sales[sales['Category'] == 'Office Supplies']['2012-01':'2012-02'].head()

Unnamed: 0_level_0,Category,Sales
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2012-01-02,Office Supplies,139.08
2012-01-03,Office Supplies,17.424
2012-01-04,Office Supplies,72.24
2012-01-05,Office Supplies,233.688
2012-01-06,Office Supplies,31.538


### Datetime Components

Pandas Datetime 변수에는 여러 가지 유용한 구성 요소가 있습니다. DatetimeIndex를 사용하여 월, 연도, 요일, 분기 등과 같은 항목을 추출할 수 있습니다.

In [137]:
sales.index.day

Int64Index([ 4,  5,  6,  7,  7,  7,  8,  8, 10, 10,
            ...
            28, 29, 29, 29, 30, 30, 30, 31, 31, 31],
           dtype='int64', name='Order Date', length=2864)

In [138]:
sales.index.dayofweek   # Day of Week: Monday=0, Sunday=6

Int64Index([1, 2, 3, 4, 4, 4, 5, 5, 0, 0,
            ...
            6, 0, 0, 0, 1, 1, 1, 2, 2, 2],
           dtype='int64', name='Order Date', length=2864)

In [139]:
sales['DayofWeek'] = sales.index.dayofweek
sales.head()

Unnamed: 0_level_0,Category,Sales,DayofWeek
Order Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2011-01-04,Office Supplies,16.448,1
2011-01-05,Office Supplies,288.06,2
2011-01-06,Office Supplies,19.536,3
2011-01-07,Furniture,2573.82,4
2011-01-07,Office Supplies,685.34,4


## resample

- 시간 간격을 재조정   
- 원래의 데이터가 그룹으로 묶이기 때문에 그룹 연산을 해서 대표값을 구해야 한다.

In [140]:
ts = pd.Series(np.random.randn(100), 
               index=pd.date_range("2018-1-1", periods=100, freq="M"))
ts.head()

2018-01-31   -0.705730
2018-02-28   -0.180527
2018-03-31    0.324222
2018-04-30   -1.308140
2018-05-31    0.154501
Freq: M, dtype: float64

In [141]:
# 주단위로 down-sampling
ts.resample('W')

<pandas.core.resample.DatetimeIndexResampler object at 0x00000220911BF520>

In [142]:
ts.resample('W').mean()  # 주단위 평균

2018-02-04   -0.705730
2018-02-11         NaN
2018-02-18         NaN
2018-02-25         NaN
2018-03-04   -0.180527
                ...   
2026-04-05   -0.229930
2026-04-12         NaN
2026-04-19         NaN
2026-04-26         NaN
2026-05-03    0.156597
Freq: W-SUN, Length: 431, dtype: float64

In [143]:
ts.resample('M').mean() # 월 평균

2018-01-31   -0.705730
2018-02-28   -0.180527
2018-03-31    0.324222
2018-04-30   -1.308140
2018-05-31    0.154501
                ...   
2025-12-31   -1.818468
2026-01-31   -0.213314
2026-02-28   -1.639587
2026-03-31   -0.229930
2026-04-30    0.156597
Freq: M, Length: 100, dtype: float64