## 날짜 데이터를 여러 특성으로 분할
- 날짜와 시간의 열로부터 년 월 일 시 분에 해당하는 특성을 만들기 

In [1]:
import pandas as pd
import numpy as np

In [2]:
dateframe = pd.DataFrame()

# 5개의 날짜 만들기 
dateframe['date'] = pd.date_range('1/1/2023', periods=10, freq='M')
print(dateframe)

        date
0 2023-01-31
1 2023-02-28
2 2023-03-31
3 2023-04-30
4 2023-05-31
5 2023-06-30
6 2023-07-31
7 2023-08-31
8 2023-09-30
9 2023-10-31


### 년 월 일 시 분에 대한 특성 만들기

In [3]:
dateframe['year'] = dateframe['date'].dt.year
dateframe['month'] = dateframe['date'].dt.month
dateframe['day'] = dateframe['date'].dt.day
dateframe['hour'] = dateframe['date'].dt.hour
dateframe['minute'] = dateframe['date'].dt.minute
print(dateframe)

        date  year  month  day  hour  minute
0 2023-01-31  2023      1   31     0       0
1 2023-02-28  2023      2   28     0       0
2 2023-03-31  2023      3   31     0       0
3 2023-04-30  2023      4   30     0       0
4 2023-05-31  2023      5   31     0       0
5 2023-06-30  2023      6   30     0       0
6 2023-07-31  2023      7   31     0       0
7 2023-08-31  2023      8   31     0       0
8 2023-09-30  2023      9   30     0       0
9 2023-10-31  2023     10   31     0       0


### 날짜 간의 차이 계산
- 판다스의 Timestamp 데이터 타입을 사용하면 두 지점 사이의 시간 변화를 기록한 특성을 계산

In [4]:
date_frame = pd.DataFrame()
date_frame['Arrived'] = [pd.Timestamp('01-01-2023'), pd.Timestamp('01-04-2023')]
date_frame['Left'] = [pd.Timestamp('01-01-2023'), pd.Timestamp('01-06-2023')]
print(date_frame)

     Arrived       Left
0 2023-01-01 2023-01-01
1 2023-01-04 2023-01-06


In [5]:
# 특성 사이의 차이를 계산
date_frame['Left'] - date_frame['Arrived']
pd.Series(delta.days for delta in (date_frame['Left'] - date_frame['Arrived']))

0    0
1    2
dtype: int64

### 시차 특성
- 판다스의 Shift를 사용하여 n기간만큼 차이가 나는 시차 특성을 만들기

In [6]:
date_frame_temp = pd.DataFrame()

# 날짜 데이터 생성
date_frame_temp['dates'] = pd.date_range('1/1/2023', periods=5, freq='D')
date_frame_temp['stock_price'] = [1.1, 2.2, 3.3, 4.4, 5.5]
date_frame_temp['previous_days_stock_price'] = date_frame_temp['stock_price'].shift(3)
print(date_frame_temp)

       dates  stock_price  previous_days_stock_price
0 2023-01-01          1.1                        NaN
1 2023-01-02          2.2                        NaN
2 2023-01-03          3.3                        NaN
3 2023-01-04          4.4                        1.1
4 2023-01-05          5.5                        2.2


### 이동 시간 윈도 사용

In [7]:
time_index = pd.date_range('01/01/2023', periods=5, freq='M')
date_frame01 = pd.DataFrame(index=time_index)
date_frame01['Stock_price'] = [1,2,3,4,5]
print(date_frame01)

            Stock_price
2023-01-31            1
2023-02-28            2
2023-03-31            3
2023-04-30            4
2023-05-31            5


In [8]:
# 이동 평균 계산
date_frame01.rolling(window=4).mean()
date_frame01.ewm(alpha=0.5).mean()
print(date_frame01)

            Stock_price
2023-01-31            1
2023-02-28            2
2023-03-31            3
2023-04-30            4
2023-05-31            5


### 시계열 데이터에서 누락된 값 처리

In [9]:
time_index = pd.date_range('01/01/2023', periods=5, freq='M')
date_frame02 = pd.DataFrame(index=time_index)
print(date_frame02)

Empty DataFrame
Columns: []
Index: [2023-01-31 00:00:00, 2023-02-28 00:00:00, 2023-03-31 00:00:00, 2023-04-30 00:00:00, 2023-05-31 00:00:00]


In [10]:
date_frame02['Sales'] = [1.0, 2.0, np.nan, np.nan, 8.0] # 누락값 있는 특성 생성
date_frame02.interpolate() # 누락된 값 보간 
date_frame02.ffill() # 압쪽으로 채우기
date_frame02.bfill() # 뒤쪽으로 채우기
date_frame02.interpolate(method='quadratic') # 비선형의 경우 보간 방법
print(date_frame02.interpolate(limit=1, limit_direction='forward'))
print(date_frame02.interpolate(limit=1, limit_direction='backward'))

            Sales
2023-01-31    1.0
2023-02-28    2.0
2023-03-31    4.0
2023-04-30    NaN
2023-05-31    8.0
            Sales
2023-01-31    1.0
2023-02-28    2.0
2023-03-31    NaN
2023-04-30    6.0
2023-05-31    8.0
