# 날짜 데이터를 여러 특성으로 분할

## 날짜와 시간의 열로부터 년 월 일 시 분에 해당하는 특성을 만들기

In [1]:
import pandas as pd
import numpy as np

In [4]:
dataframe = pd.DataFrame()

# 5개의 날짜 만들기
dataframe['date'] = pd.date_range('1/1/2023', periods=10, freq='W')
print(dataframe)

        date
0 2023-01-01
1 2023-01-08
2 2023-01-15
3 2023-01-22
4 2023-01-29
5 2023-02-05
6 2023-02-12
7 2023-02-19
8 2023-02-26
9 2023-03-05


## 년 월 일 시 분에 대한 특성 만들기

In [5]:
dataframe['year'] = dataframe['date'].dt.year
dataframe['month'] = dataframe['date'].dt.month
dataframe['day'] = dataframe['date'].dt.day
dataframe['hour'] = dataframe['date'].dt.hour
dataframe['minute'] = dataframe['date'].dt.minute

print(dataframe)

        date  year  month  day  hour  minute
0 2023-01-01  2023      1    1     0       0
1 2023-01-08  2023      1    8     0       0
2 2023-01-15  2023      1   15     0       0
3 2023-01-22  2023      1   22     0       0
4 2023-01-29  2023      1   29     0       0
5 2023-02-05  2023      2    5     0       0
6 2023-02-12  2023      2   12     0       0
7 2023-02-19  2023      2   19     0       0
8 2023-02-26  2023      2   26     0       0
9 2023-03-05  2023      3    5     0       0


## 날짜 간의 차이 계산

### 판다스의 TimeDelta 데이터 타입을 사용하면 두 지점 사이의 시간 변화를 기록한 특성을 계산

In [4]:
date_frame = pd.DataFrame()

date_frame['Arrived'] = [pd.Timestamp('01-01-2023'), pd.Timestamp('01-04-2023')]
date_frame['Left'] = [pd.Timestamp('01-01-2023'), pd.Timestamp('01-06-2023')]

print(date_frame['Arrived'])
print(date_frame['Left'])

0   2023-01-01
1   2023-01-04
Name: Arrived, dtype: datetime64[ns]
0   2023-01-01
1   2023-01-06
Name: Left, dtype: datetime64[ns]


In [5]:
# 특성 사이의 차이를 계산
date_frame['Left'] - date_frame['Arrived']

# 특성 간의 기간을 계산
pd.Series(delta.days for delta in (date_frame['Left'] - date_frame['Arrived']))

0    0
1    2
dtype: int64

## 시차 특성

In [6]:
dateframe2 = pd.DataFrame()

# 날짜 생성
dateframe2['dates'] = pd.date_range("1/1/2023", periods=5, freq='D')
dateframe2['stock_price'] = [1.1, 2.2, 3.3, 4.4, 5.5]

# 한 행 뒤의 값을 가져오기
dateframe2["previous_days_stock_price"] = dateframe2["stock_price"].shift(1)
print(dateframe2)

       dates  stock_price  previous_days_stock_price
0 2023-01-01          1.1                        NaN
1 2023-01-02          2.2                        1.1
2 2023-01-03          3.3                        2.2
3 2023-01-04          4.4                        3.3
4 2023-01-05          5.5                        4.4


## 이동 시간 윈도 사용

In [7]:
time_index = pd.date_range("01/01/2023", periods=5, freq='M')

dateframe3 = pd.DataFrame(index=time_index)
dateframe3['Stock_Price'] = [1,2,3,4,5] # 특성을 생성
dateframe3.rolling(window=2).mean() # 이동 평균을 계산
dateframe3.ewm(alpha=0.5).mean()
print(dateframe3)

            Stock_Price
2023-01-31            1
2023-02-28            2
2023-03-31            3
2023-04-30            4
2023-05-31            5


## 시계열 데이터에서 누락된 값 처리

In [9]:
time_index2 = pd.date_range("01/01/2023", periods=5, freq="M")
dateframe4 = pd.DataFrame(index=time_index2)

print(dateframe4)

Empty DataFrame
Columns: []
Index: [2023-01-31 00:00:00, 2023-02-28 00:00:00, 2023-03-31 00:00:00, 2023-04-30 00:00:00, 2023-05-31 00:00:00]


In [10]:
dateframe4["Sales"] = [1.0, 2.0, np.nan, np.nan, 5.0] # 누락값이 있는 특성 생성

dateframe4.interpolate() # 누락된 값을 보간
dateframe4.ffill() # 앞쪽으로 채우기
dateframe4.bfill() # 뒤쪽으로 채우기
dateframe4.interpolate(method="quadratic") # 비선형의 경우 보간 방법
print(dateframe4.interpolate(limit=1, limit_direction="forward"))
print(dateframe4.interpolate(limit=1, limit_direction="backward"))

            Sales
2023-01-31    1.0
2023-02-28    2.0
2023-03-31    3.0
2023-04-30    NaN
2023-05-31    5.0
            Sales
2023-01-31    1.0
2023-02-28    2.0
2023-03-31    NaN
2023-04-30    4.0
2023-05-31    5.0
