# Lab 01. 날짜 데이터를 여러 특성으로 분할 
---

- 날짜와 시간의 열로부터 년/월/일/시/분에 해당하는 특성을 만들어보자.

In [1]:
import pandas as pd 

In [2]:
dateframe = pd.DataFrame()

# 5개의 날짜 만들기 
dateframe['date'] = pd.date_range('1/1/2023', periods=10, freq='W')

print(dateframe)

        date
0 2023-01-01
1 2023-01-08
2 2023-01-15
3 2023-01-22
4 2023-01-29
5 2023-02-05
6 2023-02-12
7 2023-02-19
8 2023-02-26
9 2023-03-05


## 년/월/일/시/분에 대한 특성 만들기

In [3]:
dateframe['year'] = dateframe['date'].dt.year
dateframe['month'] = dateframe['date'].dt.month
dateframe['day'] = dateframe['date'].dt.day
dateframe['hour'] = dateframe['date'].dt.hour
dateframe['minute'] = dateframe['date'].dt.minute

print(dateframe)

        date  year  month  day  hour  minute
0 2023-01-01  2023      1    1     0       0
1 2023-01-08  2023      1    8     0       0
2 2023-01-15  2023      1   15     0       0
3 2023-01-22  2023      1   22     0       0
4 2023-01-29  2023      1   29     0       0
5 2023-02-05  2023      2    5     0       0
6 2023-02-12  2023      2   12     0       0
7 2023-02-19  2023      2   19     0       0
8 2023-02-26  2023      2   26     0       0
9 2023-03-05  2023      3    5     0       0


## 날짜 간의 차이 계산하기

- 판다스의 `TimeDelta` 데이터 타입을 사용하면, 두 지점 사이의 시간 변화를 기록한 특성을 계산할 수 있다.

In [4]:
date_frame = pd.DataFrame()

date_frame['Arrived'] = [pd.Timestamp('01-01-2023'), pd.Timestamp('01-04-2023')]
date_frame['Left'] = [pd.Timestamp('01-01-2023'), pd.Timestamp('01-06-2023')]

print(date_frame['Arrived'])
print(date_frame['Left'])

0   2023-01-01
1   2023-01-04
Name: Arrived, dtype: datetime64[ns]
0   2023-01-01
1   2023-01-06
Name: Left, dtype: datetime64[ns]


In [5]:
# 특성 사이의 차이를 계산 
date_frame['Left'] - date_frame['Arrived']

pd.Series(delta.days for delta in (date_frame['Left'] - date_frame['Arrived']))

0    0
1    2
dtype: int64

## 시차 특성 

- 판다스의 `Shift`를 사용하여 `n`기간 만큼 차이가 나는 시차 특성을 만들어보자. 

In [6]:
date_frame_temp = pd.DataFrame()

# 날짜 데이터 생성
date_frame_temp['dates'] = pd.date_range('1/1/2023', periods=5, freq='D')
date_frame_temp['stock_price'] = [1.1, 2.2, 3.3, 4.4, 5.5]

date_frame_temp['previous_days_stock_price'] = date_frame_temp['stock_price'].shift(3)

print(date_frame_temp)

       dates  stock_price  previous_days_stock_price
0 2023-01-01          1.1                        NaN
1 2023-01-02          2.2                        NaN
2 2023-01-03          3.3                        NaN
3 2023-01-04          4.4                        1.1
4 2023-01-05          5.5                        2.2


## 이동 시간 윈도우 사용하기

In [7]:
time_index = pd.date_range('01/01/2023', periods=5, freq='M')

date_frame01 = pd.DataFrame(index = time_index)
date_frame01['Stock_price'] = [1, 2, 3, 4, 5] 

print(date_frame01)

            Stock_price
2023-01-31            1
2023-02-28            2
2023-03-31            3
2023-04-30            4
2023-05-31            5


In [8]:
# 이동 평균 게산 
date_frame01.rolling(window=4).mean()
date_frame01.ewm(alpha=1).mean()
# alpha must satisfy: 0 < alpha <= 1

print(date_frame01)

            Stock_price
2023-01-31            1
2023-02-28            2
2023-03-31            3
2023-04-30            4
2023-05-31            5


## 시계열 데이터에서 누락된 값 처리하기

In [9]:
import numpy as np 

In [10]:
time_index = pd.date_range('01/01/2023', periods=5, freq='M')
date_frame02 = pd.DataFrame(index=time_index)

print(date_frame02)

Empty DataFrame
Columns: []
Index: [2023-01-31 00:00:00, 2023-02-28 00:00:00, 2023-03-31 00:00:00, 2023-04-30 00:00:00, 2023-05-31 00:00:00]


In [11]:
date_frame02['Sales'] = [1.0, 2.0, np.nan, np.nan, 8.0]    # 누락값 있는 특성 생성

date_frame02.interpolate()    # 누락된 값 보간 
date_frame02.ffill()    # 앞쪽으로 채우기 
date_frame02.bfill()    # 뒤쪽으로 채우기 
date_frame02.interpolate(method='quadratic')    # 비선형의 경우의 보간 방법 
# print(date_frame02.interpolate(limit=2, limit_direction='forward'))

print(date_frame02.interpolate(limit=1, limit_direction='backward'))

            Sales
2023-01-31    1.0
2023-02-28    2.0
2023-03-31    NaN
2023-04-30    6.0
2023-05-31    8.0
