### 날짜데이터를 여러 특성으로 분할

In [2]:
import pandas as pd
dataframe = pd.DataFrame()
dataframe['date'] = pd.date_range('1/1/2001', periods=150, freq='W') # 다섯 개의 날짜를 만듭니다.
# 년, 월, 일, 시, 분에 대한 특성을 만듭니다.
dataframe['year'] = dataframe['date'].dt.year
dataframe['month'] = dataframe['date'].dt.month
dataframe['day'] = dataframe['date'].dt.day
dataframe['hour'] = dataframe['date'].dt.hour
dataframe['minute'] = dataframe['date'].dt.minute
dataframe.head(3) # 세 개의 행을 확인

Unnamed: 0,date,year,month,day,hour,minute
0,2001-01-07,2001,1,7,0,0
1,2001-01-14,2001,1,14,0,0
2,2001-01-21,2001,1,21,0,0


### 날짜 간의 차이 계산

In [4]:
import pandas as pd

dataframe = pd.DataFrame()

dataframe['Arrived'] = [pd.Timestamp('01-01-2017'),pd.Timestamp('01-04-2017')]
dataframe['Left'] = [pd.Timestamp('01-01-2017'),pd.Timestamp('01-06-2017')]

dataframe['Left']- dataframe['Arrived']

pd.Series(delta.days for delta in (dataframe['Left']-dataframe['Arrived']))

0    0
1    2
dtype: int64

In [8]:
import pandas as pd
dates = pd.Series(pd.date_range("5/8/2020", periods=3, freq="M")) # 시리즈 객체
dates.dt.weekday_name # 요일을 확인

0     Sunday
1    Tuesday
2     Friday
dtype: object

In [7]:
dates.dt.weekday

0    3
1    6
2    1
dtype: int64

In [9]:
import pandas as pd
dataframe = pd.DataFrame()
# 날짜를 만듭니다.
dataframe["dates"] = pd.date_range("1/1/2001", periods=5, freq="D")
dataframe["stock_price"] = [1.1,2.2,3.3,4.4,5.5]
# 한 행 뒤의 값을 가져옵니다.
dataframe["previous_days_stock_price"] = dataframe["stock_price"].shift(1)
dataframe # 데이터프레임을 확인

Unnamed: 0,dates,stock_price,previous_days_stock_price
0,2001-01-01,1.1,
1,2001-01-02,2.2,1.1
2,2001-01-03,3.3,2.2
3,2001-01-04,4.4,3.3
4,2001-01-05,5.5,4.4


#### 이동 시간 윈도 사용

In [10]:
import pandas as pd
# datetime을 만듭니다.
time_index = pd.date_range("01/01/2010", periods=5, freq="M")
# 데이터프레임을 만들고 인덱스를 설정합니다.
dataframe = pd.DataFrame(index=time_index)
dataframe["Stock_Price"] = [1,2,3,4,5] # 특성을 만듭니다.
dataframe.rolling(window=2).mean() # 이동 평균을 계산
dataframe.ewm(alpha=0.5).mean()

Unnamed: 0,Stock_Price
2010-01-31,1.0
2010-02-28,1.666667
2010-03-31,2.428571
2010-04-30,3.266667
2010-05-31,4.16129


#### 시계열 데이터에서 누락된 값 처리

In [12]:
import pandas as pd
import numpy as np
time_index = pd.date_range("01/01/2010", periods=5, freq="M")
dataframe = pd.DataFrame(index=time_index) # 데이터프레임을 만들고 인덱스를 지정
dataframe["Sales"] = [1.0,2.0,np.nan,np.nan,5.0] # 누락된 값이 있는 특성을 만듦
dataframe.interpolate() # 누락된 값을 보간

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,4.0
2010-05-31,5.0


In [13]:
dataframe.ffill() # 앞쪽으로 채우기(Forward-fill)


Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,2.0
2010-04-30,2.0
2010-05-31,5.0


In [14]:
dataframe.bfill() # 뒤쪽으로 채우기(Back-fill)


Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,5.0
2010-04-30,5.0
2010-05-31,5.0


In [15]:
dataframe.interpolate(method="quadratic") # 비선형의 경우 보간 방법 변경

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.059808
2010-04-30,4.038069
2010-05-31,5.0


In [16]:
dataframe.interpolate(limit=1, limit_direction="forward") #보간 방향 지정

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,
2010-05-31,5.0
