<a href="https://colab.research.google.com/github/johyunkang/MLwithPythonCookbook/blob/main/7_datetime.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Chapter 7

## 7.1 문자열을 날짜로 변환하기

In [1]:
import numpy as np
import pandas as pd

data_strings = np.array(['03-04-2005 11:35 PM',
                        '23-05-2010 12:01 AM',
                        '04-09-2009 09:09 PM'])

# timestamp 객체로 변경 
# errors='coerce': 문제 발생시 에러 나지 않지만, 에러 값을 NaT(Not a Time))으로 설정
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p', errors='ignore') 
for date in data_strings]

# format을 설정하지 않아도 대략적으로 예측하여 변환해 주지만
# 아래와 같이 2005-04-03 을 2005-03-04 로 잘 못 변환해줌
# print(pd.to_datetime(data_strings)줌

SyntaxError: ignored

[날짜포맷](https://strftime.org/) 참조



## 7.2 시간대 다루기 

In [8]:
import pandas as pd

print(pd.Timestamp('2023-01-19 14:40:00', tz='Asia/Seoul'))

# tz_localize 메서드를 이용해 datetime에 시간대 추가
date = pd.Timestamp('2023-01-18 14:10:30')
print(date)

# timezone 지정
date_seoul = date.tz_localize('Asia/Seoul')
print(date_seoul)

# timezone 변경
date_seoul.tz_convert('Africa/Abidjan')

# timezone check
from pytz import all_timezones

print('timezone check:', all_timezones[:5])

2023-01-19 14:40:00+09:00
2023-01-18 14:10:30
2023-01-18 14:10:30+09:00
timezone check: ['Africa/Abidjan', 'Africa/Accra', 'Africa/Addis_Ababa', 'Africa/Algiers', 'Africa/Asmara']


In [9]:
# Series 를 이용한 날짜 생성
dates = pd.Series(pd.date_range('2023-01-01', periods=3, freq='M'))
print('생성된 날짜:', dates)

print('timezone 지정 날짜:', dates.dt.tz_localize('Asia/Seoul'))

생성된 날짜: 0   2023-01-31
1   2023-02-28
2   2023-03-31
dtype: datetime64[ns]
timezone 지정 날짜: 0   2023-01-31 00:00:00+09:00
1   2023-02-28 00:00:00+09:00
2   2023-03-31 00:00:00+09:00
dtype: datetime64[ns, Asia/Seoul]


## 7.3 날짜와 시간 선택하기

In [10]:
import pandas as pd

df = pd.DataFrame()

# freq : M(달), D(일, default), H(시간), min(분), s(초)
df['date'] = pd.date_range('2023-01-01', periods=100_000, freq='H')
df.head()

# 두 datetime 사이의 샘플 선택
df[(df['date'] > '2023-01-01 01:00:00') &
   (df['date'] <= '2023-01-02 23:00:00')]

Unnamed: 0,date
2,2023-01-01 02:00:00
3,2023-01-01 03:00:00
4,2023-01-01 04:00:00
5,2023-01-01 05:00:00
6,2023-01-01 06:00:00
7,2023-01-01 07:00:00
8,2023-01-01 08:00:00
9,2023-01-01 09:00:00
10,2023-01-01 10:00:00
11,2023-01-01 11:00:00


In [11]:
df = df.set_index(df['date'])

df.head()

Unnamed: 0_level_0,date
date,Unnamed: 1_level_1
2023-01-01 00:00:00,2023-01-01 00:00:00
2023-01-01 01:00:00,2023-01-01 01:00:00
2023-01-01 02:00:00,2023-01-01 02:00:00
2023-01-01 03:00:00,2023-01-01 03:00:00
2023-01-01 04:00:00,2023-01-01 04:00:00


## 7.4 날짜 데이터를 여러 특성으로 나누기

`Series.dt`의 시간속성을 이용

In [12]:
import pandas as pd

df = pd.DataFrame()

df['date'] = pd.date_range(start='2022-01-01', end='2022-12-31')
df.head()

# year, month, day, hour, min, sec

df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day
df['hour'] = df.date.dt.hour
df['minute'] = df.date.dt.minute
df['sec'] = df.date.dt.second

df.head()

Unnamed: 0,date,year,month,day,hour,minute,sec
0,2022-01-01,2022,1,1,0,0,0
1,2022-01-02,2022,1,2,0,0,0
2,2022-01-03,2022,1,3,0,0,0
3,2022-01-04,2022,1,4,0,0,0
4,2022-01-05,2022,1,5,0,0,0


## 7.5 날짜 간의 차이를 계산하기

In [13]:
from pandas.core.arrays.datetimelike import frequencies
import pandas as pd

df = pd.DataFrame()

df['check-in'] = pd.date_range('2022-01-01', periods=10, freq='W-SAT')
display(df.head(11))

df['check-out'] = pd.date_range('2022-01-04', periods=10, freq='7D10h')
display(df.head(10))
# help(pd.date_range)

df['diff'] = (df['check-out'] - df['check-in'])
# print(diff.days)
df.head()
# dir(Timedelta)
# [dif.seconds for dif in (df['check-out'] - df['check-in'])]



Unnamed: 0,check-in
0,2022-01-01
1,2022-01-08
2,2022-01-15
3,2022-01-22
4,2022-01-29
5,2022-02-05
6,2022-02-12
7,2022-02-19
8,2022-02-26
9,2022-03-05


Unnamed: 0,check-in,check-out
0,2022-01-01,2022-01-04 00:00:00
1,2022-01-08,2022-01-11 10:00:00
2,2022-01-15,2022-01-18 20:00:00
3,2022-01-22,2022-01-26 06:00:00
4,2022-01-29,2022-02-02 16:00:00
5,2022-02-05,2022-02-10 02:00:00
6,2022-02-12,2022-02-17 12:00:00
7,2022-02-19,2022-02-24 22:00:00
8,2022-02-26,2022-03-04 08:00:00
9,2022-03-05,2022-03-11 18:00:00


Unnamed: 0,check-in,check-out,diff
0,2022-01-01,2022-01-04 00:00:00,3 days 00:00:00
1,2022-01-08,2022-01-11 10:00:00,3 days 10:00:00
2,2022-01-15,2022-01-18 20:00:00,3 days 20:00:00
3,2022-01-22,2022-01-26 06:00:00,4 days 06:00:00
4,2022-01-29,2022-02-02 16:00:00,4 days 16:00:00


## 7.6 요일을 인코딩 하기

In [14]:
import pandas as pd

dates = pd.Series(pd.date_range('2022-01-01', periods=3, freq='M'))
print(dates)
print('\n요일 확인')
print(dates.dt.day_name())
print(dates.dt.weekday)

0   2022-01-31
1   2022-02-28
2   2022-03-31
dtype: datetime64[ns]

요일 확인
0      Monday
1      Monday
2    Thursday
dtype: object
0    0
1    0
2    3
dtype: int64


## 7.7 시차 특성 만들

`shift` 사용

In [18]:
import pandas as pd

df = pd.DataFrame()

df['dates'] = pd.date_range('2022-01-01', periods=5, freq='D')
df['price'] = [1.1, 2.2, 3.3, 4.4, 5.5]

# 전일자 값 가져오기 
df['previous_day_stock_price'] = df['price'].shift(1)

df.head()

Unnamed: 0,dates,price,previous_day_stock_price
0,2022-01-01,1.1,
1,2022-01-02,2.2,1.1
2,2022-01-03,3.3,2.2
3,2022-01-04,4.4,3.3
4,2022-01-05,5.5,4.4


## 7.8 이동시간 윈도우 사용하기


시계열 데이터에서 일정 시간 간격으로 통계를 계산하고 싶습니다.

In [30]:
time_index = pd.date_range('2022-01-01', periods=5, freq='MS')
df = pd.DataFrame(index=time_index)
df['price'] = [1,2,3,4,5]
display(df)
df['roll_2_mean'] = df['price'].rolling(window=2).mean()
df['roll_3_sum'] = df['price'].rolling(window=3).sum()
df['roll_2_max'] = df['price'].rolling(window=2).max()
df['roll_3_corr'] = df['price'].rolling(window=2).corr()
display(df)

Unnamed: 0,price
2022-01-01,1
2022-02-01,2
2022-03-01,3
2022-04-01,4
2022-05-01,5


Unnamed: 0,price,roll_2_mean,roll_3_sum,roll_2_max,roll_3_corr
2022-01-01,1,,,,
2022-02-01,2,1.5,,2.0,1.0
2022-03-01,3,2.5,6.0,3.0,1.0
2022-04-01,4,3.5,9.0,4.0,1.0
2022-05-01,5,4.5,12.0,5.0,1.0


In [31]:
# ewm (exponential moving window)

df['ewm'] = df['price'].ewm(alpha=0.5).mean()
display(df)

Unnamed: 0,price,roll_2_mean,roll_3_sum,roll_2_max,roll_3_corr,ewm
2022-01-01,1,,,,,1.0
2022-02-01,2,1.5,,2.0,1.0,1.666667
2022-03-01,3,2.5,6.0,3.0,1.0,2.428571
2022-04-01,4,3.5,9.0,4.0,1.0,3.266667
2022-05-01,5,4.5,12.0,5.0,1.0,4.16129


[DataFrame.ewm](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.ewm.html) 관련 참조

![ewm](https://user-images.githubusercontent.com/291782/213632384-f57249e4-931a-4ebc-8ca5-cfd07a0be2f7.png)


## 7.9 시계열 데이터에서 누락된 값 다루기

[interpolate](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html) 의 `method`의 파라미터 종류들
- linear : 선형보간
- time : 주어진 간격의 길이를 보간하기 위해 매일 더 높은 해상도 데이터를 처리
- index, values : 인덱스의 실제 숫자값을 사용
- pad : 기존 값을 사용하여 NaN 채우
- 기타 몇가지 더 있음

In [37]:
import pandas as pd
import numpy as np

time_idx = pd.date_range('2022-01-01', periods=5, freq='M')
df = pd.DataFrame(index=time_idx)

# 누락된 값이 있는 피처 생성
df['sales'] = [1.0, 2.0, np.nan, np.nan, 5.0]
display(df)

print('\n\ninterpolate 를 이용한 보간')
df['sales_intp'] = df.interpolate(method='linear') # linear(default) | quadratic
# display(df)

print('\n\n누락된값 이전에 등장한 마지막값으로 대체')
df['ffill'] = df['sales'].ffill()
# display(df)

print('\n\n누락된값 이후에 등장한 마지막값으로 대체')
df['bfill'] = df['sales'].bfill()
# display(df)


print('\n\n누락된값이 비선형일 경우 quadratic 사용')
df['quadratic'] = df['sales'].interpolate(method='quadratic')
# display(df)

print('\n\n누락된값의 갯수 제한 및 방향 설정')
df['limt'] = df['sales'].interpolate(limit=1, limit_direction='forward') # forward | backward | both
display(df)



Unnamed: 0,sales
2022-01-31,1.0
2022-02-28,2.0
2022-03-31,
2022-04-30,
2022-05-31,5.0




interpolate 를 이용한 보간


누락된값 이전에 등장한 마지막값으로 대체


누락된값 이후에 등장한 마지막값으로 대체


누락된값이 비선형일 경우 quadratic 사용


누락된값의 갯수 제한 및 방향 설정


Unnamed: 0,sales,sales_intp,ffill,bfill,quadratic,limt
2022-01-31,1.0,1.0,1.0,1.0,1.0,1.0
2022-02-28,2.0,2.0,2.0,2.0,2.0,2.0
2022-03-31,,3.0,2.0,5.0,3.059808,3.0
2022-04-30,,4.0,2.0,5.0,4.038069,
2022-05-31,5.0,5.0,5.0,5.0,5.0,5.0
