## 문자열을 날짜로 변환하기
#### 날짜와 시간을 나타내는 문자열 벡터를 시계열 데이터로 변환

In [1]:
import numpy as np
import pandas as pd

In [2]:
# 문자열 생성

date_strings=np.array(['03-04-2005 11:35 PM',
                      '23-05-2010 12:01 AM',
                      '04-09-2009 09:09 PM'])

In [3]:
# Timestamp 객체로 변경

[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p') for date in date_strings]

[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

In [5]:
'''
오류 처리를 위해 errors 매개변수도 추가할 수 있다
'''
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p', errors='ignore') for date in date_strings]

[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

errors 매개변수의 기본값은 'raise'로 날짜 포맷에 문제가 있을 때 예외를 발생시킨다.

'ignore'는 예외를 발생시키거나 NaT(누락된 값)을 반환하는 대신 원본 무낮열을 그대로 반환한다.

'coerce'는 문제가 발생해도 예외를 일으키지 않지만 대신 에러가 난 값을 NaT(누락된 값)으로 설정한다.

#### 많이 사용하는 날짜와 시간 포맷 코드

- %Y  - 전체연도                        ex) 2001
- %m  - 0으로 시작하는 월               ex) 04
- %d  - 0으로 시작하는 일               ex) 09
- %I  - 0으로 시작하는 시간(12시간제)   ex) 02
- %M  - 0으로 시작하는 분               ex) 05
- %S  - 0으로 시작하는 초               ex) 09
- %p  - AM 또는 PM                      ex) AM

In [6]:
'''
리스트 컴프리헨션을 사용하지 않아도 pd.to_datetime의 인자로 전달해서 사용할 수 있고,
format을 지정하지 않을 시, 가능한 날짜 포맷을 추측하여 변환해 준다.
'''

pd.to_datetime(date_strings)

DatetimeIndex(['2005-03-04 23:35:00', '2010-05-23 00:01:00',
               '2009-04-09 21:09:00'],
              dtype='datetime64[ns]', freq=None)

## 시간대 다루기
#### 시계열 데이터에서 시간대(time zone) 정보를 추가하거나 바꾸기

In [9]:
# datetime 생성

pd.Timestamp('2017-05-01 06:00:00', tz='Europe/London')

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

In [10]:
# tz_localize 를 사용해 timezone 추가

date=pd.Timestamp('2020-10-03 06:41:11')

In [12]:
date_in_london=date.tz_localize('Europe/London')

In [13]:
date_in_london

Timestamp('2020-10-03 06:41:11+0100', tz='Europe/London')

In [15]:
'''
다른 시간대로 변환도 가능하다
'''

date_in_london.tz_convert('Asia/Seoul')

Timestamp('2020-10-03 14:41:11+0900', tz='Asia/Seoul')

In [16]:
'''
판다스의 Series 객체는 모든 원소에 tz_localize 와 tz_convert 를 적용한다
'''

dates=pd.Series(pd.date_range('2/2/2002', periods=3, freq='M'))

In [17]:
dates.dt.tz_localize('Africa/Abidjan')

0   2002-02-28 00:00:00+00:00
1   2002-03-31 00:00:00+00:00
2   2002-04-30 00:00:00+00:00
dtype: datetime64[ns, Africa/Abidjan]

In [18]:
'''
all_timezones 을 임포트하여 전체 시간대 문자열을 확인할 수 있다
'''

from pytz import all_timezones

all_timezones[0:2]

['Africa/Abidjan', 'Africa/Accra']

In [19]:
'''
dateutil/ 로 시작하여 dateutil 문자열을 사용할 수 있다
'''

dates.dt.tz_localize('dateutil/Asia/Seoul')

0   2002-02-28 00:00:00+09:00
1   2002-03-31 00:00:00+09:00
2   2002-04-30 00:00:00+09:00
dtype: datetime64[ns, tzfile('ROK')]

In [20]:
'''
pytz 객체를 직접 전달할 수도 있다
'''

import pytz

tz=pytz.timezone('Asia/Seoul')

dates.dt.tz_localize(tz)

0   2002-02-28 00:00:00+09:00
1   2002-03-31 00:00:00+09:00
2   2002-04-30 00:00:00+09:00
dtype: datetime64[ns, Asia/Seoul]

## 날짜와 시간 선택하기
#### 날짜 벡터에서 하나 이상의 원소 선택하기

In [21]:
import pandas as pd

dataframe=pd.DataFrame()

In [22]:
dataframe['date']=pd.date_range('1/1/2001', periods=100000, freq='H')

In [23]:
dataframe[(dataframe['date']>'2002-1-1 01:00:00') & (dataframe['date']<='2002-1-1 04:00:00')]

Unnamed: 0,date
8762,2002-01-01 02:00:00
8763,2002-01-01 03:00:00
8764,2002-01-01 04:00:00


In [25]:
# 날짜 열을 데이터프레임의 인덱스로 지정하고, loc를 사용해 슬라이싱 할 수도 있다.

dataframe=dataframe.set_index(dataframe['date'])

In [27]:
dataframe.loc['2002-1-1 01:00:00':'2002-1-1 04:00:00']

Unnamed: 0_level_0,date
date,Unnamed: 1_level_1
2002-01-01 01:00:00,2002-01-01 01:00:00
2002-01-01 02:00:00,2002-01-01 02:00:00
2002-01-01 03:00:00,2002-01-01 03:00:00
2002-01-01 04:00:00,2002-01-01 04:00:00


## 날짜 데이터를 여러 특성으로 나누기
#### 날짜와 시간의 열을 가지고 년,월,일,시,분에 해당하는 특성 만들기

In [28]:
dataframe=pd.DataFrame()

In [30]:
dataframe['date']=pd.date_range('1/1/2001', periods=150, freq='W')

In [31]:
dataframe['year']=dataframe['date'].dt.year
dataframe['month']=dataframe['date'].dt.month
dataframe['day']=dataframe['date'].dt.day
dataframe['hour']=dataframe['date'].dt.hour
dataframe['minute']=dataframe['date'].dt.minute

In [32]:
dataframe.head(3)

Unnamed: 0,date,year,month,day,hour,minute
0,2001-01-07,2001,1,7,0,0
1,2001-01-14,2001,1,14,0,0
2,2001-01-21,2001,1,21,0,0


## 날짜 간의 차이 계산하기

In [33]:
import pandas as pd

dataframe=pd.DataFrame()

In [34]:
dataframe['Arrived']=[pd.Timestamp('01-01-2017'),pd.Timestamp('01-04-2017')]
dataframe['Left']=[pd.Timestamp('01-01-2017'),pd.Timestamp('01-06-2017')]

In [35]:
dataframe

Unnamed: 0,Arrived,Left
0,2017-01-01,2017-01-01
1,2017-01-04,2017-01-06


In [36]:
dataframe['Left']-dataframe['Arrived']

0   0 days
1   2 days
dtype: timedelta64[ns]

In [38]:
'''
days 출력을 삭제하고 수치값만 남기고 싶을 때
'''

pd.Series(delta.days for delta in (dataframe['Left']-dataframe['Arrived']))

# 판다스의 TimeDelta 데이터 타입을 사용하여 계산 가능

0    0
1    2
dtype: int64

## 요일 인코딩하기

In [39]:
import pandas as pd

dates=pd.Series(pd.date_range('2/2/2002', periods=3, freq='M'))

In [49]:
dates

0   2002-02-28
1   2002-03-31
2   2002-04-30
dtype: datetime64[ns]

In [47]:
dates.dt.weekday

0    3
1    6
2    1
dtype: int64

In [48]:
# 요일 이름 출력

day_name=['월','화','수','목','금','토','일']

for i in dates.dt.weekday :
    print(day_name[i])

목
일
화


## 시차 특성 만들기

In [50]:
import pandas as pd

dataframe=pd.DataFrame()

In [51]:
dataframe['dates']=pd.date_range('1/1/2001', periods=5, freq='D')
dataframe['stock_price']=[1.1, 2.2, 3.3, 4.4, 5.5]

In [52]:
dataframe

Unnamed: 0,dates,stock_price
0,2001-01-01,1.1
1,2001-01-02,2.2
2,2001-01-03,3.3
3,2001-01-04,4.4
4,2001-01-05,5.5


In [53]:
dataframe['previous_days_stock_price']=dataframe['stock_price'].shift(1)

In [55]:
dataframe

Unnamed: 0,dates,stock_price,previous_days_stock_price
0,2001-01-01,1.1,
1,2001-01-02,2.2,1.1
2,2001-01-03,3.3,2.2
3,2001-01-04,4.4,3.3
4,2001-01-05,5.5,4.4


## 이동 시간 윈도우 사용하기

In [56]:
import pandas as pd

time_index=pd.date_range('01/01/2010', periods=5, freq='M')

In [57]:
dataframe=pd.DataFrame(index=time_index)

In [59]:
dataframe['Stock_Price']=[1,2,3,4,5]

In [60]:
dataframe

Unnamed: 0,Stock_Price
2010-01-31,1
2010-02-28,2
2010-03-31,3
2010-04-30,4
2010-05-31,5


In [61]:
# 이동 평균 계산

dataframe.rolling(window=2).mean()

Unnamed: 0,Stock_Price
2010-01-31,
2010-02-28,1.5
2010-03-31,2.5
2010-04-30,3.5
2010-05-31,4.5


In [62]:
# 지수평활법

dataframe.ewm(alpha=0.5).mean()

Unnamed: 0,Stock_Price
2010-01-31,1.0
2010-02-28,1.666667
2010-03-31,2.428571
2010-04-30,3.266667
2010-05-31,4.16129


판다스의 rolling 메소드는 window 매개변수에서 윈도우의 크기를 지정할 수 있다.

max(), mean(), count(), corr() 같은 통계를 간편하게 계산할 수 있다.

## 시계열 데이터에서 누락된 값 다루기

In [63]:
import pandas as pd
import numpy as np

In [64]:
time_index=pd.date_range('01/01/2020', periods=5, freq='M')

In [65]:
dataframe=pd.DataFrame(index=time_index)

In [66]:
# 누락된 값이 있는 특성 생성

dataframe['Sales']=[1.0, 2.0 , np.nan, np.nan, 5.0]

In [67]:
dataframe

Unnamed: 0,Sales
2020-01-31,1.0
2020-02-29,2.0
2020-03-31,
2020-04-30,
2020-05-31,5.0


In [68]:
# 누락된 값 채우기

dataframe.interpolate()

Unnamed: 0,Sales
2020-01-31,1.0
2020-02-29,2.0
2020-03-31,3.0
2020-04-30,4.0
2020-05-31,5.0


In [69]:
# 누락된 값을 이전에 등장한 마지막 값으로 대체

dataframe.ffill()

Unnamed: 0,Sales
2020-01-31,1.0
2020-02-29,2.0
2020-03-31,2.0
2020-04-30,2.0
2020-05-31,5.0


In [70]:
# 누락된 값을 그 이후에 등장한 최초의 값으로 대체

dataframe.bfill()

Unnamed: 0,Sales
2020-01-31,1.0
2020-02-29,2.0
2020-03-31,5.0
2020-04-30,5.0
2020-05-31,5.0


In [71]:
'''
결측값이 나타나는 모양새가 비선형이라고 가정하면 interpolate의 method 매개변수를 사용해 다른 방법을 지정할 수 있다
'''

dataframe.interpolate(method='quadratic')

Unnamed: 0,Sales
2020-01-31,1.0
2020-02-29,2.0
2020-03-31,3.040158
2020-04-30,4.018418
2020-05-31,5.0


In [72]:
'''
누락된 값의 간격이 클때는, 전체를 보간하는 것은 좋지 않다.
이런 경우에 limit  매개변수를 통해, 보간 값의 개수를 지정하고,
limit_direction 매개변수에 마지막 데이터로 앞쪽 방향으로 보간할지 그 반대로 할지 지정할 수 있다
'''

dataframe.interpolate(limit=1, limit_direction='forward')

Unnamed: 0,Sales
2020-01-31,1.0
2020-02-29,2.0
2020-03-31,3.0
2020-04-30,
2020-05-31,5.0
