# 7.1 문자열을 날짜로 변환하기

In [1]:
import numpy as np
import pandas as pd

In [2]:
date_strings = np.array(['03-04-2005 11:35 PM',
                         '23-05-2010 12:01 AM',
                         '04-09-2009 09:09 PM'])

In [3]:
# TIimestamp 객체로 바꾼다.
[pd.to_datetime(date, format = '%d-%m-%Y %I:%M %p') for date in date_strings]

[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

오류 처리를 위해 errors 매개변수를 추가할 수도 있다.

In [4]:
# datetime으로 바꾼다.
[pd.to_datetime(date, format = '%d-%m-%Y %I:%M %p', errors = 'ignore') for date in date_strings]

[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

errors = "coerce"는 문제가 발생해도 에러를 일으키지 않지만 대신 에러가 난 값을 NaT(즉 누락된 값)으로 설정한다.

In [15]:
pd.DataFrame({'코드': ['%Y', '%m', '%d', '%I', '%p', '%M', '%S'],
              '설명': ['전체연도', '0으로 시작하는 월', '0으로 시작하는 일', '0으로 시작하는 시간(12시간제)', 'AM 또는 PM',
                       '0으로 시작하는 분', '0으로 시작하는 초'],
              '예': ['2001', '04', '09','02', 'AM', '05', '09' ]})

Unnamed: 0,코드,설명,예
0,%Y,전체연도,2001
1,%m,0으로 시작하는 월,04
2,%d,0으로 시작하는 일,09
3,%I,0으로 시작하는 시간(12시간제),02
4,%p,AM 또는 PM,AM
5,%M,0으로 시작하는 분,05
6,%S,0으로 시작하는 초,09


In [16]:
pd.to_datetime(date_strings)

DatetimeIndex(['2005-03-04 23:35:00', '2010-05-23 00:01:00',
               '2009-04-09 21:09:00'],
              dtype='datetime64[ns]', freq=None)

# 7.2 시간대 다루기

In [17]:
import pandas as pd

In [18]:
pd.Timestamp('2017-05-01 06:00:00', tz = 'Europe/London')

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

tz_localize 메서드를 사용해 이전에 만든 datetime에 시간대를 추가할 수 있다.

In [19]:
date = pd.Timestamp('2017-05-01 06:00:00')

In [20]:
# 시간대 지정
date_in_london = date.tz_localize('Europe/London')

In [21]:
# 시간대 변환
date_in_london.tz_convert('Africa/Abidjan')

Timestamp('2017-05-01 05:00:00+0000', tz='Africa/Abidjan')

In [22]:
# 세 개의 날짜를 만든다.
dates = pd.Series(pd.date_range('2/2/2002', periods = 3, freq = 'M'))

In [24]:
dates.dt.tz_localize('Africa/Abidjan')

0   2002-02-28 00:00:00+00:00
1   2002-03-31 00:00:00+00:00
2   2002-04-30 00:00:00+00:00
dtype: datetime64[ns, Africa/Abidjan]

pytz 라이브러리의 문자열을 사용하는 것이 좋다.\
all_timezones을 임포트하여 전체 시간대 문자열을 확인할 수 있다.

In [25]:
from pytz import all_timezones

In [26]:
# 두 개의 시간대를 확인한다.
all_timezones[0:2]

['Africa/Abidjan', 'Africa/Accra']

'dateutil/'로 시작하여 dateutil 문자열을 사용할 수 있다.

In [27]:
dates.dt.tz_localize('dateutil/Aisa/Seoul')

0   2002-02-28
1   2002-03-31
2   2002-04-30
dtype: datetime64[ns]

In [28]:
import pytz

tz = pytz.timezone('Asia/Seoul')
dates.dt.tz_localize(tz)

0   2002-02-28 00:00:00+09:00
1   2002-03-31 00:00:00+09:00
2   2002-04-30 00:00:00+09:00
dtype: datetime64[ns, Asia/Seoul]

# 7.3 날짜와 시간 선택하기

In [29]:
import pandas as pd

In [30]:
dataframe = pd.DataFrame()

In [32]:
dataframe['date'] = pd.date_range('1/1/2001', periods = 100000, freq = 'H')

In [34]:
dataframe[(dataframe['date'] > '2002-1-1 01:00:00') & (dataframe['date'] <= '2002-1-1 04:00:00')]

Unnamed: 0,date
8762,2002-01-01 02:00:00
8763,2002-01-01 03:00:00
8764,2002-01-01 04:00:00


In [35]:
# 인덱스 설정하기
dataframe = dataframe.set_index(dataframe['date'])
dataframe.head()

Unnamed: 0_level_0,date
date,Unnamed: 1_level_1
2001-01-01 00:00:00,2001-01-01 00:00:00
2001-01-01 01:00:00,2001-01-01 01:00:00
2001-01-01 02:00:00,2001-01-01 02:00:00
2001-01-01 03:00:00,2001-01-01 03:00:00
2001-01-01 04:00:00,2001-01-01 04:00:00


In [36]:
# 두 datetime 사이 샘플을 선택한다.
dataframe.loc['2002-1-1 01:00:00':'2002-1-1 04:00:00']

Unnamed: 0_level_0,date
date,Unnamed: 1_level_1
2002-01-01 01:00:00,2002-01-01 01:00:00
2002-01-01 02:00:00,2002-01-01 02:00:00
2002-01-01 03:00:00,2002-01-01 03:00:00
2002-01-01 04:00:00,2002-01-01 04:00:00


# 7.4 날짜 데이터를 여러 특성으로 나누기

In [1]:
import pandas as pd

In [2]:
dataframe = pd.DataFrame()

In [4]:
# 150개 날짜 만들기
dataframe['date'] = pd.date_range('1/1/2001', periods = 150, freq = 'w')

In [6]:
# 년, 월, 일, 시, 분에 대한 특성을 만든다.

dataframe['year'] = dataframe['date'].dt.year
dataframe['month'] = dataframe['date'].dt.month
dataframe['day'] = dataframe['date'].dt.day
dataframe['hour'] = dataframe['date'].dt.hour
dataframe['minute'] = dataframe['date'].dt.minute

In [8]:
dataframe.head()

Unnamed: 0,date,year,month,day,hour,minute
0,2001-01-07,2001,1,7,0,0
1,2001-01-14,2001,1,14,0,0
2,2001-01-21,2001,1,21,0,0
3,2001-01-28,2001,1,28,0,0
4,2001-02-04,2001,2,4,0,0


# 7.5 날짜 간의 차이를 계산하기

In [9]:
import pandas as pd

In [10]:
dataframe = pd.DataFrame()

In [11]:
dataframe['Arrived'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]
dataframe['Left'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-06-2017')]

In [12]:
dataframe

Unnamed: 0,Arrived,Left
0,2017-01-01,2017-01-01
1,2017-01-04,2017-01-06


In [13]:
#  특성 사이의 차이를 계산한다.

dataframe['Left'] - dataframe['Arrived']

0   0 days
1   2 days
dtype: timedelta64[ns]

In [15]:
# days 출력을 삭제하고 수치값만 남기고 싶을 때

pd.Series(delta.days for delta in (dataframe['Left'] - dataframe['Arrived']))

0    0
1    2
dtype: int64

체크인 및 체크아웃을 확인하고 싶을 때 이를 사용하여 쉽게 알 수 있다.

# 7.6 요일을 인코딩하기

In [16]:
import pandas as pd

In [19]:
dates = pd.Series(pd.date_range('2/2/2020', periods = 3, freq = 'M'))

In [22]:
dates

0   2020-02-29
1   2020-03-31
2   2020-04-30
dtype: datetime64[ns]

In [21]:
# 요일 확인하기
dates.dt.day_name()

0    Saturday
1     Tuesday
2    Thursday
dtype: object

In [23]:
# weekday를 사용하여 요일을 정수로 나타내기 (월요일이 0이다.)

dates.dt.weekday

0    5
1    1
2    3
dtype: int64

# 7.7 시차 특성 만들기

In [24]:
import pandas as pd

In [25]:
dataframe = pd.DataFrame()

In [26]:
# 날짜 만들기

dataframe['dates'] = pd.date_range('1/1/2001', periods = 5, freq = 'D')
dataframe['stock_price'] = [1.1, 2.2, 3.3, 4.4, 5.5]

In [27]:
# 한 행 뒤의 값을 가져온다.

dataframe['previous_days_stock_price'] = dataframe['stock_price'].shift(1)

In [28]:
dataframe

Unnamed: 0,dates,stock_price,previous_days_stock_price
0,2001-01-01,1.1,
1,2001-01-02,2.2,1.1
2,2001-01-03,3.3,2.2
3,2001-01-04,4.4,3.3
4,2001-01-05,5.5,4.4


# 7.8 이동 시간 윈도 사용하기

In [29]:
import pandas as pd

In [31]:
time_index = pd.date_range('01/01/2010', periods = 5, freq = 'M')

In [32]:
dataframe = pd.DataFrame(index = time_index)

In [37]:
dataframe['stock_price'] = [1, 2, 3, 4, 5]

In [38]:
dataframe

Unnamed: 0,stock_price
2010-01-31,1
2010-02-28,2
2010-03-31,3
2010-04-30,4
2010-05-31,5


In [36]:
# 이동 평균 계산하기

dataframe.rolling(window = 2).mean()

Unnamed: 0,stock_price
2010-01-31,
2010-02-28,1.5
2010-03-31,2.5
2010-04-30,3.5
2010-05-31,4.5


# 7.9 시계열 데이터에서 누락된 값 다루기

In [39]:
import numpy as np
import pandas as pd

In [40]:
time_index = pd.date_range('01/01/2010', periods = 5, freq = 'M')

In [41]:
dataframe = pd.DataFrame(index = time_index)

In [42]:
dataframe

2010-01-31
2010-02-28
2010-03-31
2010-04-30
2010-05-31


In [43]:
# 누락된 값이 있는 특성 만들기

dataframe['Sales'] = [1.0, 2.0, np.nan, np.nan, 5.0]

In [44]:
dataframe

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,
2010-04-30,
2010-05-31,5.0


In [45]:
# 누락된 값 보간하기

dataframe.interpolate()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,4.0
2010-05-31,5.0


In [46]:
# 앞쪽으로 채우기(forward-fill)

dataframe.ffill()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,2.0
2010-04-30,2.0
2010-05-31,5.0


In [47]:
# 뒤쪽으로 채우기

dataframe.bfill()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,5.0
2010-04-30,5.0
2010-05-31,5.0


보간법을 사용할 때\
특히 시간 간격이 일정하고, 데이터가 노이즈로 인한 변동이 심하지 않고 누락된 값으로 인한 빈 간극이 작을 때 보간 방법이 유용하다.

In [48]:
dataframe.interpolate(method = 'quadratic')

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.059808
2010-04-30,4.038069
2010-05-31,5.0


마지막으로 누락된 값의 간격이 커서 전체를 간격을 보간하는 것이 좋지 않을 때가 있다.\
이런 경우에 limit 매개변수를 사용하여 봅간 값의 개수를 제한하고 limit_direction 매개변수에서 마지막 데이터로 앞쪽 방향으로 보간할지 그 반대로 할지 지정할 수 있다.

In [49]:
dataframe.interpolate(limit = 1, limit_direction = 'forward')

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,
2010-05-31,5.0
