### 7.0 날짜와 시간 다루기 [20201115]

#### 7.1 문자열을 날짜로 변환하기

date : 년 월 일<br>
datetime : 년 월 일 시 분 초<br>
time : 시 분 초

In [1]:
import numpy as np
import pandas as pd

In [29]:
date_strings = np.array(['03-04-2005 11:35 PM','23-05-2010 12:01 AM','04-09-2009 09:09 PM'])

In [31]:
pd.to_datetime(date_strings, format="%d-%m-%Y %I:%M %p")

DatetimeIndex(['2005-04-03 23:35:00', '2010-05-23 00:01:00',
               '2009-09-04 21:09:00'],
              dtype='datetime64[ns]', freq=None)

In [33]:
df = pd.DataFrame(date_strings)
df

Unnamed: 0,0
0,03-04-2005 11:35 PM
1,23-05-2010 12:01 AM
2,04-09-2009 09:09 PM


In [35]:
df.columns= ["date"]
df

Unnamed: 0,date
0,03-04-2005 11:35 PM
1,23-05-2010 12:01 AM
2,04-09-2009 09:09 PM


In [36]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    3 non-null      object
dtypes: object(1)
memory usage: 152.0+ bytes


In [38]:
df['date'] = pd.to_datetime(df['date'], format="%d-%m-%Y %I:%M %p")
df

Unnamed: 0,date
0,2005-04-03 23:35:00
1,2010-05-23 00:01:00
2,2009-09-04 21:09:00


In [11]:
#Timestamp 객체로 바꿈
[pd.to_datetime(date, format="%d-%m-%Y %I:%M %p") for date in date_strings]

[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

In [15]:
#오류 처리를 위한 errors 매개변수
#Iignore은 예외를 발생시키거나 NaT이어도 원본 문자열 그대로 반환
# coerce는 문제를 발생해도 에러를 일으키지 않지만 에러가 난 값을 누락된 값으로 설정
[pd.to_datetime(date, format="%d-%m-%Y %I:%M %p" ,errors="ignore")
 for date in date_strings]

[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

%Y : 전체연도<br>
%m : 0으로 시작하는 월<br>
%d : 0으로 시작하는 일<br>
%I : 0으로 시작하는 시간<br>
%p : AM 도는 PM<br>
%M : 0으로 시작하는 분<br>
%S : 0으로 시작하는 초<br>

리스트 컴프리헨션을 사용하지않고 to_datetime 함수에 data_strings 리스트를 그대로 전달하는 방법이 있다.

In [17]:
pd.to_datetime(date_strings)

DatetimeIndex(['2005-03-04 23:35:00', '2010-05-23 00:01:00',
               '2009-04-09 21:09:00'],
              dtype='datetime64[ns]', freq=None)

### 7.2 시간대 다루기

시계열 데이터에서 시간대 정보를 추가하거나 바꾸고 싶을때

In [18]:
pd.Timestamp('2017-05-01 06:00:00', tz="Europe/London")

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

In [20]:
#tz_localize 메서드를 이용해 이전에 만든 datetime에 시간대를 추가할 수 있음.
date = pd.Timestamp('2017-05-01 06:00:00')

In [22]:
date_in_london = date.tz_localize("Europe/London")
date_in_london

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

In [23]:
#다른 시간대로 변환
date_in_london.tz_convert("Africa/Abidjan")

Timestamp('2017-05-01 05:00:00+0000', tz='Africa/Abidjan')

pd.date_range : 날짜를 만들어내는 함수<br>
M만 주면 월말을 의미한다<br>
MS를 주면 월 초를 의미한다<br>
D를 주면 일을 의미한다<br>
Q를 주면 분기 말를 의미한다<br>
QS를 주면 분기 초를 의미한다<br>
Y를 주면 년 말을 의미한다<br>
YS를 주면 년 초를 의미한다<br>
T를 주면 분을 의미한다<br>

In [24]:
#판다스의 시리스 객체는 모든 원소에 tz_localize, tz_convert 적용
dates = pd.Series(pd.date_range('2/2/2002', periods=3, freq='M'))

In [25]:
dates.dt.tz_localize("Africa/Abidjan")

0   2002-02-28 00:00:00+00:00
1   2002-03-31 00:00:00+00:00
2   2002-04-30 00:00:00+00:00
dtype: datetime64[ns, Africa/Abidjan]

In [40]:
#판다스는 두 종류의 시간대 문자열을 지원함
from pytz import all_timezones

all_timezones[0:2]

['Africa/Abidjan', 'Africa/Accra']

In [41]:
#dateutil 문자열을 사용할 수도 있다.
dates.dt.tz_localize('dateutil/Asia/Seoul')

0   2002-02-28 00:00:00+09:00
1   2002-03-31 00:00:00+09:00
2   2002-04-30 00:00:00+09:00
dtype: datetime64[ns, tzfile('ROK')]

In [43]:
import pytz

tz=pytz.timezone('Asia/Seoul')
dates.dt.tz_localize(tz)

0   2002-02-28 00:00:00+09:00
1   2002-03-31 00:00:00+09:00
2   2002-04-30 00:00:00+09:00
dtype: datetime64[ns, Asia/Seoul]

#### 7.3 날짜와 시간 선택하기

In [44]:
dataframe = pd.DataFrame()

dataframe['date'] = pd.date_range('1/1/2001', periods=100000, freq='H')

In [46]:
dataframe

Unnamed: 0,date
0,2001-01-01 00:00:00
1,2001-01-01 01:00:00
2,2001-01-01 02:00:00
3,2001-01-01 03:00:00
4,2001-01-01 04:00:00
...,...
99995,2012-05-29 11:00:00
99996,2012-05-29 12:00:00
99997,2012-05-29 13:00:00
99998,2012-05-29 14:00:00


In [45]:
dataframe[(dataframe['date'] > '2002-1-1 01:00:00') &
(dataframe['date'] <= '2002-1-1 04:00:00')]

Unnamed: 0,date
8762,2002-01-01 02:00:00
8763,2002-01-01 03:00:00
8764,2002-01-01 04:00:00


In [48]:
dataframe2 = dataframe.set_index(dataframe['date'])
dataframe2

Unnamed: 0_level_0,date
date,Unnamed: 1_level_1
2001-01-01 00:00:00,2001-01-01 00:00:00
2001-01-01 01:00:00,2001-01-01 01:00:00
2001-01-01 02:00:00,2001-01-01 02:00:00
2001-01-01 03:00:00,2001-01-01 03:00:00
2001-01-01 04:00:00,2001-01-01 04:00:00
...,...
2012-05-29 11:00:00,2012-05-29 11:00:00
2012-05-29 12:00:00,2012-05-29 12:00:00
2012-05-29 13:00:00,2012-05-29 13:00:00
2012-05-29 14:00:00,2012-05-29 14:00:00


In [51]:
dataframe2.loc['2002-1-1 01:00:00':'2002-1-1 04:00:00']

Unnamed: 0_level_0,date
date,Unnamed: 1_level_1
2002-01-01 01:00:00,2002-01-01 01:00:00
2002-01-01 02:00:00,2002-01-01 02:00:00
2002-01-01 03:00:00,2002-01-01 03:00:00
2002-01-01 04:00:00,2002-01-01 04:00:00


#### 7.4 날짜 데이터를 여러 특성으로 나누기

날짜와 시간의 열을 가지고 년,월,일,시,분에 해당하는 특성을 만들고 싶을 때

Series.dt 시간 속성을 사용

In [53]:
dataframe = pd.DataFrame()

In [54]:
dataframe['date'] = pd.date_range('1/1/2001', periods=150, freq="W")

In [55]:
dataframe

Unnamed: 0,date
0,2001-01-07
1,2001-01-14
2,2001-01-21
3,2001-01-28
4,2001-02-04
...,...
145,2003-10-19
146,2003-10-26
147,2003-11-02
148,2003-11-09


In [56]:
dataframe['year'] = dataframe['date'].dt.year
dataframe['month'] = dataframe['date'].dt.month
dataframe['day'] = dataframe['date'].dt.day
dataframe['hour'] = dataframe['date'].dt.hour
dataframe['minute'] = dataframe['date'].dt.minute

In [57]:
dataframe.head(3)

Unnamed: 0,date,year,month,day,hour,minute
0,2001-01-07,2001,1,7,0,0
1,2001-01-14,2001,1,14,0,0
2,2001-01-21,2001,1,21,0,0


#### 7.5 날짜 간의 차이를 계산하기

샘플에 두 개의 datetime 특성이 있을 때 이 특성 사이의 시간을 계산하고 싶을 때

In [60]:
dataframe = pd.DataFrame()

dataframe['Arrived'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]
dataframe['Left'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-06-2017')]
dataframe['Left'] - dataframe['Arrived']

0   0 days
1   2 days
dtype: timedelta64[ns]

In [61]:
#day를 삭제하고 싶을 때
pd.Series(delta.days for delta in (dataframe['Left']-dataframe['Arrived']))

0    0
1    2
dtype: int64

#### 7.6 요일을 인코딩하기

날짜 벡터에서 각 날짜의 요일을 알고 싶을때

In [102]:
!pip install --upgrade pandas

Collecting pandas
  Downloading pandas-1.1.4-cp37-cp37m-win_amd64.whl (8.7 MB)
Installing collected packages: pandas
  Attempting uninstall: pandas
    Found existing installation: pandas 1.0.5
    Uninstalling pandas-1.0.5:
      Successfully uninstalled pandas-1.0.5


ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 액세스가 거부되었습니다: 'c:\\anaconda3\\lib\\site-packages\\~-ndas\\_libs\\algos.cp37-win_amd64.pyd'
Consider using the `--user` option or check the permissions.



In [104]:
# 판다스 업그레이트 안되서 실패 ~~!
import pandas as pd
dates = pd.Series(pd.date_range("2/2/2002", periods=3, freq="M"))
dates.dt.weekday_name

AttributeError: 'DatetimeProperties' object has no attribute 'weekday_name'

In [67]:
dates.dt.weekday

0    3
1    6
2    1
dtype: int64

#### 7.7 시차 특성 만들기

n 기간 만큼 차이가 나는 시차 특성을 만들고 싶을 때

In [73]:
dataframe = pd.DataFrame()

#날짜를 만듭니다.
dataframe['dates'] = pd.date_range("1/1/2001", periods=5, freq="D")
dataframe['stock_price'] = [1.1,2.2,3.3,4.4,5.5]

In [76]:
#한 행 뒤의 값을 가져옵니다. shift 메서드를 사용해 한 행 뒤 값을 옮기기
dataframe["previous_days_stock_price"] = dataframe['stock_price'].shift(1)
dataframe

Unnamed: 0,dates,stock_price,previous_days_stock_price
0,2001-01-01,1.1,
1,2001-01-02,2.2,1.1
2,2001-01-03,3.3,2.2
3,2001-01-04,4.4,3.3
4,2001-01-05,5.5,4.4


#### 7.8 이동 시간 윈도 사용하기

In [77]:
#datetime을 만든다.
time_index = pd.date_range("01/01/2010", periods=5, freq="M")

In [78]:
#데이터프레임을 만들고 인덱스를 설정
dataframe = pd.DataFrame(index=time_index)

In [79]:
#특성을 만든다.
dataframe["Stock_Price"] = [1,2,3,4,5]

In [80]:
#이동 평균을 계산
dataframe.rolling(window=2).mean()

Unnamed: 0,Stock_Price
2010-01-31,
2010-02-28,1.5
2010-03-31,2.5
2010-04-30,3.5
2010-05-31,4.5


In [81]:
dataframe.ewm(alpha=0.5).mean()

Unnamed: 0,Stock_Price
2010-01-31,1.0
2010-02-28,1.666667
2010-03-31,2.428571
2010-04-30,3.266667
2010-05-31,4.16129


#### 7.9 시계열 데이터에서 누락된 값 다루기

In [82]:
time_index = pd.date_range("01/01/2010", periods=5, freq="M")

In [85]:
dataframe = pd.DataFrame(index=time_index)
dataframe

2010-01-31
2010-02-28
2010-03-31
2010-04-30
2010-05-31


In [86]:
dataframe["Sales"]=[1.0, 2.0, np.nan, np.nan, 5.0]

In [87]:
dataframe

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,
2010-04-30,
2010-05-31,5.0


In [88]:
#누락된 값을 보간하기
dataframe.interpolate()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,4.0
2010-05-31,5.0


In [89]:
# 앞쪽으로 채우기
dataframe.ffill()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,2.0
2010-04-30,2.0
2010-05-31,5.0


In [91]:
dataframe.bfill()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,5.0
2010-04-30,5.0
2010-05-31,5.0


In [95]:
# 비선형일때(2차함수)
dataframe.interpolate(method="quadratic")

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.059808
2010-04-30,4.038069
2010-05-31,5.0


In [97]:
#보간 개수 제한하기
dataframe.interpolate(limit=1, limit_direction="forward")

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,
2010-05-31,5.0
