# 파이썬 활용 디지털마케팅 데이터분석 및 기획

# Today's mission

- 데이터 분석을 위한 판다스 리뷰  
  (데이터프레임 생성, 인덱스, 필터, 행 삭제/추가, GroupBy, NA, concat 등)
- 판다스 날짜와 시간 다루기  
  (날짜와 시간, 날짜 변환, 시간대 다루기, 특성 나누기, 차이 계산 등)

]

## Day02-2A 판다스 날짜와 시간 다루기

### 문자열을 날짜로 변환하기

In [None]:
# 라이브러리를 임포트합니다.
import numpy as np
import pandas as pd

In [None]:
# 문자열을 만듭니다.
date_strings = np.array(['03-04-2005 11:35 PM',
                         '23-05-2010 12:01 AM',
                         '04-09-2009 09:09 PM'])

In [None]:
# Timestamp 객체로 바꿉니다.
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p') for date in date_strings]

In [None]:
# datetime으로 바꿉니다.
[pd.to_datetime(date, format="%d-%m-%Y %I:%M %p", errors="ignore")
for date in date_strings]

**참고**

In [None]:
date_strings

In [None]:
pd.to_datetime(date_strings)

### 시간대 다루기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

In [None]:
# datetime을 만듭니다.
pd.Timestamp('2017-05-01 06:00:00', tz='Europe/London')

In [None]:
# datetime을 만듭니다. 
date = pd.Timestamp('2017-05-01 06:00:00')

In [None]:
# 시간대를 지정합니다.
date_in_london = date.tz_localize('Europe/London')

In [None]:
# datetime을 확인합니다.
date_in_london

In [None]:
# 시간대를 바꿉니다.
date_in_london.tz_convert('Africa/Abidjan')

In [None]:
# 세 개의 날짜를 만듭니다."M"은 "월별 말일" 
dates = pd.Series(pd.date_range('2/2/2002', periods=3, freq='M'))

In [None]:
#pd.date_range('2/2/2002', periods=3, freq='M')

In [None]:
dates

In [None]:
# 시간대를 지정합니다.
dates.dt.tz_localize('Africa/Abidjan')

In [None]:
# 라이브러리를 임포트합니다.
from pytz import all_timezones

In [None]:
# 두 개의 시간대를 확인합니다.
all_timezones[0:2]

**참고**

In [None]:
dates.dt.tz_localize('dateutil/Asia/Seoul')

In [None]:
import pytz

In [None]:
tz = pytz.timezone('Asia/Seoul')
dates.dt.tz_localize(tz)

### 날짜와 시간 선택

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

In [None]:
# 데이터프레임을 만듭니다.
dataframe = pd.DataFrame()

In [None]:
# datetime을 만듭니다.
dataframe['date'] = pd.date_range('1/1/2001', periods=100000, freq='H')

In [None]:
# 두 datetime 사이의 샘플을 선택합니다.
dataframe[(dataframe['date'] > '2002-1-1 01:00:00') &
          (dataframe['date'] <= '2002-1-1 04:00:00')]

In [None]:
# 인덱스를 설정합니다.
dataframe = dataframe.set_index(dataframe['date'])

In [None]:
# 두 datetime 사이 샘플을 선택합니다.
dataframe.loc['2002-1-1 01:00:00':'2002-1-1 04:00:00']

### 날짜 데이터를 여러 특성으로 나누기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

In [None]:
# 데이터프레임을 만듭니다.
dataframe = pd.DataFrame()

In [None]:
# 다섯 개의 날짜를 만듭니다.
dataframe['date'] = pd.date_range('1/1/2001', periods=150, freq='W')

In [None]:
# 년, 월, 일, 시, 분에 대한 특성을 만듭니다.
dataframe['year'] = dataframe['date'].dt.year
dataframe['month'] = dataframe['date'].dt.month
dataframe['day'] = dataframe['date'].dt.day
dataframe['hour'] = dataframe['date'].dt.hour
dataframe['minute'] = dataframe['date'].dt.minute

In [None]:
# 세 개의 행을 확인합니다.
dataframe.head(3)

### 날짜 간의 차이를 계산하기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

In [None]:
# 데이터프레임을 만듭니다.
dataframe = pd.DataFrame()

In [None]:
# 두 datetime 특성을 만듭니다.
dataframe['Arrived'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]
dataframe['Left'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-06-2017')]

In [None]:
# 특성 사이의 차이를 계산합니다.
dataframe['Left'] - dataframe['Arrived']

In [None]:
# 특성 간의 기간을 계산합니다.
pd.Series(delta.days for delta in (dataframe['Left'] - dataframe['Arrived']))

### 요일을 인코딩하기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

In [None]:
# 시리즈 객체를 만듭니다.
dates = pd.Series(pd.date_range("2/2/2002", periods=3, freq="M"))

In [None]:
# 요일을 확인합니다.
dates.dt.day_name()

In [None]:
# 요일을 확인합니다.
dates.dt.weekday

### 시차 특성 만들기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

In [None]:
# 데이터프레임을 만듭니다.
dataframe = pd.DataFrame()

In [None]:
# 날짜를 만듭니다.
dataframe["dates"] = pd.date_range("1/1/2001", periods=5, freq="D")
dataframe["stock_price"] = [1.1,2.2,3.3,4.4,5.5]

In [None]:
# 한 행 뒤의 값을 가져옵니다.
dataframe["previous_days_stock_price"] = dataframe["stock_price"].shift(1)

In [None]:
# 데이터프레임을 확인합니다.
dataframe

### 이동 시간 윈도 사용하기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

In [None]:
# datetime을 만듭니다.
time_index = pd.date_range("01/01/2010", periods=5, freq="M")

In [None]:
# 데이터프레임을 만들고 인덱스를 설정합니다.
dataframe = pd.DataFrame(index=time_index)

In [None]:
# 특성을 만듭니다.
dataframe["Stock_Price"] = [1,2,3,4,5]

In [None]:
# 이동 평균을 계산합니다.
dataframe.rolling(window=2).mean()

**참고**

In [None]:
dataframe.ewm(alpha=0.5).mean()

### 시계열 데이터에서 누락된 값 다루기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd
import numpy as np

In [None]:
# 날짜를 만듭니다.
time_index = pd.date_range("01/01/2010", periods=5, freq="M")

In [None]:
# 데이터프레임을 만들고 인덱스를 지정합니다.
dataframe = pd.DataFrame(index=time_index)

In [None]:
# 누락된 값이 있는 특성을 만듭니다.
dataframe["Sales"] = [1.0,2.0,np.nan,np.nan,5.0]

In [None]:
dataframe

In [None]:
# 누락된 값을 보간합니다.
dataframe.interpolate()

In [None]:
# 앞쪽으로 채우기(Forward-fill)
dataframe.ffill()

In [None]:
# 뒤쪽으로 채우기(Back-fill)
dataframe.bfill()

In [None]:
# 누락된 값을 보간하기
dataframe.interpolate(method="quadratic")

In [None]:
# 누락된 값을 보간하기
# 연속적으로 결측값을 보간하는 개수를 'limit=1'을 사용해서 제한해보겠습니다
# limit_direction='backward' 로 설정해주면 보간해주는 방향이 밑에서 위로 올라가면서 해주게 됩니다.
# 아무런 설정을 안해주면 default 로 limit_direction='forward' 설정됨.  limit_direction='both' 도 있음
dataframe.interpolate(limit=1, limit_direction="forward")