### 문자열 -> 날짜 변환

In [4]:
import numpy as np
import pandas as pd

# 문자열을 만듭니다.
date_strings = np.array(['03-04-2005 11:35 PM',
                         '23-05-2010 12:01 AM',
                         '04-09-2009 09:09 PM'])

print(type(date_strings))

<class 'numpy.ndarray'>


In [5]:
################################################# Timestamp 객체로 바꿉니다.
# errors = 'raise' 기본값은 날짜 포맷에 문제 생기며 에러 발생
# errors = 'ignore' 원본 문자열 그대로 반환해줌 
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p') for date in date_strings]

[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

In [6]:
################################################# datetime으로 바꿉니다.
[pd.to_datetime(date, format="%d-%m-%Y %I:%M %p", errors="ignore")
for date in date_strings]

[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

##### 문자열 -> 날짜 Type으로 변경해줄 때는 format 에 유의해야 한다 
- https://strftime.org/
- 대표적인 format
- %Y 전체연도 2001
- %m 0으로 시작하는 년월 02
- %d 0으로 시작하는 일 09
- %I 0으로 시작하는 시간 (12시간제) 02
- %p AM 또는 PM 
- %M 0으로 시작하는 분 05
- %-M	Minute as a decimal number. (Platform specific)	6
- %S 0으로 시작하는 초 09
- %-S	Second as a decimal number. (Platform specific)	5
- %a	Weekday as locale’s abbreviated name.	Mon
- %A	Weekday as locale’s full name.	Monday
- %w	Weekday as a decimal number, where 0 is Sunday and 6 is Saturday.	1
- %-m	Month as a decimal number. (Platform specific)	9
- %y	Year without century as a zero-padded decimal number.	13
- %%	A literal '%' character.	%

In [7]:
pd.to_datetime(date_strings)

DatetimeIndex(['2005-03-04 23:35:00', '2010-05-23 00:01:00',
               '2009-04-09 21:09:00'],
              dtype='datetime64[ns]', freq=None)

### 시간 Data 다루기

- Pandas 객체에는 시간대가 없다. 객체를 만들 때 tz 매개변수를 사용하여 시간대를 추가 할 수 있음

In [8]:
import pandas as pd

# datetime을 만듭니다.
print(pd.Timestamp('2017-05-01 06:00:00'))
print(pd.Timestamp('2017-05-01 06:00:00', tz='Europe/London'))

2017-05-01 06:00:00
2017-05-01 06:00:00+01:00


In [10]:
# tz_localize 메서드를 사용해 이전에 만든 datetime에 시간대를 추가 할 수 있음
date = pd.Timestamp('2017-05-01 06:00:00')
# 시간대를 지정합니다.
date_in_london = date.tz_localize('Europe/London')

# datetime을 확인합니다.
date_in_london

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

In [11]:
# 시간대를 바꿉니다.
date_in_london.tz_convert('Africa/Abidjan')

Timestamp('2017-05-01 05:00:00+0000', tz='Africa/Abidjan')

In [12]:
# 세 개의 날짜를 만듭니다.
dates = pd.Series(pd.date_range('2/2/2002', periods=3, freq='M'))
print(dates)

0   2002-02-28
1   2002-03-31
2   2002-04-30
dtype: datetime64[ns]


In [13]:
# tz_localise 활용하여 시간대를 지정합니다.
dates.dt.tz_localize('Africa/Abidjan')

0   2002-02-28 00:00:00+00:00
1   2002-03-31 00:00:00+00:00
2   2002-04-30 00:00:00+00:00
dtype: datetime64[ns, Africa/Abidjan]

- 판다스는 두 종류의 시간대 문자열을 지원, pytz 문자열 사용 권장
- pytz 모듈을 이용하여 특정 지역의 Timezone 정보를 가져올 수 있습니다

In [14]:
from pytz import all_timezones

# 두 개의 시간대를 확인합니다.
all_timezones[0:10]

['Africa/Abidjan',
 'Africa/Accra',
 'Africa/Addis_Ababa',
 'Africa/Algiers',
 'Africa/Asmara',
 'Africa/Asmera',
 'Africa/Bamako',
 'Africa/Bangui',
 'Africa/Banjul',
 'Africa/Bissau']

In [15]:
# dateutil/ 로 시작하여 dateutil 문자열 사용 가능
dates.dt.tz_localize('dateutil/Aisa/Seoul')

0   2002-02-28
1   2002-03-31
2   2002-04-30
dtype: datetime64[ns]

In [17]:
# pytz 객체를 직접 전달도 가능
import pytz

tz = pytz.timezone('Asia/Seoul')
dates.dt.tz_localize(tz)

0   2002-02-28 00:00:00+09:00
1   2002-03-31 00:00:00+09:00
2   2002-04-30 00:00:00+09:00
dtype: datetime64[ns, Asia/Seoul]

### 날짜와 시간 선택

In [19]:
import pandas as pd

# 데이터프레임을 만듭니다.
dataframe = pd.DataFrame()

# datetime을 만듭니다.
dataframe['date'] = pd.date_range('1/1/2001', periods=100000, freq='H')
print(dataframe)

                     date
0     2001-01-01 00:00:00
1     2001-01-01 01:00:00
2     2001-01-01 02:00:00
3     2001-01-01 03:00:00
4     2001-01-01 04:00:00
...                   ...
99995 2012-05-29 11:00:00
99996 2012-05-29 12:00:00
99997 2012-05-29 13:00:00
99998 2012-05-29 14:00:00
99999 2012-05-29 15:00:00

[100000 rows x 1 columns]


In [21]:
# 두 datetime 사이의 샘플을 선택합니다.
dataframe[(dataframe['date'] > '2002-1-1 01:00:00') &(dataframe['date'] <= '2002-1-1 04:00:00')]

Unnamed: 0,date
8762,2002-01-01 02:00:00
8763,2002-01-01 03:00:00
8764,2002-01-01 04:00:00


In [22]:
# date 컬럼을 인덱스를 설정합니다.
dataframe = dataframe.set_index(dataframe['date'])

# loc 활용하여 두 datetime 사이 샘플을 선택합니다.
dataframe.loc['2002-1-1 01:00:00':'2002-1-1 04:00:00']

Unnamed: 0_level_0,date
date,Unnamed: 1_level_1
2002-01-01 01:00:00,2002-01-01 01:00:00
2002-01-01 02:00:00,2002-01-01 02:00:00
2002-01-01 03:00:00,2002-01-01 03:00:00
2002-01-01 04:00:00,2002-01-01 04:00:00


### 날짜 데이터를 여러 특성으로 나누기
- Series.dt 의 시간 속성 사용

In [23]:
import pandas as pd

# 데이터프레임을 만듭니다.
dataframe = pd.DataFrame()

# 다섯 개의 날짜를 만듭니다.
dataframe['date'] = pd.date_range('1/1/2001', periods=150, freq='W')

# 년, 월, 일, 시, 분에 대한 특성을 만듭니다.
dataframe['year'] = dataframe['date'].dt.year
dataframe['month'] = dataframe['date'].dt.month
dataframe['day'] = dataframe['date'].dt.day
dataframe['hour'] = dataframe['date'].dt.hour
dataframe['minute'] = dataframe['date'].dt.minute

# 세 개의 행을 확인합니다.
dataframe.head(3)

Unnamed: 0,date,year,month,day,hour,minute
0,2001-01-07,2001,1,7,0,0
1,2001-01-14,2001,1,14,0,0
2,2001-01-21,2001,1,21,0,0


In [24]:
import pandas as pd

# 데이터프레임을 만듭니다.
dataframe = pd.DataFrame()

# 두 datetime 특성을 만듭니다.
dataframe['Arrived'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]
dataframe['Left'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-06-2017')]

#############################################  특성 사이의 차이를 계산합니다.
dataframe['Left'] - dataframe['Arrived']

0   0 days
1   2 days
dtype: timedelta64[ns]

In [25]:
# 특성 간의 기간을 계산합니다.
pd.Series(delta.days for delta in (dataframe['Left'] - dataframe['Arrived']))

0    0
1    2
dtype: int64

### 요일을 인코딩 하기

In [29]:
import pandas as pd

# 시리즈 객체를 만듭니다.
dates = pd.Series(pd.date_range("2/2/2002", periods=3, freq="M"))

# 요일을 확인합니다.
# The day of the week with Monday=0, Sunday=6. -> 수치로 변환
dates.dt.weekday

0    3
1    6
2    1
dtype: int64

In [32]:
# 요일을 문자로 변환
dates.dt.day_name()

0    Thursday
1      Sunday
2     Tuesday
dtype: object

### 시차 특성 만들기

In [33]:
import pandas as pd
# 데이터프레임을 만듭니다.
dataframe = pd.DataFrame()
# 날짜를 만듭니다.
dataframe["dates"] = pd.date_range("1/1/2001", periods=5, freq="D")
dataframe["stock_price"] = [1.1,2.2,3.3,4.4,5.5]
# 데이터프레임을 확인합니다.
dataframe

Unnamed: 0,dates,stock_price
0,2001-01-01,1.1
1,2001-01-02,2.2
2,2001-01-03,3.3
3,2001-01-04,4.4
4,2001-01-05,5.5


In [35]:
# 한 행 뒤의 값을 가져옵니다.
# shift (n) : n 행전의 값을 가져온다 
dataframe["previous_days_stock_price"] = dataframe["stock_price"].shift(1)
print(dataframe)

       dates  stock_price  previous_days_stock_price
0 2001-01-01          1.1                        NaN
1 2001-01-02          2.2                        1.1
2 2001-01-03          3.3                        2.2
3 2001-01-04          4.4                        3.3
4 2001-01-05          5.5                        4.4


In [36]:
dataframe["previous_days_stock_price"] = dataframe["stock_price"].shift(-1)
print(dataframe)

       dates  stock_price  previous_days_stock_price
0 2001-01-01          1.1                        2.2
1 2001-01-02          2.2                        3.3
2 2001-01-03          3.3                        4.4
3 2001-01-04          4.4                        5.5
4 2001-01-05          5.5                        NaN


### 이동 시간 윈도 사용하기 - rolling(window=)

In [37]:
import pandas as pd

# datetime을 만듭니다.
time_index = pd.date_range("01/01/2010", periods=5, freq="M")
# 데이터프레임을 만들고 인덱스를 설정합니다.
dataframe = pd.DataFrame(index=time_index)
# 특성을 만듭니다.
dataframe["Stock_Price"] = [1,2,3,4,5]

print(dataframe)

            Stock_Price
2010-01-31            1
2010-02-28            2
2010-03-31            3
2010-04-30            4
2010-05-31            5


In [38]:
# 이동 평균을 계산합니다.
# window : window 크기 지정 할수 있음. 최댓값, 평균, 샘플 갯수, 상관관계와 같은 통계치를 계산 가능 
dataframe.rolling(window=2).mean()

Unnamed: 0,Stock_Price
2010-01-31,
2010-02-28,1.5
2010-03-31,2.5
2010-04-30,3.5
2010-05-31,4.5


In [40]:
dataframe.rolling(window=2).max()

Unnamed: 0,Stock_Price
2010-01-31,
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,4.0
2010-05-31,5.0


In [39]:
### 최근 항목에 높은 가중치를 두지만 전체 기간에 대한 통계를 계산하는 지수 이동 윈도도 많이 사용하는 방법
### Pandas ewm 메서드를 사용하여 계산
dataframe.ewm(alpha=0.5).mean()

Unnamed: 0,Stock_Price
2010-01-31,1.0
2010-02-28,1.666667
2010-03-31,2.428571
2010-04-30,3.266667
2010-05-31,4.16129


### 시계열 데이터에서 Null 다루기
- 시계열(Time Series) 데이터나 연속된 수치를 가지는 데이터의 경우에는 우리는 일종의 연속성있는 패턴을 발견할 수 있습니다. 
- 이런 경우 보간(Interpolation)을 통해 앞,뒤 값을 통하여 유추하여 결측치 처리
- Interpolation (보간) 방법을 사용
- DataFrame.interpolate(method='linear', axis=0, limit=None, inplace=False, limit_direction=None, limit_area=None, downcast=None, **kwargs)
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.interpolate.html

In [41]:
import pandas as pd
import numpy as np

# 날짜를 만듭니다.
time_index = pd.date_range("01/01/2010", periods=5, freq="M")

# 데이터프레임을 만들고 인덱스를 지정합니다.
dataframe = pd.DataFrame(index=time_index)

# 누락된 값이 있는 특성을 만듭니다.
dataframe["Sales"] = [1.0,2.0,np.nan,np.nan,5.0]

print(dataframe)

            Sales
2010-01-31    1.0
2010-02-28    2.0
2010-03-31    NaN
2010-04-30    NaN
2010-05-31    5.0


In [42]:
# 누락된 값을 보간합니다.
dataframe.interpolate()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,4.0
2010-05-31,5.0


In [43]:
# 앞쪽으로 채우기(Forward-fill)
dataframe.ffill()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,2.0
2010-04-30,2.0
2010-05-31,5.0


In [44]:
# 뒤쪽으로 채우기(Back-fill)
dataframe.bfill()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,5.0
2010-04-30,5.0
2010-05-31,5.0


In [45]:
# 누락된 값을 보간하기
# method : 
#‘linear’: Ignore the index and treat the values as equally spaced. This is the only method supported on MultiIndexes.
#‘time’: Works on daily and higher resolution data to interpolate given length of interval.
#‘index’, ‘values’: use the actual numerical values of the index.
#‘pad’: Fill in NaNs using existing values.
#‘nearest’, ‘zero’, ‘slinear’, ‘quadratic’, ‘cubic’, ‘spline’, ‘barycentric’, ‘polynomial’: Passed to scipy.interpolate.interp1d. These methods use the numerical values of the index. Both ‘polynomial’ and ‘spline’ require that you also specify an order (int), e.g. df.interpolate(method='polynomial', order=5).
# krogh’, ‘piecewise_polynomial’, ‘spline’, ‘pchip’, ‘akima’, ‘cubicspline’: Wrappers around the SciPy interpolation methods of similar names. See Notes.

# quadratic : 두 점 사이가 비서형이라고 가정
dataframe.interpolate(method="quadratic")

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.059808
2010-04-30,4.038069
2010-05-31,5.0


In [46]:
# 누락된 값을 보간하기
# 보간 값의 갯수를 제한하고 변수의 마지막 데이터로 앞쪽 방향으로 보간할지 그 반대로 할지 지정 할 수 있음
# limit_direction{{‘forward’, ‘backward’, ‘both’}}, Optional
dataframe.interpolate(limit=1, limit_direction="forward")

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,
2010-05-31,5.0


In [49]:
dataframe.interpolate(limit=1, limit_direction="backward")

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,
2010-04-30,4.0
2010-05-31,5.0
