## 문자열을 날짜로 변환
- 날짜와 시간을 나타내는 문자열 벡터를 시계열 데이터로 변환
- to_datetime() - format 매개변수에 날짜와 시간 포맷을 지정
- errors 매개변수 - 오류 처리, coerce 옵션값은 문제가 발생해도 에러를 일으키니 않지만 대신 에러가 난 값을 NaT(누락된 값)으로 설정한다.

In [5]:
import numpy as np
import pandas as pd

In [6]:
date_string = np.array(['03-04-2023 11:20 PM',
                       '05-04-2023 09:20 PM',
                       '07-04-2023 02:20 AM'
                       ])

#### Time Stamp 객체로 변경

In [7]:
for data in date_string:
    temp = pd.to_datetime(data, format = '%d-%m-%Y %I:%M %p')

print("***")

# errors 매개변수 - 오류처리
for data in date_string:
    temp_value = pd.to_datetime(data, format='%d-%m-%Y %I:%M %p', errors = 'ignore')
    print(temp_value)

***
2023-04-03 23:20:00
2023-04-05 21:20:00
2023-04-07 02:20:00


## 시간대 데이터 처리
- 시계열 데이터에서 시간대 정보를 추가하거나 변환할 수 있다.
- 판다스 객체에는 시간대가 없다.
- 판다스는 시간대 객체를 만들 때 tz 매개변수를 사용해 시간대를 추가할 수 있다.
- 판다스의 Series 객체는 모든 원소에 tz_localize와 tz_convert를 적용한다.
- all_timezone을 임포트하여 전체 시간 대문자열을 확인할 수 있다.
- 'dateutil/'로 시작하여 datetuil 문자열을 사용할 수 있다.
- ytz의 객체를 직접 전달 할 수 있다.

In [8]:
pd.Timestamp("2023-01-01 06:00:00", tz='Europe/London')
data_temp = pd.Timestamp("2023-04-20 06:00:00")
print(data_temp)

2023-04-20 06:00:00


In [9]:
# 시간대를 지정
date_in_london = data_temp.tz_localize('Europe/London')
print(date_in_london)

2023-04-20 06:00:00+01:00


In [10]:
# 시간대를 변환
date_in_london.tz_convert("Africa/Abidjan")

# 세 개의 날짜를 만들기
dates_temp = pd.Series(pd.date_range('2/2/2023', periods=3, freq='M'))
temp = data_temp.tz_localize('Africa/Abidjan')
print(temp)

2023-04-20 06:00:00+00:00


## 시간대 데이터 처리 - 01

In [11]:
import pytz
from pytz import all_timezones
all_timezones[150:152]

['America/Maceio', 'America/Managua']

In [12]:
dates_temp.dt.tz_localize('dateutil/Asia/Seoul')

0   2023-02-28 00:00:00+09:00
1   2023-03-31 00:00:00+09:00
2   2023-04-30 00:00:00+09:00
dtype: datetime64[ns, tzfile('ROK')]

In [13]:
tz_temp = pytz.timezone('Asia/Seoul')
temp_01 = dates_temp.dt.tz_localize(tz_temp)
print(temp_01)

0   2023-02-28 00:00:00+09:00
1   2023-03-31 00:00:00+09:00
2   2023-04-30 00:00:00+09:00
dtype: datetime64[ns, Asia/Seoul]


## 날짜와 시간 선택하기
- 시작과 마지막 날짜를 사용해 불리언 조건을 만들어 날짜 벡터에서 하나 이상의 원소를 선택할 수 있다
- 날짜 열을 데이터 프레임의 인덱스로 지정하고 loc를 사용해 슬라이싱 할 수 있다

In [14]:
dateframe = pd.DataFrame()
print(dateframe)
dateframe['date'] = pd.date_range('1/1/2023', periods=100, freq='H')
print(dateframe)

Empty DataFrame
Columns: []
Index: []
                  date
0  2023-01-01 00:00:00
1  2023-01-01 01:00:00
2  2023-01-01 02:00:00
3  2023-01-01 03:00:00
4  2023-01-01 04:00:00
..                 ...
95 2023-01-04 23:00:00
96 2023-01-05 00:00:00
97 2023-01-05 01:00:00
98 2023-01-05 02:00:00
99 2023-01-05 03:00:00

[100 rows x 1 columns]


In [15]:
# 두 datetime 사이의 샘플을 선택한다.
dateframe[(dateframe['date'] > '2023-1-1 01:00:00') &
         (dateframe['date'] <= '2023-1-1 04:00:00')]

# 새로운 datetime을 만든다.
dateframe = dateframe.set_index(dateframe['date'])
print(dateframe)

temp02 = dateframe.loc['2023-1-1 01:00:00' : '2023-1-1 04:00:00']
print(temp02)

                                   date
date                                   
2023-01-01 00:00:00 2023-01-01 00:00:00
2023-01-01 01:00:00 2023-01-01 01:00:00
2023-01-01 02:00:00 2023-01-01 02:00:00
2023-01-01 03:00:00 2023-01-01 03:00:00
2023-01-01 04:00:00 2023-01-01 04:00:00
...                                 ...
2023-01-04 23:00:00 2023-01-04 23:00:00
2023-01-05 00:00:00 2023-01-05 00:00:00
2023-01-05 01:00:00 2023-01-05 01:00:00
2023-01-05 02:00:00 2023-01-05 02:00:00
2023-01-05 03:00:00 2023-01-05 03:00:00

[100 rows x 1 columns]
                                   date
date                                   
2023-01-01 01:00:00 2023-01-01 01:00:00
2023-01-01 02:00:00 2023-01-01 02:00:00
2023-01-01 03:00:00 2023-01-01 03:00:00
2023-01-01 04:00:00 2023-01-01 04:00:00


## 날짜 데이터를 여러 특성으로 분할
- 날짜와 시간의 열로부터 년, 월, 일, 시, 분에 해당하는 특성을 만들 수 있다.
- Series.dt의 시간 속성을 사용한다.

In [18]:
import pandas as pd

dateframe = pd.DataFrame()

# 5개의 날짜 만듦
dateframe['date'] = pd.date_range('1/1/2023', periods=5, freq='W')

# 년, 월, 일, 시, 분에 대한 특성을 만든다.
dateframe['year'] = dateframe['date'].dt.year
dateframe['month'] = dateframe['date'].dt.month
dateframe['day'] = dateframe['date'].dt.day
dateframe['hour'] = dateframe['date'].dt.hour
dateframe['minute'] = dateframe['date'].dt.minute

print(dateframe.head(3))  # 세 개의 행을 확인

        date  year  month  day  hour  minute
0 2023-01-01  2023      1    1     0       0
1 2023-01-08  2023      1    8     0       0
2 2023-01-15  2023      1   15     0       0


## 날짜 간의 차이 계산
- 판다스의 TimeDelta 데이터 타입을 사용하면 두 지점 사이의 시간 변화를 기록한 특성을 계산한다.

In [22]:
import pandas as pd

dateframe = pd.DataFrame()

# 두 datetime 특성을 만든다.
dateframe['Arrived'] = [pd.Timestamp('01-01-2023'), pd.Timestamp('01-04-2023')]
dateframe['Left'] = [pd.Timestamp('01-01-2023'), pd.Timestamp('01-06-2023')]

print(dateframe['Arrived'])
print(dateframe['Left'])

# 특성 사이의 차이를 계산
dateframe['Left'] - dateframe['Arrived']

# 특성 간의 기간을 계산
pd.Series(delta.days for delta in (dateframe['Left'] - dateframe['Arrived']))

0   2023-01-01
1   2023-01-04
Name: Arrived, dtype: datetime64[ns]
0   2023-01-01
1   2023-01-06
Name: Left, dtype: datetime64[ns]


0    0
1    2
dtype: int64

## 시차 특성
- 판다스의 shitf를 사용하여 n기간만큼 차이가 나는 시차 특성을 만든다.

In [23]:
import pandas as pd

In [26]:
dateframe = pd.DataFrame()

# 날짜를 만든다.
dateframe['dates'] = pd.date_range("1/1/2023", periods = 5, freq = 'D')
dateframe['stock_price'] = [1.1, 2.2, 3.3, 4.4, 5.5]

# 한 행 뒤의 값을 가져온다.
dateframe['previous_days_stock_price'] = dateframe["stock_price"].shift(1)
print(dateframe)

       dates  stock_price  previous_days_stock_price
0 2023-01-01          1.1                        NaN
1 2023-01-02          2.2                        1.1
2 2023-01-03          3.3                        2.2
3 2023-01-04          4.4                        3.3
4 2023-01-05          5.5                        4.4


## 이동 기간 윈도 사용
- 시계열 데이터에서 일정 시간 간격으로 통계를 계산할 수 있음
- mean(January, February, March)
- mean(February, March, April)
- mena(March, April, May)
- 세 달 크기의 시간 윈도가 각 단계마다 윈도의 평균을 계산하면서 샘플 위를 이동한다.
- 판다스의 rolling()은 window 매개변수에서 윈도 크기를 지정한다.
- 시간 윈도의 max(), mean(), count(), corr()와 같은 통계를 간편하게 계산할 수 있다.
- 판다스의 ewm() - 최근 항목에 높은 가중치를 두지만 전체 기간에 대한 통계를 계산하는 지수 이동 윈도

In [27]:
import pandas as pd

# datetime 생성
time_index = pd.date_range("01/01/2023", periods=5, freq='M')

dateframe = pd.DataFrame(index=time_index)
dateframe['Stock_Price'] = [1, 2, 3, 4, 5]   # 특성을 생성
dateframe.rolling(window=2).mean()    # 이동 평균 계산
dateframe.ewm(alpha=0.5).mean()
print(dateframe)

            Stock_Price
2023-01-31            1
2023-02-28            2
2023-03-31            3
2023-04-30            4
2023-05-31            5


## 시계열 데이터에서 누락된 값 처리

In [28]:
import pandas as pd
import numpy as np

time_index = pd.date_range("01/01/2023", periods=5, freq='M')
dateframe = pd.DataFrame(index=time_index)

print(dateframe)

Empty DataFrame
Columns: []
Index: [2023-01-31 00:00:00, 2023-02-28 00:00:00, 2023-03-31 00:00:00, 2023-04-30 00:00:00, 2023-05-31 00:00:00]


In [29]:
dateframe['Sales'] = [1.0, 2.0, np.nan, np.nan, 5.0]          # 누락값이 있는 특성 생성

dateframe.interpolate()   # 누락된 값을 보간
dateframe.ffill()    # 앞쪽으로 채우기
dateframe.bfill()    # 뒤쪽으로 채우기
dateframe.interpolate(method='guadratic')     # 비선형의 경우 보간 방법
print(dateframe.interpolate(limit=1, limit_direction='forward'))
print(dateframe.interpolate(limit=1, limit_direction='backward'))

ValueError: method must be one of ['linear', 'time', 'index', 'values', 'nearest', 'zero', 'slinear', 'quadratic', 'cubic', 'barycentric', 'krogh', 'spline', 'polynomial', 'from_derivatives', 'piecewise_polynomial', 'pchip', 'akima', 'cubicspline']. Got 'guadratic' instead.