#  문자열을 날짜로 변환

In [1]:
import numpy as np
import pandas as pd

In [2]:
date_strings = np.array(['03-04-2023 11:35 PM',
                        '05-04-2023 11:00 PM',
                        '07-04-2023 02:00 AM'])  # 문자열

In [4]:
# Time Stamp 객체로 변경
# 값이 누락되면 에러가 발생함
for date in date_strings:
    temp = pd.to_datetime(date, format = '%d-%m-%Y %I:%M %p')
    # print(temp)
    
# 값이 누락되도 에러가 발생하지 않음
# errors 매개변수 - 오류처리
for date in date_strings:
    temp_value = pd.to_datetime(date, format = '%d-%m-%Y %I:%M %p', errors='ignore')
    print(temp_value)

2023-04-03 23:35:00
2023-04-05 23:00:00
2023-04-07 02:00:00


#  시간대 데이터 처리

In [5]:
import pandas as pd

In [6]:
pd.Timestamp('2023-01-01 06:00:00', tz='Europe/London')  # datetime 만들기
date = pd.Timestamp('2023-04-20 07:00:00')  # datetime 만들기
print(date)

2023-04-20 07:00:00


In [7]:
date_in_london = date.tz_localize('Europe/London')  # 시간대를 지정
print(date_in_london)

2023-04-20 07:00:00+01:00


In [8]:
date_in_london.tz_convert('Africa/Abidjan')  # 시간대를 변환

Timestamp('2023-04-20 06:00:00+0000', tz='Africa/Abidjan')

In [9]:
# 세 개의 날짜를 만듭니다.
dates = pd.Series(pd.date_range('2/2/2023', periods=3, freq='M'))
temp = dates.dt.tz_localize('Africa/Abidjan')  # 시간대 지정
print(temp)

0   2023-02-28 00:00:00+00:00
1   2023-03-31 00:00:00+00:00
2   2023-04-30 00:00:00+00:00
dtype: datetime64[ns, Africa/Abidjan]


# 시간대 데이터 처리 2

In [10]:
import pytz
from pytz import all_timezones
all_timezones[0:2]  # 두 개의 시간대를 확인

['Africa/Abidjan', 'Africa/Accra']

In [11]:
dates.dt.tz_localize('dateutil/Asia/Seoul')

0   2023-02-28 00:00:00+09:00
1   2023-03-31 00:00:00+09:00
2   2023-04-30 00:00:00+09:00
dtype: datetime64[ns, tzfile('ROK')]

In [12]:
tz = pytz.timezone('Asia/Seoul')
temp01 = dates.dt.tz_localize(tz)
print(temp01)

0   2023-02-28 00:00:00+09:00
1   2023-03-31 00:00:00+09:00
2   2023-04-30 00:00:00+09:00
dtype: datetime64[ns, Asia/Seoul]


# 날짜와 시간 선택하기

In [13]:
import pandas as pd

In [14]:
dateframe = pd.DataFrame()
# datetime을 만듭니다.
dateframe['date'] = pd.date_range('1/1/2023', periods=1000, freq='H')  # periods는 만들 개수

In [15]:
# 두 datetime 사이의 샘플을 선택합니다.
dateframe[(dateframe['date'] > '2023-1-1 01:00:00') &
         (dateframe['date'] <= '2023-1-1 04:00:00')]

Unnamed: 0,date
2,2023-01-01 02:00:00
3,2023-01-01 03:00:00
4,2023-01-01 04:00:00


In [16]:
# 새로운 datetime을 만듭니다.
dateframe = dateframe.set_index(dateframe['date'])
temp = dateframe.loc['2023-1-1 01:00:00' : '2023-1-1 04:00:00']
print(temp)

                                   date
date                                   
2023-01-01 01:00:00 2023-01-01 01:00:00
2023-01-01 02:00:00 2023-01-01 02:00:00
2023-01-01 03:00:00 2023-01-01 03:00:00
2023-01-01 04:00:00 2023-01-01 04:00:00


# 날짜 데이터를 여러 특성으로 분할

In [1]:
import pandas as pd

In [2]:
dateframe = pd.DataFrame()

In [3]:
# 5개의 날짜를 만듦
dateframe['date'] = pd.date_range('1/1/2023', periods=5, freq='w')

In [4]:
# 년, 월, 일, 시, 분에 대한 특성을 만듭니다.
dateframe['year'] = dateframe['date'].dt.year
dateframe['month'] = dateframe['date'].dt.month
dateframe['day'] = dateframe['date'].dt.day
dateframe['hour'] = dateframe['date'].dt.hour
dateframe['minute'] = dateframe['date'].dt.minute

print(dateframe.head(3))  # 3개의 행을 확인

        date  year  month  day  hour  minute
0 2023-01-01  2023      1    1     0       0
1 2023-01-08  2023      1    8     0       0
2 2023-01-15  2023      1   15     0       0


# 날짜 간의 차이 계산

In [5]:
import pandas as pd

In [6]:
dateframe = pd.DataFrame()

In [7]:
# 두 datetime 특성을 만듭니다.
dateframe['Arrived'] = [pd.Timestamp('01-01-2023'), pd.Timestamp('01-04-2023')]
dateframe['Left'] = [pd.Timestamp('01-01-2023'), pd.Timestamp('01-06-2023')]

print(dateframe['Arrived'])
print(dateframe['Left'])

0   2023-01-01
1   2023-01-04
Name: Arrived, dtype: datetime64[ns]
0   2023-01-01
1   2023-01-06
Name: Left, dtype: datetime64[ns]


In [8]:
# 특성 사이의 차이를 계산
dateframe['Left'] - dateframe['Arrived']

0   0 days
1   2 days
dtype: timedelta64[ns]

In [9]:
# 특성 간의 기간을 계산
pd.Series(delta.days for delta in (dateframe['Left'] - dateframe['Arrived']))

0    0
1    2
dtype: int64

# 시차 특성

In [10]:
import pandas as pd

In [11]:
dateframe = pd.DataFrame()

# 날짜를 만듭니다.
dateframe['dates'] = pd.date_range("1/1/2023", periods=5, freq='D')
dateframe['stock_price'] = [1.1, 2.2, 3.3, 4.4, 5.5]

In [12]:
# 한 행 뒤의 값을 가져옵니다.
dateframe["previous_days_stock_price"] = dateframe["stock_price"].shift(1)
print(dateframe)

       dates  stock_price  previous_days_stock_price
0 2023-01-01          1.1                        NaN
1 2023-01-02          2.2                        1.1
2 2023-01-03          3.3                        2.2
3 2023-01-04          4.4                        3.3
4 2023-01-05          5.5                        4.4


# 이동 시간 윈도 사용

In [13]:
import pandas as pd

In [14]:
# datetime 생성
time_index = pd.date_range("01/01/2023", periods=5, freq='M')

dateframe = pd.DataFrame(index=time_index)
dateframe['Stock_Price'] = [1, 2, 3, 4, 5]  # 특성을 생성
dateframe.rolling(window=2).mean()  # 이동 평균을 계산
dateframe.ewm(alpha=0.5).mean()
print(dateframe)

            Stock_Price
2023-01-31            1
2023-02-28            2
2023-03-31            3
2023-04-30            4
2023-05-31            5


# 시계열 데이터에서 누락된 값 처리

In [15]:
import pandas as pd
import numpy as np

In [16]:
time_index = pd.date_range("01/01/2023", periods=5, freq="M")
dateframe = pd.DataFrame(index=time_index)

print(dateframe)

Empty DataFrame
Columns: []
Index: [2023-01-31 00:00:00, 2023-02-28 00:00:00, 2023-03-31 00:00:00, 2023-04-30 00:00:00, 2023-05-31 00:00:00]


In [17]:
dateframe['Sales'] = [1.0, 2.0, np.nan, np.nan, 5.0]  #누락값이 있는 특성 생성

dateframe.interpolate()  # 누락된 값을 보간
dateframe.ffill()  # 앞쪽으로 채우기
dateframe.bfill()  # 뒤쪽으로 채우기
dateframe.interpolate(method="quadratic")  # 비선형의 경우 보간 방법
print(dateframe.interpolate(limit=1, limit_direction="forward"))
print(dateframe.interpolate(limit=1, limit_direction="backward"))

            Sales
2023-01-31    1.0
2023-02-28    2.0
2023-03-31    3.0
2023-04-30    NaN
2023-05-31    5.0
            Sales
2023-01-31    1.0
2023-02-28    2.0
2023-03-31    NaN
2023-04-30    4.0
2023-05-31    5.0
