In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import datetime

# 1. axis

- axis=0은 행 방향(가로 방향)으로 동작(책을 쌓아 정리하는 것)
- axis=1은 열 방향으로 동작(책을 옆으로 정리하는 것)

In [2]:
df = sns.load_dataset('titanic')
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [3]:
df[['survived', 'pclass']]

Unnamed: 0,survived,pclass
0,0,3
1,1,1
2,1,3
3,1,1
4,0,3
...,...,...
886,0,2
887,1,1
888,0,3
889,1,1


In [4]:
df[['survived', 'pclass']].sum(axis=0)

survived     342
pclass      2057
dtype: int64

In [5]:
df[['survived', 'pclass']].sum(axis=1)

0      3
1      2
2      4
3      2
4      3
      ..
886    2
887    2
888    3
889    2
890    3
Length: 891, dtype: int64

# 2. reshape

- reshape(-1, 1)의 의미는 2차원 행렬을 만들라는 뜻이다.
- 이때 행의 자리에 위치한 -1의 의미는 남은 배열의 길이와 남은 차원을 추정해 알아서 지정하라는 의미이다.

In [6]:
x = np.arange(12)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [7]:
x.reshape(-1, 1)

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11]])

In [8]:
x.reshape(-1, 2)

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11]])

In [9]:
x.reshape(-1, 3)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [10]:
x.reshape(-1, 6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [11]:
x.reshape(-1, 12)

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11]])

# 3. time series

- `datetime.timedelta()`는 두 날짜의 차이를 계산할 때 사용하는 함수이다.
- timedelta 객체에는 산술 연산자 `+`와 `-`를 사용할 수 있으므로 어떤 날짜에 원하는 기간(일, 시, 분, 초)을 더하거나 뺄 수 있다.
- 오늘로부터 100일 후의 날짜를 얻으려면 100일을 뜻하는 `datetime.timedelta(days=100)`으로 만든 객체가 필요하다.
- timedelta에는 days 외에도 다음 표와 같은 매개변수를 사용할 수 있다.

|항목|설명|
|:---|:---|
|days|일|
|seconds|초|
|microseconds|마이크로 초|
|millseconds|밀리 초|
|hours|시간|
|weeks|주|

In [12]:
today = datetime.date.today()
today

datetime.date(2023, 6, 7)

In [13]:
diff_days = datetime.timedelta(days=100)
diff_days

datetime.timedelta(days=100)

In [14]:
today + diff_days

datetime.date(2023, 9, 15)

In [15]:
today - diff_days

datetime.date(2023, 2, 27)

## 3-1. 특정시간/기간 필터링

- `at_time` 메서드는 시계열로 이루어진 인덱스에서 시간 기준으로 필터링하는 메서드이다.
- `between_time` 메서드는 시계열 데이터에서 특정 시간대의 값을 필터링하는 메서드이다.

In [16]:
# 2023-01-01을 시작으로 10개의 기간(간격 6H) 데이터 생성
i = pd.date_range('2023-01-01', periods=10, freq='6H')
df = pd.DataFrame({'co1': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}, index=i)
df

Unnamed: 0,co1
2023-01-01 00:00:00,1
2023-01-01 06:00:00,2
2023-01-01 12:00:00,3
2023-01-01 18:00:00,4
2023-01-02 00:00:00,5
2023-01-02 06:00:00,6
2023-01-02 12:00:00,7
2023-01-02 18:00:00,8
2023-01-03 00:00:00,9
2023-01-03 06:00:00,10


In [17]:
df.at_time('06:00')

Unnamed: 0,co1
2023-01-01 06:00:00,2
2023-01-02 06:00:00,6
2023-01-03 06:00:00,10


In [18]:
# 2023-01-01을 시작으로 10개의 기간(간격 1H) 데이터 생성
i = pd.date_range('2023-01-01', periods=10, freq='1H')
df = pd.DataFrame({'co1': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}, index=i)
df

Unnamed: 0,co1
2023-01-01 00:00:00,1
2023-01-01 01:00:00,2
2023-01-01 02:00:00,3
2023-01-01 03:00:00,4
2023-01-01 04:00:00,5
2023-01-01 05:00:00,6
2023-01-01 06:00:00,7
2023-01-01 07:00:00,8
2023-01-01 08:00:00,9
2023-01-01 09:00:00,10


In [19]:
df.between_time(start_time='03:00', end_time='06:00')

Unnamed: 0,co1
2023-01-01 03:00:00,4
2023-01-01 04:00:00,5
2023-01-01 05:00:00,6
2023-01-01 06:00:00,7


In [20]:
df.between_time(start_time='03:00', end_time='06:00', include_start=False, include_end=False)

  df.between_time(start_time='03:00', end_time='06:00', include_start=False, include_end=False)


Unnamed: 0,co1
2023-01-01 04:00:00,5
2023-01-01 05:00:00,6


In [21]:
# start_time을 end_time보다 늦은 시간으로 둘 경우, 두 시간사이를 제외한 값을 출력
df.between_time(start_time='06:00',end_time='03:00')

Unnamed: 0,co1
2023-01-01 00:00:00,1
2023-01-01 01:00:00,2
2023-01-01 02:00:00,3
2023-01-01 03:00:00,4
2023-01-01 06:00:00,7
2023-01-01 07:00:00,8
2023-01-01 08:00:00,9
2023-01-01 09:00:00,10


## 3-2. 처음/끝 특정기간 필터링 (first / last)

- `first/last` 메서드는 시계열 데이터에서 처음/끝 값으로부터 특정 기간만큼의 데이터를 필터링하는 메서드이다.

In [22]:
# 2023-01-01을 시작으로 10개의 기간(간격 3D) 데이터 생성
i = pd.date_range('2023-01-01', periods=10, freq='3D')
df = pd.DataFrame({'co1': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}, index=i)
df

Unnamed: 0,co1
2023-01-01,1
2023-01-04,2
2023-01-07,3
2023-01-10,4
2023-01-13,5
2023-01-16,6
2023-01-19,7
2023-01-22,8
2023-01-25,9
2023-01-28,10


In [23]:
# 첫 날짜 기준으로 4일 간의 데이터를 필터링
df.first('4D')

Unnamed: 0,co1
2023-01-01,1
2023-01-04,2


In [24]:
# 마지막 날짜 기준으로 4일 간의 데이터를 필터링
df.last('4D')

Unnamed: 0,co1
2023-01-25,9
2023-01-28,10


## 3-3. Timezone

- `tz_convert` 메서드는 시간대를 다른 시단대로 변경하는 메서드이다.
- `tz_localize` 메서드는 현재의 시간을 시간대로 현지화하는 메서드이다.
- TimeStamp나 DateRange를 생성할 때 tz인수를 입력하는것과 만들어진 객체에 `tz_localize` 인수를 통해 시간대를 설정하는것은 동일한 결과를 가진다.

In [25]:
dr = pd.date_range(start='2021-12-29 09:00', freq='H', periods=4, tz='US/Eastern')
df = pd.DataFrame(index=dr, data={'Seoul':[0, 0, 0, 0],'None':[0, 0, 0, 0]})
df

Unnamed: 0,Seoul,None
2021-12-29 09:00:00-05:00,0,0
2021-12-29 10:00:00-05:00,0,0
2021-12-29 11:00:00-05:00,0,0
2021-12-29 12:00:00-05:00,0,0


In [26]:
data1 = dr.tz_convert('Asia/Seoul')
# None을 입력할 경우 표준시간대가 삭제됨
data2 = dr.tz_convert(None)

df = pd.DataFrame(data={'Seoul': data1, 'None': data2}, index=dr)
df

Unnamed: 0,Seoul,None
2021-12-29 09:00:00-05:00,2021-12-29 23:00:00+09:00,2021-12-29 14:00:00
2021-12-29 10:00:00-05:00,2021-12-30 00:00:00+09:00,2021-12-29 15:00:00
2021-12-29 11:00:00-05:00,2021-12-30 01:00:00+09:00,2021-12-29 16:00:00
2021-12-29 12:00:00-05:00,2021-12-30 02:00:00+09:00,2021-12-29 17:00:00


In [27]:
dr = pd.date_range(start='2021-12-29 09:00', freq='H', periods=4)
df = pd.DataFrame(index=dr, data={'Seoul':[0, 0, 0, 0],'None':[0, 0, 0, 0]})
df

Unnamed: 0,Seoul,None
2021-12-29 09:00:00,0,0
2021-12-29 10:00:00,0,0
2021-12-29 11:00:00,0,0
2021-12-29 12:00:00,0,0


In [28]:
# data1 = dr.tz_convert('Asia/Seoul') 
# 기존 시간대가 지정되어있지 않기 때문에 tz_convert를 진행하지 못함

In [29]:
dr = pd.date_range(start='2021-12-29 09:00', freq='H', periods=4)
dr = dr.tz_localize('US/Eastern')
df = pd.DataFrame(index=dr, data={'Seoul': [0, 0, 0, 0], 'None': [0, 0, 0, 0]})
df

Unnamed: 0,Seoul,None
2021-12-29 09:00:00-05:00,0,0
2021-12-29 10:00:00-05:00,0,0
2021-12-29 11:00:00-05:00,0,0
2021-12-29 12:00:00-05:00,0,0


In [30]:
data1 = dr.tz_convert('Asia/Seoul')
data2 = dr.tz_convert(None)
df = pd.DataFrame(data={'Seoul': data1, 'None': data2}, index=dr)
df

Unnamed: 0,Seoul,None
2021-12-29 09:00:00-05:00,2021-12-29 23:00:00+09:00,2021-12-29 14:00:00
2021-12-29 10:00:00-05:00,2021-12-30 00:00:00+09:00,2021-12-29 15:00:00
2021-12-29 11:00:00-05:00,2021-12-30 01:00:00+09:00,2021-12-29 16:00:00
2021-12-29 12:00:00-05:00,2021-12-30 02:00:00+09:00,2021-12-29 17:00:00


## 3-4. Timestamp

- `to_timestamp`는 주기의 시작값으로 타임스탬프의 DatetimeIndex로 캐스트하는 메서드이다.

In [31]:
period = pd.period_range(start='2021-10-04 00:00:00', end='2021-10-04 01:00:00', freq='30T')

In [32]:
df = pd.DataFrame(data=range(len(period)), index=period)
df

Unnamed: 0,0
2021-10-04 00:00,0
2021-10-04 00:30,1
2021-10-04 01:00,2


In [33]:
df.to_timestamp(freq='S', how='start')

Unnamed: 0,0
2021-10-04 00:00:00,0
2021-10-04 00:30:00,1
2021-10-04 01:00:00,2


In [34]:
df.to_timestamp(freq='T', how='start')

Unnamed: 0,0
2021-10-04 00:00:00,0
2021-10-04 00:30:00,1
2021-10-04 01:00:00,2


In [35]:
df.to_timestamp(freq='H', how='start')

Unnamed: 0,0
2021-10-04 00:00:00,0
2021-10-04 00:00:00,1
2021-10-04 01:00:00,2


In [36]:
df.to_timestamp(freq='D', how='start')

Unnamed: 0,0
2021-10-04,0
2021-10-04,1
2021-10-04,2


In [37]:
df.to_timestamp(freq='M', how='start')

Unnamed: 0,0
2021-10-31,0
2021-10-31,1
2021-10-31,2


In [38]:
df.to_timestamp(freq='Y', how='start')

Unnamed: 0,0
2021-12-31,0
2021-12-31,1
2021-12-31,2


In [39]:
print(df.to_timestamp(freq='T', how='start'))
print(df.to_timestamp(freq='T', how='end'))

                     0
2021-10-04 00:00:00  0
2021-10-04 00:30:00  1
2021-10-04 01:00:00  2
                               0
2021-10-04 00:29:59.999999999  0
2021-10-04 00:59:59.999999999  1
2021-10-04 01:29:59.999999999  2


## 3-5. 인덱스 나누기 (리샘플링)

- `asfreq`는 Datatime Index를 원하는 주기로 나누어주는 메서드이다.
- 이러한 방식을 리샘플링이라고 한다.
- `normalizse` 인수를 통해 시간기준을 자정(00:00:00)으로 고정할 수 있다.

In [40]:
idx = pd.date_range('2021-12-30', periods=3, freq='min')
df = pd.DataFrame(index=idx, data=[1, None, 3], columns=['col'])
df

Unnamed: 0,col
2021-12-30 00:00:00,1.0
2021-12-30 00:01:00,
2021-12-30 00:02:00,3.0


In [41]:
# 1분 간격의 데이터를 30초 간격으로 리샘플링
df.asfreq(freq='30S')

Unnamed: 0,col
2021-12-30 00:00:00,1.0
2021-12-30 00:00:30,
2021-12-30 00:01:00,
2021-12-30 00:01:30,
2021-12-30 00:02:00,3.0


In [42]:
# 뒤의 값으로 결측치 채우기
df.asfreq(freq='30S', method='bfill')

Unnamed: 0,col
2021-12-30 00:00:00,1.0
2021-12-30 00:00:30,
2021-12-30 00:01:00,
2021-12-30 00:01:30,3.0
2021-12-30 00:02:00,3.0


In [43]:
# 앞의 값으로 결측치 채우기
df.asfreq(freq='30S', method='ffill')

Unnamed: 0,col
2021-12-30 00:00:00,1.0
2021-12-30 00:00:30,1.0
2021-12-30 00:01:00,
2021-12-30 00:01:30,
2021-12-30 00:02:00,3.0


In [44]:
# fill_value를 입력하여 결측치 채우기
df.asfreq(freq='30S', fill_value='-')

Unnamed: 0,col
2021-12-30 00:00:00,1.0
2021-12-30 00:00:30,-
2021-12-30 00:01:00,
2021-12-30 00:01:30,-
2021-12-30 00:02:00,3.0


In [45]:
# 자정 기준으로 변경
idx = pd.date_range('2021-12-20', periods=3, freq='D')
df = pd.DataFrame(index=idx, data=[1, 2, 3], columns=['col'])
df

Unnamed: 0,col
2021-12-20,1
2021-12-21,2
2021-12-22,3


In [46]:
# 8시간 기준으로 리샘플링
df.asfreq(freq='8H')

Unnamed: 0,col
2021-12-20 00:00:00,1.0
2021-12-20 08:00:00,
2021-12-20 16:00:00,
2021-12-21 00:00:00,2.0
2021-12-21 08:00:00,
2021-12-21 16:00:00,
2021-12-22 00:00:00,3.0


In [47]:
# 시간대를 자정으로 고정
df.asfreq(freq='8H', normalize=True)

Unnamed: 0,col
2021-12-20,1.0
2021-12-20,
2021-12-20,
2021-12-21,2.0
2021-12-21,
2021-12-21,
2021-12-22,3.0


## 3-6. 기간/데이터 쉬프트 (shift)

- `shift` 메서드는 시계열 데이터의 데이터나 인덱스를 원하는 기간만큼 쉬프트 하는 메서드이다.
- `freq` 인수를 입력하지 않으면 데이터가 이동하고, 인수값을 입력하게 되면 인덱스가 `freq` 값 만큼 이동하게 된다.
- `freq` 인수를 설정해주면, 데이터가 아닌 인덱스가 `freq`에 입력한 값 만큼 쉬프트 된다.
- `freq='infer'`인 경우, 현재 인덱스의 간격을 분석해서 적당한 `freq`를 추론해준다.

In [48]:
idx = pd.date_range(start='2022-01-01', periods=5, freq='2D')
data = {'col1':[10, 20, 30, 40, 50], 'col2':[1, 3, 6, 7, 9], 'col3':[43, 13, 82, 47, 31]}
df = pd.DataFrame(data=data, index=idx)
df

Unnamed: 0,col1,col2,col3
2022-01-01,10,1,43
2022-01-03,20,3,13
2022-01-05,30,6,82
2022-01-07,40,7,47
2022-01-09,50,9,31


In [49]:
# period 인수를 입력할 경우 데이터가 행 기준으로 이동
df.shift(periods=2)

Unnamed: 0,col1,col2,col3
2022-01-01,,,
2022-01-03,,,
2022-01-05,10.0,1.0,43.0
2022-01-07,20.0,3.0,13.0
2022-01-09,30.0,6.0,82.0


In [50]:
df.shift(periods=2, axis=1)

Unnamed: 0,col1,col2,col3
2022-01-01,,,10
2022-01-03,,,20
2022-01-05,,,30
2022-01-07,,,40
2022-01-09,,,50


In [51]:
# fill_value 인수를 사용하면, shift되면서 NaN처리된 결측치를 원하는 값으로 채울 수 있다
df.shift(periods=2, axis=1, fill_value='-')

Unnamed: 0,col1,col2,col3
2022-01-01,-,-,10
2022-01-03,-,-,20
2022-01-05,-,-,30
2022-01-07,-,-,40
2022-01-09,-,-,50


In [52]:
df

Unnamed: 0,col1,col2,col3
2022-01-01,10,1,43
2022-01-03,20,3,13
2022-01-05,30,6,82
2022-01-07,40,7,47
2022-01-09,50,9,31


In [53]:
df.shift(periods=3, freq='D')

Unnamed: 0,col1,col2,col3
2022-01-04,10,1,43
2022-01-06,20,3,13
2022-01-08,30,6,82
2022-01-10,40,7,47
2022-01-12,50,9,31


In [54]:
df.shift(periods=3, freq='infer')

Unnamed: 0,col1,col2,col3
2022-01-07,10,1,43
2022-01-09,20,3,13
2022-01-11,30,6,82
2022-01-13,40,7,47
2022-01-15,50,9,31


## 3-7. Period

- `to_period` 메서드는 DatetimeIndex를 PeriodIndex로 변환하는 메서드이다.
- `freq` 값을 지정하여 원하는 시간 간격으로 출력이 가능하다.

In [55]:
idx = pd.date_range(start='2021-08-01', periods=5, freq='45D')

In [56]:
idx.to_period('Y')

PeriodIndex(['2021', '2021', '2021', '2021', '2022'], dtype='period[A-DEC]')

In [57]:
idx.to_period('M')

PeriodIndex(['2021-08', '2021-09', '2021-10', '2021-12', '2022-01'], dtype='period[M]')

In [58]:
idx.to_period('W')

PeriodIndex(['2021-07-26/2021-08-01', '2021-09-13/2021-09-19',
             '2021-10-25/2021-10-31', '2021-12-13/2021-12-19',
             '2022-01-24/2022-01-30'],
            dtype='period[W-SUN]')

In [59]:
idx.to_period('H')

PeriodIndex(['2021-08-01 00:00', '2021-09-15 00:00', '2021-10-30 00:00',
             '2021-12-14 00:00', '2022-01-28 00:00'],
            dtype='period[H]')