# Time Series Basics

## Importing Time Series Data from csv-Files

In [1]:
import pandas as pd

In [2]:
temp = pd.read_csv("temp.csv")

In [3]:
temp.head()

Unnamed: 0,datetime,LA,NY
0,2013-01-01 00:00:00,11.7,-1.1
1,2013-01-01 01:00:00,10.7,-1.7
2,2013-01-01 02:00:00,9.9,-2.0
3,2013-01-01 03:00:00,9.3,-2.1
4,2013-01-01 04:00:00,8.8,-2.3


In [4]:
# info()로 메타정보를 구하기
temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35064 entries, 0 to 35063
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   datetime  35064 non-null  object 
 1   LA        35062 non-null  float64
 2   NY        35064 non-null  float64
dtypes: float64(2), object(1)
memory usage: 821.9+ KB


문제1: datetime 열에 특정 datetime 자료형이 없음
- 문자열로 시작하는 데이터 정보를 datetime 자료형 포맷으로 변경할 수 있음
- 데이터프레임을 임포트할 때 즉시 실행 가능
- read_csv() 메소드가 datetime 정보를 임포트하는 몇 개의 변수를 제공해줌
  - parse_dates= ["datetime"] <- 변환하려는 문자열을 입력
    - Boolean 값을 True로 입력하면 판다스가 인덱스를 datetime 포맷으로 분석함
    - 현재 가지고 있는 range 인덱스에는 datetime정보가 없음
      - 정수나 이름 리스트를 입력할 수 있음, 열에 대한 인덱스 위치 리스트나 열 레이블을 입력하면 됨

In [5]:
temp = pd.read_csv("temp.csv", parse_dates = ["datetime"])

In [6]:
# datetime 자료형이 객체에서 datetime64로 변경되었음
# 대괄호 안의 ns는 나노초를 의미
temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35064 entries, 0 to 35063
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   datetime  35064 non-null  datetime64[ns]
 1   LA        35062 non-null  float64       
 2   NY        35064 non-null  float64       
dtypes: datetime64[ns](1), float64(2)
memory usage: 821.9 KB


In [7]:
temp.head()

Unnamed: 0,datetime,LA,NY
0,2013-01-01 00:00:00,11.7,-1.1
1,2013-01-01 01:00:00,10.7,-1.7
2,2013-01-01 02:00:00,9.9,-2.0
3,2013-01-01 03:00:00,9.3,-2.1
4,2013-01-01 04:00:00,8.8,-2.3


In [8]:
# datetime 열의 한 요소를 슬라이스하거나, iloc 연산자로 첫 번째 성분을 선택할 수 있음
temp.iloc[0,0]


Timestamp('2013-01-01 00:00:00')

In [9]:
# 자료형 확인
type(temp.iloc[0, 0])

pandas._libs.tslibs.timestamps.Timestamp

In [10]:
# 인덱스로 갖고 싶은 열에 대한 열 레이블을 입력하기
temp = pd.read_csv("temp.csv", parse_dates = ["datetime"], index_col="datetime")

In [11]:
temp.head()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-01 00:00:00,11.7,-1.1
2013-01-01 01:00:00,10.7,-1.7
2013-01-01 02:00:00,9.9,-2.0
2013-01-01 03:00:00,9.3,-2.1
2013-01-01 04:00:00,8.8,-2.3


In [12]:
temp.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 35064 entries, 2013-01-01 00:00:00 to 2016-12-31 23:00:00
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   LA      35062 non-null  float64
 1   NY      35064 non-null  float64
dtypes: float64(2)
memory usage: 821.8 KB


In [13]:
temp.index

DatetimeIndex(['2013-01-01 00:00:00', '2013-01-01 01:00:00',
               '2013-01-01 02:00:00', '2013-01-01 03:00:00',
               '2013-01-01 04:00:00', '2013-01-01 05:00:00',
               '2013-01-01 06:00:00', '2013-01-01 07:00:00',
               '2013-01-01 08:00:00', '2013-01-01 09:00:00',
               ...
               '2016-12-31 14:00:00', '2016-12-31 15:00:00',
               '2016-12-31 16:00:00', '2016-12-31 17:00:00',
               '2016-12-31 18:00:00', '2016-12-31 19:00:00',
               '2016-12-31 20:00:00', '2016-12-31 21:00:00',
               '2016-12-31 22:00:00', '2016-12-31 23:00:00'],
              dtype='datetime64[ns]', name='datetime', length=35064, freq=None)

In [14]:
# 인덱스의 단일 성분 선택하기
temp.index[0]

Timestamp('2013-01-01 00:00:00')

## Converting strings to datetime objects with pd.to_datetime()

1. 열의 데이터 타입을 datetime으로 바꾸기 
   1. pandas의 to_datetime 메소드를 사용
2. 열을 데이터프레임의 인덱스로 설정
   1. set_index 메소드 사용

In [15]:
temp = pd.read_csv("temp.csv")
temp.head()

Unnamed: 0,datetime,LA,NY
0,2013-01-01 00:00:00,11.7,-1.1
1,2013-01-01 01:00:00,10.7,-1.7
2,2013-01-01 02:00:00,9.9,-2.0
3,2013-01-01 03:00:00,9.3,-2.1
4,2013-01-01 04:00:00,8.8,-2.3


In [16]:
# datetime 열의 데이터 타입은 object
temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35064 entries, 0 to 35063
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   datetime  35064 non-null  object 
 1   LA        35062 non-null  float64
 2   NY        35064 non-null  float64
dtypes: float64(2), object(1)
memory usage: 821.9+ KB


In [17]:
# datetime 데이터를 호출하여 보면, 테이터 타입은 객 
temp.datetime

0        2013-01-01 00:00:00
1        2013-01-01 01:00:00
2        2013-01-01 02:00:00
3        2013-01-01 03:00:00
4        2013-01-01 04:00:00
                ...         
35059    2016-12-31 19:00:00
35060    2016-12-31 20:00:00
35061    2016-12-31 21:00:00
35062    2016-12-31 22:00:00
35063    2016-12-31 23:00:00
Name: datetime, Length: 35064, dtype: object

In [18]:
# 판다스 시리즈 열에서는 요소 1개를 선택할 수 있음
# 요소 1개를 선택해서 보면 문자열로 나옴
temp.datetime[0]

'2013-01-01 00:00:00'

In [19]:
# pandas의 to_datetime메소드를 사용하여 열의 데이터 타입을 datetime으로 변환하기
# 데이터타입이 datetime64로 변환되었음
pd.to_datetime(temp.datetime)

0       2013-01-01 00:00:00
1       2013-01-01 01:00:00
2       2013-01-01 02:00:00
3       2013-01-01 03:00:00
4       2013-01-01 04:00:00
                ...        
35059   2016-12-31 19:00:00
35060   2016-12-31 20:00:00
35061   2016-12-31 21:00:00
35062   2016-12-31 22:00:00
35063   2016-12-31 23:00:00
Name: datetime, Length: 35064, dtype: datetime64[ns]

datetime 열을 전체 데이터프레임의 datetime 인덱스로 변환하기
1. pandas의 to_datetime()메소드를 사용

In [20]:
# range 인덱스가 아니라 datetime이 있음
temp.set_index(pd.to_datetime(temp.datetime))

Unnamed: 0_level_0,datetime,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2013-01-01 00:00:00,2013-01-01 00:00:00,11.7,-1.1
2013-01-01 01:00:00,2013-01-01 01:00:00,10.7,-1.7
2013-01-01 02:00:00,2013-01-01 02:00:00,9.9,-2.0
2013-01-01 03:00:00,2013-01-01 03:00:00,9.3,-2.1
2013-01-01 04:00:00,2013-01-01 04:00:00,8.8,-2.3
...,...,...,...
2016-12-31 19:00:00,2016-12-31 19:00:00,13.5,4.6
2016-12-31 20:00:00,2016-12-31 20:00:00,13.2,5.7
2016-12-31 21:00:00,2016-12-31 21:00:00,12.8,5.8
2016-12-31 22:00:00,2016-12-31 22:00:00,12.3,5.7


In [21]:
# datetime열도 아직 존재하여 열은 삭제해야 함
temp.set_index(pd.to_datetime(temp.datetime)).drop("datetime", axis = 1)

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-01 00:00:00,11.7,-1.1
2013-01-01 01:00:00,10.7,-1.7
2013-01-01 02:00:00,9.9,-2.0
2013-01-01 03:00:00,9.3,-2.1
2013-01-01 04:00:00,8.8,-2.3
...,...,...
2016-12-31 19:00:00,13.5,4.6
2016-12-31 20:00:00,13.2,5.7
2016-12-31 21:00:00,12.8,5.8
2016-12-31 22:00:00,12.3,5.7


In [22]:
# temp 변수에 덮어쓰기
temp = temp.set_index(pd.to_datetime(temp.datetime)).drop("datetime", axis = 1)


In [23]:
temp.head()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-01 00:00:00,11.7,-1.1
2013-01-01 01:00:00,10.7,-1.7
2013-01-01 02:00:00,9.9,-2.0
2013-01-01 03:00:00,9.3,-2.1
2013-01-01 04:00:00,8.8,-2.3


In [24]:
temp.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 35064 entries, 2013-01-01 00:00:00 to 2016-12-31 23:00:00
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   LA      35062 non-null  float64
 1   NY      35064 non-null  float64
dtypes: float64(2)
memory usage: 821.8 KB


In [25]:
temp.index[0]

Timestamp('2013-01-01 00:00:00')

In [26]:
# 판다스의 datetime은 여러가지 형식을 사용할 수 있음
# 가장 일반적인 형식은 YYYY-MM-DD 
# 시간 정보는 기본적으로 자정으로 가정함
pd.to_datetime("2015-05-20 10:30:20")

Timestamp('2015-05-20 10:30:20')

In [27]:
# 분리기호 없는 형식 YYYYMMDD
pd.to_datetime("20150520")

Timestamp('2015-05-20 00:00:00')

In [28]:
pd.to_datetime("2015/05/20")

Timestamp('2015-05-20 00:00:00')

In [29]:
pd.to_datetime("2015 05 20")

Timestamp('2015-05-20 00:00:00')

In [30]:
# 기본적으로 연월일을 일렬로 입력
# 아래와 같이 일과 월을 반대로 쓰면 문제 발생
#pd.to_datetime("2015-20-05")

In [31]:
# 월을 May와 같은 방식으로 써도 됨, 위치 상관없음
pd.to_datetime("2015 May 20")

Timestamp('2015-05-20 00:00:00')

In [32]:
pd.to_datetime("May 2015 20")

Timestamp('2015-05-20 00:00:00')

In [33]:
pd.to_datetime("2015 20th may")

Timestamp('2015-05-20 00:00:00')

In [34]:
# 2개 이상의 타임스탬프를 입력 시 DatetimeIndex가 출력
pd.to_datetime(["2015-05-20", "Feb 20 2015"])

DatetimeIndex(['2015-05-20', '2015-02-20'], dtype='datetime64[ns]', freq=None)

In [35]:
# 리스트에서 1개라도 날짜가 아니면 판다스에서 변환하지 않음
# pd.to_datetime(["2015-05-20", "Feb 20 2015", "Elephant"])

In [36]:
# 리스트에서 1개라도 날짜가 아니면 판다스에서 변환하지 않음
# 파라미터 errors: 
# 기본값은 raise - 유효하지 않은 정보가 들어오면 예외가 발생(에러 메시지)
# coerce - 유효하지 않은 정보는 NAT(Not A Time)으로 설정됨
pd.to_datetime(["2015-05-20", "Feb 20 2015", "Elephant"], errors="coerce")

DatetimeIndex(['2015-05-20', '2015-02-20', 'NaT'], dtype='datetime64[ns]', freq=None)

## Indexing and Slicing Time Series

시계열을 인덱싱하고 슬라이싱 하기 위해서는 데어터프레임에 datetime 인덱스가 있어야 함


In [37]:
temp = pd.read_csv("temp.csv", parse_dates= ["datetime"], index_col= "datetime")
temp.head()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-01 00:00:00,11.7,-1.1
2013-01-01 01:00:00,10.7,-1.7
2013-01-01 02:00:00,9.9,-2.0
2013-01-01 03:00:00,9.3,-2.1
2013-01-01 04:00:00,8.8,-2.3


In [38]:
temp.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 35064 entries, 2013-01-01 00:00:00 to 2016-12-31 23:00:00
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   LA      35062 non-null  float64
 1   NY      35064 non-null  float64
dtypes: float64(2)
memory usage: 821.8 KB


In [39]:
# 인덱스 레이블을 선택하기
# 인덱스 열의 타임스탬프를 문자열로 입력하여 데이터 호출
temp.loc["2013-01-01 01:00:00"]

LA    10.7
NY    -1.7
Name: 2013-01-01 01:00:00, dtype: float64

In [40]:
# 연도만 입력하여 연간 데이터 출력하기
temp.loc["2015"]

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-01-01 00:00:00,3.8,-5.1
2015-01-01 01:00:00,4.4,-5.1
2015-01-01 02:00:00,3.2,-6.0
2015-01-01 03:00:00,1.2,-6.0
2015-01-01 04:00:00,0.2,-6.0
...,...,...
2015-12-31 19:00:00,16.0,8.1
2015-12-31 20:00:00,16.0,8.1
2015-12-31 21:00:00,16.4,7.9
2015-12-31 22:00:00,16.6,7.2


In [41]:
# 월 정보를 입력하여 월건 데이터 출력하기
temp.loc["2015-05"]

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-05-01 00:00:00,25.5,13.9
2015-05-01 01:00:00,25.7,13.9
2015-05-01 02:00:00,23.8,10.5
2015-05-01 03:00:00,22.0,10.2
2015-05-01 04:00:00,20.1,8.6
...,...,...
2015-05-31 19:00:00,25.4,25.5
2015-05-31 20:00:00,26.0,23.9
2015-05-31 21:00:00,24.9,22.5
2015-05-31 22:00:00,26.0,21.3


In [42]:
# 일간 정보의 shape 확인하기
temp.loc["2015-05-20"].shape

(24, 2)

In [43]:
temp.loc["2015-05-20 10:00:00"]

LA     7.8
NY    13.3
Name: 2015-05-20 10:00:00, dtype: float64

In [44]:
# 현재 데이터는 시간단위 타임스탬프이기 때문에 초단위 설정을 하면 오류가 남
# temp.loc["2015-05-20 10:30:00"]

In [45]:
temp.loc["2015-01-01" : "2015-12-31"]

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-01-01 00:00:00,3.8,-5.1
2015-01-01 01:00:00,4.4,-5.1
2015-01-01 02:00:00,3.2,-6.0
2015-01-01 03:00:00,1.2,-6.0
2015-01-01 04:00:00,0.2,-6.0
...,...,...
2015-12-31 19:00:00,16.0,8.1
2015-12-31 20:00:00,16.0,8.1
2015-12-31 21:00:00,16.4,7.9
2015-12-31 22:00:00,16.6,7.2


In [46]:
# 2015년 1월1일부터 12월 31일까지는 2015년을 검색하는 것과 같음
# equal 메소드로 확인하면 True가 나와야 함
temp.loc["2015-01-01" : "2015-12-31"].equals(temp.loc["2015"])

True

In [47]:
temp.loc["2015-04-15" : "2016-02-23"]

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-04-15 00:00:00,19.1,12.8
2015-04-15 01:00:00,20.0,12.0
2015-04-15 02:00:00,17.7,11.3
2015-04-15 03:00:00,15.5,11.2
2015-04-15 04:00:00,13.3,10.4
...,...,...
2016-02-23 19:00:00,23.4,2.6
2016-02-23 20:00:00,23.4,2.2
2016-02-23 21:00:00,26.8,2.2
2016-02-23 22:00:00,26.8,2.0


In [48]:
temp.loc["2015-05-20":]

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-05-20 00:00:00,17.7,19.8
2015-05-20 01:00:00,18.0,19.7
2015-05-20 02:00:00,16.6,19.0
2015-05-20 03:00:00,14.4,19.0
2015-05-20 04:00:00,13.3,19.7
...,...,...
2016-12-31 19:00:00,13.5,4.6
2016-12-31 20:00:00,13.2,5.7
2016-12-31 21:00:00,12.8,5.8
2016-12-31 22:00:00,12.3,5.7


In [49]:
temp.loc[:"2015-05-20"]

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-01 00:00:00,11.7,-1.1
2013-01-01 01:00:00,10.7,-1.7
2013-01-01 02:00:00,9.9,-2.0
2013-01-01 03:00:00,9.3,-2.1
2013-01-01 04:00:00,8.8,-2.3
...,...,...
2015-05-20 19:00:00,17.7,18.1
2015-05-20 20:00:00,18.4,17.8
2015-05-20 21:00:00,18.0,17.8
2015-05-20 22:00:00,19.1,14.2


In [50]:
temp.loc["20FEBRUARY2015"]

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-02-20 00:00:00,16.4,-12.4
2015-02-20 01:00:00,17.5,-12.4
2015-02-20 02:00:00,14.6,-14.5
2015-02-20 03:00:00,13.9,-14.5
2015-02-20 04:00:00,10.3,-14.5
2015-02-20 05:00:00,8.9,-15.9
2015-02-20 06:00:00,9.0,-15.9
2015-02-20 07:00:00,7.1,-15.9
2015-02-20 08:00:00,6.6,-16.8
2015-02-20 09:00:00,6.3,-16.8


In [51]:
# 여러 개의 타임스템프를 선택하는 것은 안 됨
# 이경우 to_datetime() 메소드로 datetime 인텍스로 먼저 바꾸어야 함
# 구해진 DatetimeIndex를 출력하면 여러 개의 타임스탬프를 얻을 수 있음
#temp.loc[["2015-05-20 10:00:00", "2015-05-20 12:00:00"]]

In [52]:
two_timestamps = pd.to_datetime(["2015-05-20 10:00:00", "2015-05-20 12:00:00"])
two_timestamps

DatetimeIndex(['2015-05-20 10:00:00', '2015-05-20 12:00:00'], dtype='datetime64[ns]', freq=None)

In [53]:
temp.loc[two_timestamps]

Unnamed: 0,LA,NY
2015-05-20 10:00:00,7.8,13.3
2015-05-20 12:00:00,9.7,13.6


## Downsampling Time Series with resample()

주기가 짧은 데이터를 시각화하면 지저분한 화면을 얻게 됨
일반적으로 짧은 주기의 데이터는 넓은 주기가 되도록 합침

In [54]:
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use("seaborn")

In [55]:
temp = pd.read_csv("temp.csv", parse_dates= ["datetime"], index_col = "datetime")
temp.head()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-01 00:00:00,11.7,-1.1
2013-01-01 01:00:00,10.7,-1.7
2013-01-01 02:00:00,9.9,-2.0
2013-01-01 03:00:00,9.3,-2.1
2013-01-01 04:00:00,8.8,-2.3


In [56]:
temp.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 35064 entries, 2013-01-01 00:00:00 to 2016-12-31 23:00:00
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   LA      35062 non-null  float64
 1   NY      35064 non-null  float64
dtypes: float64(2)
memory usage: 821.8 KB


In [57]:
# resample 메소드는 groupby 메소드와 매우 비슷한 방식으로 동작함
# resample 메소드가 실제로 하는 일은 데이터프레임에 있는 모든 타임스탬프들을 각각 그룹으로 묶음
# - 이 경우는 일별 그룹
# 그룹을 만들고, 그 그룹에 해당하는 날의 모든 타임스탬프가 들어감
temp.resample("D")

<pandas.core.resample.DatetimeIndexResampler object at 0x00000259A3F91C30>

In [58]:
# groupby 객체와 마찬가지로 DatetimeIndexResampler 객체도 list()를 사용하여 리스트로 변환할 수 있음 
list(temp.resample("D"))[0]

(Timestamp('2013-01-01 00:00:00', freq='D'),
                        LA   NY
 datetime                      
 2013-01-01 00:00:00  11.7 -1.1
 2013-01-01 01:00:00  10.7 -1.7
 2013-01-01 02:00:00   9.9 -2.0
 2013-01-01 03:00:00   9.3 -2.1
 2013-01-01 04:00:00   8.8 -2.3
 2013-01-01 05:00:00   8.7 -2.5
 2013-01-01 06:00:00   6.9 -3.2
 2013-01-01 07:00:00   7.8 -3.4
 2013-01-01 08:00:00   6.7 -3.0
 2013-01-01 09:00:00   6.6 -1.8
 2013-01-01 10:00:00   6.1 -1.4
 2013-01-01 11:00:00   5.6 -1.8
 2013-01-01 12:00:00   5.1 -1.7
 2013-01-01 13:00:00   5.2 -1.5
 2013-01-01 14:00:00   4.6 -1.0
 2013-01-01 15:00:00   5.1 -0.0
 2013-01-01 16:00:00   6.2  1.2
 2013-01-01 17:00:00   9.3  2.2
 2013-01-01 18:00:00  11.4  3.3
 2013-01-01 19:00:00  12.0  3.5
 2013-01-01 20:00:00  12.9  3.1
 2013-01-01 21:00:00  13.9  2.4
 2013-01-01 22:00:00  14.1  2.4
 2013-01-01 23:00:00  14.0  2.7)

In [59]:
# groupby 객체와 마찬가지로 DatetimeIndexResampler 객체도 list()를 사용하여 리스트로 변환할 수 있음 
list(temp.resample("D"))[0][1]

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-01 00:00:00,11.7,-1.1
2013-01-01 01:00:00,10.7,-1.7
2013-01-01 02:00:00,9.9,-2.0
2013-01-01 03:00:00,9.3,-2.1
2013-01-01 04:00:00,8.8,-2.3
2013-01-01 05:00:00,8.7,-2.5
2013-01-01 06:00:00,6.9,-3.2
2013-01-01 07:00:00,7.8,-3.4
2013-01-01 08:00:00,6.7,-3.0
2013-01-01 09:00:00,6.6,-1.8


In [73]:
list(temp.resample("D"))[1][1]

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-02 00:00:00,13.2,2.6
2013-01-02 01:00:00,11.8,2.7
2013-01-02 02:00:00,10.5,2.9
2013-01-02 03:00:00,9.5,2.9
2013-01-02 04:00:00,8.3,2.9
2013-01-02 05:00:00,8.0,3.5
2013-01-02 06:00:00,7.5,3.7
2013-01-02 07:00:00,7.1,3.5
2013-01-02 08:00:00,6.4,3.7
2013-01-02 09:00:00,6.0,3.6


In [76]:
# 원본 온도 데이터 확인
temp.head(25)

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-01 00:00:00,11.7,-1.1
2013-01-01 01:00:00,10.7,-1.7
2013-01-01 02:00:00,9.9,-2.0
2013-01-01 03:00:00,9.3,-2.1
2013-01-01 04:00:00,8.8,-2.3
2013-01-01 05:00:00,8.7,-2.5
2013-01-01 06:00:00,6.9,-3.2
2013-01-01 07:00:00,7.8,-3.4
2013-01-01 08:00:00,6.7,-3.0
2013-01-01 09:00:00,6.6,-1.8


In [77]:
# resample 객체를 만들고 aggregation 함수 또는 메소드를 적용
# 다운샘플링된 데이터 얻기 
# first() 메소드를 사용하여 그날의 가장 처음, 즉 자정의 타임스탬프를 기반으로 매일의 온도 데이터 추출함 
# temp.resample("D").last() 
# temp.resample("D").mean() # 하루의 타임스탬프 24개의 평균 구하기
# temp.resample("D").median() # 중앙값 구하기 
temp.resample("D").first()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-01,11.7,-1.1
2013-01-02,13.2,2.6
2013-01-03,15.1,0.3
2013-01-04,16.3,-1.2
2013-01-05,18.1,-1.2
...,...,...
2016-12-27,15.1,4.1
2016-12-28,19.9,11.2
2016-12-29,23.3,2.1
2016-12-30,25.5,3.0


In [78]:
temp.resample("D").sum()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-01,212.6,-9.7
2013-01-02,222.8,77.0
2013-01-03,247.3,-58.2
2013-01-04,276.3,-49.7
2013-01-05,266.0,19.6
...,...,...
2016-12-27,291.7,253.9
2016-12-28,346.4,96.4
2016-12-29,385.1,31.5
2016-12-30,382.4,52.9


In [80]:
# 2시간 단위로 값을 구함
# 0시-2시에서는 0시 값을, 2시-4시는 2시 값을 가져옴    
temp.resample("2H").first()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-01 00:00:00,11.7,-1.1
2013-01-01 02:00:00,9.9,-2.0
2013-01-01 04:00:00,8.8,-2.3
2013-01-01 06:00:00,6.9,-3.2
2013-01-01 08:00:00,6.7,-3.0
...,...,...
2016-12-31 14:00:00,12.7,-1.3
2016-12-31 16:00:00,12.6,1.1
2016-12-31 18:00:00,13.2,3.4
2016-12-31 20:00:00,13.2,5.7


In [81]:
# 매주의 마지막 날을 기준으로 연산
temp.resample("W").mean()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-06,10.214583,0.222917
2013-01-13,10.494048,4.245238
2013-01-20,11.119643,3.924405
2013-01-27,15.586905,-4.660714
2013-02-03,11.569643,1.502381
...,...,...
2016-12-04,12.975595,8.024405
2016-12-11,13.738095,1.922619
2016-12-18,13.466667,0.052381
2016-12-25,13.007143,1.149405


In [82]:
# 목요일부터 수요일까지를 한주로 설정(한주는 기본적으로 일요일까지)
temp.resample("W-Wed").mean()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-02,9.070833,1.402083
2013-01-09,11.033333,1.033929
2013-01-16,8.870238,6.001190
2013-01-23,14.678571,1.010714
2013-01-30,12.554762,-4.382738
...,...,...
2016-12-07,13.205357,5.964286
2016-12-14,14.490476,1.228571
2016-12-21,13.209524,-2.248810
2016-12-28,11.930357,4.688095


In [83]:
temp.resample("M").mean()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-31,11.596237,1.12957
2013-02-28,12.587202,0.617857
2013-03-31,15.069946,3.71922
2013-04-30,16.487361,10.699306
2013-05-31,19.00578,15.824328
2013-06-30,19.905417,22.225694
2013-07-31,22.093952,26.329704
2013-08-31,21.513172,22.480376
2013-09-30,22.404861,18.291806
2013-10-31,16.62043,14.335215


In [85]:
# MS는 Month Start를 의미함
# "M"와 비교하였을 때, 바뀐 것은 레이블 (M은 매월 마지막 날, MS는 매월 첫번째 날 기준)
temp.resample("MS").mean()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-01,11.596237,1.12957
2013-02-01,12.587202,0.617857
2013-03-01,15.069946,3.71922
2013-04-01,16.487361,10.699306
2013-05-01,19.00578,15.824328
2013-06-01,19.905417,22.225694
2013-07-01,22.093952,26.329704
2013-08-01,21.513172,22.480376
2013-09-01,22.404861,18.291806
2013-10-01,16.62043,14.335215


In [88]:
# loffset은 리셈플링된 시간 레이블 조정
# 예시: 매월 레이블의 15일을 표시하고 싶다면, 14D
temp.resample("MS", loffset="14D").mean()


>>> df.resample(freq="3s", loffset="8H")

becomes:

>>> from pandas.tseries.frequencies import to_offset
>>> df = df.resample(freq="3s").mean()
>>> df.index = df.index.to_timestamp() + to_offset("8H")

  temp.resample("MS", loffset="14D").mean()


Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-15,11.596237,1.12957
2013-02-15,12.587202,0.617857
2013-03-15,15.069946,3.71922
2013-04-15,16.487361,10.699306
2013-05-15,19.00578,15.824328
2013-06-15,19.905417,22.225694
2013-07-15,22.093952,26.329704
2013-08-15,21.513172,22.480376
2013-09-15,22.404861,18.291806
2013-10-15,16.62043,14.335215


In [90]:
# Q는 분기(Quater) 표기, 마지막 날이 기본값
# 기본적으로 1-3월, 4-6월, 7-9월, 10-12월로 설정됨
temp.resample("Q").mean()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-03-31,13.099212,1.862361
2013-06-30,18.472115,16.245101
2013-09-30,21.999638,22.411594
2013-12-31,15.047781,8.084918
2014-03-31,15.508287,-0.57088
2014-06-30,18.891255,16.253938
2014-09-30,22.281295,21.738315
2014-12-31,12.281748,7.855933
2015-03-31,11.869306,-3.340509
2015-06-30,16.334386,16.445238


In [70]:
# 1사분기의 마지막 달을 2월로 설정
temp.resample("Q-Feb").mean()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-02-28,12.066525,0.886723
2013-05-31,16.859973,10.07423
2013-08-31,21.184601,23.694384
2013-11-30,18.028755,13.258288
2014-02-28,14.675,-0.301713
2014-05-31,17.562047,9.645652
2014-08-31,21.691168,22.559284
2014-11-30,16.640522,13.09707
2015-02-28,9.822593,-2.481574
2015-05-31,14.185054,9.975181


In [91]:
# 연도별 주기로 리샘플링, 기본은 각 기간의 마지막 날
temp.resample("Y").mean()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-12-31,17.174229,12.196153
2014-12-31,17.245616,11.370959
2015-12-31,17.19153,11.795194
2016-12-31,18.330305,12.90847


In [92]:
# YS는 Year Start를 의미함
# 레이블에서 연도의 시작일을 표시함
temp.resample("YS").mean()

Unnamed: 0_level_0,LA,NY
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-01-01,17.174229,12.196153
2014-01-01,17.245616,11.370959
2015-01-01,17.19153,11.795194
2016-01-01,18.330305,12.90847
