## Time series in Pandas

- 시간에 특화된 Groupby 기능이 필요함
  - ex) 데이터 중 주말 통계만 필요한 경우
- Time lag 또는 Moving Average는 계산?
  - ex) 3시의 온도와 7시의 온도 차에 대한 분석
Pandas에는 이에 특화된 기능을 제공함

## Python의 Datetime 모듈

- 파이썬은 날짜 데이터 처리를 위해 datetime 모듈을 활용

In [1]:
from datetime import datetime

In [82]:
# string type의 날짜임. 날짜 간의 차이 등을 계산하기 힘듦
date_str = '09-19-2018'

# strptime = string 으로 되어있는 것들을 parsing 해서 datetime으로 바꿔줌
date_object = datetime.strptime(date_str, "%m-%d-%Y").date()

In [7]:
print(type(date_object))
print(date_object)

<class 'datetime.date'>
2018-09-19


In [8]:
date_str = '2018/09/19'
date_object = datetime.strptime(date_str, "%Y/%m/%d").date()

In [11]:
print(date_object)

2018-09-19


In [13]:
date_str = '18/09/19'
date_object = datetime.strptime(date_str, "%y/%m/%d").date()

In [14]:
print(date_object)

2018-09-19


In [16]:
date_object.day

19

In [17]:
date_object.month

9

In [18]:
date_object.year

2018

In [21]:
# 요일
date_object.weekday()

2

### 날짜 차이 구하기

In [23]:
date_str_1 = '180919'
date_str_2 = '180925'

date_object_1 = datetime.strptime(date_str_1, '%y%m%d').date()
date_object_2 = datetime.strptime(date_str_2, '%y%m%d').date()

In [25]:
date_object_2 - date_object_1

datetime.timedelta(days=6)

### 시간 차이 구하기

In [28]:
datetime_str = '09/19/18 13:55:26'

datetime_str_object = datetime.strptime(datetime_str, '%m/%d/%y %H:%M:%S')

In [30]:
print(datetime_str_object)
print(type(datetime_str_object))

2018-09-19 13:55:26
<class 'datetime.datetime'>


## DateTime Index 만들기

- 대부분의 데이터는 csv으로 되어 있음
  - 호출 후에 DateTime index로 변환이 필요한 경우가 있음

In [31]:
import pandas as pd

In [35]:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

In [83]:
df = pd.read_csv("https://raw.githubusercontent.com/yongchoooon/TIL/main/ML/Time_Series/imadeit.csv", encoding="cp949", sep='\t')

In [56]:
df.head()

Unnamed: 0,시도별,2016. 01,2016. 01.1,2016. 01.2,2016. 02,2016. 02.1,2016. 02.2,2016. 03,2016. 03.1,2016. 03.2
0,시도별,경제활동인구,취업자,실업자,경제활동인구,취업자,실업자,경제활동인구,취업자,실업자
1,광주광역시,746,722,23,765,700,35,816,898,12


In [84]:
df = df.T[1:].reset_index()

In [85]:
df

Unnamed: 0,index,0,1
0,2016. 01,경제활동인구,746
1,2016. 01.1,취업자,722
2,2016. 01.2,실업자,23
3,2016. 02,경제활동인구,765
4,2016. 02.1,취업자,700
5,2016. 02.2,실업자,35
6,2016. 03,경제활동인구,816
7,2016. 03.1,취업자,898
8,2016. 03.2,실업자,12


In [86]:
df = df.rename(columns= {"index" : "date", 0: "지표", 1:"수치"})

In [87]:
df['date'] = df['date'].str.replace('.', '-').str[:8]

  df['date'] = df['date'].str.replace('.', '-').str[:8]


In [88]:
df.head()

Unnamed: 0,date,지표,수치
0,2016- 01,경제활동인구,746
1,2016- 01,취업자,722
2,2016- 01,실업자,23
3,2016- 02,경제활동인구,765
4,2016- 02,취업자,700


In [91]:
df['date'] = pd.to_datetime(df['date'], format='%Y- %m')

In [92]:
df.head()

Unnamed: 0,date,지표,수치
0,2016-01-01,경제활동인구,746
1,2016-01-01,취업자,722
2,2016-01-01,실업자,23
3,2016-02-01,경제활동인구,765
4,2016-02-01,취업자,700


In [95]:
df = df.set_index(df['date'])

In [96]:
df

Unnamed: 0_level_0,date,지표,수치
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2016-01-01,2016-01-01,경제활동인구,746
2016-01-01,2016-01-01,취업자,722
2016-01-01,2016-01-01,실업자,23
2016-02-01,2016-02-01,경제활동인구,765
2016-02-01,2016-02-01,취업자,700
2016-02-01,2016-02-01,실업자,35
2016-03-01,2016-03-01,경제활동인구,816
2016-03-01,2016-03-01,취업자,898
2016-03-01,2016-03-01,실업자,12


In [99]:
df.drop(columns='date', inplace=True)

In [100]:
df

Unnamed: 0_level_0,지표,수치
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2016-01-01,경제활동인구,746
2016-01-01,취업자,722
2016-01-01,실업자,23
2016-02-01,경제활동인구,765
2016-02-01,취업자,700
2016-02-01,실업자,35
2016-03-01,경제활동인구,816
2016-03-01,취업자,898
2016-03-01,실업자,12
