In [1]:
import pandas as pd
from pandas import Series, DataFrame

# 1. 시계열 데이터 기초

## 1.1 시계열 데이터 타입(datetime)

In [2]:
import datetime as dt

In [3]:
dt.datetime(year=2022, month=7, day=7)

datetime.datetime(2022, 7, 7, 0, 0)

In [6]:
now = dt.datetime.now()

In [7]:
now # 기본적으로 local timezone를 따름

datetime.datetime(2022, 7, 7, 14, 6, 22, 816664)

In [8]:
dt.datetime.now(tz=dt.timezone.utc)

datetime.datetime(2022, 7, 7, 5, 8, 38, 338137, tzinfo=datetime.timezone.utc)

In [10]:
now.astimezone(dt.timezone.utc)

datetime.datetime(2022, 7, 7, 5, 6, 22, 816664, tzinfo=datetime.timezone.utc)

## 1.2 timedelta 를 활용한 시간 계산

In [11]:
from datetime import timedelta

In [12]:
# now 기준으로 3주 후의 날짜
now + timedelta(weeks=3)

datetime.datetime(2022, 7, 28, 14, 6, 22, 816664)

In [13]:
# now 기준으로 10일 후의 날짜
now + timedelta(days=10)

datetime.datetime(2022, 7, 17, 14, 6, 22, 816664)

In [14]:
# 두 날짜의 차이 계산
dt1= dt.datetime(year=2022, month=7, day=7, hour=14, minute=20)
dt1

datetime.datetime(2022, 7, 7, 14, 20)

In [16]:
dt2 = dt.datetime(year=2022, month=11, day=23, hour=8, minute=0)
dt2

datetime.datetime(2022, 11, 23, 8, 0)

In [18]:
diff = dt2-dt1

In [21]:
diff

datetime.timedelta(days=138, seconds=63600)

## 1.3 시계열 데이터 처리

In [22]:
import random
sample = DataFrame()
sample['date'] = pd.date_range(start = '20210101', periods=500).tolist()
sample['count'] = random.sample(range(1,1000), 500)

In [23]:
sample

Unnamed: 0,date,count
0,2021-01-01,505
1,2021-01-02,138
2,2021-01-03,355
3,2021-01-04,7
4,2021-01-05,518
...,...,...
495,2022-05-11,284
496,2022-05-12,439
497,2022-05-13,887
498,2022-05-14,803


In [26]:
# 2021. 7월달 데이터만 조회 #1 
# 조건 색인 활용
# sample[(sample['date'] >= '2021-07-01') & (sample['date'] <= '2021-07-31')]
sample[(sample['date'] >= '2021/07/01') & (sample['date'] <= '2021/07/31')]

Unnamed: 0,date,count
181,2021-07-01,242
182,2021-07-02,972
183,2021-07-03,556
184,2021-07-04,281
185,2021-07-05,375
186,2021-07-06,211
187,2021-07-07,313
188,2021-07-08,997
189,2021-07-09,736
190,2021-07-10,320


In [31]:
# 7월달 데이터만 조회 #2
# isin() 함수 활용
# pandas.date_range() 함수
# pd.date_range(start='2021-07-01',end='2021-07-31')
# sample[sample.date.isin(pd.date_range(start='2021-07-01',end='2021-07-31'))]
# pd.date_range(start='2021-07-01',periods=100,freq='MS')
pd.date_range(start='2021-07-01', end='2022-12-31',freq='C')

DatetimeIndex(['2021-07-01', '2021-07-02', '2021-07-05', '2021-07-06',
               '2021-07-07', '2021-07-08', '2021-07-09', '2021-07-12',
               '2021-07-13', '2021-07-14',
               ...
               '2022-12-19', '2022-12-20', '2022-12-21', '2022-12-22',
               '2022-12-23', '2022-12-26', '2022-12-27', '2022-12-28',
               '2022-12-29', '2022-12-30'],
              dtype='datetime64[ns]', length=392, freq='C')

In [32]:
# 7월달 데이터마 조회 #3
# datetimeIndex 활용
sample.set_index('date',inplace=True)

- datetimeIndex 색인

In [35]:
# 2021년 데이터 선택
sample['2021']

  sample['2021']


Unnamed: 0_level_0,count
date,Unnamed: 1_level_1
2021-01-01,505
2021-01-02,138
2021-01-03,355
2021-01-04,7
2021-01-05,518
...,...
2021-12-27,112
2021-12-28,196
2021-12-29,262
2021-12-30,295


In [36]:
# 2021년 7월 데이터 선택
sample['2021-07']

  sample['2021-07']


Unnamed: 0_level_0,count
date,Unnamed: 1_level_1
2021-07-01,242
2021-07-02,972
2021-07-03,556
2021-07-04,281
2021-07-05,375
2021-07-06,211
2021-07-07,313
2021-07-08,997
2021-07-09,736
2021-07-10,320


In [37]:
# 2021년 3월 2일부터 2021년 3월 28일까지 데이터 선택
sample['2021-03-02':'2021-03-28']

Unnamed: 0_level_0,count
date,Unnamed: 1_level_1
2021-03-02,353
2021-03-03,230
2021-03-04,958
2021-03-05,216
2021-03-06,991
2021-03-07,456
2021-03-08,853
2021-03-09,950
2021-03-10,722
2021-03-11,358


In [40]:
# 2021년 4월 28일 데이터 선택
sample.loc['2021-04-28']

count    87
Name: 2021-04-28 00:00:00, dtype: int64

## 1-4 strptime()으로 문자열을 날짜 타입으로 변환하기

In [39]:
문자열 = '21/08/11'

In [41]:
# 21년 8월 11일로 변환 
dt.datetime.strptime(문자열,'%y/%m/%d')

datetime.datetime(2021, 8, 11, 0, 0)

In [42]:
# 11년 8월 21일로 변환
dt.datetime.strptime(문자열,'%y/%m/%d')

datetime.datetime(2021, 8, 11, 0, 0)

In [22]:
# 8월 11일 21시로 변환


##### [실습] 아래 df에서 2020년 7월 데이터만 선택하기

In [43]:
df = DataFrame({'date':['2020-07-01','2020-07-02', '2020-07-05', '2020-07-10', '2020-07-23', 
                        '2020-07-24','2020-07-28', '2020-08-05', '2020-08-10', '2020-08-23'],
                'value':random.sample(range(1, 100), 10)
})
df

Unnamed: 0,date,value
0,2020-07-01,32
1,2020-07-02,62
2,2020-07-05,66
3,2020-07-10,1
4,2020-07-23,18
5,2020-07-24,5
6,2020-07-28,80
7,2020-08-05,90
8,2020-08-10,21
9,2020-08-23,46


In [45]:
# 위에서 배운대로 해도 정상적으로 동작하지 않음
df['2021-07']

KeyError: '2021-07'

In [55]:
# 해결책. df의 date컬럼의 타입을 datetime으로 변환
# df.datetime.strptime(df['date'],'%y/%m/%d')
# df['date'].apply(lambda x : dt.datetime.strptime(x, '%Y/%m/%d'))
df['date']=pd.to_datetime(df['date'],format='%Y/%m/%d')

In [56]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   date    10 non-null     datetime64[ns]
 1   value   10 non-null     int64         
dtypes: datetime64[ns](1), int64(1)
memory usage: 288.0 bytes


In [57]:
# 7월 데이터만 조회
df.set_index('date')['2020-07']

  df.set_index('date')['2020-07']


Unnamed: 0_level_0,value
date,Unnamed: 1_level_1
2020-07-01,32
2020-07-02,62
2020-07-05,66
2020-07-10,1
2020-07-23,18
2020-07-24,5
2020-07-28,80


## 1.5 strftime()으로 날짜 타입의 변수를 문자열로 변환하기

In [59]:
# now 변수를 4자리년도-월-일 형식으로 출력
now.strftime('%Y-%m-%d')

'2022-07-07'

In [60]:
# 실습 - now 변수를 월-일 시:분 형식으로 출력
now.strftime('%m-%d %H:%M')

'07-07 14:06'

In [61]:
sample=sample.reset_index()
sample

Unnamed: 0,date,count
0,2021-01-01,505
1,2021-01-02,138
2,2021-01-03,355
3,2021-01-04,7
4,2021-01-05,518
...,...,...
495,2022-05-11,284
496,2022-05-12,439
497,2022-05-13,887
498,2022-05-14,803


* Tip. Week와 요일 정보 얻기(strftime)

In [133]:
# 심화 - Week와 요일 정보 얻기
# 참고 사이트 : https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

# %U : week number (sunday to monday) (e.g. 00, 01, ...53)
# %V : ISO 8601 week number (monday to sunday) (e.g. 01, 02, ... 53)
...
# %a : weekday (Sun, Mon, ..) 
# %w : weekday (0,1,2,3,...) (0 = Sunday)

Ellipsis

##### [실습 #2] df에  week number(%U), weekday(%a) 컬럼 추가

In [66]:
#df에  week number(%V), weekday(%w) 컬럼 추가
sample['weekNum'] = sample.date.apply(lambda x : x.strftime('%U'))

In [67]:
sample['weekDay'] = sample.date.dt.strftime('%a')

In [68]:
sample['year']=sample.date.dt.strftime('%Y')
sample['month']=sample.date.dt.strftime('%m')

In [69]:
sample

Unnamed: 0,date,count,weekNum,weekDay,year,month
0,2021-01-01,505,00,Fri,2021,01
1,2021-01-02,138,00,Sat,2021,01
2,2021-01-03,355,01,Sun,2021,01
3,2021-01-04,7,01,Mon,2021,01
4,2021-01-05,518,01,Tue,2021,01
...,...,...,...,...,...,...
495,2022-05-11,284,19,Wed,2022,05
496,2022-05-12,439,19,Thu,2022,05
497,2022-05-13,887,19,Fri,2022,05
498,2022-05-14,803,19,Sat,2022,05


##### [실습 #3-1] 주차별 value 컬럼의 합 구하기

In [71]:
sample.pivot_table(index=['year','weekNum'],aggfunc='sum',values='count')

Unnamed: 0_level_0,Unnamed: 1_level_0,count
year,weekNum,Unnamed: 2_level_1
2021,00,643
2021,01,3766
2021,02,2948
2021,03,2558
2021,04,4633
...,...,...
2022,16,2738
2022,17,3279
2022,18,4731
2022,19,4817


##### [실습 #3-2] 요일별 value 컬럼의 평균 구하기

In [73]:
sample.pivot_table(index='weekDay',values='count',aggfunc='mean').sort_index()

Unnamed: 0_level_0,count
weekDay,Unnamed: 1_level_1
Fri,496.847222
Mon,521.028169
Sat,461.513889
Sun,478.694444
Thu,538.15493
Tue,492.957746
Wed,533.859155


## 2. 시계열 데이터 응용 - Covid-19 현황 분석

#### 1. Covid-19 데이터 가져오기
- https://github.com/owid/covid-19-data/tree/master/public/data : 매일 업데이트된 파일을 제공함

##### 2. date 컬럼을 datetime으로 변경하기

#### 3. 간단하게 분석하기 위해 데이터 범위 좁히기
- United States, Brazil, France, South Korea 데이터만 선택

- location, date, total_cases, new_cases 컬럼만 선택

#### 4. 데이터 분석 실습
- [실습 #1] 각 나라별로 월별 누적 확진자수의 합 구하기
- [실습 #2] 각 나라별로 요일별 신규 확진자수의 합 구하기
- [실습 #3] 각 나라별로 분기별 신규 확진자수의 합 구하기
...

##### 년도(year), 달(month), 일(day), 주차(WeekNumber, %U)과 요일(weekDay, %a), 분기(quarter) 컬럼 추가하기

- [실습 #1] 각 나라별로 월별 누적 확진자수의 합 구하기
 - 월별 마지막 날 기준으로 누적 확진자수 구하기
 - https://pandas.pydata.org/pandas-docs/stable/timeseries.html#timeseries-offset-aliases 참고

- [실습 #2] 각 나라별로 요일별 신규 확진자수의 합 구하기

- [실습 #3] 각 나라별로 분기별 신규 확진자수의 합 구하기