# 시계열 데이터 (Timeseries)

시계열 데이터 : 일정한 시간동안 수집된 일련의 순차적으로 정해진 데이터들의 집합

시계열 자료형 : timestamp, period

In [None]:
import pandas as pd
import seaborn as sns

# timestamp

to_datetime() 날짜 -> 시계열타입

In [None]:
flight = sns.load_dataset('flights')
flight.head()

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


In [None]:
flight.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   year        144 non-null    int64   
 1   month       144 non-null    category
 2   passengers  144 non-null    int64   
dtypes: category(1), int64(2)
memory usage: 2.9 KB


In [None]:
# 영어로 되어있는 달 => 숫자로 바꾸기
months = {'Jan':1,
          'Feb':2,
          'Mar':3,
          'Apr':4,
          'May':5,
          'Jun':6,
          'Jul':7,
          'Aug':8,
          'Sep':9,
          'Oct':10,
          'Nov':11,
          'Dec':12}

flight['month'] = flight['month'].map(months) # map 함수를 이용하면, Series를 대상으로 원하는 내용으로 적용할 수 있음
flight

Unnamed: 0,year,month,passengers
0,1949,1,112
1,1949,2,118
2,1949,3,132
3,1949,4,129
4,1949,5,121
...,...,...,...
139,1960,8,606
140,1960,9,508
141,1960,10,461
142,1960,11,390


In [None]:
# 열을 하나 추가 (dat = 1)
flight.insert(2,'day',1)     # 원하는 위치에 열 추가 하고 싶을 때 : insert(위치, 컬럼명, 값)
flight.head()

Unnamed: 0,year,month,day,passengers
0,1949,1,1,112
1,1949,2,1,118
2,1949,3,1,132
3,1949,4,1,129
4,1949,5,1,121


In [None]:
# year, month, day > 날짜
flight['date'] = pd.to_datetime(flight[['year','month','day']])
flight

Unnamed: 0,year,month,day,passengers,date
0,1949,1,1,112,1949-01-01
1,1949,2,1,118,1949-02-01
2,1949,3,1,132,1949-03-01
3,1949,4,1,129,1949-04-01
4,1949,5,1,121,1949-05-01
...,...,...,...,...,...
139,1960,8,1,606,1960-08-01
140,1960,9,1,508,1960-09-01
141,1960,10,1,461,1960-10-01
142,1960,11,1,390,1960-11-01


# Timestamp

python datetime과 유사

특정 날짜를 표현 가능

In [None]:
# 위치로 (year, month, day, hour, minute, second)
thisTime = pd.Timestamp(2022,5,8,12,3,55)
thisTime

Timestamp('2022-05-08 12:03:55')

In [None]:
# 파라미터명 명시해서
thisTime2 = pd.Timestamp(day=25, hour = 12, month = 1, minute=3,second=34, year=1980)
thisTime2

Timestamp('1980-01-25 12:03:34')

In [None]:
dday = pd.Timestamp(2019,4,18,20,30,34)
print('jun : ',dday)
print('jun year : ',dday.year)
print('jun month : ',dday.month)
print('jun day : ',dday.day)
print('jun hour : ',dday.hour)
print('jun minute : ',dday.minute)
print('jun second : ',dday.second)
print('jun 요일 : ',dday.dayofweek) # 요일 ] 월 : 0 ~ 일 : 6
print('jun 일년중 며칠째인지 : ',dday.dayofyear)
print('jun 해당하는 달이 며칠까지 있는지 : ',dday.days_in_month)
print('jun 몇분기인지 : ',dday.quarter)
print('jun 몇주째인지 : ',dday.week)



jun :  2019-04-18 20:30:34
jun year :  2019
jun month :  4
jun day :  18
jun hour :  20
jun minute :  30
jun second :  34
jun 요일 :  3
jun 일년중 며칠째인지 :  108
jun 해당하는 달이 며칠까지 있는지 :  30
jun 몇분기인지 :  2
jun 몇주째인지 :  16


In [None]:
print(dday.date()) # 날짜
print(dday.time()) # 시간
print(pd.Timestamp.combine(dday.date(), dday.time())) # 합치기
# combine() 함수 : date() 함수와 time()함수를 합쳐서 날짜/시간 객체 생성

2019-04-18
20:30:34
2019-04-18 20:30:34


In [None]:
import datetime as dt

In [None]:
print(pd.Timestamp.today())
print(pd.Timestamp.now())

print(dt.datetime.now())

2022-05-02 03:43:34.820306
2022-05-02 03:43:34.821825
2022-05-02 03:43:34.822177


# Timestamp -> String (문자열)

# String -> Timestamp

In [None]:
d = pd.Timestamp(2022,5,2,14,14,12)
d
# strftime(format) : timestamp -> string
print(d.strftime('%Y-%m-%d %H:%M:%S'))
print(d.strftime('%Y-%m-%d %I:%M:%S %p'))
print(d.strftime('%Y-%m-%d %p %I:%M:%S, %w, %j, %U'))


2022-05-02 14:14:12
2022-05-02 02:14:12 PM
2022-05-02 PM 02:14:12, 1, 122, 18


# 시간 형식 지정자 (format 지정자)
- %Y - 연도 네자리 : 2022
- %y - 연도 끝에 두자리 : 22
- %m - 월(숫자) : 05
- %B - 월(영문전체) : May
- %b - 월(영문단축) : May
- %d - 일 : 02
- %w - 요일(숫자) : 1 (0이 일요일)
- %A - 요일(영문전체) : Monday
- %a - 요일(영문단축) : Mon
- %H - 시간(24) : 14
- %I - 시간(12) : 2
- %p - AM, PM : PM
- %M - 분 : 14
- %S - 초 : 12
- %j - (일년기준) 며칠째인지 : 122
- %U - (일년기준) 몇주째인지 : 18


In [None]:
# 날짜를 index로
dates = ['2022-05-04','2022-05-05','2022-05-06']
dateIndex = pd.to_datetime(dates)
dateIndex

DatetimeIndex(['2022-05-04', '2022-05-05', '2022-05-06'], dtype='datetime64[ns]', freq=None)

In [None]:
datas = ['merry','어린이날','입니다!']
s = pd.Series(datas, index=dateIndex)
s

2022-05-04    merry
2022-05-05     어린이날
2022-05-06     입니다!
dtype: object

In [None]:
d = pd.DataFrame(datas, columns=['05'], index=dateIndex)
d

Unnamed: 0,05
2022-05-04,merry
2022-05-05,어린이날
2022-05-06,입니다!


# Period

pd.Timestamp()와 pd.Period의 차이 

Timestamp는 한 시점을 뜻하고, Period는 지정한 날짜의 시작 ~ 종료 시점까지 범위를 포괄함

In [None]:
p = pd.Period('2022-05-02')
p
print(p.start_time)
print(p.end_time)

2022-05-02 00:00:00
2022-05-02 23:59:59.999999999


In [None]:
dates = ['2022-01-22','2022-04-18','2022-06-05']
datesD = pd.to_datetime(dates)
datesD

DatetimeIndex(['2022-01-22', '2022-04-18', '2022-06-05'], dtype='datetime64[ns]', freq=None)

In [None]:
# timestamp -> period
forDay = datesD.to_period(freq='D')
forDay # 일을 기준으로

PeriodIndex(['2022-01-22', '2022-04-18', '2022-06-05'], dtype='period[D]')

In [None]:
forMonth = datesD.to_period(freq='M')
forMonth # 달을 기준으로

PeriodIndex(['2022-01', '2022-04', '2022-06'], dtype='period[M]')

In [None]:
forYear = datesD.to_period(freq='A')
forYear # 1년의 마지막날 기준으로

PeriodIndex(['2022', '2022', '2022'], dtype='period[A-DEC]')

# TimeStamp 배열

date_range() 함수

In [None]:
pd.date_range('2022-05-02',periods=12, freq='2D')  # 이틀 간격으로 총 12개의 타임스탬프 timestamp

DatetimeIndex(['2022-05-02', '2022-05-04', '2022-05-06', '2022-05-08',
               '2022-05-10', '2022-05-12', '2022-05-14', '2022-05-16',
               '2022-05-18', '2022-05-20', '2022-05-22', '2022-05-24'],
              dtype='datetime64[ns]', freq='2D')

In [None]:
a = pd.date_range(start='2022-05-02', # 시작 날짜
                  end = None,         # 끝 날짜(None일 경우 생략 가능)
                  periods=8,          # 생성 할 timestamp 개수
                  freq='2M'           # 시간 간격
                  )
a               

DatetimeIndex(['2022-05-31', '2022-07-31', '2022-09-30', '2022-11-30',
               '2023-01-31', '2023-03-31', '2023-05-31', '2023-07-31'],
              dtype='datetime64[ns]', freq='2M')

- M : 각 달의 마지막 날짜
- MS : 각 달의 첫 날
- D : 일자별

In [None]:
# 기준 날짜 자유 / timestamp 10개 / 3달 간격 (시작날짜)
pd.date_range('2019-04-18',periods=10, freq="3MS")

DatetimeIndex(['2019-05-01', '2019-08-01', '2019-11-01', '2020-02-01',
               '2020-05-01', '2020-08-01', '2020-11-01', '2021-02-01',
               '2021-05-01', '2021-08-01'],
              dtype='datetime64[ns]', freq='3MS')

# Period 배열

period_range()
- date_range()와의 차이점 : freq = 옵션이 기간의 단위

In [None]:
# 두 달 단위
twoM = pd.period_range('2020-02-02',periods=10, freq='2M')
twoM

PeriodIndex(['2020-02', '2020-04', '2020-06', '2020-08', '2020-10', '2020-12',
             '2021-02', '2021-04', '2021-06', '2021-08'],
            dtype='period[2M]')

In [None]:
# 한 시간 단위
pd.period_range('2020-10-02',periods=5, freq='H')

PeriodIndex(['2020-10-02 00:00', '2020-10-02 01:00', '2020-10-02 02:00',
             '2020-10-02 03:00', '2020-10-02 04:00'],
            dtype='period[H]')