# 시계열 데이터 (Timeseries)

시계열 데이터 : 일정한 시간동안 수집된 일련의 순차적으로 정해진 데이터들의 집합

시계열 자료형 : timestamp, period

In [None]:
import pandas as pd
import seaborn as sns

# timestamp

to_datetime() : 날짜 -> 시계열타입

In [None]:
flight = sns.load_dataset('flights')
flight.head()

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


In [None]:
flight.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   year        144 non-null    int64   
 1   month       144 non-null    category
 2   passengers  144 non-null    int64   
dtypes: category(1), int64(2)
memory usage: 2.9 KB


In [None]:
# 영어로 되어있는 달 => 숫자로 바꾸기
months = {'Jan' : 1,
          'Feb' : 2,
          'Mar' : 3,
          'Apr' : 4,
          'May' : 5,
          'Jun' : 6,
          'Jul' : 7,
          'Aug' : 8,
          'Sep' : 9,
          'Oct' : 10,
          'Nov' : 11,
          'Dec' : 12
          }

flight['month'] = flight['month'].map(months) # map 함수를 이용하면, Series를 대상으로 원하는 내용으로 적용을 할 수 있음
flight

Unnamed: 0,year,month,passengers
0,1949,1,112
1,1949,2,118
2,1949,3,132
3,1949,4,129
4,1949,5,121
...,...,...,...
139,1960,8,606
140,1960,9,508
141,1960,10,461
142,1960,11,390


In [None]:
# 열을 하나 추가
#flight.insert(2, 'day',1) # 원하는 위치에 열을 추가하고 싶을 때 : insert(위치, 컬럼명, 값)
flight.head()

Unnamed: 0,year,month,day,passengers
0,1949,1,1,112
1,1949,2,1,118
2,1949,3,1,132
3,1949,4,1,129
4,1949,5,1,121


In [None]:
# year, month, date > 날짜
flight['date'] = pd.to_datetime(flight[['year','month','day']])
flight

Unnamed: 0,year,month,day,passengers,date
0,1949,1,1,112,1949-01-01
1,1949,2,1,118,1949-02-01
2,1949,3,1,132,1949-03-01
3,1949,4,1,129,1949-04-01
4,1949,5,1,121,1949-05-01
...,...,...,...,...,...
139,1960,8,1,606,1960-08-01
140,1960,9,1,508,1960-09-01
141,1960,10,1,461,1960-10-01
142,1960,11,1,390,1960-11-01


# Timestamp

python datetime과 유사

특정날짜를 표현가능

In [None]:
# 위치로 (year, month, day, hour, minute, second)
christmas = pd.Timestamp(2022,12,25,12,12,12)
christmas

Timestamp('2022-12-25 12:12:12')

In [None]:
# 파라미터명 명시해서
christmas2 = pd.Timestamp(day=25,hour=12, month=12, minute=12, second=12, year=2022)
christmas2

Timestamp('2022-12-25 12:12:12')

In [None]:
day = pd.Timestamp(2022,12,10,13,20,50)
day
print('날짜 :', day)
print('연도 :', day.year)
print('월 :', day.month)
print('일자 :', day.day)
print('시간 :', day.hour)
print('분 :', day.minute)
print('초 :', day.second)
print('요일 :', day.dayofweek) # 요일) 월 : 0 ~ 일 : 6
print('일년 내 며칠 째에 오는지 : ', day.dayofyear) # 365일중 며칠인지
print('해당하는 달이 며칠까지 있는지 : ', day.daysinmonth) # 그달이 몇일까지 인가 확인
print('몇 분기에 하는지 : ', day.quarter)
print('몇 주째에 하는지 : ', day.week)

날짜 : 2022-12-10 13:20:50
연도 : 2022
월 : 12
일자 : 10
시간 : 13
분 : 20
초 : 50
요일 : 5
일년 내 며칠 째에 오는지 :  344
해당하는 달이 며칠까지 있는지 :  31
몇 분기에 하는지 :  4
몇 주째에 하는지 :  49


In [None]:
print(day.date()) # 날짜
print(day.time()) # 시간
print(pd.Timestamp.combine(day.date(), day.time()))
# combine() 함수 : date() 함수와 time() 함수를 합쳐서 날짜 / 시간 객체 생성

2022-12-10
13:20:50
2022-12-10 13:20:50


In [None]:
import datetime as dt

In [None]:
print(pd.Timestamp.today())
print(pd.Timestamp.now())
print(dt.datetime.now())

2022-12-08 04:33:51.901414
2022-12-08 04:33:51.903874
2022-12-08 04:33:51.906448


#Timestamp -> String (문자열)

# String -> Timestamp

In [None]:
day = pd.Timestamp(2022,12,10,13,20,50)

In [None]:
#strftime(format) : timestamp -> string
print(day.strftime('%Y-%m-%d %H:%M:%S'))
print(day.strftime('%Y-%m-%d %I:%M:%S %p'))
print(day.strftime('%Y-%m-%d %I:%M:%S, %w, %j, %U'))
#strptime(format) : string -> timestamp

2022-12-10 13:20:50
2022-12-10 01:20:50 PM
2022-12-10 01:20:50, 6, 344, 49


# 시간 형식 지정자 (format 지정자)
* %Y : 연도 네자리 : 2022
* %y : 연도 끝에 두자리 : 22
* %m : 월(숫자) : 12
* %B : 월(영문전체) : December
* %b : 월(영문줄여서) : Dec
* %w : 요일(숫자) : 6 (0이 월요일)
* %A : 요일(영문전체) : Sunday
* %a : 요일(영문줄여서 ): Sun
* %H : 시간(24) : 11
* %I : 시간(12) : 11
* %p : AM,PM : AM
* %M : 분 : 30
* %S : 초 : 15
* %j : (일년기준) 며칠째인지: 134
* %U : (일년기준) 몇주째인지 : 20


In [None]:
# 날짜를 index로
dates = ['2022-12-24','2022-12-25','2022-12-26']
dateIndex = pd.to_datetime(dates)
dateIndex

DatetimeIndex(['2022-12-24', '2022-12-25', '2022-12-26'], dtype='datetime64[ns]', freq=None)

In [None]:
datas = ['메리', '크리스마스','입니다!']
s = pd.Series(datas, index=dateIndex)

In [None]:
d = pd.DataFrame(datas, columns = ['12'], index = dateIndex)
d

Unnamed: 0,12
2022-12-24,메리
2022-12-25,크리스마스
2022-12-26,입니다!


# Period

pd.Timestamp()와 pd.Period()의 차이

Timestamp는 하나의 시점을 뜻, Period는 지정한 날짜의 시작지점부터 종료시점까지의 범위를 포괄함

In [None]:
p = pd.Period('2022-12-08')
print(p.start_time)
print(p.end_time)

2022-12-08 00:00:00
2022-12-08 23:59:59.999999999


In [None]:
dates = ['2022-08-08','2022-10-08','2022-12-08']
datesD = pd.to_datetime(dates)
datesD

DatetimeIndex(['2022-08-08', '2022-10-08', '2022-12-08'], dtype='datetime64[ns]', freq=None)

In [None]:
# timestamp -> period
forDay = datesD.to_period(freq='D')
forDay

PeriodIndex(['2022-08-08', '2022-10-08', '2022-12-08'], dtype='period[D]')

In [None]:
forMonth = datesD.to_period(freq='M')
forMonth

PeriodIndex(['2022-08', '2022-10', '2022-12'], dtype='period[M]')

In [None]:
forYear = datesD.to_period(freq='A')
forYear.start_time
forYear.end_time

DatetimeIndex(['2022-12-31 23:59:59.999999999',
               '2022-12-31 23:59:59.999999999',
               '2022-12-31 23:59:59.999999999'],
              dtype='datetime64[ns]', freq=None)

#Timestamp 배열

date_range() 함수

In [None]:
pd.date_range('2022-12-08',periods=12, freq='2D')# 2이기준으로 timestamp 12개 생성

DatetimeIndex(['2022-12-08', '2022-12-10', '2022-12-12', '2022-12-14',
               '2022-12-16', '2022-12-18', '2022-12-20', '2022-12-22',
               '2022-12-24', '2022-12-26', '2022-12-28', '2022-12-30'],
              dtype='datetime64[ns]', freq='2D')

In [None]:
a = pd.date_range(start='2022-12-08',               #시작날짜
                  end = None,                       # 끝 날짜 (None일 경우 생략 가능)
                  periods=8,                        # 생성할 timestamp 개수
                  freq='2M')                        # 시간 간격
a

DatetimeIndex(['2022-12-31', '2023-02-28', '2023-04-30', '2023-06-30',
               '2023-08-31', '2023-10-31', '2023-12-31', '2024-02-29'],
              dtype='datetime64[ns]', freq='2M')

* M : 각 달의 마지막 날짜
* MS : 각 달의 첫 날
* D : 일자별

In [None]:
# 기준 날짜 자유 / timestamp 10개 / 3달 간격 (시작날짜)
b = pd.date_range(start='2022-12-31',
                  periods=10,
                  freq='3MS')
b

DatetimeIndex(['2023-01-01', '2023-04-01', '2023-07-01', '2023-10-01',
               '2024-01-01', '2024-04-01', '2024-07-01', '2024-10-01',
               '2025-01-01', '2025-04-01'],
              dtype='datetime64[ns]', freq='3MS')

# Period 배열

period_range() 함수
* 차이점 : freq = 옵션이 기간의 단위

In [None]:
# 두 달 단위
twoM = pd.period_range('2009-07-14', periods=10, freq='2M')
twoM

PeriodIndex(['2009-07', '2009-09', '2009-11', '2010-01', '2010-03', '2010-05',
             '2010-07', '2010-09', '2010-11', '2011-01'],
            dtype='period[2M]')

In [None]:
# 한 시간 단위
hours = pd.period_range('2009-12-10', periods=5, freq='H')
hours

PeriodIndex(['2009-12-10 00:00', '2009-12-10 01:00', '2009-12-10 02:00',
             '2009-12-10 03:00', '2009-12-10 04:00'],
            dtype='period[H]')