# 시계열 데이터 (Timeseries)

시계열 데이터 : 일정한 시간동안 수집된 일련의 순차적으로 정해진 데이터들의 집합

시계형 자료형 : timestamp, period

In [5]:
import pandas as pd
import seaborn as sns

# timestamp

pd.to_datetime() : 날짜 => 시계열타입

In [6]:
flight = sns.load_dataset('flights')
flight.head()

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


In [7]:
flight.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   year        144 non-null    int64   
 1   month       144 non-null    category
 2   passengers  144 non-null    int64   
dtypes: category(1), int64(2)
memory usage: 2.9 KB


In [8]:
# flight['month']
# 영어로 되어있는 달 => 숫자로 바꾸기
months = {
    'Jan' : 1,
    'Feb' : 2,
    'Mar' : 3,
    'Apr' : 4,
    'May' : 5,
    'Jun' : 6,
    'Jul' : 7,
    'Aug' : 8,
    'Sep' : 9,
    'Oct' : 10,
    'Nov' : 11,
    'Dec' : 12
}

# map함수를 이용하면, Series를 대상으로 원하는 내용으로 적용을 할 수 있음
flight['month'] = flight['month'].map(months)
flight

Unnamed: 0,year,month,passengers
0,1949,1,112
1,1949,2,118
2,1949,3,132
3,1949,4,129
4,1949,5,121
...,...,...,...
139,1960,8,606
140,1960,9,508
141,1960,10,461
142,1960,11,390


In [11]:
# 열을 하나 추가
# flight.insert(2, 'day', 1) # 원하는 위치에 열을 추가하고 싶을 때 : insert(위치, 컬럼명, 값)
flight.head()

Unnamed: 0,year,month,day,passengers
0,1949,1,1,112
1,1949,2,1,118
2,1949,3,1,132
3,1949,4,1,129
4,1949,5,1,121


In [12]:
# year, month, day => 날짜
flight['date'] = pd.to_datetime(flight[['year', 'month', 'day']])
flight

Unnamed: 0,year,month,day,passengers,date
0,1949,1,1,112,1949-01-01
1,1949,2,1,118,1949-02-01
2,1949,3,1,132,1949-03-01
3,1949,4,1,129,1949-04-01
4,1949,5,1,121,1949-05-01
...,...,...,...,...,...
139,1960,8,1,606,1960-08-01
140,1960,9,1,508,1960-09-01
141,1960,10,1,461,1960-10-01
142,1960,11,1,390,1960-11-01


# Timestamp

Python의 datetime과 유사

특정 날짜를 표현 가능 O

In [13]:
# 위치로 (year, month, day, hour, minute, second)
christmas = pd.Timestamp(2024, 12, 25, 14, 13, 21)
christmas

Timestamp('2024-12-25 14:13:21')

In [14]:
# 파라미터명 명시해서
christmas2 = pd.Timestamp(day = 25, hour = 12, month = 12, minute = 12,
                          second = 12, year = 2024)
christmas2

Timestamp('2024-12-25 12:12:12')

In [21]:
theday = pd.Timestamp(1945, 8, 15, 2, 3, 4)
print('광복절 : ', theday)
print('광복 연도 : ', theday.year)
print('광복 월 : ', theday.month)
print('광복 일 : ', theday.day)
print('광복 시 : ', theday.hour)
print('광복 분 : ', theday.minute)
print('광복 초 : ', theday.second)
print('광복 요일 : ', theday.dayofweek) # 요일] 월 : 0 ~ 일 : 6
print('일년 내 며칠 째 : ', theday.dayofyear)
print('해당하는 달이 며칠까지 있는지 : ', theday.daysinmonth)
print('몇 분기인지 : ', theday.quarter)
print('몇 주째에 하는지 : ', theday.week)

광복절 :  1945-08-15 02:03:04
광복 연도 :  1945
광복 월 :  8
광복 일 :  15
광복 시 :  2
광복 분 :  3
광복 초 :  4
광복 요일 :  2
일년 내 며칠 째 :  227
해당하는 달이 며칠까지 있는지 :  31
몇 분기인지 :  3
몇 주째에 하는지 :  33


In [25]:
print(theday.date()) # 날짜
print(theday.time()) # 시간
print(pd.Timestamp.combine(theday.date(), theday.time()))
# combine() 함수 : date() 함수와 time() 함수를 합쳐서 날짜/시간 객체 생성

1945-08-15
02:03:04
1945-08-15 02:03:04


In [26]:
import datetime as dt

In [28]:
print(pd.Timestamp.today())
print(pd.Timestamp.now())

print(dt.datetime.now())

2024-08-02 05:29:46.363099
2024-08-02 05:29:46.363584
2024-08-02 05:29:46.363721


# Timestamp => str (문자열)

In [30]:
theday

# strftime(format) : timestamp => string
print(theday.strftime('%Y-%m-%d %H:%M:%S'))

1945-08-15 02:03:04


# 시간 형식 지정자 (format 지정자)

- %Y : 연도 네자리
- %y : 연도 끝에 두자리
- %m : 월(숫자)
- %B : 월(영문 전체)
- %b : 월(영문 약식)
- %w : 요일(숫자) (0이 일요일 ~ )
- %A : 요일(영문 전체)
- %a : 요일(영문 약식)
- %H : 시간(24시간 단위)
- %I : 시간(12시간 단위)
- %p : AM, PM
- %M : 분
- %S : 초
- %j : (일년 기준) 며칠째인지
- %U : (일년 기준) 몇 주째인지

# Period

pd.Timestamp() 와 pd.Period()의 차이

Timestamp는 하나의 시점을 뜻하고, Period는 지정한 날짜의 시작지점부터 종료시점까지의 점위를 포괄함

In [32]:
p = pd.Period('2024-08-15')
p
print(p.start_time)
print(p.end_time)

2024-08-15 00:00:00
2024-08-15 23:59:59.999999999


In [34]:
dates = ['2024-08-15', '2024-10-15', '2024-12-15']
datesD = pd.to_datetime(dates)
datesD

DatetimeIndex(['2024-08-15', '2024-10-15', '2024-12-15'], dtype='datetime64[ns]', freq=None)

In [36]:
# timestamp => period
forDay = datesD.to_period(freq='D')
forDay

PeriodIndex(['2024-08-15', '2024-10-15', '2024-12-15'], dtype='period[D]')

In [37]:
forMonth = datesD.to_period(freq='M')
forMonth

PeriodIndex(['2024-08', '2024-10', '2024-12'], dtype='period[M]')

In [39]:
forYear = datesD.to_period(freq='A')
forYear

PeriodIndex(['2024', '2024', '2024'], dtype='period[A-DEC]')

# Timestamp 배열

date_range() 함수

In [41]:
pd.date_range('2024-08-02', periods=12, freq='2D')

DatetimeIndex(['2024-08-02', '2024-08-04', '2024-08-06', '2024-08-08',
               '2024-08-10', '2024-08-12', '2024-08-14', '2024-08-16',
               '2024-08-18', '2024-08-20', '2024-08-22', '2024-08-24'],
              dtype='datetime64[ns]', freq='2D')

In [44]:
a = pd.date_range(start = '2024-08-02',     # 시작 날짜
                  end = None,               # 끝 날짜 (None일 경우 생략 가능)
                  periods = 8,              # 생성할 timestamp 갯수
                  freq = '2M'               # 시간 간격
                  )
a

DatetimeIndex(['2024-09-01', '2024-11-01', '2025-01-01', '2025-03-01',
               '2025-05-01', '2025-07-01', '2025-09-01', '2025-11-01'],
              dtype='datetime64[ns]', freq='2MS')

- M : 각 달의 마지막날짜
- MS : 각 달의 첫 날
- D : 일자별

# Period 배열

period_range() 함수

In [45]:
# 두 달 단위
twoM = pd.period_range('2009-07-14', periods=10, freq='2M')
twoM

PeriodIndex(['2009-07', '2009-09', '2009-11', '2010-01', '2010-03', '2010-05',
             '2010-07', '2010-09', '2010-11', '2011-01'],
            dtype='period[2M]')