# 시계열 데이터 (Timeseries)

시계열 데이터 : 일정한 시간동안 수집된 일련의 순차적으로 정해진 데이터들의 집합

시계형 자료형 : timestamp, period

In [2]:
import pandas as pd
import seaborn as sns

# timestamp

pd.to_datetime() : 날짜 => 시계열타입

In [2]:
flight = sns.load_dataset('flights')
flight.head()

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


In [3]:
flight.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   year        144 non-null    int64   
 1   month       144 non-null    category
 2   passengers  144 non-null    int64   
dtypes: category(1), int64(2)
memory usage: 2.9 KB


In [6]:
# flight['month']
# 영어로 되어있는 달 => 숫자로 바꾸기
months = {
    'Jan' : 1,
    'Feb' : 2,
    'Mar' : 3,
    'Apr' : 4,
    'May' : 5,
    'Jun' : 6,
    'Jul' : 7,
    'Aug' : 8,
    'Sep' : 9,
    'Oct' : 10,
    'Nov' : 11,
    'Dec' : 12
}

# map함수를 이용하면, Series를 대상으로 원하는 내용으로 적용을 할 수 있음
flight['month'] = flight['month'].map(months)
flight

Unnamed: 0,year,month,passengers
0,1949,1,112
1,1949,2,118
2,1949,3,132
3,1949,4,129
4,1949,5,121
...,...,...,...
139,1960,8,606
140,1960,9,508
141,1960,10,461
142,1960,11,390


In [7]:
# 열을 하나 추가
flight.insert(2, 'day', 1) # 원하는 위치에 추가하고 싶을 때 : insert(위치, 컬럼명, 값)
flight.head()

Unnamed: 0,year,month,day,passengers
0,1949,1,1,112
1,1949,2,1,118
2,1949,3,1,132
3,1949,4,1,129
4,1949,5,1,121


In [8]:
# year, month, day => 날짜
flight['date'] = pd.to_datetime(flight[['year', 'month', 'day']])
flight

Unnamed: 0,year,month,day,passengers,date
0,1949,1,1,112,1949-01-01
1,1949,2,1,118,1949-02-01
2,1949,3,1,132,1949-03-01
3,1949,4,1,129,1949-04-01
4,1949,5,1,121,1949-05-01
...,...,...,...,...,...
139,1960,8,1,606,1960-08-01
140,1960,9,1,508,1960-09-01
141,1960,10,1,461,1960-10-01
142,1960,11,1,390,1960-11-01


# Timestamp

Python의 datetime과 유사

특정날짜를 표현 가능 O

In [3]:
# 위치로 (year, month, day, hour, minute, second)
christmas = pd.Timestamp(2024, 12, 25, 14, 13, 21)
christmas

Timestamp('2024-12-25 14:13:21')

In [4]:
# 파라미터명 명시해서
christmas2 = pd.Timestamp(day = 25, hour = 12, month = 12, minute = 12,
                          second = 12, year = 2024)
christmas2

Timestamp('2024-12-25 12:12:12')

In [13]:
# MyBirthday = pd.Timestamp(hour = 10, minute = 10, day = 27, year = 1993, month = 9)
MyBirthday = pd.Timestamp(1993, 9, 27, 10, 10, 10)
print('내 생일 : ', MyBirthday)
print('태어난 연도 : ', MyBirthday.year)
print('태어난 달 : ', MyBirthday.month)
print('태어난 일 : ', MyBirthday.day)
print('태어난 시 : ', MyBirthday.hour)
print('태어난 분 : ', MyBirthday.minute)
print('태어난 초 : ', MyBirthday.second)
print('태어난 요일 : ', MyBirthday.dayofweek) # 요일] 월 : 0 ~ 일 : 6
print('일년 내 며칠 째에 하는지 : ', MyBirthday.dayofyear)
print('해당하는 달이 며칠까지 있는지 : ', MyBirthday.daysinmonth)
print('몇 분기에 하는지 : ', MyBirthday.quarter)
print('몇 주째에 하는지 : ', MyBirthday.week)

내 생일 :  1993-09-27 10:10:10
태어난 연도 :  1993
태어난 달 :  9
태어난 일 :  27
태어난 시 :  10
태어난 분 :  10
태어난 초 :  10
태어난 요일 :  0
일년 내 며칠 째에 하는지 :  270
해당하는 달이 며칠까지 있는지 :  30
몇 분기에 하는지 :  3
몇 주째에 하는지 :  39


In [16]:
print(MyBirthday.date())  # 날짜
print(MyBirthday.time())  # 시간
print(pd.Timestamp.combine(MyBirthday.date(), MyBirthday.time()))
# combine() 함수 : data() 함수와 time() 함수를 합쳐서 날짜/시간 객체 생성

1993-09-27
10:10:10
1993-09-27 10:10:10


In [17]:
import datetime as dt

In [19]:
print(pd.Timestamp.today())
print(pd.Timestamp.now())

print(dt.datetime.now())

2024-08-02 05:30:06.965508
2024-08-02 05:30:06.965764
2024-08-02 05:30:06.965897


# Timestamp => Str (문자열)

In [20]:
MyBirthday

# strftime(format) : timestamp => string
print(MyBirthday.strftime('%Y-%m-%d %H:%M:%S'))

1993-09-27 10:10:10


# 시간 형식 지정자 (format 지정자)

- %Y : 연도 네자리
- %y : 연도 끝에 두자리
- %m : 월(숫자)
- %B : 월(영문 전체)
- %b : 월(영문 약식)
- %w : 요일(숫자) (O이 일요일 ~ )
- %A : 요일(영문 전체)
- %a : 요일(영문 약식)
- %H : 요일(24시간 단위)
- %I : 시간(12시간 단위)
- %p : AM, PM
- %M : 분
- %S : 초
- %j : (일년 기준) 며칠째인지
- %U : (일년 기준) 몇 주째인지


# Period

pd.Timestamp()와 pd.Period()와의 차이

Timestamp는 하나의 시점을 뜻하고, Period는 지정한 날짜의 시작지점부터 종료시점까지의 범위를 포괄함

In [22]:
p = pd.Period('2024-08-15')
p
print(p.start_time)
print(p.end_time)

2024-08-15 00:00:00
2024-08-15 23:59:59.999999999


In [23]:
dates = ['2024-08-15', '2024-10-15', '2024-12-15']
datesD = pd.to_datetime(dates)
datesD

DatetimeIndex(['2024-08-15', '2024-10-15', '2024-12-15'], dtype='datetime64[ns]', freq=None)

In [24]:
# timestamp => period
forDay = datesD.to_period(freq='D')
forDay

PeriodIndex(['2024-08-15', '2024-10-15', '2024-12-15'], dtype='period[D]')

In [25]:
forMonth = datesD.to_period(freq='M')
forMonth

PeriodIndex(['2024-08', '2024-10', '2024-12'], dtype='period[M]')

In [26]:
forYear = datesD.to_period(freq='A')
forYear

PeriodIndex(['2024', '2024', '2024'], dtype='period[A-DEC]')

# Timestamp 배열

date_range() 함수

In [29]:
pd.date_range('2024-08-02', periods = 12, freq='2D')

DatetimeIndex(['2024-08-02', '2024-08-04', '2024-08-06', '2024-08-08',
               '2024-08-10', '2024-08-12', '2024-08-14', '2024-08-16',
               '2024-08-18', '2024-08-20', '2024-08-22', '2024-08-24'],
              dtype='datetime64[ns]', freq='2D')

In [30]:
a = pd.date_range(start = '2024-08-02',           # 시작 날짜
                  end = None,                     # 끝 날짜 (None일 경우 생략 가능)
                  periods = 8,                    # 생성할 timestamp 갯수
                  freq='2M'                       # 시간 간격
                  )

- M : 각 달의 마지막날짜
- MS : 각 달의 첫 날
- D : 일자별

# Period 배열

period_range() 함수

In [31]:
# 두 달 단위
twoM = pd.period_range('2009-07-14', periods=10, freq='2M')
twoM

PeriodIndex(['2009-07', '2009-09', '2009-11', '2010-01', '2010-03', '2010-05',
             '2010-07', '2010-09', '2010-11', '2011-01'],
            dtype='period[2M]')