# 시계열 데이터 ( Timeseries )   
   
시계열 데이터 : 일정한 시간동안 수집된 일련의 순차적으로 정해진 데이터들의 집합   
   
시계열 자료형 : timestamp, period

In [2]:
import pandas as pd
import seaborn as sns

# timestamp   
pd.to_datetime() : 날짜 -> 시계열 타입으로 바꿔줌

In [16]:
flight = sns.load_dataset('flights')
flight.head()

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


In [6]:
flight.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   year        144 non-null    int64   
 1   month       144 non-null    category
 2   passengers  144 non-null    int64   
dtypes: category(1), int64(2)
memory usage: 2.9 KB


In [17]:
# flight['month']
# 영어로 되어있는 달을 숫자로 바꾸기
months = {
    'Jan' : 1,
    'Feb' : 2,
    'Mar' : 3,
    'Apr' : 4,
    'May' : 5,
    'Jun' : 6,
    'Jul' : 7,
    'Aug' : 8,
    'Sep' : 9,
    'Oct' : 10,
    'Nov' : 11,
    'Dec' : 12
}

# map 함수를 이용하면 Series를 대상으로 우리가 원하는 내용으로 적용가능
# 두 번 실행하면 매칭 안되서 NaN값 들어감
flight['month'] = flight['month'].map(months)
flight['month']

Unnamed: 0,month
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


In [18]:
# 열을 하나 추가
# day 열 추가
flight.insert(2, 'day', 1) #원하는 위치에 값을 추가하고 싶을때 - insert
flight.head()

Unnamed: 0,year,month,day,passengers
0,1949,1,1,112
1,1949,2,1,118
2,1949,3,1,132
3,1949,4,1,129
4,1949,5,1,121


In [19]:
# year, month, day => 날짜
flight['date'] = pd.to_datetime(flight[['year','month','day']])
flight.head()

Unnamed: 0,year,month,day,passengers,date
0,1949,1,1,112,1949-01-01
1,1949,2,1,118,1949-02-01
2,1949,3,1,132,1949-03-01
3,1949,4,1,129,1949-04-01
4,1949,5,1,121,1949-05-01


# Timestamp   
   
Python의 datetime과 유사   
특정 날짜를 표현하는 것이 가능함

In [4]:
#파라미터 ( year, month, day, hour, minute, second)
christmas = pd.Timestamp(2022,12,25,14,31,21)
christmas

Timestamp('2022-12-25 14:31:21')

In [5]:
# 파라미터 명시해서
christmas2 = pd.Timestamp(day = 25, hour = 12, month=12, minute = 12, year = 2024)
christmas2

Timestamp('2024-12-25 12:12:00')

In [20]:
# 날짜 하나 Timestamp로 만들기
x = pd.Timestamp(1997,5,21,3,23,45)

print('음력 생일 : ' , x)
print('출생년도 : ', x.year)
print('월 : ', x.month)
print('일 : ', x.day)
print('시 : ', x.hour)
print('분 : ', x.minute)
print('초 : ', x.second)
#월요일 : 0 ~ 일요일 6
print('생일은 무슨 요일 ? :' ,x.day_of_week)
print('일년 중 며칠 째? : ', x.day_of_year)
print('해당하는 달이 며칠까지 있는지? : ', x.days_in_month)
print('몇 분기에 해당하는지 : ', x.quarter)
print('일년 중 몇 주째에 해당하는지 : ', x.week)


음력 생일 :  1997-05-21 03:23:45
출생년도 :  1997
월 :  5
일 :  21
시 :  3
분 :  23
초 :  45
생일은 무슨 요일 ? : 2
일년 중 며칠 째? :  141
해당하는 달이 며칠까지 있는지? :  31
몇 분기에 해당하는지 :  2
일년 중 몇 주째에 해당하는지 :  21


In [22]:
print(x.date()) # 날짜만 분리
print(x.time()) # 시간만 분리

print(pd.Timestamp.combine(x.date(), x.time())) # 날짜와 시간 합치기

1997-05-21
03:23:45
1997-05-21 03:23:45


In [23]:
import datetime as dt

In [29]:
print(pd.Timestamp.today())
print(pd.Timestamp.now())

#datetime에서도 now 사용했음
print(dt.datetime.now())
print(dt.datetime.now().year)

2024-08-02 05:30:19.254065
2024-08-02 05:30:19.255120
2024-08-02 05:30:19.255773
2024


# Timestamp => Str (문자열)   

In [34]:
x
#strftime(format) : timestamp => string
print(x.strftime('%y-%m-%d %H:%M:%S'))

97-05-21 03:23:45


# 시간 형식 지정자 (format 지정자)   
   
-%Y : 연도 네자리   
-%y : 연도 끝 두자리   
-%m : 월(숫자)   
-%B : 월(영문 전체)   
-%b : 월( 영문 약식)   
-%w : 요일(숫자) ( 0이 일요일 )   
-%A : 요일(영문 전체)   
-%a : 요일(영문 약식)   
-%H : 요일(24시간 단위)   
-%I : 시간(12시간 단위)   
-%p : AM, PM   
-%M : 분   
-%S : 초   
-%j : (일년 기준) 며칠째인지   
-%J : (일년 기준) 몇 주째인지    

# Period   
   
pd.Timestamp() 와 pd.Period()의 차이   
   
Timestamp는 하나의 시점만을 뜻함   
Period는 지정한 날짜의 시작지점부터 종료시점까지의 범위를 포괄함

In [36]:
p = pd.Period('2024-08-15')
p
print(p.start_time)
print(p.end_time)

2024-08-15 00:00:00
2024-08-15 23:59:59.999999999


In [37]:
dates = ['2024-08-15', '2024-10-15', '2024-12-15']
datesD = pd.to_datetime(dates)
datesD

DatetimeIndex(['2024-08-15', '2024-10-15', '2024-12-15'], dtype='datetime64[ns]', freq=None)

In [40]:
# timestamp => Period
# freq => 어디까지 보여줄 것인가
forDay = datesD.to_period(freq = 'D')
forDay

PeriodIndex(['2024-08-15', '2024-10-15', '2024-12-15'], dtype='period[D]')

In [41]:
forMonth = datesD.to_period(freq = 'M')
forMonth

PeriodIndex(['2024-08', '2024-10', '2024-12'], dtype='period[M]')

In [42]:
forYear = datesD.to_period(freq = 'A')
forYear

PeriodIndex(['2024', '2024', '2024'], dtype='period[A-DEC]')

# Timestamp 배열   
   
date_range()  함수   


In [45]:

pd.date_range('2024-08-02', periods=12, freq='2D')

DatetimeIndex(['2024-08-02', '2024-08-04', '2024-08-06', '2024-08-08',
               '2024-08-10', '2024-08-12', '2024-08-14', '2024-08-16',
               '2024-08-18', '2024-08-20', '2024-08-22', '2024-08-24'],
              dtype='datetime64[ns]', freq='2D')

In [47]:
# 파라미터 설명
pd.date_range(start='2024-08-02', # 시작 날짜
             end = None, # 끝 날짜(None인 경우 생략 가능),
             periods = 8, # 생성할 Timestamp의 갯수
             freq = '2M' # 생성할 Timestamp 간의 시간 간격
              # M : 각 달의 마지막 날짜
              # MS : 각 달의 첫날
              # D : 일자별

             )

DatetimeIndex(['2024-08-31', '2024-10-31', '2024-12-31', '2025-02-28',
               '2025-04-30', '2025-06-30', '2025-08-31', '2025-10-31'],
              dtype='datetime64[ns]', freq='2M')

# Period 배열   
   
period_range() 함수   


In [48]:
twoM = pd.period_range(start = '2024-08-02',
                    end = None,
                    periods = 8,
                    freq = '2M')
#period는 연속 시간 단위라서 월 단위면 그 아래(일 시 분 초 등등) 단위는 그냥 짤라버림
twoM

PeriodIndex(['2024-08', '2024-10', '2024-12', '2025-02', '2025-04', '2025-06',
             '2025-08', '2025-10'],
            dtype='period[2M]')