# 시계열 분석

## 파이썬과 pandas 날짜 도구의 차이점 이해

- 파이썬 datetime 모듈
 - date, time, datetime.
 - date : 연도, 월, 일로 구성된 어느 순간.
 - time : 시, 분, 초와 마이크로초.
 - datetime : date와 time 요소의 합.

- pandas Timestamp
 - 나노초(십업 분의 1초)의 정밀도.
 - NumPy의 datetime64 데이터 형식에서 파생.

- 파이썬과 pandas는 각각 날짜를 더하고 뺄 때 유용한 timedelta 객체가 있음.

In [7]:
import pandas as pd
import numpy as np
import datetime

In [1]:
#파이썬의 date, time, datetime 객체

date = datetime.date(year = 2013, month = 6, day = 7)
time = datetime.time(hour = 12, minute = 30, second = 19, microsecond = 463198)
dt = datetime.datetime(year = 2013, month = 6, day = 7, 
                       hour = 12, minute = 30, second = 19, microsecond = 463198)

print(f"date is {date}")

print(f"time is {time}")

print(f"datetime is {dt}")

date is 2013-06-07
time is 12:30:19.463198
datetime is 2013-06-07 12:30:19.463198


In [8]:
#timedelta 객체 생성

td = datetime.timedelta(weeks = 2, days = 5, hours = 10,
                       minutes = 20, seconds = 6.73, milliseconds = 99, microseconds = 8)
td

datetime.timedelta(days=19, seconds=37206, microseconds=829008)

In [4]:
#td를 1단계의 date와 td 객체에 덧셈

print(f"new date is {date + td}")

print(f"new datetime is {dt + td}")

new date is 2013-06-26
new datetime is 2013-06-26 22:50:26.292206


In [5]:
#근데 timedelta와 time 객체를 더하면 오류가 발생.

time + td

TypeError: unsupported operand type(s) for +: 'datetime.time' and 'datetime.timedelta'

In [13]:
#pandas의 Timestamp 객체

pd.Timestamp(year = 2012, month = 12, day = 21, hour = 5,
            minute = 10, second = 8, microsecond = 99)

print(pd.Timestamp('2016/1/10'))
print(pd.Timestamp('2016-5/10'))
print(pd.Timestamp('Jan 3, 2019 20:45.56'))
print(pd.Timestamp('2016-1-05T05:34:43.123456789'))

2016-01-10 00:00:00
2016-05-10 00:00:00
2019-01-03 20:45:33
2016-01-05 05:34:43.123456789


In [21]:
#단일 정수나 부동소수점수를 Timestamp 생성자에 전달 할 수 있음.

print(pd.Timestamp(0))
print(pd.Timestamp(500))
print(pd.Timestamp(5000))
print(pd.Timestamp(5000, unit = 'D'))

1970-01-01 00:00:00
1970-01-01 00:00:00.000000500
1970-01-01 00:00:00.000005
1983-09-10 00:00:00


In [25]:
#Timestamp 생성자와 유사하게 작동하는 to_datetime 함수가 제공
#DataFrame 문자열 열을 날짜로 변환하는데 유용

print(pd.to_datetime("2015-5-13"))
print(pd.to_datetime("2015-13-5", dayfirst = True))
print(pd.to_datetime("Start Date : Sep 30, 2017 Start Time : 1:30 pm",
                     format = "Start Date : %b %d, %Y Start Time : %I:%M %p"))
print(pd.to_datetime(100, unit = "D", origin = "2015-5-13"))

2015-05-13 00:00:00
2015-05-13 00:00:00
2017-09-30 13:30:00
2015-08-21 00:00:00


In [26]:
#to_datetime 함수는 전체 리스트나 문자열 Series 또는 정수를 Timestamp 객체로 변환.
#단일 스칼라 값보다는 Series나 DataFrame과 상호작용할 가능성이 훨씬 높음.

s = pd.Series([10, 100, 1000, 10000])
pd.to_datetime(s, unit = "D")

0   1970-01-11
1   1970-04-11
2   1972-09-27
3   1997-05-19
dtype: datetime64[ns]

In [27]:
s = pd.Series(['12-5-2015', '14-1-2013', '20/12/2017', '40/23/2017'])
pd.to_datetime(s, dayfirst = True, errors = 'coerce')

0   2015-05-12
1   2013-01-14
2   2017-12-20
3          NaT
dtype: datetime64[ns]

In [28]:
pd.to_datetime(['Aug 3 1999 3:45:56', '10/31/2018'])

DatetimeIndex(['1999-08-03 03:45:56', '2018-10-31 00:00:00'], dtype='datetime64[ns]', freq=None)

In [30]:
#pandas에는 시간량을 나타내는 Timedelta와 to_timedelta가 있음.
#전체 리스트나 Series를 Timedelta 객체로 변환이 가능

print(pd.Timedelta("12 days 5 hours 3 minutes 123456789 nanoseconds"))
print(pd.Timedelta(days = 5, minutes = 7.34))
print(pd.Timedelta(100, unit = "W"))
print(pd.to_timedelta("67:15:45.454"))
s = pd.Series([10, 100])
print(pd.to_timedelta(s, unit = 's'))

time_strings = ['2 days 24 minutes 89.76 seconds', '00:45:23.6']
print(pd.to_timedelta(time_strings))

12 days 05:03:00.123456789
5 days 00:07:20.400000
700 days 00:00:00
2 days 19:15:45.454000
0   0 days 00:00:10
1   0 days 00:01:40
dtype: timedelta64[ns]
TimedeltaIndex(['2 days 00:25:29.760000', '0 days 00:45:23.600000'], dtype='timedelta64[ns]', freq=None)


In [31]:
#10.Timedelta는 다른 Timestamp에 더하거나 뺄 수 있음.

print(pd.Timedelta('12 days 5 hours 3 minutes') * 2)

24 days 10:06:00
