In [40]:
# Time Series 시계열 데이터 : 일정한 시간 간격으로 측정된 데이터를 나열한 데이터 구조
# ex. 생산 설비에서 1초마다 수집되는 제조 데이터 (제대로 안들어온 결측치는 보강해 줄 수있다.)
# 목적 : 시간에 따른 데이터 변화 분석

import pandas as pd
# datetime 클래스가 중요
from datetime import datetime

now = datetime.now() # 현재 시간  년  ~ 마이크로 초 
now

delta = datetime(2023, 5, 22, 12, 16, 15, 50406) - datetime(2023, 5, 22, 10, 16, 15, 50406) # 시간 차 연산
delta

# 이걸 왜하는 걸까 ? 인덱스를 시간으로 대체하자 !
stamp = datetime(2023, 5, 22)  # stamp는 datetime형의 객체체
type(stamp) 
str(stamp)
print(stamp)
print(stamp.strftime("%Y-%m-%d"))   # 형태를 바꿔서 출력가능
print(stamp.strftime("%Y-%m-%d %H:%M:%S"))
print(stamp.strftime("%m-%d-%Y"))

2023-05-22 00:00:00
2023-05-22
2023-05-22 00:00:00
05-22-2023


In [17]:
# 문자열 데이터를 데이트타입으로 바꾸는 방법

stamp = datetime(2023, 5, 22)
str_date = stamp.strftime("%m/%d/%Y")
print(str_date, type(str_date))

datetime_date = datetime.strptime(str_date, "%m/%d/%Y")
print(datetime_date, type(datetime_date))

05/22/2023 <class 'str'>
2023-05-22 00:00:00 <class 'datetime.datetime'>


In [19]:
datestrs = ['5/22/2023', '5/23/2023'] # 날짜 문자열들이 쌓인 리스트

# 리스트 컴프리헨션
[datetime.strptime(x, "%m/%d/%Y") for x in datestrs] # 뒤 먼저 해석 datestrs의 x를 앞의 함수에 넣고 반환값을 새로운 리스트에 추가한다.

'''
empty = []

for x in datestrs :
    empty.append(datetime.strptime(x, "%m/%d/%Y"))
    
empty
    '''

'\nempty = []\n\nfor x in datestrs :\n    empty.append(datetime.strptime(x, "%m/%d/%Y"))\n    \nempty\n    '

In [32]:
# 다양한 시간 포맷이 존재. 쉽게 사용하는 방법

from dateutil.parser import parse # 분석하다. 문자열 date를 date 형태로 쉽계 변환

time_a = parse("2023-05-22") # 어떤 형태로 넣어도 기본 시간 형태로 바꿔준다.
time_b = parse("5/22/2023")
time_c = parse("May 22, 2023 00:00 AM")
time_d = parse("22/5/2023", dayfirst = False) # dayfirst ?????
print(time_a, time_b, time_c, time_d)

2023-05-22 00:00:00 2023-05-22 00:00:00 2023-05-22 00:00:00 2023-05-22 00:00:00


In [39]:
# to_datetime() : 다수의 문자열을 한꺼번에 datetime 객체로 바꾸는 함수

datestrs_01 = ["2023-05-22 00:00:00", "2023-05-23 00:00:00"]
datestrs_02 = ["May 22, 2023 00:00 AM", "May 23, 2023 00:00 AM"]

print(pd.to_datetime(datestrs_01))
print(pd.to_datetime(datestrs_02))

a = pd.to_datetime(datestrs_01)

print(type(a)) # a는 DatetimeIndex
print(type(a[0])) # timestamp형

DatetimeIndex(['2023-05-22', '2023-05-23'], dtype='datetime64[ns]', freq=None)
DatetimeIndex(['2023-05-22', '2023-05-23'], dtype='datetime64[ns]', freq=None)
<class 'pandas.core.indexes.datetimes.DatetimeIndex'>
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [47]:
# 연습
import pandas as pd

data = {'value' : [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)

print(type(df.index)) # range함수로 정수형태로 index가 생성된다.
df

dates = pd.date_range(start = '2023-05-22', periods = len(df), freq = 'D') # date_range : 날짜 생성, start부터 periods만큼 end까지 freq 간격으로(Day, Week, Year, 2Day ...) 
df.index = dates

df

print(type(df.index)) # index의 타입이 datetimes로 바꼈다. DatetimeIndex는 날짜로 이루어진 index 전체를 의미
print(type(df.index[0])) # 날짜 index 한 요소요소는 Timestamp 타입이다.

<class 'pandas.core.indexes.range.RangeIndex'>
<class 'pandas.core.indexes.datetimes.DatetimeIndex'>
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [53]:
# 데이터를 불러올 때 index 지정, 타입 변경이 가능하다.

df = pd.read_csv("stock-data.csv", index_col = 'Date', parse_dates = True) # index_col : 해당 열을 index로 사용한다.  parse_dates : index 타입이 날짜 타입으로 바뀐다.

print(type(df.index)) # 타입이 Index
df.head()

<class 'pandas.core.indexes.datetimes.DatetimeIndex'>


Unnamed: 0_level_0,Close,Start,High,Low,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-07-02,10100,10850,10900,10000,137977
2018-06-29,10700,10550,10900,9990,170253
2018-06-28,10400,10900,10950,10150,155769
2018-06-27,10900,10800,11050,10500,133548
2018-06-26,10800,10900,11000,10700,63039


In [94]:
# 불러온 후 index 지정, 변경

df = pd.read_csv("stock-data.csv")
print(type(df['Date'][0])) # Date열의 날짜들이 String 타입이다.

df['Date'] = pd.to_datetime(df['Date']) # Date열에 요소를 datetime 형으로 바꿔서 넣는다.
df = df.set_index(['Date']) # Date열을 Index로 지정
df.head()

<class 'str'>


Unnamed: 0_level_0,Close,Start,High,Low,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-07-02,10100,10850,10900,10000,137977
2018-06-29,10700,10550,10900,9990,170253
2018-06-28,10400,10900,10950,10150,155769
2018-06-27,10900,10800,11050,10500,133548
2018-06-26,10800,10900,11000,10700,63039


In [85]:
sorted_df = df.sort_index()  # index 정렬
print(type(sorted_df.index))   
print(type(sorted_df.index[0]), '\n')

sorted_df.head()


<class 'pandas.core.indexes.datetimes.DatetimeIndex'>
<class 'pandas._libs.tslibs.timestamps.Timestamp'> 



Unnamed: 0_level_0,Close,Start,High,Low,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-06-01,11900,11800,12100,11750,32062
2018-06-04,11900,11900,12200,11700,25171
2018-06-05,12150,11800,12250,11800,42485
2018-06-07,11950,12200,12300,11900,49088
2018-06-08,11950,11950,12200,11800,59258


In [86]:
selected_data = sorted_df['2018-06-04' : '2018-06-20'] # 날짜 index를 이용해 슬라이싱
print(selected_data.head(16))

montly_mean = sorted_df.resample('2D').mean() # 'M'(월별로) 평균을 계산한다. 'W'(주별) 'D'(일별) '2D'(2일별)...  없는 날짜의 값은 NaN으로 채운다.
print(montly_mean)

            Close  Start   High    Low  Volume
Date                                          
2018-06-04  11900  11900  12200  11700   25171
2018-06-05  12150  11800  12250  11800   42485
2018-06-07  11950  12200  12300  11900   49088
2018-06-08  11950  11950  12200  11800   59258
2018-06-11  11950  12000  12250  11950   62293
2018-06-12  13200  12200  13300  12050  558148
2018-06-14  13450  13200  13700  13150  347451
2018-06-15  13400  13600  13600  12900  201376
2018-06-18  12000  13400  13400  12000  309787
2018-06-19  11300  11850  11950  11300  180656
2018-06-20  11550  11200  11600  10900  308596
              Close    Start     High      Low    Volume
Date                                                    
2018-06-01  11900.0  11800.0  12100.0  11750.0   32062.0
2018-06-03  11900.0  11900.0  12200.0  11700.0   25171.0
2018-06-05  12150.0  11800.0  12250.0  11800.0   42485.0
2018-06-07  11950.0  12075.0  12250.0  11850.0   54173.0
2018-06-09      NaN      NaN      NaN      NaN 