### 시계열
- 시간상 여러 지점을 관측하거나 측정할 수 있도록 목록 또는 그래프로 표시한 일련의 데이터 저
- 일정한 간격의 연속적이고 동등한 점들로 이루어진 시퀀스
- 빅데이터에서 일반적으로 동등한 시간 간격으로 배치된 연속적 사건으로 나타남
- ex) 금융 시장의 주가 예측, 일기 예보, 전력 에너지 소비 추세, 웹 사이트 방문자 수 트렌드 등

### pandas로 날짜 데이터 다루기

### 1. 시계열 자료과 pandas
- 년도별, 월별, 일별, 시별, 분별, 초별 등 시간의 흐름에 따라 관측된 자료
- pandas에서 시계열 자료를 손쉽게 다룰 수 있도록 <b>datetime(datetime64)</b> 자료형 제공
    - pd.to_datetime() 함수를 사용해서, 날짜와 시간을 나타내는 문자열을 datetime(datetime64) 자료형으로 변경

In [1]:
import pandas as pd

#### 1) 날짜 인덱스 지정

In [2]:
pd.Series(range(3), index=pd.date_range('2022',freq='D', periods=3))

2022-01-01    0
2022-01-02    1
2022-01-03    2
Freq: D, dtype: int64

#### 2) 날짜 values 지정

In [3]:
pd.Series(pd.date_range('2022',freq='D', periods=3))

0   2022-01-01
1   2022-01-02
2   2022-01-03
dtype: datetime64[ns]

In [4]:
# 날짜 지정 가능
pd.Series(pd.date_range('20220701',freq='D', periods=3))

0   2022-07-01
1   2022-07-02
2   2022-07-03
dtype: datetime64[ns]

#### 3) 날짜 + 시간 values

In [5]:
# freq='H' 시간 변경
pd.Series(pd.date_range('20220701 09:10:12',freq='H', periods=3))

0   2022-07-01 09:10:12
1   2022-07-01 10:10:12
2   2022-07-01 11:10:12
dtype: datetime64[ns]

#### 4) dt

In [7]:
# 생성
ser1= pd.Series(pd.date_range('20220701 09:10:12',freq='H', periods=3))
ser1

0   2022-07-01 09:10:12
1   2022-07-01 10:10:12
2   2022-07-01 11:10:12
dtype: datetime64[ns]

In [8]:
# 시간
ser1.dt.hour

0     9
1    10
2    11
dtype: int64

In [9]:
# 분
ser1.dt.minute

0    10
1    10
2    10
dtype: int64

In [10]:
#초
ser1.dt.second

0    12
1    12
2    12
dtype: int64

In [12]:
#년
ser1.dt.year

0    2022
1    2022
2    2022
dtype: int64

In [13]:
# 월
ser1.dt.month

0    7
1    7
2    7
dtype: int64

In [14]:
# 생성
ser1= pd.Series(pd.date_range('20220701 09:10:12', periods=3))
ser1

0   2022-07-01 09:10:12
1   2022-07-02 09:10:12
2   2022-07-03 09:10:12
dtype: datetime64[ns]

In [15]:
# 2일 날짜 추출
ser1[ser1.dt.day == 2]

1   2022-07-02 09:10:12
dtype: datetime64[ns]

In [19]:
# 생성
df = pd.DataFrame({
    'order':['2020-01-01 07:10:00', '2020-01-01 07:20:30', '2020-02-20 11:20:00',
            '2020-02-20 14:12:10', '2020-03-01 06:19:30', '2020-07-08 12:54:15']
})
df

Unnamed: 0,order
0,2020-01-01 07:10:00
1,2020-01-01 07:20:30
2,2020-02-20 11:20:00
3,2020-02-20 14:12:10
4,2020-03-01 06:19:30
5,2020-07-08 12:54:15


In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   order   6 non-null      object
dtypes: object(1)
memory usage: 176.0+ bytes


In [21]:
pd.to_datetime(df['order'])

0   2020-01-01 07:10:00
1   2020-01-01 07:20:30
2   2020-02-20 11:20:00
3   2020-02-20 14:12:10
4   2020-03-01 06:19:30
5   2020-07-08 12:54:15
Name: order, dtype: datetime64[ns]

In [22]:
df['order'] = pd.to_datetime(df['order'], format='%Y-%m-%d %H:%M:%S', errors='raise')

In [23]:
df

Unnamed: 0,order
0,2020-01-01 07:10:00
1,2020-01-01 07:20:30
2,2020-02-20 11:20:00
3,2020-02-20 14:12:10
4,2020-03-01 06:19:30
5,2020-07-08 12:54:15
