<a href="https://colab.research.google.com/github/dudgus1286/pandas/blob/main/12_time_series.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Ⅰ. 시계열

- 시간상 여러 지점을 관측하거나 측정할 수 있도록 목록 또는 그래프로 표시한 일련의 데이터 점
- 일정한 간격의 연속적이고 동등한 점들로 이루어진 시퀀스
- 빅데이터에서 일반적으로 동등한 시간 간격으로 배치된 연속적 사건으로 나타남
- ex) 금융시장의 주가 예측, 일기 예보, 전력 에너지 소비 추세, 웹 사이트 방문자 수 트렌트 등

## Ⅱ. 파이썬 날짜 및 시간 관련 객체


| 클래스              | 내용                                                               |
|---------------------|--------------------------------------------------------------------|
| class datetime.date | 그레고리력으로 날짜를 다룸. year,month,day 속성이 있음 |
| class datetime.time | 특정일과 관련 없이 모든 날(day)을 24*60*60 초로 다룸. hour,minute,second,microsecond,tzinfo 속성이 있음|
| class datetime.datetime | 날짜와 시간의 조합. year,month,day,hour,minute,second,microsecond,tzinfo 속성이 있음|
| class datetime.timedelta | date 인스턴스 간, time 인스턴스 간 또는 datetime 인스턴스들 간 차이를 마이크로초로 나타내는 기간|


## Ⅲ. pandas 로 날짜 다루기
### 1. 시계열 자료와 pandas
- 년도별, 월별, 일별, 시별, 분별 초별등 시간의 흐름에 따라 관측된 자료
- pandas 에서 시계열 자료를 손쉽게 다룰 수 있도록, datetime (datetime64) 자료형 제공
  - pandas.to_datetime() 함수를 사용해서, 날짜와 시간을 나타내는 문자열을 datetime (datetime64) 자료형으로 변경 가능
  
### 2. pandas.to_datetime() 사용법
- 문자열 타입의 시간을 pandas 의 datetime (datetime64) 형으로 변경
- 주요 사용법
  - Series 변수 = to_datetime(Series 변수)
    - return 된 Series 변수 데이터는 datetime64 형으로 변형되어 저장
  - Series 변수 = to_datetime(Series 변수, format='~~~')
    - Series 에 변환될 문자열이 특별한 포맷을 가져서, 자동변환이 어려운 경우 명시적으로 format 지정 (옵션)
  - Series 변수 = to_datetime(Series 변수, errors='raise')
    - 디폴트 raise
    - errors 가능한 값: ignore(무시), raise(에러 발생), coerce(NaT 로 값 변경해서 저장) (옵션)


| 표시 | 의미                                |
|------|:-------------------------------------|
| %y   | 연도를 축약해서 표시, 예: 21        |
| %Y   | 연도를 축약하지 않고 표시, 예: 2021 |
| %m   | 월을 두자릿 수로 표시, 예: 01 ~ 12  |
| %d   | 일을 두자릿 수로 표시, 예: 01 ~ 31  |
| %H   | 시간 표시(24시간), 예: 00 ~ 23        |
| %M   | 분 표시, 예: 00 ~ 59  |
| %S   | 초 표시, 예: 00 ~ 59        |

> 참고: https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

In [1]:
import pandas as pd

### [실습1]

#### 1) 날짜를 인덱스로 갖는 시리즈 객체 생성

In [2]:
pd.Series(range(3))

0    0
1    1
2    2
dtype: int64

#### 2) 날짜를 value로 갖는 시리즈 객체 생성

In [6]:
pd.date_range?

In [5]:
pd.Series(range(3), index=pd.date_range('2024',freq='D', periods = 3))

2024-01-01    0
2024-01-02    1
2024-01-03    2
Freq: D, dtype: int64

In [7]:
pd.Series(range(3), index=pd.date_range('2024',freq='Y', periods = 3))

2024-12-31    0
2025-12-31    1
2026-12-31    2
Freq: A-DEC, dtype: int64

#### 3) 날짜+시간을 value로 갖는 시리즈 객체 생성

In [8]:
pd.Series(pd.date_range('2024', periods=3))

0   2024-01-01
1   2024-01-02
2   2024-01-03
dtype: datetime64[ns]

In [9]:
pd.Series(pd.date_range('20240601', periods=3))

0   2024-06-01
1   2024-06-02
2   2024-06-03
dtype: datetime64[ns]

In [12]:
ser = pd.Series(pd.date_range('20240601 09:10:12', freq= 'H', periods=3))
ser

0   2024-06-01 09:10:12
1   2024-06-01 10:10:12
2   2024-06-01 11:10:12
dtype: datetime64[ns]

#### 4) 시간대 정보 접근 : .dt

In [13]:
ser.dt.hour

0     9
1    10
2    11
dtype: int32

In [14]:
ser.dt.minute

0    10
1    10
2    10
dtype: int32

In [15]:
ser.dt.second

0    12
1    12
2    12
dtype: int32

In [19]:
ser = pd.Series(pd.date_range('20240601 09:20:31', periods=3))
ser

0   2024-06-01 09:20:31
1   2024-06-02 09:20:31
2   2024-06-03 09:20:31
dtype: datetime64[ns]

In [24]:
ser.dt.year
ser.dt.month
ser.dt.day

0    1
1    2
2    3
dtype: int32

- day가 2인 열 추출

In [25]:
ser[ser.dt.day == 2]

1   2024-06-02 09:20:31
dtype: datetime64[ns]

### [실습2]

In [36]:
df = pd.DataFrame({'order':['2020-01-01 07:10:00',
                            '2020-01-08 07:20:30',
                            '2020-02-20 11:20:00',
                            '2020-02-20 04:40:50',
                            '2020-02-28 12:10:20',
                            '2019-01-10 17:23:50',
                            '2019-06-20 22:27:50',
                            '2019-06-20 21:15:59',
                            '2019-12-10 21:15:59',
                           ]})

In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   order   9 non-null      object
dtypes: object(1)
memory usage: 200.0+ bytes


#### 1) object => datetime64(ns)

In [28]:
pd.to_datetime?

In [40]:
# to_datetime()
df['order'] = pd.to_datetime(df['order'], format ="%Y-%m-%d %H:%M:%S")

In [41]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   order   9 non-null      datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 200.0 bytes


In [35]:
df = pd.DataFrame({'order':['2020-01-01 07:10:00',
                            '2020-01-08 07:20:30',
                            '2020-02-20 11:20:00',
                            '2020-02-20 04:40:50',
                            '2020-02-28 12:10:20',
                            '2019-01-10 17:23:50',
                            '2019-06-20 22:27:50',
                            '2019-06-20 21:15:59',
                            '2019-12-10 21:15:59',
                           ]}, dtype="datetime64[ns]")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   order   9 non-null      datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 200.0 bytes
