시계열 데이터 분석
  - 분해법
    - 추세(Trend), 계절성(Seasonality), 주기(Cycle) 및 불규칙성(Irregularity) 와 같은 구성요소를 분해해서 분석
  - 시간 영역 분석법
    - AR(Auto Regressive Model) 모형
    - MA(Moving Average) 모형
    - ARMA 모형
    - ARIMA(Autoregressive Integrated Moveing Average)

시계열 데이터 전처리 방법
  - to_datetime()을 이용하여 datetime 형 변환

In [2]:
import pandas as pd
d = pd.DataFrame({
    'date':['2023-01-01','2023-02-01','2023-03-01'],
    'name':['A','B','C']
})
d.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    3 non-null      object
 1   name    3 non-null      object
dtypes: object(2)
memory usage: 176.0+ bytes


In [5]:
d['date'] = pd.to_datetime(d['date'],format='%Y-%m-%d')
d.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   date    3 non-null      datetime64[ns]
 1   name    3 non-null      object        
dtypes: datetime64[ns](1), object(1)
memory usage: 176.0+ bytes


시계열 정보를 index로 설정한다.

In [8]:
d = d.set_index(keys='date')
d

Unnamed: 0_level_0,name
date,Unnamed: 1_level_1
2023-01-01,A
2023-02-01,B
2023-03-01,C


시계열 데이터의 결측치 처리
  - 가장 최근의 값으로 결측치 채우기

In [10]:
d = d.fillna(method='ffill')
d

Unnamed: 0_level_0,name
date,Unnamed: 1_level_1
2023-01-01,A
2023-02-01,B
2023-03-01,C


In [16]:
import numpy as np
d = pd.DataFrame({
    'date':['2023-01-01','2023-02-01','2023-03-01','2023-04-01','2023-05-01'],
    'x':[0.1,2.0,np.nan,1.2,2.2]
})
d.info()
# 날자를 datetime로 변경하고
d['date'] = pd.to_datetime(d['date'])
# 날자를 index로 셋팅하고
d = d.set_index(keys='date')
# 널 확인하고
print(d.isnull().sum())
# 널은 가장 최근 값으로 대처
d = d.fillna(method='ffill')
d

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   date    5 non-null      object 
 1   x       4 non-null      float64
dtypes: float64(1), object(1)
memory usage: 208.0+ bytes
x    1
dtype: int64


Unnamed: 0_level_0,x
date,Unnamed: 1_level_1
2023-01-01,0.1
2023-02-01,2.0
2023-03-01,2.0
2023-04-01,1.2
2023-05-01,2.2


In [17]:
# 결측치 전후의 값의평균으로 결측값을 채우기
# interpolate()
d = pd.DataFrame({
    'date':['2023-01-01','2023-02-01','2023-03-01','2023-04-01','2023-05-01'],
    'x':[0.1,2.0,np.nan,1.2,2.2]
})
d.interpolate()

Unnamed: 0,date,x
0,2023-01-01,0.1
1,2023-02-01,2.0
2,2023-03-01,1.6
3,2023-04-01,1.2
4,2023-05-01,2.2


결측치 처리
  - 제거
  - 평균(전체)
  - 앞뒤의 평균 interpolate()
  - 범주형(최빈값)
  - 시계열
    - 가장최근의 값 ffill