## 딥러닝 시계열 추론 학습 프로세스
---

## 1. EDA (Exploratory Data Analysis)
### 1.1. EDA 정의
- **목적**: 데이터 패턴, 이상치, 관계성을 탐색하여 모델 설계 방향성 수립
- **핵심 요소**: 추세(Trend), 계절성(Seasonality), 순환성(Cyclicity), 주기성(Periodicity), 잡음(Noise)
---


### 1.2. EDA 순서
1. 데이터 이해 & 시각화
   - 데이터가 어떻게 생겼는지 먼저 확인
   - 시간에 따라 값이 어떻게 변하는지 그래프(라인플롯)로 그려본다.
   - 갑자기 튀는 값(이상치)이 있는지, 데이터가 빠진 부분(결측치)이 있는지 그려본다.

2. 데이터 수집 환경/상황 파악
   - 데이터가 어떻게, 왜 모였는지 간단히 정리
   - 센서가 언제, 어떻게 데이터를 모았는지(예: 1분마다/1시간마다 측정)
   - 데이터에 영향을 줄 수 있는 현장 상황(예: 공장 휴무일, 점검일 등)

3. 주요 특징(패턴) 찾아보기
   - 데이터에서 반복되는 패턴이나 규칙이 있는지 살펴본다
   - 하루/일주일 단위로 반복되는 패턴이 있는지(계절성, 주기성)
   - 전체적으로 오르거나 내리는 경향(추세)이 있는지 확인

4. 데이터가 예측에 적합한지 확인
   - 데이터가 너무 불규칙하거나, 한쪽으로만 쏠려 있지 않은지 확인
   - 값이 한쪽에 몰려있거나, 시간에 따라 평균이 크게 바뀌면 예측이 어려울 수 있음
   - 필요하면 로그 변환, 차분 등 간단한 변환 시도

5. 예측에 쓸 데이터 구간(윈도우) 정하기
   - 몇 시간/며칠치 데이터를 보고 미래를 예측할지 결정
   - 예: 지난 24시간 데이터를 보고 다음 1시간 예측
   - 여러 윈도우 크기로 실험해보고, 결과가 제일 좋은 것을 선택

#### 1.3. 쉽게 기억하는 EDA 5단계
1. 그려보기 (plot)
2. 상황 알기 (context)
3. 패턴 찾기 (pattern)
4. 쓸만한지 확인 (check)
5. 구간 정하기 (window)

#### 1.4. 실전 팁
- 그래프를 많이 그려보면 데이터가 눈에 들어온다
- 현장 상황을 꼭 메모해두자 (예: 공장 휴일, 센서 교체 등)
- 패턴이 보이면, 그걸 예측에 활용할 수 있다
- 윈도우 크기는 너무 길거나 짧지 않게, 여러 번 실험해보자
---


### 2. 데이터 시각화
- **기법**: 시계열 라인 플롯, ACF/PACF, Seasonal Decomposition
- **도구**: Matplotlib, Plotly, Tsfresh
- **주의사항**: 다중 공선성 확인을 위한 Heatmap 병행
- **데이터 관찰 체크리스트**
   1. 결측치가 있는지 확인
   2. 이상치가 있는지 확인
   3. 어떠한 값들이 있는지 unique() 등으로 확인
   4. 값들이 얼만큼 있는지 count() 등으로 확인
   5. 값들이 어떻게 분포해 있는지 표준편차 확인
   6. 컬럼 별로 통계량(min, max, mean, median, z-sigma, 3-sigma 등)을 확인
   7. 추세(Trend), 계절성(Seasonality), 순환성(Cyclicity), 주기성(Periodicity)을 육안으로 1차 확인
   8. 같은 컬럼도 여러 형태의 plot으로 확인
   9. 다중공선성(Multicollinearity) 확인을 위한 heatmap 시각화
---


### 3. 현장 인터뷰
- **질문 사항 체크리스트**:
   1. 요구 사항 설정
   2. 컬럼에 대한 Description 크로스체크
   3. 결측치가 있었던 날에 대해 묻기 (휴무, 공사, 비상 상황 등)
   4. 계절별, 분기별 상황에 대해 묻기 (3~4월에는 납품량이 많아 공장 가동을 최대로 작업 등)
   5. 센서 교체 등 이벤트 일정에 대해 묻기 (데이터가 갑자기 바뀌는 경우가 있음)
   6. 노이즈에 대한 원인 묻기
---


### 4. 데이터 전처리
- 시계열 데이터는 시간 순서에 따라 수집되며, 결측치, 노이즈, 이상치 등 다양한 문제가 발생할 수 있음
- 전처리 과정을 통해 데이터 품질을 높이고, 예측 모델의 성능을 향상시킬 수 있음

#### 4.1. 시계열 데이터 전처리 주요 단계
##### 4.1.1. 결측치(Missing Value) 처리
- 결측치 원인: 센서 오류, 데이터 전송 실패, 수집 누락 등
- 처리 방법
  - 삭제: 결측치가 적을 때 해당 행 또는 구간 삭제
  - 대치법(Imputation):
    - 마지막 관측값 대치(LOCF)
    - 평균/중앙값/최빈값 대치
  - 보간법(Interpolation):
    - 선형 보간
    - 스플라인 보간
    - 시계열 분해 기반 보간(계절성·추세를 반영)
      - 시계열 데이터를 **추세(Trend), 계절성(Seasonality), 잔차(Residual)**로 분해한 뒤, 각 성분별로 결측치를 보간하고 다시 합치는 방식
      - 시계열 분해 기반 보간 방법:
        1. 클래식 분해(Classical Decomposition) + 보간
           - 시계열을 추세, 계절성, 잔차로 분해(가법 또는 승법 모형 활용).
           - 각 성분(특히 추세, 계절성)에 대해 결측 구간을 선형 보간, 스플라인 보간 등으로 채움.
           - 모든 성분을 보간 후 다시 합쳐 원래 시계열을 복원.
        2. STL 분해(Seasonal-Trend decomposition using LOESS) + 보간
           - STL은 LOESS(국소 회귀)를 활용해 비선형 추세와 복잡한 계절성을 분리.
           - 분해된 각 성분별로 결측치를 개별적으로 보간.
           - 보간 후 성분을 합쳐 결측치가 채워진 시계열을 생성.
        3. Winters(홀트-윈터스) 모형
           - 추세와 계절성을 동시에 반영하는 평활법 기반 예측 모델.
           - 결측 구간을 해당 모형으로 예측하여 채우는 방식(모형 기반 보간).
  - 이동평균 대치: 결측치 주변 일정 구간의 평균값으로 대체
- 주의: 시계열 데이터는 시간 흐름에 따라 평균·분산이 달라지므로, 단순 평균 대치는 주의 필요
##### 4.1.2. 노이즈(Noise) 제거
- 노이즈란?: 외부 요인이나 센서 오류 등으로 인한 불필요한 데이터 변동
- 예시: 센서 데이터의 갑작스러운 튐, 주식 데이터의 일시적 급등락 등
- 주요 방법
  - 이동평균(Moving Average): 일정 구간의 평균값으로 데이터 평활화
  - 가중 이동평균/지수이동평균: 최근 데이터에 더 큰 가중치 부여
  - 필터링:
    - 칼만 필터(Kalman Filter): 선형 시스템에 적합, 예측-보정 반복으로 노이즈 제거(비선형 시스템에는 확장 칼만 필터(EKF) 사용)
    - 기타 Smoothing/Filtering 기법
      - 이동평균(MA): 구현 간단, 계산 효율적,	윈도우 크기 선택 민감, 지연(Lag) 발생	실시간성이 낮은 데이터
      - 지수평활법:	최근 데이터에 가중치 부여,	장기 추세 반영 어려움,	재고 관리 예측
      - LOWESS:	비선형 패턴 처리 가능,	계산량 많음, 대용량 데이터 부적합, 기후 데이터 분석
      - 웨이블릿 변환: 다중 주기성 동시 처리, 파라미터 튜닝 복잡, 신호 처리 분야
    - 이상치 탐지: 시각화(그래프), 통계적 방법(3-sigma, IQR 등) 활용
##### 4.1.3. 이상치(Outlier) 처리
  - 처리 방법:
    - 삭제
    - 평균/중앙값 대치
    - 모델 기반 대치(예: 예측값으로 대체)
  
##### 4.1.4. 스케일링(Scaling)
- 필요성: 딥러닝/머신러닝 모델 학습 시 입력값의 범위가 다르면 학습이 어렵거나 느려질 수 있음
- 주의: 반드시 train/test 분리 후, train set 기준으로 scaling 적용
- Scaler 종류류:
  - Min-Max Scaling
    - **공식**:  
      $ X_{\text{scaled}} = \frac{X - X_{\min}}{X_{\max} - X_{\min}} $  
    - **특징**:  
      - 데이터를 **0~1 범위**로 변환.  
      - **이상치에 취약**: 극단값이 존재할 경우 다른 데이터가 좁은 범위로 압축됨.  
    - **적합 사례**:  
      - 픽셀 값(0~255) 정규화  
      - 주가 데이터의 상대적 변동률 계산  
    - **단점**:  
      - 신규 데이터가 기존 최소/최대값을 벗어나면 재조정 필요.
  - Standard Scaling
    - **공식**:  
      $ X_{\text{scaled}} = \frac{X - \mu}{\sigma} $ 
      ($\mu$: 평균, $\sigma$: 표준편차)  
    - **특징**:  
      - 평균 0, 표준편차 1로 변환.  
      - **정규분포 가정**에 적합.  
    - **적합 사례**:  
      - 선형 회귀, SVM 등 거리 기반 알고리즘  
      - 센서 데이터의 단위 통일  
    - **단점**:  
      - 이상치가 평균과 표준편차를 왜곡시킴.
  - Robust Scaling
    - **공식**:  
      $ X_{\text{scaled}} = \frac{X - Q1}{Q3 - Q1} $  
      (Q1: 제1사분위수, Q3: 제3사분위수)  
    - **특징**:  
      - **IQR(사분범위)** 기반으로 이상치 영향 최소화.  
      - 중앙값 중심으로 데이터 조정.  
    - **적합 사례**:  
      - 결함 감지 시스템(이상치 많음)  
      - 경제 지표(불규칙 변동성)  
    - **단점**:  
      - 데이터 분포 정보 일부 손실 가능.
  - 비교 표
    | 구분          | Min-Max               | Standard              | Robust                |
    |---------------|-----------------------|-----------------------|-----------------------|
    | **범위**      | 0~1                   | 평균 0, 표준편차 1    | IQR 기반 범위         |
    | **이상치 영향** | 매우 취약             | 취약                  | 강건함                |
    | **적합 모델**  | CNN, RNN              | 선형 모델             | 이상치 있는 데이터    |
    | **계산 속도**  | 빠름                  | 빠름                  | 중간                  |

###### 선택 가이드라인
1. **Min-Max**:  
   - 데이터 범위가 명확하고 이상치 없을 때 (예: 이미지 처리).  
2. **Standard**:  
   - 정규분포에 가깝고 이상치가 적을 때 (예: 금융 수익률).  
3. **Robust**:  
   - 이상치가 많거나 분포가 불규칙할 때 (예: 공장 센서 데이터).  


##### 4.1.5. 업샘플링/다운샘플링
- 업샘플링: 데이터의 시간 간격을 더 촘촘하게(예: 1시간→10분)
- 다운샘플링: 데이터의 시간 간격을 더 넓게(예: 1분→1시간)
- 활용: 데이터의 해상도 조정, 모델 입력 형태 맞추기

##### 4.1.6. 기타 전처리
- 다중공선성 제거: 다변량 시계열의 경우 변수 간 상관관계가 높으면 차원 축소(PCA 등) 필요
- 타임스탬프 정렬: 시간 순서대로 정렬되어 있는지 반드시 확인

### 4.2. 실전 팁
- 결측치, 노이즈, 이상치 처리 후 반드시 시각화로 결과 확인
- 전처리 방법 선택 시 데이터 특성과 예측 목적을 항상 고려
- 여러 전처리 방법을 시도해보고, 성능이 가장 좋은 방법을 선택


## 5. 모델 학습
- 단변량, 다변량, 데이터 특성에 따라 성능이 좋은 모델이 모두 다르기 때문에, 분석한 데이터의 특성에 맞는 모델 선택 필요!
### 5.1. 모델 선택 예
- **단변량**: ARIMA, ETS 등
- **다변량**: N-HiTS, TFT(Temporal Fusion Transformer)
- **복합 패턴**: Hybrid(ARIMA + LSTM) 등

### 5.2 파라미터 최적화
- 모델별 적용되는 하이퍼파라미터가 각기 다르기 때문에 논문 혹은 공식 문서를 확인해보아야 함

### 5.2 데이터셋 구성
- **시계열 특화 Splitting**:
  - Expanding Window CV
  - `TimeSeriesSplit(n_splits=5)`

### 5.3 정규화 기법
- **Dropout**: 0.2~0.5 비율 적용
- **Weight Clipping**: Gradient Explosion 방지
- **Early Stopping**: 예. Val loss 10 epoch 연속 개선 없을 시 종료

---



## 6. 모델 검증
### 6.1 성능 지표
| 지표 | 공식 | 활용도 |
|------|------|--------|
| MASE | $\frac{1}{T}\sum_{t=1}^T \frac{|y_t-\hat{y}_t|}{\frac{1}{T-1}\sum_{t=2}^T |y_t-y_{t-1}|}$ | 계절성 데이터 |
| sMAPE | $\frac{100\%}{T}\sum_{t=1}^T \frac{|y_t-\hat{y}_t|}{(|y_t|+|\hat{y}_t|)/2}$ | 상대적 오차 |

### 6.2 시각화 검증
- **Multi-Scale Plot**: 1h/24h/168h 단위 예측 비교
- **잔차 분석**: ACF 플롯으로 자기상관성 확인

### 6.3 배포 전 체크리스트
1. Edge 환경 추론 시간 검증(<500ms)
2. 최소 2주 간격 모델 재학습 스케줄링
3. 드리프트 감지: KL divergence > 0.2 시 재학습
   - Data Drift: 
     - 모델이 학습할 때 사용한 데이터와 실제 운영(인퍼런스) 중 들어오는 데이터의 분포가 달라지는 현상
   - KL divergence: 
     - 두 확률 분포(예: 학습 데이터와 운영 데이터)가 얼마나 다른지 수치로 나타내는 지표.
     - 값이 0이면 두 분포가 완전히 같고, 값이 커질수록 분포 차이가 크다는 뜻