* **diff()**
    * 시계열 데이터의 현재 시점과 이전 시점 간의 차이(변화량)를 계산
    * 차분(Differencing)의 기초가 되며 추세를 제거하여 패턴을 단순화함
    * 첫 번째 값은 비교 대상 부재로 결측값(NaN) 발생

# 1. 시계열 데이터란?

### 1.1. 시계열 데이터의 정의
* **정의**: 시간의 흐름에 따라 순차적으로 수집된 데이터 (시퀀스 데이터)
* **핵심**: 과거 데이터가 미래에 미치는 영향 파악
* **데이터 구분**
    * **종단면 데이터**: 동일 개체를 시간 간격을 두고 반복 측정 (시간 의존성 있음)
    * **횡단면 데이터**: 특정 시점에 여러 개체를 측정 (시간 의존성 없음)
    * **단변량 시계열**: 단일 변수로 구성 (예: 주가, 기온)
    * **다변량 시계열**: 둘 이상의 변수로 구성, 변수 간 상호작용 존재 (예: 경제지표, 기후 모델)

### 1.2 시계열 분석과 목적
* **목표**: 미래 데이터 예측, 데이터 구조 파악, 이상치 탐지
* **기법**: 이동평균법, 지수평활법, ARIMA, 회귀분석 등
* **활용**: 서버 트래픽 예측, 주가 변동 예측, 이상 탐지 등

### 1.3 시계열 데이터의 특징
* **① 시간의존성**: 관측 순서가 중요하며, 과거 값이 현재 값에 영향을 미침
* **② 계절성 & 추세**: 일정 주기의 반복 패턴(계절성)과 장기적 증가/감소 경향(추세)
* **③ 자기상관성**: 과거의 값과 현재의 값이 통계적으로 상관관계를 가짐
    * 주의: 자기상관성으로 인해 일반적인 선형 회귀분석(OLS) 적용 시 통계적 추론 오류 및 허위 상관관계 발생 가능

### 1.4. 시계열 데이터의 분석요인
* **① 추세 요인**: 장기적으로 지속적인 증가 또는 감소 경향
* **② 계절 요인**: 일정한 주기(월, 요일 등)로 반복되는 패턴
* **③ 순환 요인**: 불규칙하고 긴 주기로 반복되는 변동 (예: 경기 변동)
* **④ 불규칙 요인**: 추세, 계절성, 순환성을 제외한 예측 불가능한 변동 (노이즈)

### 1.5. 시계열 분석의 Work Flow
1.  데이터 전처리 (결측치/이상치 처리, 요소 분해)
2.  정상성 판단
3.  모델링 및 예측

# 2. 시계열 데이터 전처리

### 2.1 이상치/결측치 처리
* **2.1.1 결측값 처리**
    * **삭제**: 시점 연속성 훼손 우려
    * **단순 대치**: 평균, 중앙값 등으로 채움 (패턴 왜곡 가능)
    * **보간법**: 누락된 값을 수학적으로 추정
        * 선형 보간: 두 점 사이를 직선 연결
        * 다항식 보간: 곡선으로 근사 (과적합 주의)
        * 스플라인 보간: 구간별 부드러운 곡선 연결
        * 조각별 상수 보간: 이전 값 또는 이후 값 유지
        * 최근접 이웃 보간: 거리상 가장 가까운 값 사용
* **2.1.2 이상치 탐지 및 처리**
    * **탐지 방법**
        * IQR 기반: 사분위수 범위 활용 (주기성/추세 있으면 부적합)
        * Z-score: 평균과 표준편차 활용 (정규분포 가정)
        * STL 분해: 시계열 분해 후 잔차(나머지)에서 탐지
        * 모델 기반: CART, 클러스터링, 오토 인코더 등 활용
    * **처리**: 결측치로 간주하여 삭제, 대치, 보간 수행
* **평활화(smoothing)**
    * 노이즈를 줄여 전체적인 흐름 파악
    * **이동평균(MA)**: 단순 이동평균(SMA), 가중 이동평균(WMA), 지수 이동평균(EMA) 활용

### 2.2 요소분해 (Decomposition, 시계열 분해)
* 시계열 데이터를 추세, 계절성, 순환성, 불규칙성으로 분리
* **가법모형 (더하기 모델)**
    * 시계열 = 추세 + 계절성 + 불규칙성
    * 계절성의 진폭(변동 폭)이 시간 흐름에 따라 일정할 때 적합
* **승법모형 (곱하기 모델)**
    * 시계열 = 추세 × 계절성 × 불규칙성
    * 시간 흐름에 따라 변동 폭이 커질 때 적합 (로그 변환으로 가법 모형화 가능)
* **방법**: STL 분해, seasonal decompose 등

# 3. 정상성 판단

### (1) 정상성이란?
* **정의**: 시계열 데이터의 평균, 분산 등 통계적 특성이 시간에 따라 일정하게 유지되는 성질
* 과거, 현재, 미래의 확률 분포가 동일하여 예측 및 모델링에 적합함

### (2) 강한 정상성과 약한 정상성
* **강한 정상성**: 모든 적률(평균, 분산 등)과 확률 분포가 시간과 무관하게 완벽히 동일함 (현실적으로 드묾)
* **약한 정상성**: 일반적으로 시계열 분석에서 말하는 정상성
    * 평균이 일정함
    * 분산이 시점에 의존하지 않음
    * 자기공분산은 시점이 아닌 시차에만 의존함

### (3) 시각적으로 정상성 파악하기
* 추세가 있는 경우: 비정상
* 계절성이 뚜렷한 경우: 비정상
* 분산이 변하는 경우: 비정상
* 정상 시계열은 평균 주변에서 일정한 변동폭으로 진동하는 형태를 보임

### (4) 검정을 통해 정상성 판단하기
* **단위근(Unit-root) 개념**: 시계열이 랜덤 워크(예측 불가능한 무작위 움직임) 특성을 갖게 하는 요소. 단위근이 존재하면 비정상 시계열.
* **ADF 검정**
    * 귀무가설: 단위근이 존재한다 (비정상)
    * 결과: p-value < 0.05 이면 귀무가설 기각 (정상)
* **KPSS 검정**
    * 귀무가설: 단위근이 존재하지 않는다 (정상)
    * 결과: p-value < 0.05 이면 귀무가설 기각 (비정상)
* **주의사항**: 확정적 추세가 존재하는 경우 두 검정 결과가 상충될 수 있음 (추세항 고려 필요)

### 3.3 정상성 확보를 위한 여러가지 방법들

### (1) 어떻게 시계열을 정상적으로 만들 수 있을까?
* **추세 제거: 차분**
    * 연이은 관측값들의 차이를 계산
    * 1차 차분으로 대부분 정상성 확보 가능, 필요시 2차 차분 수행
    * 분석 후 해석을 위해 역차분(원래 값 복원) 과정 필요
* **계절성 제거: 계절 차분**
    * 현재 시점 값에서 주기(m) 이전 시점의 값을 뺌
* **분산 안정화: 변환**
    * **로그 변환**: 데이터의 변동 폭을 줄여 분산을 일정하게 만듦
    * **Box-Cox 변환**: 파라미터(람다)를 조정하여 데이터 분포를 정규분포에 가깝게 만듦