## INTRO. Pandas에서 날짜 데이터 다루기 (사전과제)

### datetime
> 날짜+시간을 저장하는 클래스

- `.now()` : 현재 시간 반환  
- `.year`, `.month`, `.day`, `.hour`, `.minute`, `.second`, `.microsecond`  
- `.weekday()` : 요일 반환 (0=월 ~ 6=일)  
- `.date()` : 날짜만 반환  
- `.time()` : 시간만 반환  
- `.strftime()`, `.strptime()` : 문자열 ↔ datetime 변환  

```python
import datetime as dt

x = dt.datetime.now()
x.year, x.month, x.day, x.hour, x.minute, x.second, x.microsecond

x.weekday()  # 0~6 반환
x.date()
x.time()

print(x.strftime("%Y년 %m월 %d일 %H시 %M분 %S초"))

dt.datetime.strptime("2025-05-20 13:20", "%Y-%m-%d %H:%M")


### strptime과 dateutil

문자열 날짜 형식을 자동으로 인식해 datetime으로 변환 가능.

```python
from dateutil.parser import parse
parse('2025-05-29')
```

### 날짜 연산: datetime, timedelta

문자열 날짜 형식을 자동으로 인식해 datetime으로 변환 가능.

```python
import datetime as dt

dt1 = dt.datetime(2025, 5, 28, 12, 13, 0)
dt2 = dt.datetime(2025, 5, 25, 12, 0, 0)

delta = dt1 - dt2
delta
```


### diff()

현재 시점과 이전 시점의 차이를 계산하여 시계열 변화량을 계산.

```python
import pandas as pd

s = pd.Series([100, 120, 130, 125, 150])

# 1차 차분
s.diff()

# 2차 차분
s.diff(2)
```

# 1. 시계열 데이터란?

## 1.1. 시계열 데이터의 정의

###  시계열 데이터란?

시계열 데이터(Time Series)는 **시간의 흐름에 따라 순차적으로 수집된 데이터** 
연속한 관측치는 서로 **상관관계**가 존재하며, 순서가 중요한 **시퀀스 데이터**로 간주

- 순차적(Time-ordered) 데이터  
- 과거 값이 미래에 영향을 미침  
- NLP에서도 단어 순서가 중요하므로 시계열 개념이 적용 가능  


###  시계열 데이터 활용 분야

- **의학**: EKG, EEG 등 생체신호  
- **경제학**: 주가, 금리, 매출, 경기 예측  
- **기상학**: 기온, 강수량, 지진 데이터  
- **천문학**: 태양 활동, 별 밝기 변화  



###  종단면 데이터 vs 횡단면 데이터


같은 원본 데이터라도  
- 특정 시점 여러 개체 → **횡단면 데이터**  
- 특정 개체 여러 시점 → **종단면(시계열) 데이터**



#### 1 종단면(시계열) 데이터 (Panel / Longitudinal Data)

→ **동일 개체를 여러 시점에서 측정한 데이터**

특징  
1. 시간 의존성(Time dependence)  
2. 개체 변화 추적 가능  
3. 패턴·동향 분석 가능  
4. 요인·효과 분석 가능  

#### 2 횡단면(Cross-sectional Data)

→ **동일 시점에 여러 개체를 측정한 데이터**

특징  
1. 시간 의존성이 없음  
2. 다양한 변수 동시 측정  
3. 개체 간 비교에 적합  
4. 변수 간 상관관계 분석에 활용  



###  단변량 시계열 vs 다변량 시계열

#### 1 단변량 시계열 (Univariate Time Series)

→ **하나의 변수**만 시간에 따라 기록  
→ 예: 주가, 날씨, 매출 등


비유: **솔로 가수의 무대**  
- 하나의 변수만 있어도 패턴·리듬·변화가 존재

#### 2 다변량 시계열 (Multivariate Time Series)

→ **두 개 이상 변수**가 같은 시간에 함께 기록  
→ 예: 경제지표, 기후 모델 등



비유: **밴드의 합주**  
- 여러 변수(악기)가 서로 영향을 주고받으며 전체 시스템을 구성  



## 1.2 시계열 분석과 목적

###  시계열 분석(Time Series Analysis)이란?

시계열 데이터를 **분석·모델링하여 미래를 예측**하는 방법론

- 데이터 구조 파악  
- 예측(Forecasting)  
- 이상치 탐지(Anomaly detection)  

대표 기법  
- 이동평균법(MA)  
- 지수평활법(Exponential Smoothing)  
- ARIMA  
- 회귀분석 기반 모델  
- 전이함수모형  
- 신경망 기반 모델(RNN, LSTM 등)



### 시계열 분석의 실전 활용

- 웹 트래픽 예측 → 서버 리소스 최적화  
- 주가·환율·금리 예측  
- 심박수, 혈당 등 생체신호 이상 탐지  
- 앱 로그 기반 사용자 이탈 예측  



## 1.3 시계열 데이터의 특징

### 시간 의존성 (Temporal Dependence)

시계열 데이터는 시간 순서에 따라 관측되므로 **순서를 바꾸면 의미가 변한다**

- 과거 값이 현재 값에 영향을 미침  
- 시점 간 상관관계를 고려해야 함  



### 계절성(Seasonality) & 추세(Trend)


- **계절성**: 일정 주기(일·주·월·연 등)로 반복되는 패턴  
- **추세**: 장기적 증가·감소 패턴  


###  자기상관성 (Autocorrelation)

→ **이전 시점의 값이 이후 값에 영향을 미치는 현상**


특징  
- 관측값 간 독립성이 없음  
- 반복되는 패턴이 존재  
- 예측 모델링이 가능해짐  

#### 예시  
- 오늘 기온이 높으면 내일도 높을 가능성 ↑  
- 오늘 주가가 어제의 영향을 받음  
- 공장 생산량·환율 등도 유사한 흐름 유지  



###  자기상관성 때문에 일반 회귀분석이 문제를 일으킨다

#### 1 회귀분석 기본 가정  
오차항은 서로 독립이어야 한다.


#### 2 자기상관성이 존재하면?


→ 오차항이 시간적으로 연결됨  
→ **통계적 추론이 왜곡**됨  
- p-value가 잘못 나옴  
- 허위 상관관계(Spurious Correlation) 발생  


#### 해결 방법  
- **추세 제거(Detrending)**  
- 차분(Differencing)  
- 계절성 제거(Seasonal Adjustment)



## 1.4. 시계열 데이터의 분석요인
###  추세 요인 (Trend Factor)

시간에 따라 지속적으로 증가/감소하는 경향

시각적 예: 꾸준히 오르거나 떨어지는 선형 그래프

예시: 연도별 매출 상승, 출산율 감소 등

### 계절 요인 (Seasonal Factor)

일정한 주기(계절, 월, 요일 등)로 반복되는 패턴

시각적 예: 규칙적으로 변동하는 주기적 그래프

예시: 크리스마스 시즌 매출 급증

### 순환 요인 (Cycle Factor)

계절성보다 더 길고 불규칙한 주기로 반복되는 변동

경제 변동처럼 외부 요인에 의해 발생하는 장기 반복 패턴

예시: 경기 호황·불황

계절성과의 차이

- 계절성: 고정된 주기

- 순환성: 주기가 불규칙, 기간이 길고 외부 요인 영향 큼

주의점

- 순환요인은 주기가 일정하지 않아 구분이 어려움

- 데이터 기간이 순환 주기보다 짧으면 해석 불가능

- 일부 학자들은 순환요인을 무시하거나 추세요인에 포함하여 해석

### 불규칙 요인 (Irregular Factor)

추세·계절성·순환성을 제거한 뒤 남는 예측 불가능한 변동

노이즈, 특이 사건, 이상치 포함

예시: 팬데믹, 자연재해



## 1.5. 시계열 분석의 Work Flow

1. 데이터 전처리 (결측치 보간, 이상치 처리, 요소 분해)

2. 정상성 판단

3. 모델링 및 예측

# 2. 시계열 데이터 전처리
## 2.1 이상치 / 결측치 처리

### 시계열 데이터의 결측치

특정 시점에서 값이 측정되지 않음(NaN)

센서 오류·데이터 누락 등으로 발생

결측치가 존재하면 추세·계절성이 왜곡되므로 적절한 보간이 필요

###  시계열 데이터의 이상치

측정은 되었으나 일반적 패턴에서 벗어난 극단값

오류일 수도, 중요한 신호일 수도 있음

→ 도메인 지식 기반의 신중한 판단 필요

#### 전처리의 필요성

시계열은 시간 의존·계절성·추세 등 패턴이 존재하기 때문에
일반 데이터 전처리보다 더 신중하게 처리해야 함

#### 전처리 프로세스

1. 데이터 시각화

2. 결측치 탐지 → 삭제·대치·보간

3. 이상치 탐지 → 삭제·대치·보간

시계열 요소 분해

## 2.1.1 결측값 처리
### 결측치 처리 방법
1) 삭제 & 단순 대치

결측치 삭제: 데이터 손실 위험

단순 대치(평균·중앙값·0 등): 패턴 왜곡 가능성 큼

**보간법 (Interpolation)** 

누락된 값(NaN)을 주변 데이터를 기반으로 ‘합리적으로’ 채워 넣는 방법



#### 보간법 종류
1.  선형 보간법 (Linear Interpolation)

두 점을 직선으로 연결해 결측치 추정

- 간단하고 빠름

- 비선형 데이터에서는 정확도 낮음

2. 다항식 보간법 (Polynomial Interpolation)

데이터를 모두 통과하는 다항식을 이용해 보간

- 비선형 관계 잘 표현

- 고차 다항식 = 과적합 위험

3. 스플라인 보간법 (Spline Interpolation)

구간별로 3차 다항식을 사용 (cubic spline)

- 부드럽고 안정적

- 계산 복잡

4. 조각별 상수 보간법 (Piecewise Constant)


- 단순하고 빠름

- 부드러움 없음 → 계단형 변화 발생


## 2.1.2 이상치 탐지 및 처리
 IQR 기반 이상치 탐지

- 안정적이거나 주기성이 약한 데이터에서 활용

- 구간별(IQR per day 등)로 계산하면 추세 영향을 줄일 수 있음

## 2.2 요소분해 (Decomposition, 시계열 분해)

###  요소분해란?

주어진 시계열 데이터를 **추세성(Trend), 계절성(Seasonality), 순환성(Cycle), 불규칙성(Random)** 성분으로 분해하는 과정.


###  수식 표현

\[
Y_t = f(T_t, S_t, C_t, R_t)
\]

- **T_t** : 추세성분  
- **S_t** : 계절성분  
- **C_t** : 순환성분  
- **R_t** : 불규칙성분  

> 일반적으로 순환성(Cycle)은 장기 데이터에서만 고려하므로  
> **\( C_t = 0 \)** 으로 두는 경우가 많다.


### 요소분해를 하는 이유

- 시계열 데이터는 다양한 변동 요소가 결합된 형태  
- 각 성분을 분리하면 패턴을 더 명확히 이해할 수 있음  
- 예측, 이상 탐지 등 **다양한 분석 작업의 성능 향상**


##  가법모형 (Additive Model)

\[
y_t = T_t + S_t + R_t
\]

- 시계열 = **추세 + 계절성 + 불규칙성**
- 계절성의 진폭이 일정할 때 적합
- 모든 변동 요인이 서로 **독립적**으로 더해진다고 가정



##  승법모형 (Multiplicative Model)

\[
y_t = T_t \times S_t \times R_t
\]

로그 변환 시:

\[
\log(y_t) = \log(T_t) + \log(S_t) + \log(R_t)
\]

- 추세가 커지면 계절성, 불규칙성도 **비례해 함께 커짐**
- 진폭이 시간에 따라 달라질 때 적합



###  Python 코드 예시

```python
import pandas as pd
from statsmodels.tsa.seasonal import seasonal_decompose

# 인덱스는 날짜라고 가정
y = df['value']

# 주기(period) 지정 (예: 일별 데이터에서 주간 패턴이면 7, 월별이면 12 등)
period = 7

# 가법 모형
result_add = seasonal_decompose(y, model='additive', period=period)

trend_add = result_add.trend       # 추세
seasonal_add = result_add.seasonal # 계절성
resid_add = result_add.resid       # 잔차

# 승법 모형
result_mul = seasonal_decompose(y, model='multiplicative', period=period)

trend_mul = result_mul.trend
seasonal_mul = result_mul.seasonal
resid_mul = result_mul.resid
```

### 요소분해 정리

- 시계열 데이터를 추세·계절성·불규칙성 등 요소로 분리하여 원본 구조를 명확히 파악

- 각 요소를 독립적으로 분석할 수 있음

- 예측 모델링 시 성분별로 다르게 접근 가능 → 정확도 향상

- 특정 시점의 급격한 변화가 어떤 요소에서 비롯됐는지 파악 가능
→ 이상 탐지 및 원인 분석에 유리

# 3. 정상성 판단



## (1) 정상성이란?

 정상성의 핵심: '시간에 상관없이' 일정한 성질을 띠고 있다

**정상성**: 시계열 데이터가 평균, 분산 등의 통계적 특성이 시간에 따라 일정한 수준으로 유지되는 것.  
즉, “어제나 오늘이나 데이터의 통계적 특성이 일정하다.”

- 정상 시계열(Stationary Time Series): 정상성을 띤 시계열
- 비정상 시계열(Non-stationary Time Series): 정상성을 띠지 않는 시계열

- **정상 시계열**:감정의 평균과 변동폭이 일정하며 추세가 없음.
- **비정상 시계열**:감정의 평균과 분산이 시간에 따라 변하며 추세가 존재.

> 정상 시계열은 예측 및 모델링에 적합하며 대부분의 통계 기법 적용 가능



## (2) 강한 정상성과 약한 정상성

### 강한 정상성 (Strong Stationarity)
- 모든 적률(평균, 분산, 왜도, 첨도)이 시간과 무관하게 일정
- 수학적 정의: 시계열 $X_t$ 에 대해
  $$
  (X_{t_1}, X_{t_2}, \dots, X_{t_k}) \sim (X_{t_1+h}, X_{t_2+h}, \dots, X_{t_k+h})
  $$
  모든 시점의 분포가 시간 이동에 대해 변하지 않음

### 적률(Moments)
| 순서 | 의미 | 수식 | 예시 |
|------|------|------|------|
| 1차 | 평균 | $E[X]$ | 중심 위치 |
| 2차 | 분산 | $Var(X) = E[(X - \mu)^2]$ | 퍼짐 정도 |
| 3차 | 왜도 | 비대칭성 | 왼쪽/오른쪽 치우침 |
| 4차 | 첨도 | 뾰족함 정도 | 정규 vs 뾰족한 분포 |

> 현실 데이터에서는 강정상성을 띄는 경우 매우 드묾 → 약한 정상성을 주로 사용

### 약한 정상성 (Weak Stationarity)
- 평균, 분산, 자기공분산이 시간에 따라 변하지 않음 (2차 적률만 일정)
- 자기공분산 $\gamma(k) = Cov(X_t, X_{t-k})$ 는 시점이 아닌 시차 $k$에 의존
- 예시: 리바이 병장의 감정 패턴 → 시점(t)이 아닌 시간차(k)에 따라 자기공분산 결정



### 공분산 vs 자기공분산
- **공분산(Covariance)**: 서로 다른 변수 X, Y의 관계  
  $$
  Cov(X, Y) = E[(X - \mu_X)(Y - \mu_Y)]
  $$
- **자기공분산(Autocovariance)**: 시계열 X의 서로 다른 시점 사이 관계  
  $$
  \gamma(k) = Cov(X_t, X_{t-k})
  $$

> 자기공분산 양수: 연속 관측치 비슷, 음수: 진동 신호, 0: 백색잡음


### 정상성 판단 기준
- 추세(Trend) 있는 시계열 → 비정상
- 계절성(Seasonality) 있는 시계열 → 비정상
- 평균/분산이 시간에 따라 일정 → 정상


## (4) 검정을 통한 정상성 판단

### 단위근(Unit-root) 검정
- **단위근 의미**
  - 수학: $x^n = 1$ 의 근
  - 시계열: AR 모델 특성방정식 근 = 1 → 비정상
- **예시**
  - 정상 캐릭터: 충격 후 회복 → 단위근 없음
  - 비정상 캐릭터: 충격 지속 → 단위근 존재

### AR(1) 모델
$$
y_t = \alpha y_{t-1} + e_t
$$
- $|\alpha| < 1$ → 정상 시계열, 평균 수준으로 회귀
- $\alpha = 1$ → 단위근 존재, 비정상 시계열 (랜덤워크)
- $|\alpha| > 1$ → 폭발적 비정상 시계열


### 단위근 검정 방법

#### 1. ADF(Augmented Dickey-Fuller) 검정
- 귀무가설(H₀): 단위근 존재 → 비정상
- 대립가설(H₁): 단위근 없음 → 정상
- `p-value < 유의수준` → H₀ 기각 → 정상 시계열

```python
#! pip install statsmodels

from statsmodels.tsa.stattools import adfuller
import pandas as pd

def adf_test(timeseries):
    print("Results of Dickey-Fuller Test:")
    dftest = adfuller(timeseries, autolag="AIC")
    dfoutput = pd.Series(dftest[0:4], index=["Test Statistic","p-value","#Lags Used","Number of Observations Used"])
    for key, value in dftest[4].items():
        dfoutput["Critical Value (%s)" % key] = value
    print(dfoutput)
```

#### 1. KPSS(Kwiatkowski-Phillips-Schmidt-Shin) 검정
- 귀무가설(H₀): 단위근 없음 → 정상
- 대립가설(H₁): 단위근 존재 → 비정상
- p-value < 유의수준 → H₀ 기각 → 비정상 시계열

```python
from statsmodels.tsa.stattools import kpss
import pandas as pd

def kpss_test(timeseries):
    print("Results of KPSS Test:")
    kpsstest = kpss(timeseries, regression="c", nlags="auto")
    kpss_output = pd.Series(kpsstest[0:3], index=["Test Statistic", "p-value", "Lags Used"])
    for key, value in kpsstest[3].items():
        kpss_output["Critical Value (%s)" % key] = value
    print(kpss_output)
```

## 3.3 정상성 확보를 위한 여러가지 방법들

### (1) **어떻게 시계열을 정상적으로 만들 수 있을까?**


- 비정상 시계열: 대부분 **추세가 있거나**, **계절성이 있거나**, **분산**에 변동 존재
- 접근 방법:  **추세 제거(detrending)**, **계절성 제거(deseasoning)**, **분산 안정화**  

>  미리 EDA를 통해 데이터의 패턴 확인 후 적절한 방법 선택



### **1 추세 제거**

- 시계열이 **지속적으로 증가하거나 감소**할 때 적용

#### 차분 (Differencing)


 **차분의 핵심**  
- 연이은 관측값들의 차이를 계산  
- 평균의 정상성을 확보하기 위한 방법


- 시계열 데이터에서 한 시점의 값과 이전 시점의 값을 차분하여 변화량 계산  
- 이를 통해 정상성 확보 또는 비정상적 변동 제거 가능

- **왜 차분으로 정상성이 확보되는가?**  
  대부분의 비정상 시계열은 `누적과정(Integrated Process)`이므로, 누적된 값을 제거하면 정상적 시계열 얻을 수 있음

#### 차분의 종류

- **1차 차분**  

$$
y'_t = y_t - y_{t-1}
$$

- t시점의 y값에서 t-1시점의 y값을 빼는 것
- 추세 제거용

- **2차 차분**  

$$
\begin{align*}
y''_t &= y'_t - y'_{t-1} \\
       &= (y_t - y_{t-1}) - (y_{t-1} - y_{t-2}) \\
       &= y_t - 2y_{t-1} + y_{t-2}
\end{align*}
$$

- 1차 차분만으로 정상성이 확보되지 않을 때 사용
- 2차 이상 차분 시 데이터 소실로 설명력 저하 가능

- **역차분 (Inverse Difference)**  

- 차분으로 분석 시 추세 제거 후, 분석 끝나면 원래 단위로 복원  

- 차분된 데이터에 이전 시점 값을 더하여 원래 값 복원
- 해석을 위해 반드시 역차분 필요

**예시**  

- $Δy_t = -190$, $y_{t-1} = 100$  
- $y_t = Δy_t + y_{t-1} = -190 + 100 = -90$

> 차분 = 분석 준비, 역차분 = 해석 복원


### **2 계절성 제거**

- 시계열이 **주기적 패턴**을 가질 때 적용

#### 계절 차분

- t시점의 y값에서 t-m시점의 y값을 빼는 것 (m: 주기)

$$
y_t^* = y_t - y_{t - m}
$$

- 계절성 제거 시, 시계열 평균 변화를 일정하게 만듦

- 이후: 백색소음과 같은 데이터로 변환 가능
- 계절성 패턴이 강한 경우, **계절 차분 먼저 수행**


### **3 분산 안정화**

- 시계열의 **변동 폭이 점점 커지거나 작아질 때 적용**

#### 로그 변환

- 분산 정상성 확보 방법
- 로그 취하면 변화폭 감소, 비율적 변화 강조

$$
y_t \rightarrow \log(y_t)
$$


- 한계점: 음수/0 처리 불가, 비선형적 패턴엔 한계

#### Box-Cox 변환

- 로그 변환 일반화 형태

$$
Y_t^{(\lambda)} =\begin{cases}
\frac{Y_t^\lambda - 1}{\lambda}, & \lambda \neq 0 \\
\log(Y_t), & \lambda = 0
\end{cases}
$$

- λ: 변환 강도 조절, 최대 우도법으로 최적 λ 추정
- 음수/0 포함 데이터는 Shift 적용 가능



### **정상 / 비정상 여부 판단**

- 단위근 검정: ADF, KPSS 등
- 비정상 → 정상화 단계 진행
- 비정상 유형별 대응
  - **추세** → 차분
  - **계절성** → 계절 차분 / Deseasoning
  - **분산 변화** → 로그 / Box-Cox

### **정상성 확보 후 모델링**

- 정상성 확보 시 시계열 구조에 맞춰 모델 적용 가능  
  - OLS, AR, MA, ARMA, SARIMA 등

> **시계열 분석 순환 과정:**  
> **정상성 확보 → 패턴 파악 → 적절한 모델링**
