In [None]:
""" github 연동 """
# !git clone https://github.com/ku-sungsukim/2025-LGElec-Day4.git ### colab 사용시

## **0. 필요 패키지 불러오기**

In [None]:
""" 데이터 전처리 관련 패키지 """
import pandas as pd
import numpy as np


""" 기계학습 모델 구축 및 평가 패키지 """
import statsmodels.api as sm
from statsmodels.tsa.holtwinters import ExponentialSmoothing
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

def mean_absolute_percentage_error(y_true, y_pred):
    y_true, y_pred = np.array(y_true).reshape(-1), np.array(y_pred).reshape(-1)
    return np.mean(np.abs((y_true-y_pred)/y_true)) * 100


""" 데이터 시각화 패키지 """
import matplotlib.pyplot as plt
%matplotlib inline


""" 경고 숨기기 """
import warnings
warnings.filterwarnings(action='ignore') 

## **1. 데이터 불러오기 및 전처리**
 - 분석데이터: Google Keyword Trend (2012년부터 2022년까지 10년간 월단위 '데이터분석' 키워드 관심도 변화량)
 
 - https://trends.google.com/trends/explore?date=2012-01-01%202022-01-01&geo=KR&q=%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D

#### **1-1. 데이터 개요 파악 및 전처리**

In [None]:
""" 데이터 불러오기 """

"""
데이터 개요
 - 관측치 개수: 121개
 - 변수 개수: 1개
 
주요 변수 정보
 - 카테고리: 모든 카테고리: 월별 '데이터분석'키워드 검색횟수 
"""

"""
Q1. 데이터를 불러오기
 - 로컬경로: data/googletrend_keyword.csv
 - colab경로: /content/2025-LGElec-Day4/data/googletrend_keyword.csv
"""

data = pd.'''Answer'''

data

In [None]:
""" 간단한 전처리 (1) """

"""
Q1. 불필요한 1행 제거
"""

data = data.rename(columns={'카테고리: 모든 카테고리': 'data_analysis(korea)'}) ### 변수명 변경
data = '''Answer''' ### 불필요한 행 제거
data

In [None]:
""" 간단한 전처리 (2) """

"""
Q1. 데이터의 index 데이터 타입을 datatime으로 변환
"""

data = data.astype(np.int64(data['data_analysis(korea)'])) ### 변수타입 변환
data.index = '''Answer''' ### index 타입 변환
data

#### **1-2. 탐색적 데이터 분석**

In [None]:
""" 탐색적 데이터 분석: 데이터 시각화를 통해 시계열 형태 확인 """

"""
Q1. 변수 data_analysis(korea)의 시간에 따른 추세 시각화
 - Figure 크기: (15, 6)
 - x축 및 y축 눈금의 폰트크기 모두 13으로 지정
 - Figure 제목은 'Data analysis' keyword search amount from Google trend, 폰트크기는 17로 지정
 - x축 및 y축 레이블의 폰트크기는 모두 15로 지정하며, 레이블 이름은 각각 Year와 keyword search amount로 지정
"""

data.plot(figsize='''Answer''') 

plt.'''Answer'''
plt.'''Answer'''

plt.title('''Answer''')
plt.xlabel('''Answer''')
plt.ylabel('''Answer''')
plt.tight_layout()
plt.show()

In [None]:
""" 탐색적 데이터 분석: 시계열 분해 """

"""
Q1. 시계열 데이터를 [추세(Trend)변동 + 계절(Seasonal)변동 + 우연(Random)변동]으로 분해할 것
 - 이때, Figure의 크기는 (15, 6)으로 지정할 것
"""

decompostion = '''Answer'''

fig = decompostion.'''Answer'''
fig.set_size_inches(15, 6)
plt.show()

#### **1-3. 학습/평가 데이터 분할**

In [None]:
""" 학습/평가데이터 분할 """

"""
Q1. 학습데이터와 평가데이터 분할 
 - 학습: ~ 2019년 12월
 - 평가: 2020년 1월 ~ 
"""

train = '''Answer'''
test  = '''Answer'''

train.shape, test.shape

## **2. 모델링**

#### **2-1. 구간평균법**

In [None]:
""" 구간평균법 모델링 Version 1 """

"""
Q1: N=7로 구간평균법을 모델링하시오
 - numpy를 활용하여 직접 Table을 만들며 연산
 - 기존의 결측행도 모두 표시할 것
 - 최종적으로는 기존 레이블과 적합된 값을 함께 표현
"""

MA_N = 7
MA_train_flatten = train.values.flatten()
MA_train_pred = '''Answer'''

MA_before_value = np.empty((MA_N-1)) 
MA_before_value[:] = '''Answer''' ### 빈 배열을 np.nan으로 채우기
MA_train_pred = np.concatenate('''Answer''') ### 구간평균법으로 구성 불가능한 부분 & 구간평균법으로 구성한 부분 병합

MA_train_df = pd.DataFrame(MA_train_pred, index=train.index, columns=[f'MA_{MA_N}'])
MA_train_df = pd.concat([train, MA_train_df], axis=1)
MA_train_df

In [None]:
""" 구간평균법 예측 """

"""
Q1. 학습데이터에 적합된 구간평균법 모델로 Test 기간을 예측
 - 최종적으로는 기존 label과 예측값을 함께 표현
"""

MA_pred = '''Answer''' ### 예측값 산출
MA_test_df = pd.DataFrame(MA_pred, index=test.index, columns=[f'MA_{MA_N}'])
MA_test_df = pd.concat([test, MA_test_df], axis=1)
MA_test_df

In [None]:
""" 구간평균법 평가 """

"""
Q1. 구간평균법의 성능 평가
 - MSE, RMSE, MAE, MAPE, R2score를 모두 산출할 것
"""

print(f'MSE: {np.round('''Answer'''(test, MA_test_df[f"MA_{MA_N}"]), 2)}')
print(f'RMSE: {np.round(np.sqrt('''Answer'''(test, MA_test_df[f"MA_{MA_N}"])), 2)}')
print(f'MAE: {np.round('''Answer'''(test, MA_test_df[f"MA_{MA_N}"]), 2)}')
print(f'MAPE: {np.round('''Answer'''(test, MA_test_df[f"MA_{MA_N}"]), 2)}')
print(f'R2 score: {np.round('''Answer'''(test, MA_test_df[f"MA_{MA_N}"]), 2)}')

In [None]:
""" 구간평균법 시각화 """

"""
Q1. 기존 값과 구간평균법의 예측값을 함께 시각화
 - 기존값 및 예측값의 레이블: Raw Dataset, MA (N=7)
 - train/test가 나뉘는 시점을 빨간 수직 점선으로 표시할 것
   * 수직선 y범위: 0~100 / train 및 test 분기점: 2020-01-01
 - 실제값 / 예측값 / train 및 test 분기점에 대해 범례를 설정할 것 (위치: 좌상단) /// 레이블: Raw Dataset / Prediction (N=7) / Start of Forecast
 - Figure 제목: Moving Average Results (Train and Test)
"""

""" train 예측값과 test 예측값 종합 """
MA_total_visualization_df = pd.concat([MA_train_df, MA_test_df], axis=0)

""" 시각화 """
fig, ax = plt.subplots(figsize=(15, 6))
MA_total_visualization_df.'''Answer'''

ax.vlines('''Answer''')
ax.legend('''Answer''')
plt.title('''Answer''')
plt.tight_layout()
plt.show()

In [None]:
""" 구간평균법 모델링 (Simple Version) """

"""
Q1: N=7로 구간평균법을 모델링하시오
 - pandas의 rolling함수를 활용
 - 기존의 결측행도 모두 표시할 것
"""

MA_N = 7

MA_train_df2 = train.'''Answer'''
MA_train_df2.columns = [f'MA_{MA_N}']
MA_train_df2

#### **2-2. 단순지수평활법 (Simple Exponential Smoothing)**

In [None]:
""" 학습데이터로 단순지수평활법 모델링 """

"""
Q1. 학습데이터로 단순지수평활법을 모델링 및 적합
 - 직접 numpy와 pandas를 활용하여 표를 만들며 단순지수평활법 구현
 - Observation, Level, Forecast 값을 모두 보여줄 것
 - alpha: 0.8
"""

""" Step1. 초기 Table 생성 """
SES_initial_df = pd.DataFrame([np.nan], index=[0], columns=['data_analysis(korea)']) 
SES_train_df = pd.concat([SES_initial_df, train], axis=0)

SES_train_df['Level'] = np.nan
SES_train_df['Forecast'] = np.nan

SES_L_0 = '''Answer''' ### 초기 L_0값 연산
SES_train_df.loc[0, 'Level'] = SES_L_0

""" Step2. 학습데이터로 단순지수평활법 적합"""
SES_alpha = 0.8 

for i in range(len(SES_train_df)):
    
    if i == 0: 
        continue
    
    SES_current_time = SES_train_df.index[i] 
    SES_previous_time = SES_train_df.index[i-1] 
    
    SES_x = '''Answer''' ### 현재시점 observation
    SES_L_prev = '''Answer''' ### 이전시점 level
    SES_train_df.loc[SES_current_time, 'Level'] = '''Answer''' ### 단순지수평활법 연산
    
SES_train_df

In [None]:
""" 단순지수평활법 Test기간 예측 """

"""
Q1. 단순지수평활법으로 Test 기간 예측
"""

SES_L_pred = '''Answer'''
SES_test_pred = '''Answer''' ### 단순지수평활법 예측값 산출

SES_test_df = pd.DataFrame(data=SES_test_pred, 
                             index=test.index, 
                             columns=[f'SES_{SES_alpha}'])

SES_test_df

In [None]:
""" 단순지수평활법 평가 """

"""
Q1. 단순지수평활법의 성능 평가
 - MSE, RMSE, MAE, MAPE, R2score를 모두 산출할 것
"""

print(f'MSE: {np.round('''Answer'''(test, SES_test_df[f"SES_{SES_alpha}"]), 2)}')
print(f'RMSE: {np.round(np.sqrt('''Answer'''(test, SES_test_df[f"SES_{SES_alpha}"])), 2)}')
print(f'MAE: {np.round('''Answer'''(test, SES_test_df[f"SES_{SES_alpha}"]), 2)}')
print(f'MAPE: {np.round('''Answer'''(test, SES_test_df[f"SES_{SES_alpha}"]), 2)}')
print(f'R2 score: {np.round('''Answer'''(test, SES_test_df[f"SES_{SES_alpha}"]), 2)}')

In [None]:
""" 단순지수평활법 시각화 """

"""
Q1. 기존 값과 단순지수평활법의 예측값을 함께 시각화
  - train/test가 나뉘는 시점을 빨간 수직 점선으로 표시할 것
   * 수직선 y범위: 0~100 / train 및 test 분기점: 2020-01-01
 - 실제값, 예측값, train/test가 나뉘는 시점에 대해 범례를 설정할 것 (위치: 좌상단) / 레이블: Raw Dataset / Prediction (alpha=0.8) / Start of Forecast
 - Figure 제목: Exponential Moving Average Results
"""

""" train 예측값과 test 예측값 종합 """
SES_train_visualization_df = SES_train_df[['Level']]
SES_train_visualization_df = SES_train_visualization_df.rename(columns={'Level':f'SES_{SES_alpha}'})

SES_test_visualization_df = SES_test_df.copy()
SES_total_visualization_df = pd.concat([SES_train_visualization_df, SES_test_visualization_df], axis=0).iloc[1:]
SES_total_visualization_df.index = pd.to_datetime(SES_total_visualization_df.index)

""" 시각화 """
fig, ax = plt.subplots(figsize=(15, 6))
data.'''Answer''' ### 기존 전체 데이터 시각화
SES_total_visualization_df.plot('''Answer''') ### 단순지수평활법 예측값 시각화

ax.vlines('''Answer''') ### train/test 분리 시점 시각화
ax.legend('''Answer''')
plt.title('''Answer''')
plt.tight_layout()
plt.show()

In [None]:
""" 학습데이터로 단순지수평활법 모델링 (Simple Version) """

""" 
Q1. pandas의 ewm함수를 활용하여 구현
 - 정규화는 수행하지 않음
"""

initial_df = pd.DataFrame([SES_L_0], index=[0], columns=['data_analysis(korea)'])
SES_train_df2 = pd.concat([initial_df, train], axis=0)
SES_train_df2 = '''Answer''' ### 단순지수평활법 모델링
SES_train_df2

#### **2-3. 이중지수평활법**

In [None]:
""" 이중지수평활법의 초기값 산출 """

"""
Q1. 이중지수평활법의 Level과 Trend의 초기값을 산출
 - statsmodels 패키지를 활용
"""

DES_reg = train.reset_index()
DES_reg_x = '''Answer'''
DES_reg_y = '''Answer'''

DES_reg_x = '''Answer''' ### 회귀적합을 위한 상수항 추가
DES_reg_model = '''Answer''' ### 회귀모형 정의
DES_results = '''Answer''' ### 회귀모형 파라미터 산출

DES_L_0, DES_B_0 = DES_results.params
print(f'Level의 초기값(β0): {DES_L_0} // Trend의 초기값(β1): {DES_B_0} \n')

In [None]:
""" 학습데이터로 단순지수평활법 모델링 """

"""
Q1. 학습데이터로 단순지수평활법을 모델링 및 적합
 - 직접 numpy와 pandas를 활용하여 표를 만들며 이중지수평활법 구현
 - Observation, Level, Trend, Forecast 값을 모두 보여줄 것
 - alpha: 0.2 / DES_beta: 0.15
"""

""" Step1. 초기 Table 생성"""
DES_initial_df = pd.DataFrame(np.zeros(1), index=[0], columns=['data_analysis(korea)'])
DES_train_df = pd.concat([DES_initial_df, train], axis=0)

DES_train_df['Level'] = np.nan
DES_train_df['Trend'] = np.nan
DES_train_df['Forecast'] = np.nan

DES_train_df.loc[0, 'Level'] = '''Answer'''
DES_train_df.loc[0, 'Trend'] = '''Answer'''


""" Step2. 학습데이터로 이중지수평활법 모델링"""
DES_alpha = 0.2 
DES_beta = 0.15 

for i in range(len(DES_train_df)):
    
    if i == 0: 
        continue
    
    DES_current_time = DES_train_df.index[i] 
    DES_previous_time = DES_train_df.index[i-1] 

    DES_x = '''Answer'''
    DES_L_prev = '''Answer'''
    DES_T_prev = '''Answer'''
    
    DES_train_df.loc[DES_current_time, 'Level'] = '''Answer''' ### Level에 이중지수평활법 적용 
    DES_train_df.loc[DES_current_time, 'Trend'] = '''Answer''' ### Trend에 이중지수평활법 적용 

DES_train_df
    

In [None]:
""" 이중지수평활법 Test기간 예측 """

"""
Q1. 이중지수평활법으로 Test 기간 예측
"""

DES_L_Pred = DES_train_df.iloc[-1]['Level']
DES_T_Pred = DES_train_df.iloc[-1]['Trend']
DES_test_pred = '''Answer''' ### 예측값 산출

DES_test_df = pd.DataFrame(data=DES_test_pred, 
                             index=test.index, 
                             columns=['DES'])
DES_test_df

In [None]:
""" 이중지수평활법 평가 """

"""
Q1. 이중지수평활법의 성능 평가
 - MSE, RMSE, MAE, MAPE, R2score를 모두 산출할 것
"""

print(f'MSE: {np.round('''Answer'''(test, DES_test_df["DES"]), 2)}')
print(f'RMSE: {np.round(np.sqrt('''Answer'''(test, DES_test_df["DES"])), 2)}')
print(f'MAE: {np.round('''Answer'''(test, DES_test_df["DES"]), 2)}')
print(f'MAPE: {np.round('''Answer'''(test, DES_test_df["DES"]), 2)}')
print(f'R2 score: {np.round('''Answer'''(test, DES_test_df["DES"]), 2)}')

In [None]:
""" 이중지수평활법 시각화 """

"""
Q1. 기존 값과 이중지수평활법의 예측값을 함께 시각화
 - Figure 크기: (15, 6)
 - train/test가 나뉘는 시점을 빨간 수직 점선으로 표시할 것
   * 수직선 y범위: 0~100 / train 및 test 분기점: 2020-01-01
 - 실제값 / 예측값 / train 및 test 분기점에 대해 범례를 설정할 것 (위치: 좌상단) --> Raw Dataset / DEMA (alpha={DES_alpha}, beta={DES_beta} / Start of Forecast
 - Figure 제목: Double Exponential Moving Average Results
"""

""" train 예측값과 test 예측값 종합 """
DES_train_visualization_df = pd.DataFrame(DES_train_df.iloc[1:]['Level']) 
DES_train_visualization_df.columns = ['DES']
DES_test_visualization_df = DES_test_df.copy()

DES_total_visualization_df = pd.concat([DES_train_visualization_df, DES_test_visualization_df], axis=0).iloc[1:]
DES_total_visualization_df.index = pd.to_datetime(DES_total_visualization_df.index)

""" 시각화 """
fig, ax = plt.subplots(figsize=(15, 6))
data.'''Answer''' ### 기존 전체 데이터 시각화
DES_total_visualization_df.plot('''Answer''') ### 이중지수평활법 예측값 시각화

ax.vlines('''Answer''') ### train/test 분리 시점 시각화
ax.legend('''Answer''')
plt.title('''Answer''')
plt.tight_layout()
plt.show()

#### **2-4. 홀트-윈터 지수평활법 (Addictive)**

In [None]:
""" Addictive 홀트-윈터 지수평활법 모델링 """

"""
Q1. 자동 최적화 방식으로 Addictive 홀트-윈터 지수평활법 모델 적합
 - ExponentialSmoothing 함수 활용
"""

HW_ADD_model = '''Answer''' ### 홀트-윈터 지수평활법 모델링
HW_ADD_model.summary()

In [None]:
""" Addictive 홀트-윈터 지수평활법 Train 및 Test 기간 예측 """

"""
Q1. Addictive 홀트-윈터 지수평활법으로 Train 및 Test 기간 예측
"""

HW_ADD_train_pred = HW_ADD_model.'''Answer''' ### train 기간 적합 결과
HW_ADD_test_pred = HW_ADD_model.'''Answer''' ### test 기간 예측 결과

print('Additive Holt-Winter Exponential Smoothing Train Results')
print(HW_ADD_train_pred)
print('-'*30)
print('Additive Holt-Winter Smoothing Test results')
print(HW_ADD_test_pred)

In [None]:
""" Addictive 홀트-윈터 지수평활법 평가 """

"""
Q1. Addictive 홀트-윈터 지수평활법의 성능 평가
 - MSE, RMSE, MAE, MAPE, R2score를 모두 산출할 것
"""

print(f'MSE: {np.round('''Answer'''(test, HW_ADD_test_pred), 2)}')
print(f'RMSE: {np.round(np.sqrt('''Answer'''(test, HW_ADD_test_pred)), 2)}')
print(f'MAE: {np.round('''Answer'''(test, HW_ADD_test_pred), 2)}')
print(f'MAPE: {np.round('''Answer'''(test, HW_ADD_test_pred), 2)}')
print(f'R2 score: {np.round('''Answer'''(test, HW_ADD_test_pred), 2)}')

In [None]:
""" Addictive 홀트-윈터 지수평활법 시각화 """

"""
Q1. 기존 값과 Addictive 홀트-윈터 지수평활법의 예측값을 함께 시각화
 - Figure 크기: (15, 6)
 - train/test가 나뉘는 시점을 빨간 수직 점선으로 표시할 것 
   * 수직선 y범위: 0~100 / train 및 test 분기점: 2020-01-01
 - 실제값 / 예측값 / train 및 test 분기점에 대해 범례를 설정할 것 (위치: 좌상단) --> Raw Dataset / Prediction (Holt-Winter Additive) / Start of Forecast
 - Figure 제목: Addictive Holt-Winter Exponential Moving Average Results
"""

""" train 예측값과 test 예측값 종합 """
HW_ADD_train_visualization_df = pd.DataFrame(HW_ADD_train_pred, columns=['HW_ADD'])
HW_ADD_test_visualization_df = pd.DataFrame(HW_ADD_test_pred, index=test.index, columns=['HW_ADD'])
HW_ADD_total_visualization_df = pd.concat([HW_ADD_train_visualization_df, HW_ADD_test_visualization_df], axis=0)

""" 시각화 """
fig, ax = plt.subplots(figsize=(15, 6))
data.'''Answer''' ### 기존 전체 데이터 시각화
HW_ADD_total_visualization_df.plot('''Answer''') ### Addictive 홀트-윈터 지수평활법 예측값 시각화

ax.vlines('''Answer''') ### train/test 분리 시점 시각화
ax.legend('''Answer''')
plt.title('''Answer''')
plt.tight_layout()
plt.show()

# **EOD**