In [1]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:90% !important;}
div.cell.code_cell.rendered{width:100%;}
div.input_prompt{padding:2px;}
div.CodeMirror {font-family:Consolas; font-size:10pt;}
div.text_cell_render.rendered_html{font-size:10pt;}
div.output {font-size:10pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:10pt;}
div.prompt {min-width:70px;}
div#toc-wrapper{padding-top:120px;}
div.text_cell_render ul li{font-size:11pt;padding:4px;}
table.dataframe{font-size:10px;}
</style>
"""))

In [2]:

# ✅ LSTM 예측 파이프라인 - 상세 주석 포함

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense

# 1️⃣ CSV 로드
df = pd.read_csv('목적별_국적별_결측치.csv')

# 2️⃣ 결측치 처리 - NaN은 시계열 예측에서 치명적이다.
# 기본적으로 직전값으로 채움 (필요시 평균/중위값 등 다른 방법 사용 가능)
df = df.fillna(method='ffill')

# 3️⃣ 시계열 정렬 - 국가/목적별로 연월순 정렬
df = df.sort_values(['country_code', 'purpose_code', 'year', 'month'])

# 4️⃣ 사용할 Feature 정의
features = ['visitors_num', 'lag_1', 'rolling_mean_3', 'rolling_mean_6',
            'rolling_mean_12', 'is_peak', 'is_holiday']

# 5️⃣ 스케일링 - LSTM은 연속값 스케일이 커지면 학습이 불안정해진다.
scaler = MinMaxScaler()
scaled = scaler.fit_transform(df[features])

# 6️⃣ Sliding Window 함수 정의
# 과거 n_steps개월 데이터를 입력으로, 다음 1개월을 예측한다.
def create_sequences(data, n_steps):
    X, y = [], []
    for i in range(len(data) - n_steps):
        X.append(data[i:i+n_steps])
        y.append(data[i+n_steps, 0])  # visitors_num이 첫 컬럼
    return np.array(X), np.array(y)

# 7️⃣ 윈도우 크기 설정 (예: 12개월)
n_steps = 12
X, y = create_sequences(scaled, n_steps)

print(f'X Shape: {X.shape} (samples, timesteps, features)')
print(f'y Shape: {y.shape}')

# 8️⃣ LSTM 모델 구성
# LSTM은 시계열 패턴을 학습하기 위해 input_shape에 (타임스텝, 변수개수)가 반드시 필요하다.
n_features = X.shape[2]

model = Sequential()
model.add(LSTM(64, activation='relu', input_shape=(n_steps, n_features)))
model.add(Dense(1))  # 출력은 다음 달 입국자수 하나
model.compile(optimizer='adam', loss='mse')

# 9️⃣ 학습
model.fit(X, y, epochs=50, batch_size=32)

# 10️⃣ 예측값 복원
# 스케일링된 값을 다시 원본 단위로 되돌리기 위해 inverse_transform 사용
# visitors_num 하나만 복원할 것이므로 dummy zero 배열로 shape 맞춘다.
y_pred = model.predict(X)
y_pred_inv = scaler.inverse_transform(np.hstack([y_pred, np.zeros((len(y_pred), len(features)-1))]))[:,0]

print(f'예측 샘플: {y_pred_inv}')

# 11️⃣ 모델 저장 (.h5)
model.save('foreign_visitors_lstm_model.h5')
print('✅ LSTM 모델 저장 완료')


ModuleNotFoundError: No module named 'tensorflow'