# 데이터 준비 코드

In [1]:
import numpy as np
import pandas as pd

In [2]:
# 데이터 불러오기
hotels_predict = pd.read_csv('ML_Data/hotels_predict.csv', encoding='utf-8')
move_predict = pd.read_csv('ML_Data/move_predict.csv', encoding='utf-8')
searches_predict = pd.read_csv('ML_Data/searches_predict.csv',encoding='utf-8')
visitor_predict= pd.read_csv('ML_Data/visitor_predict.csv',encoding='utf-8')
sns_predict= pd.read_csv('ML_Data/sns_predict.csv',encoding='utf-8')
data= pd.read_csv('ML_Data/merged_predict2.csv', encoding='utf-8')

# 모델 학습 및 예측

In [3]:
!pip install xgboost
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

Defaulting to user installation because normal site-packages is not writeable



[notice] A new release of pip is available: 24.0 -> 24.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


학습모델1

In [4]:
# 특성과 타겟 변수 정의
X = data[['숙박업소 개수', '관외 이동량', '검색건수', '일시','sns']]
y = data['방문자수']

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# XGBoost 모델 학습
xgb_model1 = xgb.XGBRegressor(objective='reg:squarederror', n_estimators=100, learning_rate=0.1, max_depth=5)
xgb_model1.fit(X_train, y_train)

# 모델 평가
y_pred = xgb_model1.predict(X_test)

# 성능 지표 계산
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# 정확도 계산 함수
def calculate_accuracy(r2):
    return max(0, min(100, r2 * 100))  # 0-100 사이로 제한

xgb_accuracy = calculate_accuracy(r2)

# 결과 출력
print(f'Mean Squared Error (MSE): {mse}')
print(f'Mean Absolute Error (MAE): {mae}')
print(f'R^2 Score: {r2}')
print(f'XGBoost Accuracy: {xgb_accuracy:.2f}%')

Mean Squared Error (MSE): 485589919633.972
Mean Absolute Error (MAE): 438032.69444444444
R^2 Score: 0.9564941410430854
XGBoost Accuracy: 95.65%


In [5]:
#MSE가 클수록 예측 오차가 크다는 것을 의미,
#작을수록 예측 성능이 좋다고 해석함.

#보통 MSE는 실제 값과 예측 값의 차이를 제곱한 값들의 평균이다.

학습모델 2

In [6]:
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 데이터 준비
X = data[['숙박업소 개수', '관외 이동량', '검색건수', '일시','sns']]
y = data['방문자수']

# 학습 데이터와 검증 데이터로 분할
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=42)

# XGBoost 모델 정의
xgb_model2 = xgb.XGBRegressor(objective='reg:squarederror', n_estimators=1000, learning_rate=0.1, max_depth=5)

# eval_set 설정
eval_set = [(X_train, y_train), (X_valid, y_valid)]

# 모델 훈련
xgb_model2.fit(X_train, y_train, eval_set=eval_set, verbose=True)

# 모델 평가
y_pred = xgb_model2.predict(X_test)

# 성능 지표 계산
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# 정확도 계산 함수
def calculate_accuracy(r2):
    return max(0, min(100, r2 * 100))  # 0-100 사이로 제한

xgb_accuracy = calculate_accuracy(r2)

# 결과 출력
print(f'Mean Squared Error (MSE): {mse}')
print(f'Mean Absolute Error (MAE): {mae}')
print(f'R^2 Score: {r2}')
print(f'XGBoost Accuracy: {xgb_accuracy:.2f}%')

[0]	validation_0-rmse:3010839.87502	validation_1-rmse:3057077.43119
[1]	validation_0-rmse:2749716.27835	validation_1-rmse:2804757.72766
[2]	validation_0-rmse:2518342.14563	validation_1-rmse:2576098.18796
[3]	validation_0-rmse:2306842.13298	validation_1-rmse:2362491.08774
[4]	validation_0-rmse:2119249.56308	validation_1-rmse:2175476.47688
[5]	validation_0-rmse:1952964.45091	validation_1-rmse:2011113.35517
[6]	validation_0-rmse:1800617.26375	validation_1-rmse:1861627.84932
[7]	validation_0-rmse:1665855.92292	validation_1-rmse:1727140.08465
[8]	validation_0-rmse:1546408.29008	validation_1-rmse:1608522.18166
[9]	validation_0-rmse:1437056.73308	validation_1-rmse:1508901.78369
[10]	validation_0-rmse:1342317.44496	validation_1-rmse:1419833.64728
[11]	validation_0-rmse:1255852.11229	validation_1-rmse:1349583.58838
[12]	validation_0-rmse:1180118.69998	validation_1-rmse:1274052.09320
[13]	validation_0-rmse:1112218.90096	validation_1-rmse:1214672.87352
[14]	validation_0-rmse:1050932.87399	validat

학습모델3

In [7]:
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler

In [9]:
import xgboost as xgb
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_error

# 데이터 준비
X = data[['숙박업소 개수', '관외 이동량', '검색건수', '일시','sns']]
y = data['방문자수']

# 학습 데이터와 검증 데이터로 분할
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=42)

# XGBoost 모델 정의
xgb_model3 = xgb.XGBRegressor(objective='reg:squarederror')

# 하이퍼파라미터 그리드 설정
param_grid = {
    'n_estimators': [100, 500, 1000],
    'learning_rate': [0.01, 0.05, 0.1],
    'max_depth': [3, 5, 7],
    'subsample': [0.6, 0.8, 1.0],
    'colsample_bytree': [0.6, 0.8, 1.0]
}

# 그리드 서치 설정
grid_search = GridSearchCV(estimator=xgb_model3, param_grid=param_grid, scoring='neg_mean_squared_error', cv=3, verbose=1)

# 그리드 서치 수행
grid_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터 출력
print(f"Best parameters: {grid_search.best_params_}")

# 최적의 모델로 예측 및 평가
xgb_model3 = grid_search.best_estimator_
y_pred = xgb_model3.predict(X_valid)

# 성능 지표 계산
mse = mean_squared_error(y_valid, y_pred)
mae = mean_absolute_error(y_valid, y_pred)
r2 = r2_score(y_valid, y_pred)

# 정확도 계산 함수
def calculate_accuracy(r2):
    return max(0, min(100, r2 * 100))  # 0-100 사이로 제한

xgb_accuracy = calculate_accuracy(r2)

# 결과 출력
print(f'Mean Squared Error (MSE): {mse}')
print(f'Mean Absolute Error (MAE): {mae}')
print(f'R^2 Score: {r2}')
print(f'XGBoost Accuracy: {xgb_accuracy:.2f}%')


Fitting 3 folds for each of 243 candidates, totalling 729 fits
Best parameters: {'colsample_bytree': 0.8, 'learning_rate': 0.05, 'max_depth': 7, 'n_estimators': 1000, 'subsample': 0.6}
Mean Squared Error (MSE): 424080037153.57794
Mean Absolute Error (MAE): 394594.83115310076
R^2 Score: 0.9620050467753657
XGBoost Accuracy: 96.20%


Grid Search (격자 탐색)

In [13]:
import xgboost as xgb
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_error

# 데이터 준비
X = data[['숙박업소 개수', '관외 이동량', '검색건수', '일시','sns']]
y = data['방문자수']

# 학습 데이터와 검증 데이터로 분할
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=42)

# XGBoost 모델 정의
xgb_model_G = xgb.XGBRegressor(objective='reg:squarederror')

# 하이퍼파라미터 그리드 설정
param_grid = {
    'n_estimators': [100, 500, 1000],
    'learning_rate': [0.01, 0.05, 0.1],
    'max_depth': [3, 5, 7],
    'subsample': [0.6, 0.8, 1.0]
}

# 그리드 서치 설정
grid_search = GridSearchCV(estimator=xgb_model_G, param_grid=param_grid, scoring='neg_mean_squared_error', cv=3, verbose=1)

# 그리드 서치 수행
grid_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터 출력
print(f"Best parameters: {grid_search.best_params_}")

# 최적의 모델로 예측 및 평가
xgb_model_G = grid_search.best_estimator_
y_pred = xgb_model_G.predict(X_valid)

# 성능 지표 계산
mse = mean_squared_error(y_valid, y_pred)
mae = mean_absolute_error(y_valid, y_pred)
r2 = r2_score(y_valid, y_pred)

# 정확도 계산 함수
def calculate_accuracy(r2):
    return max(0, min(100, r2 * 100))  # 0-100 사이로 제한

xgb_accuracy = calculate_accuracy(r2)

# 결과 출력
print(f'Mean Squared Error (MSE): {mse}')
print(f'Mean Absolute Error (MAE): {mae}')
print(f'R^2 Score: {r2}')
print(f'XGBoost Accuracy: {xgb_accuracy:.2f}%')


Fitting 3 folds for each of 81 candidates, totalling 243 fits
Best parameters: {'learning_rate': 0.05, 'max_depth': 5, 'n_estimators': 1000, 'subsample': 0.6}
Mean Squared Error (MSE): 436425240254.39825
Mean Absolute Error (MAE): 412545.4827600129
R^2 Score: 0.960898992791989
XGBoost Accuracy: 96.09%


Random Search (랜덤 탐색)

In [15]:
from sklearn.model_selection import RandomizedSearchCV


# XGBoost 모델 정의
xgb_model_R = xgb.XGBRegressor(objective='reg:squarederror')

# 하이퍼파라미터 그리드 설정
param_dist = {
    'n_estimators': [100, 500, 1000],
    'learning_rate': [0.01, 0.05, 0.1],
    'max_depth': [3, 5, 7],
    'subsample': [0.6, 0.8, 1.0]
}

# 랜덤 서치 설정
random_search = RandomizedSearchCV(estimator=xgb_model_R, param_distributions=param_dist, n_iter=50, scoring='neg_mean_squared_error', cv=3, verbose=1, random_state=42)

# 랜덤 서치 수행
random_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터 출력
print(f"Best parameters (Random Search): {random_search.best_params_}")

# 최적의 모델로 예측 및 평가
best_model_random = random_search.best_estimator_
y_pred = best_model_random.predict(X_valid)

# 성능 지표 계산 및 출력
mse = mean_squared_error(y_valid, y_pred)
mae = mean_absolute_error(y_valid, y_pred)
r2 = r2_score(y_valid, y_pred)
print(f'Mean Squared Error (MSE): {mse}')
print(f'Mean Absolute Error (MAE): {mae}')
print(f'R^2 Score: {r2}')


Fitting 3 folds for each of 50 candidates, totalling 150 fits
Best parameters (Random Search): {'subsample': 0.6, 'n_estimators': 1000, 'max_depth': 5, 'learning_rate': 0.05}
Mean Squared Error (MSE): 436425240254.39825
Mean Absolute Error (MAE): 412545.4827600129
R^2 Score: 0.960898992791989


Bayesian Optimization (베이지안 최적화)

In [None]:
pip install scikit-optimize

In [None]:
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from skopt import BayesSearchCV
import pandas as pd

# 데이터 준비 (예시로 사용)
data = pd.read_csv('ML_Data/merged_predict2.csv')

# 특성과 타겟 변수 정의
X = data[['숙박업소 개수', '관외 이동량', '검색건수', '일시']]
y = data['방문자수']

# 학습 데이터와 검증 데이터로 분할
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=42)

# XGBoost 모델 정의
xgb_model = xgb.XGBRegressor(objective='reg:squarederror')

# 하이퍼파라미터 공간 설정
param_space = {
    'n_estimators': [100, 500, 1000],
    'learning_rate': [0.01, 0.05, 0.1],
    'max_depth': [3, 5, 7],
    'subsample': [0.6, 0.8, 1.0]
}

# 베이지안 최적화 설정
bayes_search = BayesSearchCV(
    estimator=xgb_model,
    search_spaces=param_space,
    scoring='neg_mean_squared_error',
    n_iter=10,  # 최적화 반복 횟수를 줄임
    cv=3,
    verbose=1,
    random_state=42
)

# 베이지안 최적화 수행
bayes_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터 출력
print(f"Best parameters (Bayesian Optimization): {bayes_search.best_params_}")

# 최적의 모델로 예측 및 평가
best_model_bayes = bayes_search.best_estimator_
y_pred = best_model_bayes.predict(X_valid)

# 성능 지표 계산 및 출력
mse = mean_squared_error(y_valid, y_pred)
mae = mean_absolute_error(y_valid, y_pred)
r2 = r2_score(y_valid, y_pred)
print(f'Mean Squared Error (MSE): {mse}')
print(f'Mean Absolute Error (MAE): {mae}')
print(f'R^2 Score: {r2}')

# 정확도 계산 함수
def calculate_accuracy(r2):
    return max(0, min(100, r2 * 100))  # 0-100 사이로 제한

xgb_accuracy = calculate_accuracy(r2)
print(f'XGBoost Accuracy: {xgb_accuracy:.2f}%')

Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Best parameters (Bayesian Optimization): OrderedDict([('colsample_bytree', 0.817361227076125), ('learning_rate', 0.09280083037935848), ('max_depth', 5), ('n_estimators', 435), ('subsample', 0.7296239929137495)])
Mean Squared Error (MSE): 559755430361.2941
Mean Absolute Error (MAE): 458759.55595930235
R^2 Score: 0.9498493691507804
XGBoost Accuracy: 94.98%


# 2024년 데이터 생성 및 예측

모델1의 에측

In [None]:
# 2024년 예측 데이터 생성
months_2024 = [1, 2, 3, 4, 5]
future_data = pd.DataFrame()

for month in months_2024:
    for region in data['지역명'].unique():
        # 해당 지역의 2023년 데이터가 없는 경우 예외 처리
        if region not in hotels_predict['지역명'].unique() or region not in move_predict['지역명'].unique() or region not in searches_predict['지역명'].unique():
            continue
        
        hotel_count = hotels_predict.loc[hotels_predict['지역명'] == region, '숙박업소 개수'].values[0]
        
        # 2024년 데이터가 없으므로 과거 데이터의 평균을 사용합니다.
        move_value = move_predict.loc[move_predict['지역명'] == region, '관외 이동량'].mean()
        search_count = searches_predict.loc[searches_predict['지역명'] == region, '검색건수'].mean()
        sns_count = sns_predict.loc[sns_predict['지역명'] == region, '검색량(건)'].mean()
        
        future_data = pd.concat([
            future_data,
            pd.DataFrame({
                '일시': [month],
                '지역명': [region],
                '숙박업소 개수': [hotel_count],
                '관외 이동량': [move_value],
                '검색건수': [search_count],
                'sns' : [sns_count]
            })
        ], ignore_index=True)

# 결측값 처리 (필요시)
future_data.fillna(0, inplace=True)

# 예측
X_future = future_data[['숙박업소 개수', '관외 이동량', '검색건수', '일시','sns']]
future_data['예측 방문자수'] = xgb_model1.predict(X_future)

print(future_data[['일시', '지역명', '예측 방문자수']])

# CSV 파일로 저장
future_data.to_csv('future_data1.csv', index=False)


     일시          지역명      예측 방문자수
0     1  강원특별자치도 춘천시  8602057.000
1     1  강원특별자치도 원주시  9356851.000
2     1  강원특별자치도 강릉시  7975359.000
3     1  강원특별자치도 동해시  2734153.000
4     1  강원특별자치도 태백시  1204946.250
..   ..          ...          ...
800   5     충청북도 증평군  1230401.125
801   5     충청북도 진천군  2957424.750
802   5     충청북도 괴산군  1852958.875
803   5     충청북도 음성군  3429855.000
804   5     충청북도 단양군  1692033.250

[805 rows x 3 columns]


모델 2의 예측

In [None]:
# 2024년 예측 데이터 생성
months_2024 = [1, 2, 3, 4, 5]
future_data = pd.DataFrame()

for month in months_2024:
    for region in data['지역명'].unique():
        # 해당 지역의 2023년 데이터가 없는 경우 예외 처리
        if region not in hotels_predict['지역명'].unique() or region not in move_predict['지역명'].unique() or region not in searches_predict['지역명'].unique():
            continue
        
        hotel_count = hotels_predict.loc[hotels_predict['지역명'] == region, '숙박업소 개수'].values[0]
        
        # 2024년 데이터가 없으므로 과거 데이터의 평균을 사용합니다.
        move_value = move_predict.loc[move_predict['지역명'] == region, '관외 이동량'].mean()
        search_count = searches_predict.loc[searches_predict['지역명'] == region, '검색건수'].mean()
        sns_count = sns_predict.loc[sns_predict['지역명'] == region, '검색량(건)'].mean()
        
        future_data = pd.concat([
            future_data,
            pd.DataFrame({
                '일시': [month],
                '지역명': [region],
                '숙박업소 개수': [hotel_count],
                '관외 이동량': [move_value],
                '검색건수': [search_count],
                'sns' : [sns_count]
            })
        ], ignore_index=True)

# 결측값 처리 (필요시)
future_data.fillna(0, inplace=True)

# 예측
X_future = future_data[['숙박업소 개수', '관외 이동량', '검색건수', '일시','sns']]
future_data['예측 방문자수'] = xgb_model2.predict(X_future)

print(future_data[['일시', '지역명', '예측 방문자수']])

# CSV 파일로 저장
future_data.to_csv('future_data2.csv', index=False)


     일시          지역명      예측 방문자수
0     1  강원특별자치도 춘천시  8686518.000
1     1  강원특별자치도 원주시  9414581.000
2     1  강원특별자치도 강릉시  8050619.500
3     1  강원특별자치도 동해시  2742047.000
4     1  강원특별자치도 태백시  1111296.000
..   ..          ...          ...
800   5     충청북도 증평군  1271683.500
801   5     충청북도 진천군  2890697.000
802   5     충청북도 괴산군  1910815.750
803   5     충청북도 음성군  3382660.750
804   5     충청북도 단양군  1714049.375

[805 rows x 3 columns]


모델3의 예측

In [None]:
# 2024년 예측 데이터 생성
months_2024 = [1, 2, 3, 4, 5]
future_data = pd.DataFrame()

for month in months_2024:
    for region in data['지역명'].unique():
        # 해당 지역의 2023년 데이터가 없는 경우 예외 처리
        if region not in hotels_predict['지역명'].unique() or region not in move_predict['지역명'].unique() or region not in searches_predict['지역명'].unique():
            continue
        
        hotel_count = hotels_predict.loc[hotels_predict['지역명'] == region, '숙박업소 개수'].values[0]
        
        # 2024년 데이터가 없으므로 과거 데이터의 평균을 사용합니다.
        move_value = move_predict.loc[move_predict['지역명'] == region, '관외 이동량'].mean()
        search_count = searches_predict.loc[searches_predict['지역명'] == region, '검색건수'].mean()
        sns_count = sns_predict.loc[sns_predict['지역명'] == region, '검색량(건)'].mean()
        
        future_data = pd.concat([
            future_data,
            pd.DataFrame({
                '일시': [month],
                '지역명': [region],
                '숙박업소 개수': [hotel_count],
                '관외 이동량': [move_value],
                '검색건수': [search_count],
                'sns' : [sns_count]
            })
        ], ignore_index=True)

# 결측값 처리 (필요시)
future_data.fillna(0, inplace=True)

# 예측
X_future = future_data[['숙박업소 개수', '관외 이동량', '검색건수', '일시','sns']]
future_data['예측 방문자수'] = xgb_model3.predict(X_future)

print(future_data[['일시', '지역명', '예측 방문자수']])

# CSV 파일로 저장
future_data.to_csv('future_data3.csv', index=False)


     일시          지역명      예측 방문자수
0     1  강원특별자치도 춘천시  8356958.500
1     1  강원특별자치도 원주시  9635656.000
2     1  강원특별자치도 강릉시  8164319.500
3     1  강원특별자치도 동해시  2806386.750
4     1  강원특별자치도 태백시  1255087.625
..   ..          ...          ...
800   5     충청북도 증평군  1200291.625
801   5     충청북도 진천군  2828742.250
802   5     충청북도 괴산군  1940916.750
803   5     충청북도 음성군  3510406.000
804   5     충청북도 단양군  1696841.000

[805 rows x 3 columns]
