In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

In [9]:
# 데이터 불러오기
data = pd.read_csv('merged_predict.csv')

# 피처와 타겟 변수 설정
features = data[['검색건수', '관외 이동량', '숙박업소 개수']]
target = data['방문자수']


In [10]:
# 데이터셋 분할 (훈련셋과 테스트셋)
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

# 랜덤 포레스트 모델 생성
model = RandomForestRegressor(n_estimators=100, random_state=42)

# 모델 학습
model.fit(X_train, y_train)


In [11]:
# 예측 및 성능 평가
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5
r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse}')
print(f'Root Mean Squared Error: {rmse}')
print(f'R-squared: {r2}')

Mean Squared Error: 616361959738.486
Root Mean Squared Error: 785087.2306556043
R-squared: 0.9435770066881898


In [13]:
predict_data = data[data['일시'].isin([1, 2, 3, 4, 5])]
predict_features = predict_data[['검색건수', '관외 이동량', '숙박업소 개수']]

# 2024년 1월부터 5월까지의 방문자수 예측
predicted_visitors = model.predict(predict_features)

# 결과 출력
predict_data['예측 방문자수'] = predicted_visitors

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  predict_data['예측 방문자수'] = predicted_visitors


In [15]:
predict_data

Unnamed: 0,일시,지역명,방문자수,검색건수,관외 이동량,숙박업소 개수,예측 방문자수
0,1,강원특별자치도 춘천시,8979957,229813,444582,312,8690749.26
1,1,강원특별자치도 원주시,9530785,199254,482623,133,9146617.13
2,1,강원특별자치도 강릉시,8031760,452294,565563,658,8058090.48
3,1,강원특별자치도 동해시,2946561,64643,167985,101,2457835.20
4,1,강원특별자치도 태백시,1491579,32726,92434,20,1406109.53
...,...,...,...,...,...,...,...
1859,5,충청북도 증평군,1388821,29203,92801,6,1348674.26
1860,5,충청북도 진천군,2551282,84387,260404,39,3015469.44
1861,5,충청북도 괴산군,1536345,29203,158593,74,1483604.42
1862,5,충청북도 음성군,3975691,78947,317368,29,3859548.55


In [56]:
real01 = pd.read_csv('202401방문자수.csv',encoding='euc-kr')
real02 = pd.read_csv('202402방문자수.csv',encoding='euc-kr')
real03 = pd.read_csv('202403방문자수.csv',encoding='euc-kr')
real04 = pd.read_csv('202404방문자수.csv',encoding='euc-kr')
real05 = pd.read_csv('202405방문자수.csv',encoding='euc-kr')

In [57]:
real01

Unnamed: 0,일시,지역명,시군구,방문자 수
0,1,강원특별자치도,고성군,1452663.0
1,1,강원특별자치도,춘천시,9024519.0
2,1,강원특별자치도,원주시,9956163.0
3,1,강원특별자치도,강릉시,8218107.0
4,1,강원특별자치도,동해시,2874821.0
...,...,...,...,...
248,1,충청북도,단양군,1047031.0
249,1,충청북도,청주시 상당구,5048982.0
250,1,충청북도,청주시 서원구,4193097.0
251,1,충청북도,청주시 흥덕구,6715304.0


In [58]:
real_data = pd.concat([real01, real02, real03, real04, real05])

# '지역명' 컬럼 생성 (지역명과 시군구를 합쳐서)
real_data['지역'] = real_data['지역명'] + ' ' + real_data['시군구']

# 불필요한 컬럼 삭제
real_data.drop(columns=['지역명', '시군구'], inplace=True)

In [59]:
real_data = real_data.rename(columns={'지역': '지역명'})

In [60]:
real_data

Unnamed: 0,일시,방문자 수,지역명
0,1,1452663.0,강원특별자치도 고성군
1,1,9024519.0,강원특별자치도 춘천시
2,1,9956163.0,강원특별자치도 원주시
3,1,8218107.0,강원특별자치도 강릉시
4,1,2874821.0,강원특별자치도 동해시
...,...,...,...
248,5,15900000.0,충청북도 증평군
249,5,29900000.0,충청북도 진천군
250,5,17900000.0,충청북도 괴산군
251,5,40500000.0,충청북도 음성군


In [62]:
merged_df = pd.merge(real_data, predict_data, on=['일시', '지역명'])

In [64]:
merged_df=merged_df[['일시','지역명','방문자 수','예측 방문자수']]

In [66]:
merged_df

Unnamed: 0,일시,지역명,방문자 수,예측 방문자수
0,1,강원특별자치도 고성군,1452663.0,1614057.80
1,1,강원특별자치도 춘천시,9024519.0,8690749.26
2,1,강원특별자치도 원주시,9956163.0,9146617.13
3,1,강원특별자치도 강릉시,8218107.0,8058090.48
4,1,강원특별자치도 동해시,2874821.0,2457835.20
...,...,...,...,...
810,5,충청북도 증평군,15900000.0,1348674.26
811,5,충청북도 진천군,29900000.0,3015469.44
812,5,충청북도 괴산군,17900000.0,1483604.42
813,5,충청북도 음성군,40500000.0,3859548.55


In [69]:
# 방문자 수와 예측 방문자 수의 차이 계산
merged_df['오차'] = merged_df['방문자 수'] - merged_df['예측 방문자수']

# MSE 계산
mse = mean_squared_error(merged_df['방문자 수'], merged_df['예측 방문자수'])

print("Mean Squared Error (MSE):", mse)

Mean Squared Error (MSE): 681761145044923.2


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  merged_df['오차'] = merged_df['방문자 수'] - merged_df['예측 방문자수']


In [70]:
merged_df

Unnamed: 0,일시,지역명,방문자 수,예측 방문자수,오차
0,1,강원특별자치도 고성군,1452663.0,1614057.80,-161394.80
1,1,강원특별자치도 춘천시,9024519.0,8690749.26,333769.74
2,1,강원특별자치도 원주시,9956163.0,9146617.13,809545.87
3,1,강원특별자치도 강릉시,8218107.0,8058090.48,160016.52
4,1,강원특별자치도 동해시,2874821.0,2457835.20,416985.80
...,...,...,...,...,...
810,5,충청북도 증평군,15900000.0,1348674.26,14551325.74
811,5,충청북도 진천군,29900000.0,3015469.44,26884530.56
812,5,충청북도 괴산군,17900000.0,1483604.42,16416395.58
813,5,충청북도 음성군,40500000.0,3859548.55,36640451.45
