In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [2]:
# 1. 데이터 로드
weekdays_data = pd.read_excel('../data/weekday_traffic.xlsx')
weekdays_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42 entries, 0 to 41
Data columns (total 33 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   일자      42 non-null     int64  
 1   요일      42 non-null     object 
 2   지점명     42 non-null     object 
 3   지점번호    42 non-null     object 
 4   방향      42 non-null     object 
 5   구분      42 non-null     object 
 6   0시      42 non-null     float64
 7   1시      42 non-null     float64
 8   2시      42 non-null     float64
 9   3시      42 non-null     float64
 10  4시      42 non-null     float64
 11  5시      42 non-null     float64
 12  6시      42 non-null     float64
 13  7시      42 non-null     float64
 14  8시      42 non-null     float64
 15  9시      42 non-null     float64
 16  10시     42 non-null     float64
 17  11시     42 non-null     float64
 18  12시     42 non-null     float64
 19  13시     42 non-null     float64
 20  14시     42 non-null     float64
 21  15시     42 non-null     float64
 22  16시 

In [3]:
# 2. 독립 변수: 각 날의 8시만 사용 (날짜별로 동일한 시간)
# numpy의 arange() 함수와 reshape()을 사용하여 각 날을 나타내는 인덱스 배열을 생성합니다. (참고: https://numpy.org/doc/stable/reference/generated/numpy.arange.html)
days = np.arange(len(weekdays_data)).reshape(-1, 1)
days

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11],
       [12],
       [13],
       [14],
       [15],
       [16],
       [17],
       [18],
       [19],
       [20],
       [21],
       [22],
       [23],
       [24],
       [25],
       [26],
       [27],
       [28],
       [29],
       [30],
       [31],
       [32],
       [33],
       [34],
       [35],
       [36],
       [37],
       [38],
       [39],
       [40],
       [41]])

In [4]:
# 3. 종속 변수: 각 날의 8시 교통량 데이터
# 교통량 데이터는 '8시'라는 컬럼명을 기준으로 가져옵니다. (참고: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html)
traffic_at_8am = weekdays_data['8시'].values
traffic_at_8am

array([3590.40324227, 3622.9342971 , 3740.27515773, 4044.15239877,
       3804.50583432, 4250.79971624, 3882.4602711 , 4363.70564406,
       3932.87124153, 4194.83771876, 3482.38867667, 4365.63262009,
       3927.4535222 , 3817.71195959, 3973.01761935, 4179.15387775,
       4226.19967809, 4026.32094178, 4134.70643255, 4617.91287653,
       4386.92529619, 3031.69288419, 3077.27789889, 3548.90481946,
       3390.83060327, 3521.23999853, 3641.1586441 , 3237.14331822,
       3138.08500627, 3663.16074967, 3286.92335169, 3388.11655951,
       3347.20516217, 3534.46098968, 3728.08581445, 3870.00962126,
       3533.13875879, 4158.76612034, 3627.10454473, 3891.29446109,
       3427.92716781, 3211.68740769])

# 단항 회귀 (선형 회귀)

In [5]:
# 4. 데이터 분리 (훈련 데이터 80%, 테스트 데이터 20%)
# train_test_split()을 사용해 데이터를 훈련 세트와 테스트 세트로 나눕니다. (참고: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)
X_train, X_test, y_train, y_test = train_test_split(days, traffic_at_8am, test_size=0.2, random_state=42)


In [6]:
# 5. 선형 회귀 모델 생성 및 학습 (단항 회귀)
# LinearRegression 객체를 생성하고, 훈련 데이터를 학습시킵니다. (참고: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)

LinearRegression()

In [7]:
# 6. 테스트 데이터로 예측
# 학습된 모델을 사용하여 테스트 데이터를 예측합니다.
y_pred_linear = linear_model.predict(X_test)

In [8]:
# 7. 성능 평가 (MSE, RMSE)
# mean_squared_error()를 사용하여 MSE(평균 제곱 오차)를 계산하고, 이를 바탕으로 RMSE를 계산합니다. (참고: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html)
mse_linear = mean_squared_error(y_test, y_pred_linear)
rmse_linear = np.sqrt(mse_linear)
print(f"단항 회귀 모델의 RMSE: {rmse_linear:.2f}")

단항 회귀 모델의 RMSE: 342.67


# 다항 회귀

In [9]:
# 8. 다항 특성 생성 (2차 다항식 사용)
# PolynomialFeatures()를 사용해 2차 다항식을 생성합니다. (참고: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html)
poly = PolynomialFeatures(degree=2)
# 독립 변수를 다항식으로 변환하는 과정입니다.
days_poly = poly.fit_transform(days)

In [None]:
# 9. 데이터 분리 (훈련 데이터 80%, 테스트 데이터 20%)
# 다항 회귀에서도 동일하게 데이터를 분리합니다.
X_train_poly, X_test_poly, y_train_poly, y_test_poly = train_test_split(days_poly, traffic_at_8am, test_size=0.2, random_state=42)

In [11]:
# 10. 선형 회귀 모델 생성 및 학습 (다항 회귀)
# 다항 회귀에서도 선형 회귀 모델을 학습시킵니다.
poly_model = LinearRegression()
poly_model.fit(X_train_poly, y_train_poly)

LinearRegression()

In [12]:
# 11. 테스트 데이터로 예측
# 학습된 다항 회귀 모델을 사용하여 테스트 데이터를 예측합니다.
y_pred_poly = poly_model.predict(X_test_poly)

In [13]:
# 12. 성능 평가 (MSE, RMSE)
# 다항 회귀의 성능을 MSE, RMSE로 평가합니다. (참고: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html)
mse_poly = mean_squared_error(y_test_poly, y_pred_poly)
rmse_poly = np.sqrt(mse_poly)
print(f"다항 회귀 모델의 RMSE: {rmse_poly:.2f}")

다항 회귀 모델의 RMSE: 341.62


# 교통량 예측 비교

In [14]:
# 13. 마지막 날의 교통량 예측 (단항 회귀)
# 학습된 선형 회귀 모델로 마지막 날의 8시 교통량을 예측합니다.
predicted_traffic_linear = linear_model.predict(np.array([[len(weekdays_data)]]))[0]
predicted_traffic_linear

3441.5710715983987

In [15]:
# 14. 마지막 날의 교통량 예측 (다항 회귀)
# 학습된 다항 회귀 모델로 마지막 날의 8시 교통량을 예측합니다.
last_day_index_poly = poly.transform(np.array([[len(weekdays_data)]]))
predicted_traffic_poly = poly_model.predict(last_day_index_poly)[0]
predicted_traffic_poly

3385.1927499502085

In [16]:
# 15. 마지막 날의 실제 교통량과 예측 교통량 비교
# 실제 교통량과 예측된 값을 출력하여 모델 성능을 비교합니다.
last_day_traffic = weekdays_data.iloc[-1]['8시']
print(f"\n실제 8시 교통량: {last_day_traffic:.2f}")
print(f"단항 회귀로 예측한 8시 교통량: {predicted_traffic_linear:.2f}")
print(f"다항 회귀로 예측한 8시 교통량: {predicted_traffic_poly:.2f}")


실제 8시 교통량: 3211.69
단항 회귀로 예측한 8시 교통량: 3441.57
다항 회귀로 예측한 8시 교통량: 3385.19
