In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression  
from sklearn.model_selection import train_test_split

In [2]:
# 1. 교통량 데이터 로드
weekdays_data = pd.read_excel('../data/weekday_traffic.xlsx')
weekdays_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42 entries, 0 to 41
Data columns (total 33 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   일자      42 non-null     int64  
 1   요일      42 non-null     object 
 2   지점명     42 non-null     object 
 3   지점번호    42 non-null     object 
 4   방향      42 non-null     object 
 5   구분      42 non-null     object 
 6   0시      42 non-null     float64
 7   1시      42 non-null     float64
 8   2시      42 non-null     float64
 9   3시      42 non-null     float64
 10  4시      42 non-null     float64
 11  5시      42 non-null     float64
 12  6시      42 non-null     float64
 13  7시      42 non-null     float64
 14  8시      42 non-null     float64
 15  9시      42 non-null     float64
 16  10시     42 non-null     float64
 17  11시     42 non-null     float64
 18  12시     42 non-null     float64
 19  13시     42 non-null     float64
 20  14시     42 non-null     float64
 21  15시     42 non-null     float64
 22  16시 

In [3]:
# 2. 독립 변수: 각 날의 8시만 사용 (날짜별로 동일한 시간)
# np.arange()는 연속된 수의 배열을 생성하며, reshape()은 차원을 변환 (참고: https://numpy.org/doc/stable/reference/generated/numpy.arange.html)
days = np.arange(len(weekdays_data)).reshape(-1, 1)  # 각 날을 나타내는 인덱스를 독립 변수로 사용
days

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11],
       [12],
       [13],
       [14],
       [15],
       [16],
       [17],
       [18],
       [19],
       [20],
       [21],
       [22],
       [23],
       [24],
       [25],
       [26],
       [27],
       [28],
       [29],
       [30],
       [31],
       [32],
       [33],
       [34],
       [35],
       [36],
       [37],
       [38],
       [39],
       [40],
       [41]])

In [4]:
traffic_at_8am = weekdays_data.loc[:, '8시'].values[:-1]   # 열 이름이 '8시'인 교통량 데이터를 종속 변수로 사용
traffic_at_8am

array([3590.40324227, 3622.9342971 , 3740.27515773, 4044.15239877,
       3804.50583432, 4250.79971624, 3882.4602711 , 4363.70564406,
       3932.87124153, 4194.83771876, 3482.38867667, 4365.63262009,
       3927.4535222 , 3817.71195959, 3973.01761935, 4179.15387775,
       4226.19967809, 4026.32094178, 4134.70643255, 4617.91287653,
       4386.92529619, 3031.69288419, 3077.27789889, 3548.90481946,
       3390.83060327, 3521.23999853, 3641.1586441 , 3237.14331822,
       3138.08500627, 3663.16074967, 3286.92335169, 3388.11655951,
       3347.20516217, 3534.46098968, 3728.08581445, 3870.00962126,
       3533.13875879, 4158.76612034, 3627.10454473, 3891.29446109,
       3427.92716781])

In [5]:
# 4. 데이터 분리 (훈련 데이터 80%, 테스트 데이터 20%)
# train_test_split은 데이터를 훈련과 테스트 데이터로 분리하는 함수 (참고: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)
# randomstate=42로 고정
X_train, X_test, y_train, y_test = train_test_split(days[:-1], traffic_at_8am, test_size=0.2, random_state=42)

In [6]:
# 5. 선형 회귀 모델 생성 및 학습 (훈련 데이터로 학습)
# LinearRegression 객체를 생성하여 fit() 함수로 학습 (참고: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)
model = LinearRegression()
model.fit(X_train, y_train)

LinearRegression()

In [7]:
# 마지막 5일의 인덱스 (예: 데이터가 31일이면, 인덱스 26~30)
indices = np.arange(len(weekdays_data)-5, len(weekdays_data)).reshape(-1, 1)
predicted_traffic = model.predict(indices)
print(predicted_traffic)

[3535.09752917 3521.97129966 3508.84507015 3495.71884065 3482.59261114]


In [8]:
# 6. 마지막 날의 8시 교통량 예측
# 모델의 predict() 함수를 사용하여 예측값을 도출 (참고: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression.predict)
predicted_traffic = model.predict(np.array([[len(weekdays_data)-1]]))  # 마지막 날의 인덱스
predicted_traffic

array([3482.59261114])

In [9]:
# 7. 마지막 날의 8시 실제 교통량 가져오기
# loc[]을 사용하여 마지막 날의 데이터를 가져옴 (참고: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html)
last_day_traffic = weekdays_data.loc[weekdays_data.index[-1], '8시']

In [10]:
# 8. 예측된 값과 실제 값을 출력
print(f"실제 Traffic: {last_day_traffic:.2f}, 예측한 Traffic: {predicted_traffic[0]:.2f}")

실제 Traffic: 3211.69, 예측한 Traffic: 3482.59
