In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

In [3]:
# 1. 데이터 로드
df = pd.read_excel('../data/weekday_traffic.xlsx')


In [8]:
df.head()

Unnamed: 0,일자,요일,지점명,지점번호,방향,구분,0시,1시,2시,3시,...,17시,18시,19시,20시,21시,22시,23시,혼잡,평균교통량,새로운 혼잡
0,20240801,목,마포대교,C-07,유입,마포대교남단->마포대교북단,1121.100127,739.396817,603.646236,429.588089,...,3982.454958,3465.886595,2569.941716,2727.605192,2393.113295,2159.360088,1520.158999,True,2564.041667,False
1,20240802,금,마포대교,C-07,유입,마포대교남단->마포대교북단,1064.668712,758.031761,487.068186,397.855528,...,3890.244416,3425.769366,2954.749926,2613.879546,2301.021973,2244.874364,1496.910955,True,2516.208333,False
2,20240805,월,마포대교,C-07,유입,마포대교남단->마포대교북단,616.79736,464.364338,337.000433,282.774209,...,3865.243889,3743.189576,2772.238162,2506.984733,2199.044578,2080.754404,1571.072355,False,2355.0,False
3,20240806,화,마포대교,C-07,유입,마포대교남단->마포대교북단,1063.66758,687.378212,416.206495,339.725827,...,3839.879003,4042.135076,2663.051395,2346.262683,2647.551173,1916.299569,1523.996405,False,2488.666667,False
4,20240807,수,마포대교,C-07,유입,마포대교남단->마포대교북단,1042.007691,754.81516,531.468487,363.953378,...,3840.413752,3650.694194,2892.151038,2472.565715,2729.293114,2335.362316,1478.987119,True,2549.875,False


In [4]:
# 2. 독립 변수와 종속 변수 설정
# 시간대별 교통량 데이터를 독립 변수(X)로, 혼잡 여부 데이터를 종속 변수(y)로 설정합니다.
X = df.loc[:, '0시':'23시']  # 시간대별 교통량 데이터를 독립 변수로 사용
y = df['혼잡']  # 혼잡 여부를 종속 변수로 설정

In [5]:
# 3. 학습 데이터와 테스트 데이터 분리
# train_test_split()을 사용하여 데이터를 훈련 세트(70%)와 테스트 세트(30%)로 분리합니다.
# stratify=y는 종속 변수(y)의 비율을 유지한 상태로 데이터를 나누기 위한 옵션입니다. (참고: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

In [6]:
# 4. 랜덤 포레스트 분류 모델 생성 및 학습
# RandomForestClassifier 객체를 생성하고 훈련 데이터를 사용하여 모델을 학습시킵니다. (참고: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)
model = RandomForestClassifier()
model.fit(X_train, y_train)

In [7]:
# 5. 테스트 셋에서 첫 번째 샘플 선택
# 첫 번째 샘플을 선택하여 일관된 결과를 보장합니다.
X_first = X_test.iloc[[0]]  # 테스트 셋의 첫 번째 샘플 선택
print(X_first)

            0시          1시          2시          3시          4시          5시  \
38  655.484219  417.661684  302.063011  257.052618  333.546468  713.047702   

            6시           7시           8시           9시  ...          14시  \
38  1753.22487  3237.700756  3627.104545  2912.308146  ...  2525.856229   

            15시          16시          17시          18시          19시  \
38  2881.976726  3303.188395  3497.711558  3120.664953  2974.270846   

            20시          21시          22시          23시  
38  3044.105173  2419.387905  1753.051424  1009.566704  

[1 rows x 24 columns]


In [10]:
# 6. 해당 샘플의 날짜 가져오기
# df.loc[]을 사용하여 첫 번째 샘플의 날짜 데이터를 가져옵니다.
date_first = df.loc[0, "일자"]  # 해당 샘플의 날짜
print(date_first)

20240801


In [11]:
# 7. 첫 번째 샘플의 실제 혼잡 여부 가져오기
# y_test에서 첫 번째 샘플의 실제 혼잡 여부를 가져옵니다.
actual_congestion = y_test.iloc[0]

In [13]:
# 8. 예측 혼잡 여부 가져오기
# model.predict()를 사용하여 첫 번째 샘플의 혼잡 여부를 예측합니다. (참고: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier.predict)
predicted_congestion = model.predict(X_first)

In [14]:
# 9. 결과 출력
# 첫 번째 샘플의 실제 혼잡 여부와 모델이 예측한 혼잡 여부를 출력하여 예측 성능을 확인합니다.
print(f"선택된 날짜: {date_first}")
print(f"실제 혼잡 여부: {'혼잡' if actual_congestion else '비혼잡'}")
print(f"예측 혼잡 여부: {'혼잡' if predicted_congestion else '비혼잡'}")

선택된 날짜: 20240801
실제 혼잡 여부: 비혼잡
예측 혼잡 여부: 비혼잡
