In [1]:
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import pandas as pd

In [2]:
# 1. 데이터 로드
# pandas의 read_excel을 사용하여 엑셀 파일에서 데이터를 불러옵니다.
# 참고: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html
weekdays_data = pd.read_excel('../data/weekday_traffic.xlsx')
weekdays_data.head()

Unnamed: 0,일자,요일,지점명,지점번호,방향,구분,0시,1시,2시,3시,...,16시,17시,18시,19시,20시,21시,22시,23시,평균교통량,혼잡
0,20240801,목,마포대교,C-07,유입,마포대교남단->마포대교북단,1121.100127,739.396817,603.646236,429.588089,...,3509.404181,3982.454958,3465.886595,2569.941716,2727.605192,2393.113295,2159.360088,1520.158999,2564.041667,False
1,20240802,금,마포대교,C-07,유입,마포대교남단->마포대교북단,1064.668712,758.031761,487.068186,397.855528,...,3763.920039,3890.244416,3425.769366,2954.749926,2613.879546,2301.021973,2244.874364,1496.910955,2516.208333,False
2,20240805,월,마포대교,C-07,유입,마포대교남단->마포대교북단,616.79736,464.364338,337.000433,282.774209,...,3022.505173,3865.243889,3743.189576,2772.238162,2506.984733,2199.044578,2080.754404,1571.072355,2355.0,False
3,20240806,화,마포대교,C-07,유입,마포대교남단->마포대교북단,1063.66758,687.378212,416.206495,339.725827,...,3081.194581,3839.879003,4042.135076,2663.051395,2346.262683,2647.551173,1916.299569,1523.996405,2488.666667,False
4,20240807,수,마포대교,C-07,유입,마포대교남단->마포대교북단,1042.007691,754.81516,531.468487,363.953378,...,3341.10747,3840.413752,3650.694194,2892.151038,2472.565715,2729.293114,2335.362316,1478.987119,2549.875,False


In [3]:
# 2. 독립 변수와 종속 변수 설정
# '8시', '9시', '10시' 열을 독립 변수로 선택하여 교통량 변수를 구성합니다.
# '혼잡' 열을 종속 변수로 사용하며, 이 값이 True이면 1, False이면 0으로 변환합니다.
# astype(int)를 사용하여 True/False를 1/0으로 변환합니다.
# 참고: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html
X = weekdays_data[['8시', '9시', '10시']]
y = weekdays_data['혼잡'].astype(int)

In [4]:
# 3. 데이터 분리
# train_test_split을 사용해 데이터를 학습 데이터와 테스트 데이터로 분리합니다.
# 테스트 데이터 비율은 20%로 설정합니다.
# 참고: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [5]:
# 4. SVM 모델 생성 및 학습 (훈련 데이터로 학습)
# SVM 모델을 생성하여 학습합니다. 여기서는 선형 커널을 사용합니다.
# 참고: Scikit-learn - SVC: https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html
model = SVC(kernel='linear')
model.fit(X_train, y_train)

0,1,2
,C,1.0
,kernel,'linear'
,degree,3
,gamma,'scale'
,coef0,0.0
,shrinking,True
,probability,False
,tol,0.001
,cache_size,200
,class_weight,


In [6]:
# 5. 예측 수행
# 학습된 모델을 사용해 테스트 데이터에 대한 혼잡 여부를 예측합니다.
# 참고: https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier.predict
y_pred = model.predict(X_test)

In [7]:
# 6. 성능 평가
# classification_report를 사용해 모델의 정확도 및 성능을 평가합니다.
# 참고: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

In [8]:
# 6-1. 혼동행렬 파악
cm = confusion_matrix(y_test, y_pred)

In [9]:
# 7. 결과 출력
print(f"혼동 행렬: {cm}")
print("분류 리포트:\n", report)

혼동 행렬: [[6 1]
 [1 1]]
분류 리포트:
               precision    recall  f1-score   support

           0       0.86      0.86      0.86         7
           1       0.50      0.50      0.50         2

    accuracy                           0.78         9
   macro avg       0.68      0.68      0.68         9
weighted avg       0.78      0.78      0.78         9



In [10]:
# 혼동 행렬(Confusion Matrix):
# - TP (True Positive): 실제로 True인 데이터 중에서 모델이 True라고 예측한 것
# - TN (True Negative): 실제로 False인 데이터 중에서 모델이 False라고 예측한 것
# - FP (False Positive): 실제로 False인 데이터 중에서 모델이 True라고 잘못 예측한 것 (False Positive)
# - FN (False Negative): 실제로 True인 데이터 중에서 모델이 False라고 잘못 예측한 것 (False Negative)
# - 행: 실제 값 (True Labels)
# - 열: 예측 값 (Predicted Labels)
# True Positive: 실제 혼잡(1), 예측 혼잡(1)

# 혼동 행렬 항목 해석
# TN = cm[0, 0]  # True Negative: 실제 비혼잡(0), 예측 비혼잡(0)
# FP = cm[0, 1]  # False Positive: 실제 비혼잡(0), 예측 혼잡(1)
# FN = cm[1, 0]  # False Negative: 실제 혼잡(1), 예측 비혼잡(0)
# TP = cm[1, 1]  # True Positive: 실제 혼잡(1), 예측 혼잡(1)

# 분류 성능 평가 지표 출력 (정확도, 정밀도, 재현율, F1 점수 등)
# 참고: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html
# 분류 성능 평가(Classification Report):
# - Precision (정밀도): 모델이 True라고 예측한 것 중 실제로 True인 데이터의 비율 (TP / (TP + FP))
#   => False Positive를 줄이는 데 중점을 둔 지표
# - Recall (재현율): 실제로 True인 것 중에서 모델이 True라고 올바르게 예측한 비율 (TP / (TP + FN))
#   => False Negative를 줄이는 데 중점을 둔 지표
# - F1 Score: 정밀도와 재현율의 조화 평균 (2 * (Precision * Recall) / (Precision + Recall))
#   => Precision과 Recall 간의 균형을 중요시할 때 사용
# - Support: 각 클래스에 속하는 실제 데이터의 수