In [1]:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix

In [2]:
# 1. 교통량 데이터 로드
# 예시 파일 경로를 사용하여 엑셀 데이터를 불러옵니다.
weekdays_data = pd.read_excel('../data/weekday_traffic.xlsx')

In [3]:
# 2. 독립 변수: 각 날의 8시, 9시, 10시 교통량 데이터를 사용
# '8시', '9시', '10시' 열을 독립 변수로 선택하여 교통량 변수를 구성합니다.
X = weekdays_data[['8시', '9시', '10시']]

In [4]:
# 3. 종속 변수: 혼잡 여부 (True/False -> 1/0 변환)
# '혼잡' 열을 종속 변수로 사용하며, 이 값이 True이면 1, False이면 0으로 변환합니다.
y = weekdays_data['혼잡'].astype(int)

In [5]:
# 4. 데이터 분리 (훈련 데이터 80%, 테스트 데이터 20%)
# 데이터를 학습용과 테스트용으로 나눕니다.
# 참고: Scikit-learn - train_test_split: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

In [6]:
# 5. 데이터 스케일링
# 데이터를 표준화하여 모델 성능을 향상시킵니다.
# 참고: Scikit-learn - StandardScaler: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled  = scaler.transform(X_test)

In [7]:
# 6. Logistic Regression 모델 생성 (L2 정규화 적용)
# Logistic Regression 모델을 생성하며, 기본적으로 L2 정규화(penalty='l2')가 적용됩니다.
# L2 정규화는 모델의 복잡도를 줄이고 과적합을 방지하기 위해 사용되며, 이를 통해 가중치 값들이 너무 커지는 것을 막습니다.
# C=1.0은 정규화 강도를 조정하는 하이퍼파라미터로, C 값이 클수록 정규화가 약해지고, 값이 작을수록 더 강한 정규화가 적용됩니다.
# 참고: Scikit-learn - LogisticRegression: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
model = LogisticRegression(C=1.0, penalty='l2', random_state=42)  # L2 정규화
model.fit(X_train_scaled, y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,42
,solver,'lbfgs'
,max_iter,100


In [8]:
# 7. 테스트 데이터로 예측 수행
# 학습된 모델을 사용해 테스트 데이터를 예측합니다.
# 참고: Scikit-learn - predict 함수: https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC.predict
y_pred = model.predict(X_test_scaled)

In [9]:
# 8. 예측 결과 평가
# classification_report를 사용해 모델의 정확도 및 성능을 평가합니다.
# 참고: Scikit-learn - classification_report: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html
report = classification_report(y_test, y_pred)

In [10]:
# 9. 결과 출력
print("분류 리포트:\n", report)

분류 리포트:
               precision    recall  f1-score   support

           0       0.83      0.83      0.83         6
           1       0.67      0.67      0.67         3

    accuracy                           0.78         9
   macro avg       0.75      0.75      0.75         9
weighted avg       0.78      0.78      0.78         9



In [11]:
# 10. 혼동행렬 출력
confusion_matrix = confusion_matrix(y_test, y_pred)
print("confusion matrix:\n", confusion_matrix)


confusion matrix:
 [[5 1]
 [1 2]]
