In [1]:
# 필요한 라이브러리 불러오기
# pandas: 엑셀 파일 데이터를 처리
# numpy: 숫자 배열 처리
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [4]:
# 1. 교통 데이터셋 불러오기
# 엑셀 파일을 읽어 pandas DataFrame으로 변환
# sheet_name=0: 첫 번째 시트 사용
# 엑셀을 읽기 위해 openpyxl 설치 필요: pip install openpyxl
excel_file = '../data/weekday_traffic.xlsx'  # 파일 경로 설정
data = pd.read_excel(excel_file, sheet_name=0)

In [6]:
# 2. 라벨 전처리
# '혼잡'이라는 컬럼은 범주형(0 또는 1)으로 표현됨
# 정수형으로 변환해 정제된 형태로 사용
data['혼잡'] = data['혼잡'].astype(int)

In [7]:
# 3. 특징(feature) 선택
# 시간대별 교통량 데이터: '8시', '9시', '10시' 열만 선택
features = data[['8시', '9시', '10시']].astype(float).values  # → NumPy 배열

In [8]:
# 4. 라벨(label) 선택
# 혼잡 여부를 예측 대상으로 설정
labels = data['혼잡'].values  # → NumPy 배열

In [9]:
# 5. 훈련/테스트 세트 분할
# 전체 데이터를 80:20 비율로 분할
# train_test_split은 무작위로 섞어 데이터를 나눔
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

In [10]:
# 6. 특징 정규화 (스케일 조정)
# 모델 학습에 도움을 주는 전처리 작업
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [11]:
# 정규화된 훈련 데이터 일부 출력
# 처음 5개 샘플의 특징값을 출력합니다
print("정규화된 X_train 샘플:")
print(X_train[:5])

# 정규화된 테스트 데이터도 보고 싶을 경우
print("\n정규화된 X_test 샘플:")
print(X_test[:5])

정규화된 X_train 샘플:
[[ 0.33882621  0.62227315  1.43154237]
 [-1.27198856 -0.97784449 -1.02955794]
 [ 0.45113659  0.9613617   1.47288102]
 [ 0.69792555  0.69434808  1.26793327]
 [ 1.11857049  0.54730662  1.19849237]]

정규화된 X_test 샘플:
[[-0.56283761 -0.66954169 -0.64846618]
 [ 0.17720402  0.79835729  0.95148208]
 [ 0.46466009  0.42416511  0.85104939]
 [-0.26350141 -1.19851115 -1.03077353]
 [ 0.14423941  1.32070938  0.88969885]]


In [12]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import SGD

# 7. Sequential 모델 구성
model = Sequential()
model.add(Dense(8, input_dim=3, activation='ReLU'))  # 은닉층 (예: 뉴런 8개, ReLU 활성화)
## input_dum : 입력 데이터의 피처 수
model.add(Dense(1, activation='sigmoid'))            # 출력층 (sigmoid 활성화)






In [13]:
# 8. 모델 컴파일
model.compile(loss='binary_crossentropy',            # 이진 분류 손실 함수
              optimizer=SGD(),     # SGD 옵티마이저
              metrics=['accuracy'])                  # 성능 지표: 정확도

In [15]:
# 9. 모델 학습 및 평가
history = model.fit(X_train, y_train, epochs=20, batch_size=10, verbose=1)  # 학습
loss, accuracy = model.evaluate(X_test, y_test, verbose=0)                  # 평가

print(f"테스트 손실: {loss:.4f}")
print(f"테스트 정확도: {accuracy*100:.2f}%")

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
테스트 손실: 0.5804
테스트 정확도: 77.78%
