<a href="https://colab.research.google.com/github/yeonmi02/mlproject/blob/main/%ED%94%84%EB%A1%AD%ED%96%87_%EB%9E%9C%EB%8D%A4%ED%8F%AC%EB%A0%88%EC%8A%A4%ED%8A%B8_%EB%AA%A8%EB%8D%B8_%EA%B5%AC%EC%A1%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#1. Prophet 모델 구조
데이터 분할:
시간 순서를 고려하여 데이터를 학습/검증용으로 나누었습니다. Shuffle 없이 시간 흐름을 유지하며 분할했습니다.

입력:
입력 변수는 Datetime(시간)과 예측 대상인 Total(전체 차량 수)로 구성되며, Prophet의 요구 형식에 맞춰 ds, y라는 컬럼명으로 변환했습니다.

모델 구성:
Prophet은 트렌드(추세), 계절성(일/주기), 휴일 효과를 내장 구성 요소로 자동 모델링합니다. 별도의 은닉층이나 뉴런은 존재하지 않습니다.

출력층:
출력은 예측하고자 하는 시계열 값(y, 예: Total 차량 수)으로, 지정한 미래 시점까지 연속적으로 예측됩니다.

추가 요소:
계절성(일간/주간) 자동 탐지, 이상치 대응 기능 포함. 필요시 외생 변수 추가 가능 (add_regressor()).

학습:
fit() 함수를 통해 전체 데이터를 기반으로 모델 학습을 진행했습니다.

In [None]:
from prophet import Prophet
import matplotlib.pyplot as plt

# Prophet 입력 형식에 맞게 컬럼 이름 변경
df_prophet = traffic_2_30min[['Datetime', 'Total']].rename(columns={
    'Datetime': 'ds',
    'Total': 'y'
})

# 결측치 제거 (예측 실패 방지)
df_prophet.dropna(subset=['ds', 'y'], inplace=True)

# Prophet 모델 초기화 (일일 seasonality은 시간대별 패턴용, 주간도 포함)
model = Prophet(daily_seasonality=True, weekly_seasonality=True)

# 모델 학습
model.fit(df_prophet)

# 예측할 기간 생성 (예: 7일 = 30분 단위로 48*7 = 336 스텝)
future = model.make_future_dataframe(periods=336, freq='30min')

# 예측 수행
forecast = model.predict(future)

# 예측 결과 시각화
model.plot(forecast)
plt.title('교통 혼잡도(Total) 예측 - 30분 단위')
plt.show()

# 구성 요소별 시각화 (추세, 일간/주간 패턴 등)
model.plot_components(forecast)
plt.show()

NameError: name 'traffic_2_30min' is not defined

# 2. Random Forest 모델 구조 (회귀/분류)
데이터 분할:
시간 순서를 유지하며 학습용과 테스트용으로 분리했습니다 (예: 8:2 비율). 회귀와 분류 모두 동일한 방식 사용.


입력:
수치형 및 원-핫 인코딩된 범주형 변수들을 모두 입력 특성으로 사용했습니다. 예: 요일, 차량 종류, 교통 상황 등.


모델 구성:
여러 개의 결정 트리를 앙상블하여 결과를 도출합니다.

회귀: 각 트리의 예측 평균을 출력

분류: 다수결로 클래스 결정

출력층
ㄴ회귀: 연속형 값 예측 (예: Total 차량 수)

ㄴ분류: 클래스 예측 (예: Traffic Situation 상태 분류)

활성화 함수:
결정 트리 기반 모델이라 별도의 활성화 함수는 사용되지 않습니다.

옵티마이저:
트리 기반 모델은 옵티마이저 개념이 없으며, 내부적으로는 분할 기준(gini, entropy, mse 등)을 사용합니다.

손실 함수:

회귀: 평균 제곱 오차(MSE)

분류: 지니 불순도 또는 엔트로피

하이퍼파라미터:
트리 개수(n_estimators=100), 최대 깊이, 최소 샘플 수 등 조정 가능. 이번에는 기본값 또는 적절한 설정을 사용했습니다.

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# 예측 대상 변수 (y)와 특성 (X) 지정
target_col = 'Total'
feature_cols = [col for col in traffic_2_30min.columns if col not in ['Datetime', target_col]]

X = traffic_2_30min[feature_cols]
y = traffic_2_30min[target_col]

# 훈련/테스트 데이터 나누기 (8:2 비율)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False)

# 랜덤 포레스트 회귀 모델 생성 및 학습
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 성능 평가
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse:.2f}')
print(f'R2 Score: {r2:.4f}')

# 실제 vs 예측 시각화
import matplotlib.pyplot as plt

plt.figure(figsize=(15, 6))
plt.plot(y_test.values[:100], label='Actual', marker='o')
plt.plot(y_pred[:100], label='Predicted', marker='x')
plt.title('Random Forest Prediction (예측 vs 실제)')
plt.xlabel('Time Index')
plt.ylabel('Total Vehicle Count')
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

NameError: name 'traffic_2_30min' is not defined

In [None]:
import pandas as pd

# Assuming the data is in a CSV file named 'traffic_data.csv'.
# Please replace 'traffic_data.csv' with the actual file name if it's different.
try:
  traffic_2_30min = pd.read_csv('traffic_data.csv')
except FileNotFoundError:
  print("Error: 'traffic_data.csv' not found. Please replace with the correct file name.")

Error: 'traffic_data.csv' not found. Please replace with the correct file name.
