# 2번 군집 데이터 불러오기

In [None]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
import pandas as pd

# 1. 데이터 불러오기
df = pd.read_csv("./dataset/cluster1_2.csv")

df['TIMESTAMP'] = pd.to_datetime(df['TIMESTAMP'])
df = df.sort_values(by=['VSL_ID', 'PORT_NAME', 'TIMESTAMP']).reset_index(drop=True)

# 결과 저장 리스트
rows_5h = []

# 30번째 시점 추출 (10분 단위 × 30 = 5시간)
for (vsl_id, port), group in df.groupby(['VSL_ID', 'PORT_NAME']):
    if len(group) >= 30:
        row_5h = group.iloc[29]  # 인덱스는 0부터 시작이므로 29번째가 30번째 행
        rows_5h.append(row_5h)

# 최종 데이터프레임
df_5h = pd.DataFrame(rows_5h).reset_index(drop=True)
print(df_5h.shape)
display(df_5h.head())
display(df_5h['PORT_NAME'].value_counts())

In [None]:
df_5h.to_csv('./dataset/df_5h_extracted.csv', index=False)

# ✅ Oversampling + XGBoost + RandomForest

In [None]:
# ===== 1. 라이브러리 =====
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier, VotingClassifier
from sklearn.metrics import classification_report
from xgboost import XGBClassifier
from sklearn.utils import resample

# ===== 3. 라벨 인코딩 =====
features = ["LAT", "LON", "COG", "HEADING"]
X = df_5h[features]
y = df_5h["PORT_NAME"]
le = LabelEncoder()
y_encoded = le.fit_transform(y)
df_5h["label"] = y_encoded

# ===== 4. 오버샘플링 적용 =====
max_count = df_5h["label"].value_counts().max()
resampled = []

for label in df_5h["label"].unique():
    subset = df_5h[df_5h["label"] == label]
    upsampled = resample(subset, replace=True, n_samples=max_count, random_state=42)
    resampled.append(upsampled)

df_balanced = pd.concat(resampled)

# ===== 5. 학습/테스트 분리 =====
X_bal = df_balanced[features]
y_bal = df_balanced["label"]

X_train, X_test, y_train, y_test = train_test_split(
    X_bal, y_bal, test_size=0.2, stratify=y_bal, random_state=42
)

np.save("datasets/X_train_cluster2.npy", X_train)
np.save("datasets/X_test_cluster2.npy", X_test)
np.save("datasets/y_train_cluster2.npy", y_train)
np.save("datasets/y_test_cluster2.npy", y_test)

# ===== 0. 데이터 수 출력 =====
print("\n📦 [데이터 개수]")
print(f"Train: {len(X_train)}개")
print(f"Test : {len(X_test)}개")
print(f"전체 : {len(X_train) + len(X_test)}개")

# ===== 6. 모델 정의 및 학습 (하이퍼파라미터 조정 포함) =====
rf = RandomForestClassifier(
    class_weight='balanced',
    n_estimators=100,
    max_depth=7,                 # 깊이 제한
    min_samples_leaf=3,          # 최소 샘플 수 제한
    random_state=42
)

xgb = XGBClassifier(
    n_estimators=50,
    max_depth=4,                 # 깊이 제한 (기존 5 → 4)
    learning_rate=0.05,          # 학습률 낮춤
    reg_alpha=0.1,               # L1 규제
    reg_lambda=1.0,              # L2 규제
    use_label_encoder=False,
    eval_metric='mlogloss',
    random_state=42
)

voting_clf = VotingClassifier(
    estimators=[('rf', rf), ('xgb', xgb)],
    voting='soft'
)

voting_clf.fit(X_train, y_train)

# ===== 7. 평가 =====
y_pred = voting_clf.predict(X_test)
print(classification_report(y_test, y_pred, target_names=le.classes_))

from sklearn.model_selection import cross_val_score
from sklearn.metrics import classification_report, confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# ===== 1. 교차검증 정확도 =====
acc_scores = cross_val_score(voting_clf, X_train, y_train, cv=5, scoring='accuracy')
f1_scores = cross_val_score(voting_clf, X_train, y_train, cv=5, scoring='f1_macro')
prec_scores = cross_val_score(voting_clf, X_train, y_train, cv=5, scoring='precision_macro')

# ===== 2. 학습/테스트 정확도 =====
train_score = voting_clf.score(X_train, y_train)
test_score = voting_clf.score(X_test, y_test)
gap = train_score - test_score

# ===== 3. 예측 및 리포트 =====
y_pred = voting_clf.predict(X_test)
report = classification_report(y_test, y_pred, target_names=le.classes_)

# ===== 4. Confusion Matrix =====
cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=le.classes_)
fig, ax = plt.subplots(figsize=(10, 10))
disp.plot(ax=ax, xticks_rotation=90)
plt.title("Confusion Matrix")
plt.grid(False)
plt.show()

# ===== 5. 결과 출력 =====
print("📊 [교차검증 결과]")
print(f"Accuracy (Train): {train_score:.4f}")
print(f"Accuracy (Test): {test_score:.4f}")
print(f"CV Accuracy Mean: {acc_scores.mean():.4f} ± {acc_scores.std():.4f}")
print(f"CV F1 Macro: {f1_scores.mean():.4f}")
print(f"CV Precision Macro: {prec_scores.mean():.4f}")
if gap > 0.1:
    print(f"⚠️ 과적합 의심: 학습/테스트 정확도 차이 {gap:.4f}")
else:
    print("✅ 과적합 위험 없음")

print("\n📄 [Classification Report]")
print(report)

# ===== 5. 결과 출력 =====
print("\n📊 [교차검증 및 과적합 점검 결과]")
print(f"학습 정확도              : {train_score:.4f}")
print(f"테스트 정확도            : {test_score:.4f}")
print(f"정확도 차이              : {gap:.4f} {'⚠️ 과적합 의심' if gap > 0.1 else '과적합 위험 없음'}")
print(f"교차검증 평균 정확도     : {acc_scores.mean():.4f} ± {acc_scores.std():.4f}")
print(f"교차검증 F1 매크로 평균  : {f1_scores.mean():.4f}")
print(f"교차검증 정밀도 평균     : {prec_scores.mean():.4f}")

In [None]:
# 오버샘플링된 레이블 → 항구명으로 다시 복원
df_balanced["PORT_NAME"] = le.inverse_transform(df_balanced["label"])

# 항구별 데이터 개수 출력
print("\n🛳️ [오버샘플링된 항구별 샘플 개수]")
print(df_balanced["PORT_NAME"].value_counts())

In [None]:
import numpy as np

# ===== [1] RandomForest 복잡도 분석 =====
rf_model = voting_clf.named_estimators_["rf"]
tree_depths = [estimator.tree_.max_depth for estimator in rf_model.estimators_]

print("\n🌲 RandomForest 복잡도 정보")
print(f"- 트리 개수         : {len(tree_depths)}")
print(f"- 평균 깊이         : {np.mean(tree_depths):.2f}")
print(f"- 최대 깊이         : {np.max(tree_depths)}")
print(f"- 최소 깊이         : {np.min(tree_depths)}")

# ===== [2] XGBoost 복잡도 분석 =====
xgb_model = voting_clf.named_estimators_["xgb"]
booster = xgb_model.get_booster()
trees = booster.get_dump()

print("\n🔥 XGBoost 복잡도 정보")
print(f"- 트리 개수         : {len(trees)}")
print(f"- 설정된 max_depth  : {xgb.max_depth}")

# ===== [3] VotingClassifier 구성 확인 =====
print("\n🧠 VotingClassifier 구성 모델:")
for name, model in voting_clf.named_estimators_.items():
    print(f"- {name}: {type(model).__name__}")

# ===== [4] Accuracy Gap (= 복잡도 간접 지표) =====
gap = train_score - test_score
print(f"\n📉 Accuracy Gap (과적합 지표): {gap:.4f}")
if gap > 0.1:
    print("⚠️ 과적합 위험 → 복잡도 높음")
else:
    print("✅ 과적합 위험 없음 → 복잡도 적절")


In [None]:
import joblib
import os

# 모델 저장
joblib.dump(voting_clf, 'model/port_model_2.joblib')

# 인코더 저장
joblib.dump(le, 'model/encoder_2.joblib')

print("✅ 모델과 인코더가 각각 저장되었습니다.")