# 1차 분류기 모델(가정)

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import VotingClassifier, RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, f1_score
import joblib  # 모델 저장용

## 데이터 로딩

In [4]:
df = pd.read_csv("./dataset/must_use_final.csv")

X = df[["LAT", "LON", "COG", "HEADING"]]
y = df["CLUSTER_1"]

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.3, random_state=42)

## 모델별 파라미터 설정

In [14]:
knn_params = {
    "n_neighbors": 7,            # 더 많은 이웃 → 일반화 잘됨
    "weights": "distance",       # 가까운 이웃에 더 큰 영향력
    "p": 2                       # 유클리디안 거리 (기본값)
}
xgb_params = {
    "use_label_encoder": False,
    "eval_metric": "mlogloss",
    "n_estimators": 200,
    "max_depth": 6,
    "learning_rate": 0.05,
    "subsample": 0.8,            # 일부 샘플 사용 (과적합 방지)
    "colsample_bytree": 0.8,     # 일부 피처 사용 (과적합 방지)
    "reg_lambda": 5,             # L2 정규화로 모델 안정화
    "gamma": 1,                  # 분할 조건 강화 → 과적합 방지
    "random_state": 42
}

rf_params = {
    "n_estimators": 300,         # 더 많은 트리로 안정적인 예측
    "max_depth": 15,             # 깊이를 제한해 과적합 방지
    "min_samples_split": 5,      # 분할 최소 샘플 수 조절
    "min_samples_leaf": 2,       # 리프 노드 최소 샘플 수
    "max_features": "sqrt",      # 트리 다양성 확보
    "class_weight": "balanced",  # 불균형 클래스 대응
    "random_state": 42
}

## 모델 정의

In [16]:
model_rf = RandomForestClassifier(**rf_params)
model_knn = KNeighborsClassifier(**knn_params)
model_xgb = XGBClassifier(**xgb_params)

In [18]:
voting_model = VotingClassifier(
    estimators=[
        ("rf", model_rf),
        ("knn", model_knn),
        ("xgb", model_xgb)
    ],
    voting="soft"
)

## 모델 학습

In [20]:
voting_model.fit(X_train, y_train)

Parameters: { "use_label_encoder" } are not used.



In [22]:
y_pred = voting_model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred, average="macro")

In [23]:
print("🎯 1차 분류기 평가 결과:")
print(f"- Accuracy: {acc:.4f}")
print(f"- Macro F1-score: {f1:.4f}")

# 9. 교차검증 평가
cv_scores = cross_val_score(voting_model, X, y, cv=5, scoring="f1_macro")
print(f"\n📈 5-Fold CV Macro F1 평균: {cv_scores.mean():.4f}")

# 10. 모델 저장
joblib.dump(voting_model, "softvoting_cluster1_model.joblib")
print("\n✅ 모델이 softvoting_cluster1_model.joblib 으로 저장되었습니다.")

🎯 1차 분류기 평가 결과:
- Accuracy: 0.9034
- Macro F1-score: 0.8880


Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.




📈 5-Fold CV Macro F1 평균: 0.7865

✅ 모델이 softvoting_cluster1_model.joblib 으로 저장되었습니다.


# 2차 분류기

In [31]:
import pandas as pd

# 1. 데이터 불러오기
df = pd.read_csv("./dataset/cluster1_2.csv")

df['TIMESTAMP'] = pd.to_datetime(df['TIMESTAMP'])
df = df.sort_values(by=['VSL_ID', 'PORT_NAME', 'TIMESTAMP']).reset_index(drop=True)

# 결과 저장 리스트
rows_5h = []

# 30번째 시점 추출 (10분 단위 × 30 = 5시간)
for (vsl_id, port), group in df.groupby(['VSL_ID', 'PORT_NAME']):
    if len(group) >= 30:
        row_5h = group.iloc[29]  # 인덱스는 0부터 시작이므로 29번째가 30번째 행
        rows_5h.append(row_5h)

# 최종 데이터프레임
df_5h = pd.DataFrame(rows_5h).reset_index(drop=True)
print(df_5h.shape)
display(df_5h.head())
display(df_5h['PORT_NAME'].value_counts())

(91, 11)


Unnamed: 0,COUNTRY,PORT_NAME,VSL_ID,TIMESTAMP,COG,HEADING,LAT,LON,PORT_CD,CLUSTER_1,CLUSTER_2
0,CN,CNNGB,060db0be-c97f-3f11-8304-c637fe4fa4d5,2024-10-01 15:40:00,239.3,240.0,34.515247,128.546545,CNNGB,2,0
1,CN,CNSHA,06724e0f-5a08-3aa8-b42c-97acf4f8102d,2024-10-26 23:40:00,227.5,230.0,34.058808,128.52845,CNSHA,2,2
2,CN,CNSHA,06e20c85-1dab-34e7-bbdb-6ed30bd68672,2024-11-09 16:20:00,202.8,205.0,34.239492,128.75467,CNSHA,2,2
3,CN,CNSHA,0986a961-7abf-3ade-9b02-40c5323168aa,2024-07-21 14:00:00,224.3,223.0,34.363648,128.308899,CNSHA,2,2
4,CN,CNSHA,0f09bfcc-ce6f-3096-a547-5618e8e76d29,2024-11-03 19:00:00,239.15,238.5,34.251924,128.100558,CNSHA,2,2


PORT_NAME
CNSHA    72
CNNGB    11
CNTAC     4
CNNJI     4
Name: count, dtype: int64

In [21]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, f1_score
import joblib
import os

In [23]:
df = pd.read_csv("./dataset/cluster1_1.csv")
X = df[["LAT", "LON", "COG", "HEADING"]]
le = LabelEncoder()
y = le.fit_transform(df["PORT_NAME"])

In [25]:
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.2, random_state=42)

In [27]:
params_grid = {
    "RandomForest": {
        'n_estimators': [100, 200, 300],          # 더 깊은 학습 가능
        'max_depth': [None, 10, 20],              # 트리 깊이 제한 추가
        'min_samples_split': [2, 5, 10],          # 노드 분할 최소 샘플 수
        'min_samples_leaf': [1, 2, 4],            # 리프 노드 최소 샘플 수
        'max_features': ['sqrt', 'log2'],         # 피처 샘플링 전략
        "class_weight": ['balanced']
    }}

In [35]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

# 이미 설정한 파라미터 그리드 사용
grid_rf = GridSearchCV(
    estimator=RandomForestClassifier(random_state=42),
    param_grid=params_grid["RandomForest"],
    scoring="f1_macro",
    cv=5,
    n_jobs=-1
)

grid_rf.fit(X_train, y_train)  # 학습

In [36]:
final_model = grid_rf.best_estimator_

In [45]:
# 3. 최종 Soft Voting 모델 학습
final_model.fit(X_train, y_train)

# 4. 평가
from sklearn.metrics import accuracy_score, f1_score
y_pred = final_model.predict(X_test)

print("✅ 최종 소프트 보팅 평가: 군집 0")
print(" - Test Accuracy:", accuracy_score(y_test, y_pred))
print(" - Macro F1:", f1_score(y_test, y_pred, average="macro"))

✅ 최종 소프트 보팅 평가: 군집 0
 - Test Accuracy: 0.8513513513513513
 - Macro F1: 0.7915140170387779


In [48]:
# 7. 모델 및 LabelEncoder 저장
os.makedirs("models", exist_ok=True)
joblib.dump(final_model, "models/cluster_0_rf.joblib")
joblib.dump(le, "models/cluster_0_label_encoder.joblib")

['models/cluster_0_label_encoder.joblib']

In [85]:
import numpy as np
import joblib

def predict_next_port_interactive():
    print("🚢 AIS 데이터 입력해주세요 (5시간 시점 기준)")
    try:
        lat = float(input("LAT (위도): "))
        lon = float(input("LON (경도): "))
        cog = float(input("COG (침로): "))
        heading = float(input("HEADING (타각): "))
    except ValueError:
        print("⚠️ 숫자만 입력해 주세요.")
        return

    user_input = np.array([[lat, lon, cog, heading]])

    # 1차 분류기 로드
    try:
        cluster_model = joblib.load("models/softvoting_cluster1_model.joblib")
    except FileNotFoundError:
        print("❌ 1차 분류기 모델 파일이 없습니다.")
        return

    predicted_cluster = cluster_model.predict(user_input)[0]
    print(f"\n🔍 예측된 군집(CLUSTER_1): {predicted_cluster}")

    # 2차 분류기 분기 처리 (현재는 군집 2만 구현됨)
    if predicted_cluster == 2:
        try:
            port_model = joblib.load("models/cluster_2_rf.joblib")
            le = joblib.load("models/cluster_2_label_encoder.joblib")
        except FileNotFoundError:
            print("❌ 군집 2의 2차 분류기 또는 라벨 인코더 파일이 없습니다.")
            return

        port_probs = port_model.predict_proba(user_input)[0]
        top3_idx = port_probs.argsort()[::-1][:3]
        top3_ports = le.inverse_transform(top3_idx)
        top3_probs = port_probs[top3_idx]

        print("\n🎯 군집 2 → Top-3 도착 항구 예측 결과:")
        for port, prob in zip(top3_ports, top3_probs):
            print(f"📦 {port}: {prob:.2%}")

    else:
        print("⚠️ 현재는 군집 2만 지원 중입니다. 다른 군집은 추후 구현 예정입니다.")

In [89]:
predict_next_port_interactive()

🚢 AIS 데이터 입력해주세요 (5시간 시점 기준)


LAT (위도):  40
LON (경도):  130
COG (침로):  239.15
HEADING (타각):  235.5



🔍 예측된 군집(CLUSTER_1): 7
⚠️ 현재는 군집 2만 지원 중입니다. 다른 군집은 추후 구현 예정입니다.




# 가상 모델링

In [91]:
import numpy as np
import joblib

# 🔁 군집별 모델 경로 딕셔너리
cluster_model_paths = {
    1: {"model": "models/cluster_1_rf_xgb_knn_lightgbm.joblib", "encoder": "models/cluster_1_label_encoder.joblib"},
    2: {"model": "models/cluster_2_rf.joblib", "encoder": "models/cluster_2_label_encoder.joblib"},
    7: {"model": "models/cluster_7_rf.joblib", "encoder": "models/cluster_7_label_encoder.joblib"},
    # 필요시 계속 추가 가능
}

def predict_next_port_interactive():
    print("🚢 AIS 데이터 입력해주세요 (5시간 시점 기준)")
    try:
        lat = float(input("LAT (위도): "))
        lon = float(input("LON (경도): "))
        cog = float(input("COG (침로): "))
        heading = float(input("HEADING (타각): "))
    except ValueError:
        print("⚠️ 숫자만 입력해 주세요.")
        return

    user_input = np.array([[lat, lon, cog, heading]])

    # ▶ 1차 분류기 로드 및 CLUSTER_1 예측
    try:
        cluster_model = joblib.load("models/softvoting_cluster1_model.joblib")
    except FileNotFoundError:
        print("❌ 1차 분류기 모델이 없습니다.")
        return

    cluster = cluster_model.predict(user_input)[0]
    print(f"\n🔍 예측된 군집(CLUSTER_1): {cluster}")

    # ▶ 2차 분류기 존재 여부 확인
    if cluster not in cluster_model_paths:
        print(f"⚠️ 군집 {cluster}에 대한 2차 분류기 모델이 아직 준비되지 않았습니다.")
        return

    try:
        model = joblib.load(cluster_model_paths[cluster]["model"])
        le = joblib.load(cluster_model_paths[cluster]["encoder"])
    except FileNotFoundError:
        print("❌ 2차 분류기 또는 라벨 인코더 파일이 존재하지 않습니다.")
        return

    # ▶ 항구 예측
    probs = model.predict_proba(user_input)[0]
    top3_idx = probs.argsort()[::-1][:3]
    top3_ports = le.inverse_transform(top3_idx)
    top3_probs = probs[top3_idx]

    # ▶ 결과 출력
    print("\n Top-3 항구 예측 결과:")
    for port, prob in zip(top3_ports, top3_probs):
        print(f"  - {port}: {prob:.2%}")


In [93]:
import warnings
warnings.filterwarnings('ignore')

In [97]:
predict_next_port_interactive()

🚢 AIS 데이터 입력해주세요 (5시간 시점 기준)


LAT (위도):  34.65685204
LON (경도):  129.6224063
COG (침로):  155.97964
HEADING (타각):  153.1197



🔍 예측된 군집(CLUSTER_1): 1

 Top-3 항구 예측 결과:
  - JPHKT: 94.25%
  - JPHIJ: 3.45%
  - KRKAN: 0.88%


# 확률 곱 전체 로직

In [77]:
import numpy as np
import joblib

# 🔁 군집별 모델 경로 딕셔너리
cluster_model_paths = {
    0: {"model": "models/cluster_0_rf.joblib", "encoder": "models/cluster_0_label_encoder.joblib"},
    1: {"model": "models/cluster_1_rf_xgb_knn_lightgbm.joblib", "encoder": "models/cluster_1_label_encoder.joblib"},
    2: {"model": "models/cluster_2_rf.joblib", "encoder": "models/cluster_2_label_encoder.joblib"},
    7: {"model": "models/cluster_7_rf.joblib", "encoder": "models/cluster_7_label_encoder.joblib"}
}

def predict_next_port_joint_prob():
    print("🚢 AIS 데이터 입력해주세요 (5시간 시점 기준)")
    try:
        lat = float(input("LAT (위도): "))
        lon = float(input("LON (경도): "))
        cog = float(input("COG (침로): "))
        heading = float(input("HEADING (타각): "))
    except ValueError:
        print("⚠️ 숫자만 입력해 주세요.")
        return

    user_input = np.array([[lat, lon, cog, heading]])

    # ▶ 1차 분류기 로드 및 CLUSTER_1 확률 예측
    try:
        cluster_model = joblib.load("models/softvoting_cluster1_model.joblib")
    except FileNotFoundError:
        print("❌ 1차 분류기 모델이 없습니다.")
        return

    cluster_probs = cluster_model.predict_proba(user_input)[0]
    print("\n🔍 [1차 분류기] 군집별 확률:")
    for i, p in enumerate(cluster_probs):
        print(f" - CLUSTER_{i}: {p:.2%}")

    final_probs = {}

    # ▶ 각 군집별로 항구 예측 (단일 항구 처리 포함)
    for cluster, prob_cluster in enumerate(cluster_probs):
        if cluster not in cluster_model_paths:
            continue

        try:
            model = joblib.load(cluster_model_paths[cluster]["model"])
            le = joblib.load(cluster_model_paths[cluster]["encoder"])
        except FileNotFoundError:
            print(f"⚠️ 군집 {cluster}의 모델 또는 인코더를 불러올 수 없습니다.")
            continue

        # 항구가 1개일 경우 → 직접 확률 계산 없이 100% 확률로 넣기
        port_classes = le.classes_
        if len(port_classes) == 1:
            single_port = port_classes[0]
            joint_prob = prob_cluster * 1.0  # 100%
            final_probs[single_port] = final_probs.get(single_port, 0) + joint_prob
            print(f"📦 군집 {cluster}은 단일 항구 '{single_port}' → 확률 곱 적용: {joint_prob:.2%}")
            continue

        # 항구가 여러 개일 경우 → 모델 예측 수행
        port_probs = model.predict_proba(user_input)[0]
        port_names = le.inverse_transform(np.arange(len(port_probs)))

        for port, prob_port in zip(port_names, port_probs):
            joint_prob = prob_cluster * prob_port
            final_probs[port] = final_probs.get(port, 0) + joint_prob

    # ▶ Top-3 항구 출력
    if not final_probs:
        print("❗ 예측 가능한 항구가 없습니다.")
        return

    sorted_ports = sorted(final_probs.items(), key=lambda x: x[1], reverse=True)[:3]

    print("\n🔮 [Joint 확률 기반] Top-3 항구 예측 결과:")
    for port, prob in sorted_ports:
        print(f"📦 {port}: {prob:.2%}")

In [81]:
predict_next_port_joint_prob()

🚢 AIS 데이터 입력해주세요 (5시간 시점 기준)


LAT (위도):  34.656852
LON (경도):  129.62240
COG (침로):  155.97964
HEADING (타각):  153.11976



🔍 [1차 분류기] 군집별 확률:
 - CLUSTER_0: 0.92%
 - CLUSTER_1: 77.79%
 - CLUSTER_2: 2.09%
 - CLUSTER_3: 1.46%
 - CLUSTER_4: 14.39%
 - CLUSTER_5: 0.61%
 - CLUSTER_6: 0.78%
 - CLUSTER_7: 1.96%

🔮 [Joint 확률 기반] Top-3 항구 예측 결과:
📦 JPHKT: 74.18%
📦 JPHIJ: 2.69%
📦 RUVVO: 1.92%


# 재시도
- 비율을 재조정 하고 싶을 때

In [87]:
import numpy as np
import joblib

# 🔁 군집별 모델 경로 딕셔너리
cluster_model_paths = {
    0: {"model": "models/cluster_0_rf.joblib", "encoder": "models/cluster_0_label_encoder.joblib"},
    1: {"model": "models/cluster_1_rf_xgb_knn_lightgbm.joblib", "encoder": "models/cluster_1_label_encoder.joblib"},
    2: {"model": "models/cluster_2_rf.joblib", "encoder": "models/cluster_2_label_encoder.joblib"},
    7: {"model": "models/cluster_7_rf.joblib", "encoder": "models/cluster_7_label_encoder.joblib"},
}

def predict_next_port_joint_prob(weight_cluster=0.3, weight_port=0.7):
    print("🚢 AIS 데이터 입력해주세요 (5시간 시점 기준)")
    try:
        lat = float(input("LAT (위도): "))
        lon = float(input("LON (경도): "))
        cog = float(input("COG (침로): "))
        heading = float(input("HEADING (타각): "))
    except ValueError:
        print("⚠️ 숫자만 입력해 주세요.")
        return

    user_input = np.array([[lat, lon, cog, heading]])

    # ▶ 1차 분류기 로드 및 CLUSTER_1 확률 예측
    try:
        cluster_model = joblib.load("models/softvoting_cluster1_model.joblib")
    except FileNotFoundError:
        print("❌ 1차 분류기 모델이 없습니다.")
        return

    cluster_probs = cluster_model.predict_proba(user_input)[0]
    print("\n🔍 [1차 분류기] 군집별 확률:")
    for i, p in enumerate(cluster_probs):
        print(f" - CLUSTER_{i}: {p:.2%}")

    final_probs = {}

    # ▶ 각 군집별로 항구 예측 (단일 항구 처리 + 보정 확률 계산)
    for cluster, prob_cluster in enumerate(cluster_probs):
        if cluster not in cluster_model_paths:
            continue

        try:
            model = joblib.load(cluster_model_paths[cluster]["model"])
            le = joblib.load(cluster_model_paths[cluster]["encoder"])
        except FileNotFoundError:
            print(f"⚠️ 군집 {cluster}의 모델 또는 인코더를 불러올 수 없습니다.")
            continue

        port_classes = le.classes_
        if len(port_classes) == 1:
            single_port = port_classes[0]
            joint_prob = (prob_cluster * weight_cluster) + (1.0 * weight_port)
            final_probs[single_port] = final_probs.get(single_port, 0) + joint_prob
            print(f"📦 군집 {cluster}은 단일 항구 '{single_port}' → 보정 확률 적용: {joint_prob:.2%}")
            continue

        # 항구가 여러 개인 경우
        port_probs = model.predict_proba(user_input)[0]
        port_names = le.inverse_transform(np.arange(len(port_probs)))

        for port, prob_port in zip(port_names, port_probs):
            joint_prob = (prob_cluster * weight_cluster) + (prob_port * weight_port)
            final_probs[port] = final_probs.get(port, 0) + joint_prob

    # ▶ Top-3 항구 출력
    if not final_probs:
        print("❗ 예측 가능한 항구가 없습니다.")
        return

    sorted_ports = sorted(final_probs.items(), key=lambda x: x[1], reverse=True)[:3]

    print("\n🔮 [가중 평균 기반] Top-3 항구 예측 결과:")
    for port, prob in sorted_ports:
        print(f"📦 {port}: {prob:.2%}")


In [89]:
predict_next_port_joint_prob()

🚢 AIS 데이터 입력해주세요 (5시간 시점 기준)


LAT (위도):  34.0297233
LON (경도):  128.60626
COG (침로):  195.8
HEADING (타각):  198



🔍 [1차 분류기] 군집별 확률:
 - CLUSTER_0: 26.94%
 - CLUSTER_1: 13.08%
 - CLUSTER_2: 30.17%
 - CLUSTER_3: 1.43%
 - CLUSTER_4: 9.52%
 - CLUSTER_5: 6.68%
 - CLUSTER_6: 1.47%
 - CLUSTER_7: 10.71%

🔮 [가중 평균 기반] Top-3 항구 예측 결과:
📦 RUVVO: 73.21%
📦 CNSHA: 59.45%
📦 KRYOS: 58.87%
