### 해군 추진 장치 유지보수 데이터셋 정보  

#### 출처:  

* [Maintenance of Naval Propulsion Plants Data Set](https://www.kaggle.com/datasets/elikplim/maintenance-of-naval-propulsion-plants-data-set)
* [UCI 머신러닝 저장소 - 선박 추진 장치의 상태 기반 유지보수 데이터셋](http://archive.ics.uci.edu/ml/datasets/condition+based+maintenance+of+naval+propulsion+plants)
* [해군 추진 플랜트 데이터세트의 상태 기반 유지 관리](https://www.simonwenkel.com/2019/04/19/revisitingML-naval-propulsion.html)
  
Andrea Coraddu(2), Luca Oneto(1), Alessandro Ghio(1), Stefano Savio(2), Davide Anguita(3), Massimo Figari(2)  
1 - 스마트랩(Smartlab) - 비선형 복잡 시스템 연구소,  
DITEN - 제노바 대학교, 제노바 (I-16145), 이탈리아.  
2 - 해양 기술 연구팀,  
DITEN - 제노바 대학교, 제노바 (I-16145), 이탈리아.  
3 - 스마트랩(Smartlab) - 비선형 복잡 시스템 연구소,  
DIBRIS - 제노바 대학교, 제노바 (I-16145), 이탈리아.  
cbm '@' smartlab.ws  
www.cbm.smartlab.ws  

#### 데이터셋 정보:  
이 실험은 가스 터빈(GT) 추진 장치가 있는 해군 함정(프리깃)의 수치 시뮬레이터를 사용하여 수행되었습니다. 완전한 시뮬레이터를 구성하는 여러 블록(프로펠러, 선체, GT, 기어 박스, 컨트롤러)은 수년에 걸쳐 여러 유사한 실제 추진 장치에서 개발되고 정밀 조정되었습니다. 이러한 점을 고려했을 때, 사용 가능한 데이터는 실제 선박과 유사한 특성을 가지고 있습니다.  
이 시뮬레이터 버전에서는 GT 컴프레서와 터빈과 같은 GT 구성 요소의 성능 저하를 시간 경과에 따라 고려할 수도 있습니다.  
추진 시스템의 동작은 다음과 같은 매개변수로 설명됩니다:  

- 선박 속도 (레버 위치(lp)의 선형 함수)  
- 컴프레서 성능 저하 계수(kMc)  
- 터빈 성능 저하 계수(kMt)  

따라서 각 가능한 성능 저하 상태는 이 세 가지 매개변수(lp, kMt, kMc)의 조합으로 설명될 수 있습니다.  
컴프레서와 터빈의 성능 저하 범위는 0.001의 균일한 그리드로 샘플링되어 표현의 세밀도를 높였습니다.  
특히, 컴프레서 성능 저하 상태의 이산화는 kMc 계수를 [1; 0.95] 범위에서, 터빈 계수는 [1; 0.975] 범위에서 조사했습니다.  
선박 속도는 3노트에서 27노트까지의 가능한 속도 범위를 샘플링하여, 표현의 세밀도를 3노트로 설정했습니다.  
성능 저하에 영향을 받는 시스템의 상태를 간접적으로 나타내는 일련의 측정값(16개의 특성)이 매개변수 공간을 따라 데이터셋에 저장되었습니다.  

#### 속성 정보:  
물리 자산의 정상 상태에서 GT 측정값을 포함하는 16개의 특성 벡터:  

- 레버 위치 (lp) [ ]  
- 선박 속도 (v) [노트]  
- 가스터빈(GT) 축 토크 (GTT) [kN m]  
- GT 회전 속도 (GTn) [rpm]  
- 가스 발생기 회전 속도 (GGn) [rpm]  
- 우현 프로펠러 토크 (Ts) [kN]  
- 좌현 프로펠러 토크 (Tp) [kN]  
- 고압(HP) 터빈 출구 온도 (T48) [C]  
- GT 컴프레서 흡입 공기 온도 (T1) [C]  
- GT 컴프레서 배출 공기 온도 (T2) [C]  
- HP 터빈 출구 압력 (P48) [bar]  
- GT 컴프레서 흡입 공기 압력 (P1) [bar]  
- GT 컴프레서 배출 공기 압력 (P2) [bar]  
- GT 배기 가스 압력 (Pexh) [bar]  
- 터빈 분사 제어 (TIC) [%]  
- 연료 유량 (mf) [kg/s]  
- GT 컴프레서 성능 저하 상태 계수  
- GT 터빈 성능 저하 상태 계수  

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import koreanize_matplotlib

In [None]:
df = pd.read_csv("naval_propulsion.zip", sep='\s+', header=None)
# df.columns = ['lever_position', 'ship_speed', 'gt_shaft', 'gt_rate', 'gg_rate', 'sp_torque', 'pp_torque',
#                      'hpt_temp', 'gt_c_i_temp', 'gt_c_o_temp', 'hpt_pressure', 'gt_c_i_pressure', 'gt_c_o_pressure',
#                      'gt_exhaust_pressure', 'turbine_inj_control', 'fuel_flow', 'gt_c_decay',  'gt_t_decay']

columns = ['레버 위치', '선박 속도', '가스터빈 축 토크', '가스터빈 회전 속도', '가스 발생기 회전 속도', '우현 프로펠러 토크', '좌현 프로펠러 토크',
           '고압 터빈 온도', '가스터빈 컴프레서 흡입 온도', '가스터빈 컴프레서 배출 온도', '고압 터빈 압력', '가스터빈 컴프레서 흡입 압력', 
           '가스터빈 컴프레서 배출 압력', '가스터빈 배기 압력', '터빈 분사 제어', '연료 유량', '가스터빈 컴프레서 성능 저하', '가스터빈 터빈 성능 저하']

# Replace spaces with underscores in column names
new_columns = [col.replace(' ', '_') for col in columns]

df.columns = new_columns
df.shape

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.multioutput import MultiOutputRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler

# 피처와 타겟 변수 분리
X = df.drop(['가스터빈_컴프레서_성능_저하', '가스터빈_터빈_성능_저하'], axis=1)
y = df[['가스터빈_컴프레서_성능_저하', '가스터빈_터빈_성능_저하']]

# 데이터 스케일링
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 훈련 데이터와 테스트 데이터로 분할
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 랜덤 포레스트 모델 생성
rf_model = RandomForestRegressor(random_state=42)

# 랜덤 서치 하이퍼파라미터 설정
param_dist = {
    'n_estimators': [50, 100, 200],
    'max_features': ['sqrt', 'log2'],
    'max_depth': [None, 10, 20, 30, 40],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# 랜덤 서치 객체 생성
random_search = RandomizedSearchCV(estimator=rf_model, param_distributions=param_dist, 
                                   n_iter=10, cv=3, verbose=2, random_state=42, n_jobs=-1)

# 다중 출력 회귀 모델 생성
multi_output_model = MultiOutputRegressor(random_search)

# 모델 학습
multi_output_model.fit(X_train, y_train)

# 최적의 파라미터 출력
print("Best Parameters found by Random Search:", multi_output_model.estimators_[0].best_params_)

# 예측
y_pred = multi_output_model.predict(X_test)

# 성능 평가 및 시각화
mse_scores = []
r2_scores = []

for i, column in enumerate(y.columns):
    mse = mean_squared_error(y_test.iloc[:, i], y_pred[:, i])
    r2 = r2_score(y_test.iloc[:, i], y_pred[:, i])
    mse_scores.append(mse)
    r2_scores.append(r2)
    print(f"Target: {column}")
    print("Mean Squared Error:", mse)
    print("R^2 Score:", r2)
    print()

# MSE와 R^2 Score 시각화
fig, ax = plt.subplots(1, 2, figsize=(14, 5))

# MSE 시각화
ax[0].barh(y.columns, mse_scores, color='skyblue')
ax[0].set_title('Mean Squared Error for each target')
ax[0].set_xlabel('MSE')

# R^2 Score 시각화
ax[1].barh(y.columns, r2_scores, color='lightgreen')
ax[1].set_title('R^2 Score for each target')
ax[1].set_xlabel('R^2 Score')

plt.show()

# 변수 중요도 시각화 (Random Forest에서는 첫 번째 모델의 특성 중요도를 사용할 수 있음)
feature_importances = multi_output_model.estimators_[0].best_estimator_.feature_importances_
features = X.columns

# 피처 중요도를 높은 순서로 정렬
sorted_idx = np.argsort(feature_importances)[::-1]

plt.figure(figsize=(10, 6))
sns.barplot(x=feature_importances[sorted_idx], y=features[sorted_idx])
plt.title('Sorted Feature Importances for the First Output (Compressor Performance Degradation)')
plt.show()