In [4]:
import utils
import pandas as pd

In [6]:
X_labe_encoded=pd.read_csv('Data//X_label_encoded.csv')

X = X_labe_encoded.drop(columns=['fog_train.class'])
y = X_labe_encoded['fog_train.class']

In [7]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, roc_auc_score

# 훈련 및 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 클래스 가중치 조정하여 모델 학습
model = RandomForestClassifier(random_state=42, class_weight='balanced')
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 다중 CSI 계산
csi = utils.utils.calculate_csi(y_test, y_pred)

print(f'CSI: {csi}')

KeyboardInterrupt: 

In [None]:
'''
결과값
Accuracy: 0.9895146344314026
Precision: 0.9856336159175273
Recall: 0.9895146344314026
F1 Score: 0.9848185360676668
Confusion Matrix:
[[    5     2     0   141]
 [    2    13     3   256]
 [    0     3     6   216]
 [    1     2     2 59241]]
ROC-AUC: 0.7979845431726812
-> 너무 높음

CSI: 0.04580152671755725
'''

In [None]:
from imblearn.over_sampling import SMOTE

# SMOTE 적용
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

# 훈련 및 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.2, random_state=42)

# 모델 학습
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 다중 CSI 계산
csi = utils.calculate_csi(y_test, y_pred)

print(f'CSI: {csi}')

SMOTE 너무 오래 걸림

In [None]:
from sklearn.utils import resample

# 데이터 결합
data_combined = pd.concat([X, y], axis=1)

# 다수 클래스와 소수 클래스를 나눔
majority_class = data_combined[data_combined['fog_train.class'] == 3]
minority_classes = data_combined[data_combined['fog_train.class'] != 3]

# 다수 클래스를 소수 클래스의 수만큼 무작위로 샘플링
majority_downsampled = resample(majority_class,
                                replace=False, # 샘플을 복원하지 않음
                                n_samples=len(minority_classes), # 소수 클래스의 수만큼 샘플링
                                random_state=42) # 재현성을 위해 난수 시드 설정

# 소수 클래스와 샘플링된 다수 클래스를 결합
downsampled_data = pd.concat([minority_classes, majority_downsampled])

# 다시 특성과 레이블 분리
X_downsampled = downsampled_data.drop(columns=['fog_train.class'])
y_downsampled = downsampled_data['fog_train.class']

# 훈련 및 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X_downsampled, y_downsampled, test_size=0.2, random_state=42)

# 모델 학습
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 다중 CSI 계산
csi = utils.calculate_csi(y_test, y_pred)

print(f'CSI: {csi}')

In [None]:
'''
Accuracy: 0.7109375
Precision: 0.7027813348692244
Recall: 0.7109375
F1 Score: 0.7039659669178557
Confusion Matrix:
[[ 86  57  18  21]
 [ 34 137  47  32]
 [ 18  72 112  33]
 [  5  15  18 575]]
ROC-AUC: 0.8328542100258564
-> 그나마 합리적임
CSI: 0.4743777452415813
'''

# 이 아래로는 데이터 불균형인 상태의 데이터를 언더샘플링으로 실험한 것
# 언더샘플링으로 하기로 함
1. 오버피팅을 피할 수 있음
2. cv를 자동적으로 진행할 수 잇음
3. 시간이 빠름

In [None]:
from sklearn.utils import resample

# 데이터 결합
data_combined = pd.concat([X, y], axis=1)

# 다수 클래스와 소수 클래스를 나눔
majority_class = data_combined[data_combined['fog_train.class'] == 3]
minority_classes = data_combined[data_combined['fog_train.class'] != 3]

# 다수 클래스를 소수 클래스의 수만큼 무작위로 샘플링
majority_downsampled = resample(majority_class,
                                replace=False, # 샘플을 복원하지 않음
                                n_samples=len(minority_classes), # 소수 클래스의 수만큼 샘플링
                                random_state=42) # 재현성을 위해 난수 시드 설정

# 소수 클래스와 샘플링된 다수 클래스를 결합
downsampled_data = pd.concat([minority_classes, majority_downsampled])

# 다시 특성과 레이블 분리
X_downsampled = downsampled_data.drop(columns=['fog_train.class'])
y_downsampled = downsampled_data['fog_train.class']

# 훈련 및 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X_downsampled, y_downsampled, test_size=0.2, random_state=42)

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Decision Tree 모델 학습
decision_tree_model = DecisionTreeClassifier(random_state=42)
decision_tree_model.fit(X_train, y_train)

# 예측
y_pred_decision_tree = decision_tree_model.predict(X_test)

# 다중 CSI 계산
csi = utils.calculate_csi(y_test, y_pred_decision_tree)

print(f'CSI: {csi}')

In [None]:
'''
Decision Tree Accuracy: 0.6203125
Decision Tree Precision: 0.6290426120303766
Decision Tree Recall: 0.6203125
Decision Tree F1 Score: 0.6240439589709694
CSI: 0.3621621621621622
'''

In [None]:
from catboost import CatBoostClassifier

# CatBoost 모델 학습
catboost_model = CatBoostClassifier(random_state=42, verbose=0)
catboost_model.fit(X_train, y_train)

# 예측
y_pred_catboost = catboost_model.predict(X_test)

# 평가

# 다중 CSI 계산
csi = utils.calculate_csi(y_test, y_pred_catboost)

print(f'CSI: {csi}')

In [None]:
'''
CatBoost Accuracy: 0.69921875
CatBoost Precision: 0.695625932605355
CatBoost Recall: 0.69921875
CatBoost F1 Score: 0.6939627085568127
CSI: 0.4254062038404727
'''

In [None]:
import lightgbm as lgb

# LightGBM 모델 학습
lightgbm_model = lgb.LGBMClassifier(random_state=42)
lightgbm_model.fit(X_train, y_train)

# 예측
y_pred_lightgbm = lightgbm_model.predict(X_test)

# 다중 CSI 계산
csi = utils.calculate_csi(y_test, y_pred_lightgbm)

print(f'CSI: {csi}')

In [None]:
'''
LightGBM Accuracy: 0.69453125
LightGBM Precision: 0.692040959200251
LightGBM Recall: 0.69453125
LightGBM F1 Score: 0.6892326598223478
CSI: 0.42128279883381925
'''