# 제품 이상여부 판별 프로젝트


## 데이터 불러오기


### 필수 라이브러리


In [24]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

import os
from pprint import pprint

from sklearn.metrics import (
    accuracy_score,
    classification_report,
    confusion_matrix,
    f1_score,
    precision_score,
    recall_score,
)
from sklearn.model_selection import train_test_split
from tqdm import tqdm

### 데이터 읽어오기


In [25]:
import pandas as pd

THRESHOLD = 0.3
RANDOM_STATE = 110

train_data = pd.read_csv("../../data/train_data_0816.csv")
test_data = pd.read_csv("../../data/test_data_0816.csv")

In [26]:
# 공통 변수 리스트
com_variables_train = [
    'target', 'Model.Suffix', 'Workorder', 'WorkMode Collect Result'
    , 'Dispenser_1', 'Dispenser_2', 'Receip_No_Collect_Result'
    , 'Production_Qty_Collect_Result', 'Judge_Value_OK'
    , 'Workorder_0.9', 'Workorder_0.6'
]

com_variables_test = [
    'target', 'Set ID', 'Model.Suffix', 'Workorder'
    , 'WorkMode Collect Result', 'Dispenser_1'
    , 'Dispenser_2', 'Receip_No_Collect_Result'
    , 'Production_Qty_Collect_Result', 'Judge_Value_OK'
    , 'Workorder_0.9', 'Workorder_0.6'
]

In [27]:
# 공정 이름 필터링 후 공통 변수와 결합
def create_dataset(train_data, test_data, process_name, com_variables_train, com_variables_test):
    # 열 이름 필터링
    Process_Desc_col = train_data.filter(like=process_name).columns
    
    # train 데이터셋 생성
    final_columns_train = list(Process_Desc_col) + com_variables_train
    train_dataset = train_data[final_columns_train]
    
    # test 데이터셋 생성
    final_columns_test = list(Process_Desc_col) + com_variables_test
    test_dataset = test_data[final_columns_test]
    
    return train_dataset, test_dataset

# 공통 변수 정의
## com_variables_train = [...]  -> 이전 코드에서 정의한 변수 사용
## com_variables_test = [...]   -> 이전 코드에서 정의한 변수 사용

# 데이터셋 생성
train_data_dam, test_data_dam = create_dataset(train_data, test_data, '_Dam', com_variables_train, com_variables_test)
train_data_fill1, test_data_fill1 = create_dataset(train_data, test_data, '_Fill1', com_variables_train, com_variables_test)
train_data_fill2, test_data_fill2 = create_dataset(train_data, test_data, '_Fill2', com_variables_train, com_variables_test)
train_data_autoclave, test_data_autoclave = create_dataset(train_data, test_data, '_AutoClave', com_variables_train, com_variables_test)

---

## 모델링

### 모델 정의

In [28]:
from sklearn.ensemble import ExtraTreesClassifier, RandomForestClassifier
from catboost import CatBoostClassifier
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score, confusion_matrix, accuracy_score, precision_score, recall_score
from sklearn.ensemble import VotingClassifier

# 스레드홀드 설정
THRESHOLD = 0.3

# 모델 설정 및 하이퍼파라미터
models = {
    'et': ExtraTreesClassifier(),
    'rf': RandomForestClassifier(),
    'cat': CatBoostClassifier(),
    'lgbm': LGBMClassifier(),
    'xgb': XGBClassifier(),
    'dt': DecisionTreeClassifier()
}

def train_and_evaluate_model(model_name, data, **params):
    if model_name not in models:
        print(f"{model_name}은(는) 지원되지 않는 모델입니다.")
        return
    
    # 데이터셋 분할
    x_train, x_val, y_train, y_val = train_test_split(
        data.drop("target", axis=1),
        data["target"].map({'Normal': 0, 'AbNormal': 1}),
        test_size=0.2,
        shuffle=True,
        random_state=RANDOM_STATE,
    )

    # 모델 선택
    model = models[model_name].__class__()  # 새로운 모델 인스턴스 생성

    # 하이퍼파라미터 설정
    model.set_params(**params)

    # 모델 학습
    model.fit(x_train, y_train)

    # 데이터 이름을 자동으로 추출하기 위한 래퍼 함수
    data_name = [name for name in globals() if globals()[name] is data][0]

    # 예측
    y_val_pred_proba = model.predict_proba(x_val)[:, 1]  # 양성 클래스 확률
    y_val_pred = (y_val_pred_proba >= THRESHOLD).astype(int)  # 스레드홀드에 따른 예측

    # 평가지표 계산
    f1 = f1_score(y_val, y_val_pred, average="binary")
    accuracy = accuracy_score(y_val, y_val_pred)
    precision = precision_score(y_val, y_val_pred, zero_division=0)
    recall = recall_score(y_val, y_val_pred)
    conf_matrix = confusion_matrix(y_val, y_val_pred)
    
    # 결과 출력
    print(f'{model_name} 모델이 {data_name} 데이터로 학습한 결과:')
    print(f'F1 Score: {f1}')
    print('---')
    print('Confusion Matrix:')
    print(conf_matrix)
    print('---')
    print(f'Accuracy: {accuracy}')
    print(f'Precision: {precision}')
    print(f'Recall: {recall}')
    print('\n')

    return model  # 학습된 모델 반환

# 사용 예시
# train_and_evaluate_model(
#     'lgbm', train_data_fill1,
#     n_estimators=979,
#     num_leaves=1565,
#     max_depth=34,
#     learning_rate=0.04888906225539191,
#     min_child_samples=36,
#     boosting_type='dart',
#     random_state=RANDOM_STATE,
#     verbose=-1
# )


def fit_all_train_data_function(model_name, data, **params):
    if model_name not in models:
        print(f"{model_name}은(는) 지원되지 않는 모델입니다.")
        return None  # 지원되지 않는 모델일 경우 None 반환
    
    # 모델 선택
    model = models[model_name].__class__()  # 새로운 모델 인스턴스 생성

    # 하이퍼파라미터 설정
    model.set_params(**params)

    # 모델 학습
    model.fit(data.drop("target", axis=1), data["target"].map({'Normal': 0, 'AbNormal': 1}))

    # 데이터 이름을 자동으로 추출하기 위한 래퍼 함수
    data_name = [name for name in globals() if globals()[name] is data][0]

    print(f'{model_name} 모델이 {data_name} 데이터로 학습 완료')
    return model  # 학습된 모델 반환

# 사용 예시
# model_dam = fit_all_train_data_function(
#     'lgbm', train_data_dam,
#     n_estimators=2748,
#     num_leaves=657,
#     max_depth=256,
#     learning_rate=0.001043279508273329,
#     min_child_samples=58,
#     boosting_type='dart',
#     random_state=RANDOM_STATE,
#     verbose=-1
# )

def voting_function(data, estimators, voting='hard', threshold=0.5):
    # 데이터셋 분할 # voting='hard'일 경우 threshold는 사용되지 않음
    x_train, x_val, y_train, y_val = train_test_split(
        data.drop("target", axis=1),
        data["target"].map({'Normal': 0, 'AbNormal': 1}),
        test_size=0.2,
        shuffle=True,
        random_state=RANDOM_STATE,
    )

    # VotingClassifier 설정
    voting_clf = VotingClassifier(estimators=estimators, voting=voting)

    # 모델 학습
    voting_clf.fit(x_train, y_train)

    if voting == 'soft':
        # 소프트 보팅의 경우 확률 예측
        y_val_pred_proba = voting_clf.predict_proba(x_val)[:, 1]
        y_val_pred = (y_val_pred_proba >= threshold).astype(int)
    else:
        # 하드 보팅의 경우 직접 예측
        y_val_pred = voting_clf.predict(x_val)

    # 평가지표 계산
    f1 = f1_score(y_val, y_val_pred, average="binary")
    accuracy = accuracy_score(y_val, y_val_pred)
    precision = precision_score(y_val, y_val_pred, zero_division=0)
    recall = recall_score(y_val, y_val_pred)
    conf_matrix = confusion_matrix(y_val, y_val_pred)
    
    # 결과 출력
    print(f'Voting Classifier로 학습한 결과:')
    print(f'F1 Score: {f1}')
    print('---')
    print('Confusion Matrix:')
    print(conf_matrix)
    print('---')
    print(f'Accuracy: {accuracy}')
    print(f'Precision: {precision}')
    print(f'Recall: {recall}')
    print('\n')

    return voting_clf  # 학습된 VotingClassifier 반환

# # VotingClassifier 사용 예시
# estimators = [
#     ('dam', train_model_Dam),
#     ('autoclave', train_model_AutoClave),
#     ('fill1', train_model_Fill1),
#     ('fill2', train_model_Fill2)
# ]

# # VotingClassifier 학습 및 평가
# voting_clf_hard = train_and_evaluate_voting_classifier(train_data, estimators, voting='hard')
# voting_clf_soft = train_and_evaluate_voting_classifier(train_data, estimators, voting='soft', threshold=0.6)

def voting(preds_or_probs, method='soft', threshold=0.3):
    """
    하드 보팅 또는 소프트 보팅을 사용하여 최종 예측을 수행합니다.

    Parameters:
    preds_or_probs (list of np.array): 각 모델의 예측 배열 리스트 (하드 보팅) 또는 예측 확률 배열 리스트 (소프트 보팅)
    method (str): 'soft' 또는 'hard' 보팅 방법 선택
    threshold (float): 소프트 보팅 시 예측을 양성으로 간주할 확률 임계값

    Returns:
    np.array: 최종 예측 결과
    """
    if method == 'soft':
        # 소프트 보팅: 각 모델의 확률 평균 계산
        soft_voting_probs = np.mean(preds_or_probs, axis=0)
        # 최종 예측: 평균 확률에 대해 스레드 홀드 적용
        final_predictions = (soft_voting_probs >= threshold).astype(int)
    elif method == 'hard':
        # 하드 보팅: 각 모델의 예측을 모아서 다수결 원칙 적용
        preds = np.array(preds_or_probs)
        final_predictions = np.apply_along_axis(lambda x: np.bincount(x).argmax(), axis=0, arr=preds)
    else:
        raise ValueError("method 인자는 'soft' 또는 'hard'여야 합니다.")
    
    return final_predictions

# 사용 예시
# # 예측 확률 리스트 (소프트 보팅용)
# probs = [
#     model_Dam.predict_proba(x_test_dam)[:, 1],
#     model_AutoClave.predict_proba(x_test_autoclave)[:, 1],
#     model_Fill1.predict_proba(x_test_fill1)[:, 1],
#     model_Fill2.predict_proba(x_test_fill2)[:, 1]
# ]

# # 예측 리스트 (하드 보팅용)
# preds = [
#     model_Dam.predict(x_test_dam),
#     model_AutoClave.predict(x_test_autoclave),
#     model_Fill1.predict(x_test_fill1),
#     model_Fill2.predict(x_test_fill2)
# ]

# # 소프트 보팅 결과
# final_predictions_soft = voting(probs, method='soft', threshold=0.3)
# print(sum(final_predictions_soft))

# # 하드 보팅 결과
# final_predictions_hard = voting(preds, method='hard')
# print(sum(final_predictions_hard))



---

### 모델 학습

Dam 모델

In [29]:
train_model_Dam = train_and_evaluate_model(
    'cat', train_data_dam
    , iterations=1415
    , learning_rate=0.07701213944704571
    , depth=12
    , l2_leaf_reg=2.6328100798019762 
    , random_strength=9.510403770860803
    , bagging_temperature=5.8234148306877715
    , border_count=258
    , scale_pos_weight=0.8513945387463904
    , random_seed = RANDOM_STATE
    , eval_metric = 'F1'
    , logging_level = 'Silent'
    , boosting_type = 'Plain'
)

cat 모델이 train_data_dam 데이터로 학습한 결과:
F1 Score: 0.24852071005917165
---
Confusion Matrix:
[[7510  152]
 [ 356   84]]
---
Accuracy: 0.9372994322389533
Precision: 0.3559322033898305
Recall: 0.19090909090909092




AutoClave 모델

In [30]:
train_model_AutoClave = train_and_evaluate_model(
    'cat', train_data_autoclave
    , iterations=672
    , learning_rate=0.32067318144871304
    , depth=4
    , l2_leaf_reg=4.200323262290698 
    , random_strength=2.1487257714690915
    , bagging_temperature=6.901535824166224
    , border_count=81
    , scale_pos_weight=1.0091261797689637
    , random_seed = RANDOM_STATE
    , eval_metric = 'F1'
    , logging_level = 'Silent'
    , boosting_type = 'Plain'
)

cat 모델이 train_data_autoclave 데이터로 학습한 결과:
F1 Score: 0.2638680659670165
---
Confusion Matrix:
[[7523  139]
 [ 352   88]]
---
Accuracy: 0.9393976795852876
Precision: 0.3876651982378855
Recall: 0.2




Fill1 모델

In [31]:
train_model_Fill1 = train_and_evaluate_model(
    'cat', train_data_fill1
    , iterations=1080
    , learning_rate=0.27700365060588783
    , depth=5
    , l2_leaf_reg=1.253973786965849
    , random_strength=9.22514112631014
    , bagging_temperature=8.810531538725536
    , border_count=205
    , scale_pos_weight=1.1080635788286048
    , random_seed = RANDOM_STATE
    , eval_metric = 'F1'
    , logging_level = 'Silent'
    , boosting_type = 'Plain'
)

cat 모델이 train_data_fill1 데이터로 학습한 결과:
F1 Score: 0.24999999999999994
---
Confusion Matrix:
[[7479  183]
 [ 351   89]]
---
Accuracy: 0.9340903480622068
Precision: 0.3272058823529412
Recall: 0.20227272727272727




Fill2 모델

In [32]:
train_model_Fill2 = train_and_evaluate_model(
    'cat', train_data_fill2
    , iterations=942
    , learning_rate=0.0663329773137215
    , depth=9
    , l2_leaf_reg=2.8579737675612154
    , random_strength=7.119939923407122
    , bagging_temperature=7.446487630118915
    , border_count=73
    , scale_pos_weight=1.1824356154616613
    , random_seed = RANDOM_STATE
    , eval_metric = 'F1'
    , logging_level = 'Silent'
    , boosting_type = 'Plain'
)

cat 모델이 train_data_fill2 데이터로 학습한 결과:
F1 Score: 0.25113464447806355
---
Confusion Matrix:
[[7524  138]
 [ 357   83]]
---
Accuracy: 0.9389039743273266
Precision: 0.3755656108597285
Recall: 0.18863636363636363




In [33]:
# VotingClassifier 사용 
estimators = [
    ('dam', train_model_Dam),
    ('autoclave', train_model_AutoClave),
    ('fill1', train_model_Fill1),
    ('fill2', train_model_Fill2)
]

# VotingClassifier 학습 및 평가
# voting_clf_hard = voting_function(train_data, estimators, voting='hard')
voting_clf_soft = voting_function(train_data, estimators, voting='soft', threshold=0.3)

Voting Classifier로 학습한 결과:
F1 Score: 0.24279210925644912
---
Confusion Matrix:
[[7523  139]
 [ 360   80]]
---
Accuracy: 0.9384102690693656
Precision: 0.365296803652968
Recall: 0.18181818181818182




In [43]:
voting_clf_soft = voting_function(train_data, estimators, voting='soft', threshold=0.25)

Voting Classifier로 학습한 결과:
F1 Score: 0.24965706447187924
---
Confusion Matrix:
[[7464  198]
 [ 349   91]]
---
Accuracy: 0.9324858059738336
Precision: 0.314878892733564
Recall: 0.20681818181818182




In [44]:
voting_clf_soft = voting_function(train_data, estimators, voting='soft', threshold=0.22)

Voting Classifier로 학습한 결과:
F1 Score: 0.26153846153846155
---
Confusion Matrix:
[[7424  238]
 [ 338  102]]
---
Accuracy: 0.9289064428536163
Precision: 0.3
Recall: 0.2318181818181818




In [42]:
voting_clf_soft = voting_function(train_data, estimators, voting='soft', threshold=0.2)

Voting Classifier로 학습한 결과:
F1 Score: 0.2600243013365735
---
Confusion Matrix:
[[7386  276]
 [ 333  107]]
---
Accuracy: 0.9248333744754381
Precision: 0.2793733681462141
Recall: 0.2431818181818182




In [45]:
voting_clf_soft = voting_function(train_data, estimators, voting='soft', threshold=0.18)

Voting Classifier로 학습한 결과:
F1 Score: 0.25968109339407747
---
Confusion Matrix:
[[7338  324]
 [ 326  114]]
---
Accuracy: 0.9197728955813379
Precision: 0.2602739726027397
Recall: 0.2590909090909091




---

### 모델 학습(train 데이터 전체 학습)

위의 모델학습 코드에서 함수명만 바뀌고 들어가는 값들은 동일  
-> 위의 코드 복붙한다음 함수명만 바꿔주면 사용하기 편함  

In [34]:
model_Dam = fit_all_train_data_function(
    'cat', train_data_dam
    , iterations=1415
    , learning_rate=0.07701213944704571
    , depth=12
    , l2_leaf_reg=2.6328100798019762 
    , random_strength=9.510403770860803
    , bagging_temperature=5.8234148306877715
    , border_count=258
    , scale_pos_weight=0.8513945387463904
    , random_seed = RANDOM_STATE
    , eval_metric = 'F1'
    , logging_level = 'Silent'
    , boosting_type = 'Plain'
)

model_AutoClave = fit_all_train_data_function(
    'cat', train_data_autoclave
    , iterations=672
    , learning_rate=0.32067318144871304
    , depth=4
    , l2_leaf_reg=4.200323262290698 
    , random_strength=2.1487257714690915
    , bagging_temperature=6.901535824166224
    , border_count=81
    , scale_pos_weight=1.0091261797689637
    , random_seed = RANDOM_STATE
    , eval_metric = 'F1'
    , logging_level = 'Silent'
    , boosting_type = 'Plain'
)

model_Fill1 = fit_all_train_data_function(
    'cat', train_data_fill1
    , iterations=1080
    , learning_rate=0.27700365060588783
    , depth=5
    , l2_leaf_reg=1.253973786965849
    , random_strength=9.22514112631014
    , bagging_temperature=8.810531538725536
    , border_count=205
    , scale_pos_weight=1.1080635788286048
    , random_seed = RANDOM_STATE
    , eval_metric = 'F1'
    , logging_level = 'Silent'
    , boosting_type = 'Plain'
)

model_Fill2 = fit_all_train_data_function(
    'cat', train_data_fill2
    , iterations=942
    , learning_rate=0.0663329773137215
    , depth=9
    , l2_leaf_reg=2.8579737675612154
    , random_strength=7.119939923407122
    , bagging_temperature=7.446487630118915
    , border_count=73
    , scale_pos_weight=1.1824356154616613
    , random_seed = RANDOM_STATE
    , eval_metric = 'F1'
    , logging_level = 'Silent'
    , boosting_type = 'Plain'
)

cat 모델이 train_data_dam 데이터로 학습 완료
cat 모델이 train_data_autoclave 데이터로 학습 완료
cat 모델이 train_data_fill1 데이터로 학습 완료
cat 모델이 train_data_fill2 데이터로 학습 완료


---

In [35]:
# 예측에 필요한 데이터 분리
x_test_dam = test_data_dam.drop(["target", "Set ID"], axis=1)
x_test_autoclave = test_data_autoclave.drop(["target", "Set ID"], axis=1)
x_test_fill1 = test_data_fill1.drop(["target", "Set ID"], axis=1)
x_test_fill2 = test_data_fill2.drop(["target", "Set ID"], axis=1)


Voting(hard)

4개의 모델중 다수의 모델이 판단한 값을 타겟값으로 가져감

In [36]:
# 예측 리스트 (하드 보팅용)
preds = [
    model_Dam.predict(x_test_dam),
    model_AutoClave.predict(x_test_autoclave),
    model_Fill1.predict(x_test_fill1),
    model_Fill2.predict(x_test_fill2)
]

# 하드 보팅 결과
final_predictions = voting(preds, method='hard')
print(sum(final_predictions))

113


Voting(soft)

4개의 모델의 확률의 합에 대한 평균이 일정 수치(스레스홀드) 값을 넘으면 AbNormal 값을 가짐

In [37]:
# 예측 확률 리스트 (소프트 보팅용)
probs = [
    model_Dam.predict_proba(x_test_dam)[:, 1],
    model_AutoClave.predict_proba(x_test_autoclave)[:, 1],
    model_Fill1.predict_proba(x_test_fill1)[:, 1],
    model_Fill2.predict_proba(x_test_fill2)[:, 1]
]

# 소프트 보팅 결과
final_predictions = voting(probs, method='soft', threshold=0.3)
print(sum(final_predictions))

338


위의 코드와 아래의 코드 동일 내용

In [38]:
# 소프트 보팅: 각 모델의 확률 평균 계산
soft_voting_probs = np.mean(probs, axis=0)

# 최종 예측: 평균 확률에 대해 스레드 홀드 0.26 적용
final_predictions = (soft_voting_probs >= 0.3).astype(int)

# 최종 예측 결과 출력
print(sum(final_predictions))

338


In [50]:
# 소프트 보팅: 각 모델의 확률 평균 계산
soft_voting_probs = np.mean(probs, axis=0)

# 최종 예측: 평균 확률에 대해 스레드 홀드 0.22 적용
final_predictions = (soft_voting_probs >= 0.22).astype(int)

# 최종 예측 결과 출력
print(sum(final_predictions))

629


작성하신 답안 제출이 완료되었습니다.  
Public Score : 0.21875  

## 4. 제출하기


### 제출 파일 작성


In [51]:
# 제출 데이터 읽어오기 (df_test는 전처리된 데이터가 저장됨)
df_sub = pd.read_csv("../../data/submission.csv")
df_sub["target"] = final_predictions

# df_sub['target'] 값을 문자열 레이블로 변환
df_sub['target'] = df_sub['target'].apply(lambda x: 'AbNormal' if x == 1 else 'Normal')

# 제출 파일 저장
df_sub.to_csv("submission.csv", index=False)

In [52]:
df_sub['target'].value_counts()

Normal      16732
AbNormal      629
Name: target, dtype: int64

In [53]:
df_sub.head(10)

Unnamed: 0,Set ID,target
0,0001be084fbc4aaa9d921f39e595961b,Normal
1,0005bbd180064abd99e63f9ed3e1ac80,Normal
2,000948934c4140d883d670adcb609584,Normal
3,000a6bfd02874c6296dc7b2e9c5678a7,Normal
4,0018e78ce91343678716e2ea27a51c95,Normal
5,001fda4596f545d0a3b0ce85fbea77d2,Normal
6,0020734a7b29472298358ad58645a0c9,Normal
7,00234c5914cd4c4a888d13f8b3773135,Normal
8,00297b6c93e44d49ac534758a23dc74e,Normal
9,002d904240d84b188d410d16383a9c3a,Normal


**우측 상단의 제출 버튼을 클릭해 결과를 확인하세요**


---

## 5. ETC...

모델을 통해 예측해 낸 정답지(csv) 파일의 결과값을 불러와 voting 하는 방식  
이때의 voting은 hard방식만 가능(예측확률은 저장되어있지 않음으로 soft 보팅은 불가능)  

In [255]:
import pandas as pd
import numpy as np

def read_submission_files(file_paths):
    """
    제출 파일을 읽어와서 예측 결과를 반환합니다.

    Parameters:
    file_paths (list of str): 제출 파일 경로 리스트

    Returns:
    list of np.array: 각 제출 파일의 예측 결과 리스트
    """
    predictions = []
    for file_path in file_paths:
        df = pd.read_csv(file_path)
        preds = df['target'].apply(lambda x: 1 if x == 'AbNormal' else 0).values
        predictions.append(preds)
    return predictions

def hard_voting(preds):
    """
    하드 보팅을 사용하여 최종 예측을 수행합니다.

    Parameters:
    preds (list of np.array): 각 모델의 예측 배열 리스트

    Returns:
    np.array: 최종 예측 결과
    """
    preds = np.array(preds)
    final_predictions = np.apply_along_axis(lambda x: np.bincount(x).argmax(), axis=0, arr=preds)
    return final_predictions

In [256]:
# 제출 파일 경로 리스트
file_paths = [
    "submission1.csv"
    , "submission2.csv"
    , "submission3.csv"
    , "submission4.csv"
    # 파일 추가 가능
    ]

# 제출 파일에서 예측 결과 읽어오기
predictions = read_submission_files(file_paths)

# 하드 보팅 결과
final_predictions_hard = hard_voting(predictions)

# 결과를 새로운 제출 파일로 저장
df_sub = pd.read_csv(file_paths[0])
df_sub["target"] = final_predictions_hard
df_sub['target'] = df_sub['target'].apply(lambda x: 'AbNormal' if x == 1 else 'Normal')
df_sub.to_csv("final_submission.csv", index=False)

print("최종 제출 파일이 'final_submission.csv'로 저장되었습니다.")

최종 제출 파일이 'final_submission.csv'로 저장되었습니다.


In [257]:
df_sub['target'].value_counts()

Normal      17234
AbNormal      127
Name: target, dtype: int64

In [258]:
df_sub.head(10)

Unnamed: 0,Set ID,target
0,0001be084fbc4aaa9d921f39e595961b,Normal
1,0005bbd180064abd99e63f9ed3e1ac80,Normal
2,000948934c4140d883d670adcb609584,Normal
3,000a6bfd02874c6296dc7b2e9c5678a7,Normal
4,0018e78ce91343678716e2ea27a51c95,Normal
5,001fda4596f545d0a3b0ce85fbea77d2,Normal
6,0020734a7b29472298358ad58645a0c9,Normal
7,00234c5914cd4c4a888d13f8b3773135,Normal
8,00297b6c93e44d49ac534758a23dc74e,Normal
9,002d904240d84b188d410d16383a9c3a,Normal
