In [1]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_auc_score
from sklearn.metrics import f1_score, confusion_matrix, precision_recall_curve, roc_curve

def get_clf_eval(y_test, pred=None, pred_proba=None):
    confusion = confusion_matrix(y_test, pred)

    accuracy = accuracy_score(y_test, pred)

    precision = precision_score(y_test, pred)
    recall = recall_score(y_test, pred)

    f1 = f1_score(y_test, pred)

    # ROC-AUC 추가
    roc_auc = roc_auc_score(y_test, pred_proba)

    print('오차 행렬')
    print(confusion)

    # ROC-AUC print 추가
    print('정확도: {0:.4f}, 정밀도: {1:.4f}, 재현율: {2:.4f},\
    F1: {3:.4f}, AUC:{4:.4f}'.format(accuracy, precision, recall, f1, roc_auc))

def precision_recall_curve_plot(y_test=None, pred_proba_c1=None):

    # threshold ndarray와 이 threshold에 따른 정밀도, 재현율 ndarray 추출.
    precisions, recalls, thresholds = precision_recall_curve( y_test, pred_proba_c1)

    # X축을 threshold값으로, Y축은 정밀도, 재현율 값으로 각각 Plot 수행. 정밀도는 점선으로 표시
    plt.figure(figsize=(8,6))
    threshold_boundary = thresholds.shape[0]
    plt.plot(thresholds, precisions[0:threshold_boundary], linestyle='--', label='precision')
    plt.plot(thresholds, recalls[0:threshold_boundary],label='recall')

    # threshold 값 X 축의 Scale을 0.1 단위로 변경
    start, end = plt.xlim()
    plt.xticks(np.round(np.arange(start, end, 0.1),2))

    # x축, y축 label과 legend, 그리고 grid 설정
    plt.xlabel('Threshold value'); plt.ylabel('Precision and Recall value')
    plt.legend(); plt.grid()
    plt.show()

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')

cust_df = pd.read_csv("../../../data/santander-customer-satisfaction/train.csv", encoding='latin-1')
predict_df = pd.read_csv("../../../data/santander-customer-satisfaction/test.csv", encoding='latin-1')
santander_submission_df = pd.read_csv("../../../data/santander-customer-satisfaction/sample_submission.csv", encoding='latin-1')

print(cust_df['TARGET'].value_counts())

total_cnt = cust_df.TARGET.count()
unsatisfied_cnt = cust_df[cust_df['TARGET'] == 1].TARGET.count()
print('unsatisfied 비율은 {0:.2f}'.format((unsatisfied_cnt / total_cnt * 100)))

print('santander customer satisfaction: 데이터 세트 Null 값 갯수 ',cust_df.isnull().sum().sum())

cust_df.drop('ID', axis=1, inplace=True) # 필요 없는 행 삭제
cust_df['var3'].value_counts() # 이상치 탐색

TARGET
0    73012
1     3008
Name: count, dtype: int64
unsatisfied 비율은 3.96
santander customer satisfaction: 데이터 세트 Null 값 갯수  0


var3
 2         74165
 8           138
-999999      116
 9           110
 3           108
           ...  
 231           1
 188           1
 168           1
 135           1
 87            1
Name: count, Length: 208, dtype: int64

In [4]:
# # var3 피처 값 대체(2가 많으니 2로 대체) 및 ID 피처 드롭 -> 고민이 필요함
# most_frequent_value = cust_df['var3'].value_counts().idxmax()
# cust_df['var3'].replace(-999999, most_frequent_value, inplace=True)


# 평균값 계산 (이 경우 -999999 값을 제외하고 계산)
mean_value = cust_df[cust_df['var3'] != -999999]['var3'].mean()
cust_df['var3'].replace(-999999, mean_value, inplace=True)


# # 중앙값 계산 (이 경우 -999999 값을 제외하고 계산)
# median_value = cust_df[cust_df['var3'] != -999999]['var3'].median()
# cust_df['var3'].replace(-999999, median_value, inplace=True)


# # -999999 값을 고유한 값 (예: 0)으로 대체
# cust_df['var3'].replace(-999999, 0, inplace=True)


# -999999 값을 가진 행 제거
# cust_df = cust_df[cust_df['var3'] != -999999]


# KNN Imputation: K-최근접 이웃 알고리즘을 사용하여 결측값을 대체
# 결측값을 K-최근접 이웃의 평균값으로 대체하며, 모델 기반 대체는 다른 변수들을 사용하여 결측값을 예측


# # -999999 값을 NaN으로 대체
# from sklearn.impute import KNNImputer
# cust_df['var3'].replace(-999999, np.nan, inplace=True)


# # KNN Imputer 생성 및 적용
# imputer = KNNImputer(n_neighbors=2)
# df_imputed = imputer.fit_transform(cust_df)

# # 결과를 데이터프레임으로 변환
# cust_df = pd.DataFrame(df_imputed, columns=cust_df.columns)


cust_df['var3'].value_counts() # 이상치 탐색

var3
2.000000      74165
8.000000        138
2.717577        116
9.000000        110
3.000000        108
              ...  
231.000000        1
188.000000        1
168.000000        1
135.000000        1
87.000000         1
Name: count, Length: 208, dtype: int64

In [None]:
# 피처 세트와 레이블 세트분리. 레이블 컬럼은 DataFrame의 맨 마지막에 위치해 컬럼 위치 -1로 분리
X = cust_df.iloc[:, :-1]
y = cust_df.iloc[:, -1]
print('피처 데이터 shape:{0}'.format(X.shape))
print('피처 데이터 shape:{0}'.format(y.shape))
print('santander customer satisfaction: 데이터 세트 Null 값 갯수 ', X.isnull().sum().sum())

# 표준화 => 2차원 데이터
sc = StandardScaler()
X = sc.fit_transform(X)
print('피처 데이터 shape:{0}'.format(X.shape))

# predict_df에서의 ID 드롭
predict_df.drop('ID', axis=1, inplace=True)
predict_df = sc.transform(predict_df)
print('피처 데이터 shape:{0}'.format(predict_df.shape))

# SMOTE

In [None]:
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split

smote = SMOTE()
X_1, y_1 = smote.fit_resample(X, y)

X_train, X_test, y_train, y_test = train_test_split(X_1, y_1, test_size=0.2, random_state=0)
train_cnt = y_train.count()
test_cnt = y_test.count()
print('학습 세트 Shape:{0}, 테스트 세트 Shape:{1}'.format(X_train.shape , X_test.shape), '\n')

print('학습 세트 레이블 값 분포 비율')
print(y_train.value_counts()/train_cnt * 100)

print('\n 테스트 세트 레이블 값 분포 비율')
print(y_test.value_counts()/test_cnt * 100, '\n')

# ADASYN

In [None]:
from imblearn.over_sampling import ADASYN
from sklearn.model_selection import train_test_split

adasyn = ADASYN()
X_2, y_2 = adasyn.fit_resample(X, y)

X_train, X_test, y_train, y_test = train_test_split(X_2, y_2, test_size=0.2, random_state=0)
train_cnt = y_train.count()
test_cnt = y_test.count()
print('학습 세트 Shape:{0}, 테스트 세트 Shape:{1}'.format(X_train.shape , X_test.shape), '\n')

print('학습 세트 레이블 값 분포 비율')
print(y_train.value_counts()/train_cnt * 100)

print('\n 테스트 세트 레이블 값 분포 비율')
print(y_test.value_counts()/test_cnt * 100, '\n')

# SMOTETomek

In [None]:
from imblearn.combine import SMOTETomek
from imblearn.under_sampling import TomekLinks
from sklearn.model_selection import train_test_split

smoteto = SMOTETomek(tomek=TomekLinks(sampling_strategy='majority'))
X_3, y_3 = smoteto.fit_resample(X, y)

X_train, X_test, y_train, y_test = train_test_split(X_2, y_2, test_size=0.2, random_state=0)
train_cnt = y_train.count()
test_cnt = y_test.count()
print('학습 세트 Shape:{0}, 테스트 세트 Shape:{1}'.format(X_train.shape , X_test.shape), '\n')

print('학습 세트 레이블 값 분포 비율')
print(y_train.value_counts()/train_cnt * 100)

print('\n 테스트 세트 레이블 값 분포 비율')
print(y_test.value_counts()/test_cnt * 100, '\n')

# PCA

In [None]:
from sklearn.decomposition import PCA

# PCA를 실행하여 설명된 분산 비율을 구하기
pca = PCA()
pca1 = pca.fit(X_3)
explained_variance_ratio = pca.explained_variance_ratio_

# 누적 설명된 분산 비율을 구하기
cumulative_explained_variance = np.cumsum(explained_variance_ratio)

# 누적 설명된 분산 비율이 90% 이상이 되는 지점을 찾기
threshold = 0.90
optimal_n_components = np.argmax(cumulative_explained_variance >= threshold) + 1

# 설명된 분산 비율을 시각화
plt.figure(figsize=(8, 5))
plt.plot(range(1, len(cumulative_explained_variance) + 1), cumulative_explained_variance, marker='o', linestyle='--')
plt.axhline(y=threshold, color='r', linestyle='-')
plt.axvline(x=optimal_n_components, color='r', linestyle='-')
plt.xlabel('Number of Components')
plt.ylabel('Cumulative Explained Variance')
plt.title('Explained Variance vs. Number of Components')
plt.grid(True)
plt.show()

print(f"Optimal number of components for 90% variance: {optimal_n_components}")

# 설명된 분산 비율이 90% 또는 95% 이상을 차지하는 지점에서의 n_components 값을 선택할 수 있다.
# 일반적으로 누적 설명된 분산 비율이 90% 이상이 되는 지점을 선택하는 것이 좋다.
# 설명된 분산 비율이 급격히 증가하다가 점차 완만해지는 "엘보(elbow)" 지점을 찾는 것이 중요

In [None]:
pca = PCA(n_components=optimal_n_components)
pca_test = pca.fit_transform(X_3)
predict_df = pca.transform(predict_df)

X_train, X_test, y_train, y_test = train_test_split(pca_test, y_3, test_size=0.2, random_state=0)
train_cnt = y_train.count()
test_cnt = y_test.count()
print('학습 세트 Shape:{0}, 테스트 세트 Shape:{1}'.format(X_train.shape , X_test.shape), '\n')

print('학습 세트 레이블 값 분포 비율')
print(y_train.value_counts()/train_cnt * 100)

print('\n 테스트 세트 레이블 값 분포 비율')
print(y_test.value_counts()/test_cnt * 100, '\n')

In [None]:
from tensorflow import keras

