In [2]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
import pandas as pd
import numpy as np
import pre_data as eda

data = pd.read_csv(
        './data/train.csv',
        encoding='cp949',
)
# 상위 디렉토리를 경로에 추가 (test.ipynb 파일 기준으로)
preprocessed_data = eda.preprocessing(data)

# 1. 데이터 전처리 (범주형 데이터 변환 및 스케일링)
object_columns = preprocessed_data.select_dtypes(include=['object'])
convert_data, _ = eda.convert_category_into_integer(preprocessed_data, object_columns)

# 타겟 변수 및 독립 변수 설정
X = convert_data.drop('Churn', axis=1)
y = convert_data['Churn'].astype(int)

# 데이터 스케일링
scaler = StandardScaler()
X_scaled = pd.DataFrame(scaler.fit_transform(X), columns=X.columns)

# X: 피처 데이터셋, y: 타겟(종속 변수) 데이터셋
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 인덱스 재설정 (reset_index)
X_train = X_train.reset_index(drop=True)
X_test = X_test.reset_index(drop=True)
y_train = y_train.reset_index(drop=True)
y_test = y_test.reset_index(drop=True)

# RandomForestClassifier 모델을 사용한 후진제거
def backward_elimination_random_forest(X_train, X_test, y_train, y_test, significance_level=0.05):
    model = RandomForestClassifier(random_state=42)  # RandomForest 모델 선언

    while True:
        # 모델 학습
        model.fit(X_train, y_train)

        # 모델 평가
        y_pred_class = model.predict(X_test)

        accuracy = accuracy_score(y_test, y_pred_class)
        precision = precision_score(y_test, y_pred_class)
        recall = recall_score(y_test, y_pred_class)
        f1 = f1_score(y_test, y_pred_class)

        # 중간 결과 출력
        print(f"\nAfter removing feature(s), Current Model Performance:")
        print(f"Accuracy: {accuracy}")
        print(f"Precision: {precision}")
        print(f"Recall: {recall}")
        print(f"F1 Score: {f1}")

        # 변수 중요도 확인
        importances = model.feature_importances_
        min_importance = np.min(importances)

        # 가장 낮은 중요도를 가진 변수 제거
        if min_importance < significance_level:
            worst_feature_index = np.argmin(importances)
            worst_feature = X_train.columns[worst_feature_index]

            print(f"Removing '{worst_feature}' with importance {importances[worst_feature_index]}")
            X_train = X_train.drop(columns=[worst_feature])
            X_test = X_test.drop(columns=[worst_feature])
        else:
            break  # 모든 변수의 중요도가 유의미한 경우 루프 종료

    return X_train, X_test, model

# 후진제거 실행
X_train_reduced, X_test_reduced, final_model = backward_elimination_random_forest(X_train, X_test, y_train, y_test)

# 최종 모델 학습 및 평가
y_pred_class = final_model.predict(X_test_reduced)

# 최종 성능 평가
accuracy = accuracy_score(y_test, y_pred_class)
precision = precision_score(y_test, y_pred_class)
recall = recall_score(y_test, y_pred_class)
f1 = f1_score(y_test, y_pred_class)

# 최종 평가 결과 출력
print("\nFinal Model Performance:")
print(f"Final Model Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1}")


nan-value filled
MonthlyRevenue : 50887, 삭제된 수 : 1
MonthlyMinutes : 50883, 삭제된 수 : 4
TotalRecurringCharge : 50874, 삭제된 수 : 9
DirectorAssistedCalls : 50874, 삭제된 수 : 0
OverageMinutes : 50870, 삭제된 수 : 4
RoamingCalls : 50862, 삭제된 수 : 8
PercChangeMinutes : 50860, 삭제된 수 : 2
DroppedCalls : 50856, 삭제된 수 : 4
BlockedCalls : 50852, 삭제된 수 : 4
UnansweredCalls : 50842, 삭제된 수 : 10
CustomerCareCalls : 50840, 삭제된 수 : 2
ThreewayCalls : 50836, 삭제된 수 : 4
ReceivedCalls : 50830, 삭제된 수 : 6
OutboundCalls : 50827, 삭제된 수 : 3
InboundCalls : 50823, 삭제된 수 : 4
PeakCallsInOut : 50821, 삭제된 수 : 2
OffPeakCallsInOut : 50806, 삭제된 수 : 15
DroppedBlockedCalls : 50792, 삭제된 수 : 14
CallForwardingCalls : 50779, 삭제된 수 : 13
CallWaitingCalls : 50779, 삭제된 수 : 0
MonthsInService : 50778, 삭제된 수 : 1
UniqueSubs : 50777, 삭제된 수 : 1
ActiveSubs : 50777, 삭제된 수 : 0
Handsets : 50773, 삭제된 수 : 4
HandsetModels : 50773, 삭제된 수 : 0
CurrentEquipmentDays : 50768, 삭제된 수 : 5
RetentionCalls : 50634, 삭제된 수 : 134
RetentionOffersAccepted : 50634, 삭제된 수 : 0
