In [1]:
import pandas as pd
from src.features.features import create_feature

In [2]:
train_df = pd.read_csv('./data/train.csv')
test_df = pd.read_csv('./data/test.csv')

In [3]:
create_feature(train_df=train_df, test_df=test_df)

In [4]:
train_df = train_df.drop(columns=train_df.select_dtypes(include=['object']).columns, axis=1)

In [5]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 47 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   연간 소득              10000 non-null  float64
 1   체납 세금 압류 횟수        10000 non-null  float64
 2   개설된 신용계좌 수         10000 non-null  int64  
 3   신용 거래 연수           10000 non-null  float64
 4   최대 신용한도            10000 non-null  float64
 5   신용 문제 발생 횟수        10000 non-null  int64  
 6   마지막 연체 이후 경과 개월 수  10000 non-null  int64  
 7   개인 파산 횟수           10000 non-null  int64  
 8   현재 대출 잔액           10000 non-null  float64
 9   현재 미상환 신용액         10000 non-null  float64
 10  월 상환 부채액           10000 non-null  float64
 11  신용 점수              10000 non-null  int64  
 12  채무 불이행 여부          10000 non-null  int64  
 13  자산                 10000 non-null  float64
 14  대출 이자율             10000 non-null  float64
 15  대출 비율              10000 non-null  float64
 16  신용 비율              1000

In [6]:
from sklearn.neighbors import NearestNeighbors

# Feature 간 거리 계산
X = train_df.values.T  # Feature별 값들을 행렬로 변환
nbrs = NearestNeighbors(n_neighbors=5, metric='euclidean').fit(X)
distances, indices = nbrs.kneighbors(X)

# 유사한 feature 그룹 확인
similar_features = {train_df.columns[i]: [train_df.columns[j] for j in indices[i]] for i in range(len(train_df.columns))}
print(similar_features)


{'연간 소득': ['연간 소득', '자산', '주거 형태_소득', '최대 신용한도', '현재 대출 잔액'], '체납 세금 압류 횟수': ['체납 세금 압류 횟수', '과거 신용 위험 지표', '신용 문제율', '연체 발생 빈도', 'LTV'], '개설된 신용계좌 수': ['개설된 신용계좌 수', '로그 신용 점수', '근속 연수', '대출 이자율', '신용 거래 연수'], '신용 거래 연수': ['신용 거래 연수', '개설된 신용계좌 수', '로그 신용 점수', '근속 연수', '금융 위험 지수'], '최대 신용한도': ['최대 신용한도', '주거 형태_소득', '현재 대출 잔액', '현재 미상환 신용액', '근속 연수 대비 소득'], '신용 문제 발생 횟수': ['신용 문제 발생 횟수', '개인 파산 횟수', '체납 세금 압류 횟수', '파산 경험 여부', '주거 형태 채무 불이행률'], '마지막 연체 이후 경과 개월 수': ['마지막 연체 이후 경과 개월 수', '최근 연체 위험 지표', '신용 거래 연수', '개설된 신용계좌 수', '금융 위험 지수'], '개인 파산 횟수': ['개인 파산 횟수', '파산 경험 여부', '과거 신용 위험 지표', '주거 형태 채무 불이행률', '대출 목적 채무 불이행률'], '현재 대출 잔액': ['현재 대출 잔액', '현재 미상환 신용액', '잔액 대비 상환 속도', '주거 형태_소득', '월 상환 부채액'], '현재 미상환 신용액': ['현재 미상환 신용액', '현재 대출 잔액', '잔액 대비 상환 속도', '월 상환 부채액', '대출 목적_부채 부담'], '월 상환 부채액': ['월 상환 부채액', '대출 목적_부채 부담', '단기 부채 위험', '신용 점수', '부채 대비 신용 점수'], '신용 점수': ['신용 점수', '마지막 연체 이후 경과 개월 수', '부채 대비 신용 점수', '최근 연체 위험 지표', '신용 거래 연수'], '채무 불이행 여부': ['채무 불이행 여부', '대출 목적 채무 불이행률', 

In [7]:
similar_features

{'연간 소득': ['연간 소득', '자산', '주거 형태_소득', '최대 신용한도', '현재 대출 잔액'],
 '체납 세금 압류 횟수': ['체납 세금 압류 횟수', '과거 신용 위험 지표', '신용 문제율', '연체 발생 빈도', 'LTV'],
 '개설된 신용계좌 수': ['개설된 신용계좌 수', '로그 신용 점수', '근속 연수', '대출 이자율', '신용 거래 연수'],
 '신용 거래 연수': ['신용 거래 연수', '개설된 신용계좌 수', '로그 신용 점수', '근속 연수', '금융 위험 지수'],
 '최대 신용한도': ['최대 신용한도', '주거 형태_소득', '현재 대출 잔액', '현재 미상환 신용액', '근속 연수 대비 소득'],
 '신용 문제 발생 횟수': ['신용 문제 발생 횟수',
  '개인 파산 횟수',
  '체납 세금 압류 횟수',
  '파산 경험 여부',
  '주거 형태 채무 불이행률'],
 '마지막 연체 이후 경과 개월 수': ['마지막 연체 이후 경과 개월 수',
  '최근 연체 위험 지표',
  '신용 거래 연수',
  '개설된 신용계좌 수',
  '금융 위험 지수'],
 '개인 파산 횟수': ['개인 파산 횟수',
  '파산 경험 여부',
  '과거 신용 위험 지표',
  '주거 형태 채무 불이행률',
  '대출 목적 채무 불이행률'],
 '현재 대출 잔액': ['현재 대출 잔액', '현재 미상환 신용액', '잔액 대비 상환 속도', '주거 형태_소득', '월 상환 부채액'],
 '현재 미상환 신용액': ['현재 미상환 신용액',
  '현재 대출 잔액',
  '잔액 대비 상환 속도',
  '월 상환 부채액',
  '대출 목적_부채 부담'],
 '월 상환 부채액': ['월 상환 부채액', '대출 목적_부채 부담', '단기 부채 위험', '신용 점수', '부채 대비 신용 점수'],
 '신용 점수': ['신용 점수',
  '마지막 연체 이후 경과 개월 수',
  '부채 대비 신용 점수',
  '최근 연체 위험 지표',
  '신용 거래