## 필수과제2 (직접 제가 드린 데이터셋)
- 정말 피처가 많은 데이터
- 그 데이터를 피처 셀렉션해서 실제 어떤 피처만 추출할지? 
    - 기준에 대한 이유
    - 코드(주석설명)
    - 실제 선택된 피처는 무엇인지?

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_selection import VarianceThreshold, SelectKBest, f_classif
from sklearn.preprocessing import LabelEncoder

In [2]:
df = pd.read_csv('/Users/sejinmoon/Desktop/Coding/Jupyter_csv/bank-additional.csv', delimiter=';')
df

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,...,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
0,30,blue-collar,married,basic.9y,no,yes,no,cellular,may,fri,...,2,999,0,nonexistent,-1.8,92.893,-46.2,1.313,5099.1,no
1,39,services,single,high.school,no,no,no,telephone,may,fri,...,4,999,0,nonexistent,1.1,93.994,-36.4,4.855,5191.0,no
2,25,services,married,high.school,no,yes,no,telephone,jun,wed,...,1,999,0,nonexistent,1.4,94.465,-41.8,4.962,5228.1,no
3,38,services,married,basic.9y,no,unknown,unknown,telephone,jun,fri,...,3,999,0,nonexistent,1.4,94.465,-41.8,4.959,5228.1,no
4,47,admin.,married,university.degree,no,yes,no,cellular,nov,mon,...,1,999,0,nonexistent,-0.1,93.200,-42.0,4.191,5195.8,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4114,30,admin.,married,basic.6y,no,yes,yes,cellular,jul,thu,...,1,999,0,nonexistent,1.4,93.918,-42.7,4.958,5228.1,no
4115,39,admin.,married,high.school,no,yes,no,telephone,jul,fri,...,1,999,0,nonexistent,1.4,93.918,-42.7,4.959,5228.1,no
4116,27,student,single,high.school,no,no,no,cellular,may,mon,...,2,999,1,failure,-1.8,92.893,-46.2,1.354,5099.1,no
4117,58,admin.,married,high.school,no,no,no,cellular,aug,fri,...,1,999,0,nonexistent,1.4,93.444,-36.1,4.966,5228.1,no


In [3]:
#타겟 변수와 분리
#Y -> 타겟 설정
X = df.drop(['y'], axis = 1)
Y = df['y']

In [4]:
X.columns

Index(['age', 'job', 'marital', 'education', 'default', 'housing', 'loan',
       'contact', 'month', 'day_of_week', 'duration', 'campaign', 'pdays',
       'previous', 'poutcome', 'emp.var.rate', 'cons.price.idx',
       'cons.conf.idx', 'euribor3m', 'nr.employed'],
      dtype='object')

### 컬럼 내용
* age (나이)
* job (직업)
* marital (결혼 상태)
* education (교육 수준)
* default (신용 부도 여부)
* housing (주택 담보 대출 여부)
* loan (개인 대출 여부)
* contact (연락 방법)
* month (캠페인 마지막 접촉 월)
* day_of_week (캠페인 마지막 접촉 요일)
* duration (통화 시간)
* campaign (이번 캠페인에서의 연락 횟수)
* pdays (이전 캠페인 연락 후 경과 일수)
* previous (이전 캠페인에서의 연락 횟수)
* poutcome (이전 캠페인 결과)
* emp.var.rate (고용 변화율)
* cons.price.idx (소비자 물가 지수)
* cons.conf.idx (소비자 신뢰 지수)
* euribor3m (3개월 유로인터뱅크 금리)
* nr.employed (고용된 인구 수)

In [5]:
# 범주형 변수를 인코딩
X_encoded = pd.get_dummies(X)  # 범주형 변수를 One-Hot 인코딩
y_encoded = LabelEncoder().fit_transform(Y)  # 종속 변수를 수치로 변환

In [6]:
# VarianceThreshold 적용 (분산이 거의 없는 피처 제거)
var_thres = VarianceThreshold(threshold=0.01)  # 분산이 0.01 이하인 피처 제거
X_var_filtered = var_thres.fit_transform(X_encoded)

In [7]:
# f_classif 통계를 사용
# ANOVA F-통계량을 기반으로 피처의 중요도를 평가하는 방법. 주로 연속형 변수와 범주형 타겟 변수 사이의 관계를 분석할 때 사용.
select_kbest = SelectKBest(score_func=f_classif, k=10)
X_selected = select_kbest.fit_transform(X_var_filtered, y_encoded)

In [8]:
# 선택된 피처 이름 확인
selected_features = X_encoded.columns[var_thres.get_support()][select_kbest.get_support()]

In [9]:
print("selected features:", selected_features)

selected features: Index(['duration', 'pdays', 'previous', 'emp.var.rate', 'euribor3m',
       'nr.employed', 'contact_telephone', 'month_mar', 'poutcome_nonexistent',
       'poutcome_success'],
      dtype='object')
