# 1. 피쳐 선택이란?

&nbsp;&nbsp; 피처는 머신러넹에서 모델에 제공하는 입력변수로, 예측에 별다른 도움이 되지 않는 노이즈 피처가 있으면 성능이 저하될 수 있습니다. 그렇기 때문에 더 빠르고 정확한 모델을 위해서 유용한 필요한 피처만 구분해내서 사용하는 선택하는 과정이 필요합니다.

# 2. 피처 선택 모델

## 1)지도 모델 :

&nbsp;&nbsp; 레이블이 있는 데이터를 대상으로 피처의 중요성을 평가하고 선택하는 방법으로, 보통 피처와 타겟 변수 간 관계를 분석해 중요한 피처를 선택합니다.

&nbsp;&nbsp; **1)필터 방식(Filter Method) :**

&nbsp;&nbsp;&nbsp; - 개요 : 상관관계, 분산, 상호정보량 등과 같은 통게적 기법을 사용해 각 피처를 독립적으로 평가해서 중요도에 따라 피처를 선택합니다.

&nbsp;&nbsp;&nbsp; - 장점 : 계산이 효율적이며, 모델 학습 전에 적용 가능합니다.

&nbsp;&nbsp;&nbsp; - 단점 : 피처들 간 상관관계를 간과할 수 있습니다.

&nbsp;&nbsp;&nbsp; - Chi-Square, ANOVA F-검정, Mutual Information 등을 사용됩니다.

&nbsp;&nbsp; **2)랩퍼 방식(Wrapper Method) :**

&nbsp;&nbsp;&nbsp; - 개요 : 피처 집합을 선택하고, 그에 따른 모델링을 수행해서 해당 피처 조합을 평가하는 과정을 여러번 반복해 최적의 피처 집합을 찾습니다.

&nbsp;&nbsp;&nbsp; -종류

&nbsp;&nbsp;&nbsp;&nbsp; (1)전진선택(Forward~) : 피처를 하나씩 추가하면서 성능을 평가합니다.

&nbsp;&nbsp;&nbsp;&nbsp; (2)후진제거(Backward~) : 모든 피처에서 시작해 하나씩 제거하면서 성능을 평가합니다.

&nbsp;&nbsp;&nbsp;&nbsp; (3)재귀적피처제거(Recursive Feature Elimination(RFE)) : 모델을 학습시키고 피처 중요도를 기반으로 가장 덜 중요한 피처를 하나씩 제거해 나갑니다.

&nbsp;&nbsp;&nbsp; - 장점 : 모델 성능을 직접 평가하기에 특성의 중요도를 정확하게 평가할 수 있습니다.

&nbsp;&nbsp;&nbsp; - 단점 : 비효율적이고 비용이 많이 듭니다.


&nbsp;&nbsp; **3)임베디드 방식(Embeded Method) :**

&nbsp;&nbsp;&nbsp; - 개요 : 머신러닝 학습을 하면서 피처를 선택이 동시에 이루어집니다. 모델이 학습되면서 피처의 중요도가 자동으로 결정되고, 중요도가 낮은 피처가 자동으로 제외됩니다.

&nbsp;&nbsp;&nbsp; - 주요 기법 :

&nbsp;&nbsp;&nbsp;&nbsp; - Lasso Regression: L1 정규화를 사용하여 중요도가 낮은 피처의 가중치를 0으로 만듭니다.

&nbsp;&nbsp;&nbsp;&nbsp; - Ridge Regression: L2 정규화를 사용하여 피처의 가중치를 줄이지만 0으로 만들지는 않습니다.
&nbsp;&nbsp;&nbsp;&nbsp; - Elastic Net: L1과 L2 정규화를 결합하여 피처 선택과 가중치 축소를 동시에 수행합니다.
&nbsp;&nbsp;&nbsp;&nbsp; - 트리 기반 모델: 결정 트리, 랜덤 포레스트 등은 피처 중요도를 계산하여 선택하는 데 활용됩니다.

&nbsp;&nbsp;&nbsp; - 장점 : 모델링과 특성 선택을 동시에 수행하기에 효율적입니다.

&nbsp;&nbsp;&nbsp; - 단점 : 피처 선택이 사용된 모델 및 정규화에 의존하기에 항상 최적의 피처 집합을 항상 보장하진 않습니다.

## 2)비지도 모델

&nbsp;&nbsp; 레이블이 없는 데이터를 대상으로 피처의 중요성을 평가하고 선택하는 방법으로, 데이터의 분포와 특성을 분석해서 중요한 피처를 선택합니다.

&nbsp;&nbsp; **1)분산(Variance) 기반 선택 :** 분산이 매우 낮은 피처는 거의 변화가 없으므로 예측에 큰 영향을 미치지 않을 가능성이 큽니다. 따라서, 분산이 낮은 피처를 제거합니다.

&nbsp;&nbsp; **2)상관 관계(Correlation) 기반 선택 :** 피처들 간의 상관 관계를 분석하여 상관 관계가 높은 피처들을 제거합니다. 높은 상관 관계를 가진 피처들은 중복 정보를 제공할 가능성이 큽니다.

&nbsp;&nbsp; **3)PCA(Principal Component Analysis) :** 고차원 데이터를 저차원으로 변환하여 중요한 피처를 선택합니다. PCA는 데이터의 분산을 최대화하는 방향으로 주성분을 선택합니다.


# 3. 피처 엔지니어링

&nbsp;&nbsp; 머신러닝의 성능을 향상시키기 위해 피처의 형태를 변형하거나 적절하게 처리하는 과정을 의미합니다.

## 1)Scaling - 수치형 변수

&nbsp;&nbsp; - 개요 : 서로 다른 수치형 피처들의 범위를 일정한 수준으로 맞추는 작업입니다.

&nbsp;&nbsp;&nbsp; **1)정규화(Normalization)**

&nbsp;&nbsp;&nbsp;&nbsp; - 데이터의 범위를 조정해서 모든 피처가 동일한 범위를 갖도록 하는 방법입니다. 데이터의 범위가 넓거나 분포가 고르지 않을 때 유용합니다. 대표적으로 MinMax 스케일링이 있습니다.

&nbsp;&nbsp;&nbsp;&nbsp; - 이상치에 민감하다는 단점이 있습니다.

&nbsp;&nbsp;&nbsp; **2)표준화(Standardization)**

&nbsp;&nbsp;&nbsp;&nbsp; - 데이터를 평균이 0이고 표준편차가 1이 되도록 변환하는 과정입니다. 이는 데이터가 정규 분포를 따르도록 만드는 데 유용합니다. 이상치에 비교적 강하고, 데이터가 정규 분포에 가깝게 분포할 경우 결과가 좋아집니다.

&nbsp;&nbsp;&nbsp;&nbsp; - 데이터가 정규 분포가 아닐 경우, 데이터의 특성이 왜곡될 수 있습니다.

&nbsp;&nbsp;&nbsp; **3)Robust Scaling**

&nbsp;&nbsp;&nbsp;&nbsp; - 데이터의 중앙값(median)과 IQR(Interquartile Range, 1사분위수와 3사분위수 차이)을 사용하여 스케일링합니다. Robust Scaler는 데이터의 중앙값을 0으로, IQR을 1로 변환하여 이상치가 많은 데이터에서도 효과적으로 작동합니다.

&nbsp;&nbsp;&nbsp;&nbsp; - 다른 스케일링에 비해 복잡하며, 중앙값과 IQR을 사용하기에 데이터의 분포 정보가 왜곡될 수 있습니다.


## 2)Encoding - 범주형 변수

&nbsp;&nbsp; - 범주형 데이터를 컴퓨터가 인식하고 처리할 수 있도록 수치형 데이터로 변호나하는 과정입니다.

&nbsp;&nbsp;&nbsp; 1)레이블 인코딩(Label Encoding)

&nbsp;&nbsp;&nbsp;&nbsp; - 범주형 피처의 각 범주를 고유한 정수로 변환하는 방법으로, 간단하고 직관적이나 모델이 숫자를 기준으로 중요도나 순서를 부여할 수 있다는 단점이 있습니다.

&nbsp;&nbsp;&nbsp; 2)원-핫 인코딩(One-Hot Encoding)

&nbsp;&nbsp;&nbsp;&nbsp; - 각 피처를 0과 1로 매핑해서 여러 파생 피처로 변환하는 방법으로, 순서나 중요도의 차이가 없는 명목형 데이터에 적합하나 데이터의 차원이 급격하게 증가할 수 있습니다.

&nbsp;&nbsp;&nbsp; 3)바이너리 인코딩(Binary Encoding)

&nbsp;&nbsp;&nbsp;&nbsp; - 범주형 데이터를 이진 숫자로 변환하는 방법으로, 각 범주는 정수로 인코딩되고, 이 정수가 다시 이진 형태로 변환됩니다. 원핫 인코딩에 비해 차원의 증가를 줄일 수 있으나, 구현과 이해가 복잡합니다.

&nbsp;&nbsp;&nbsp; 4)타겟 인코딩(Target Encoding)

&nbsp;&nbsp;&nbsp;&nbsp; - 범주형 데이터의 각 범주를 타겟 변수의 평균 값으로 변환하며, 주로 회귀 분석에서 사용됩니다. 범주 간 관계를 더 잘 반영할 수 있지만, 데이터 누수 문제가 발생할 수 있습니다.



## 3)Data Bining - 범주형, 수치형 모두 가능

&nbsp;&nbsp; 연속형 데이터를 범주형 데이터로 변환하는 방법으로, 데이터의 분포를 요약하고, 분석을 단순화하며, 모델의 성능을 향상시키기 위해 사용됩니다. 데이터를 일정한 구간으로 나누어 각 구간에 속하는 데이터 포인트들을 그룹화하는 방식입니다.

&nbsp;&nbsp; - 종류

&nbsp;&nbsp;&nbsp; 1)고정간격 바이닝 : 데이터를 고정된 간격으로 나눠 구간을 생성합니다.

&nbsp;&nbsp;&nbsp; 2)동일개수 바이닝 : 데이터 포인트 수를 각 구간에 균등하게 분배합니다.

&nbsp;&nbsp;&nbsp; 3)빈도기반 바이닝 :각 구간의 빈도수를 기준으로 구간을 설정합니다.

&nbsp;&nbsp;&nbsp; 4)클러스터기반 바이닝 : K-means 등 클러스터링 기법을 사용합니다.

&nbsp;&nbsp; - 장점 : 이상치의 영향을 줄일 수 있으며, 모델의 성능을 향상시킬 수 있습니다. 해석하기에도 쉽습니다.

&nbsp;&nbsp; - 단점 : 데이터의 세부 정보가 손실될 수 있으며, 구간 설정이 주관적이고 그에 따라 결과도 달라질 수 있습니다.




## 4)Log Transformation




# 참고자료

&nbsp;&nbsp;1)피처선택:

&nbsp;&nbsp;&nbsp; https://blog.naver.com/inflate_7467/223299249392

&nbsp;&nbsp;&nbsp; https://blog.naver.com/tommybee/222651276783

&nbsp;&nbsp;&nbsp; https://punggyung.tistory.com/entry/%EB%A8%B8%EC%8B%A0-%EB%9F%AC%EB%8B%9D-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%84%EC%B2%98%EB%A6%AC-%EC%A0%95%EA%B7%9C%ED%99%94%EC%99%80-%ED%91%9C%EC%A4%80%ED%99%94%EC%9D%98-%EC%B0%A8%EC%9D%B4%EC%A0%90%EA%B3%BC-%ED%99%9C%EC%9A%A9%EB%B2%95



In [3]:
#타겟인코딩

#!pip install category_encoders

import category_encoders as ce
import pandas as pd

# 데이터
data = pd.DataFrame({'color': ['red', 'blue', 'green', 'blue', 'red'],
                     'target': [1, 2, 3, 4, 5]})

# Target Encoding
encoder = ce.TargetEncoder(cols=['color'])
encoded_data = encoder.fit_transform(data[['color']], data['target'])
print(encoded_data)


   color
0    3.0
1    3.0
2    3.0
3    3.0
4    3.0
