# 24.07.29 머신러닝 학습 14회차:특성 선택 및 특성 엔지니어링

## 01 개념

### Feature Engineering

1. 데이터에 대한 지식을 바탕으로 Feature를 생성, 변경, 삭제하는 등 조작을 하여 사용하기 더 유용한 형태로 바꾸는 모든 행위를 말한다.

2. 데이터 전처리와 EDA를 통해 Feature에 대한 기본적인 탐색을 진행한 후, 이를 토대로 진행한다.

### 엔지니어링 방법

1. Feature Selection(특성 선택)

2. Feature Extraction(특성 추출)

3. Transform(변형, 파생변수 만들기)

### 특성 선택 3가지 방법

1. 필터 방법(Filter Methods): 특성 간의 **상관관계**를 고려하여 특성을 선택한다. pearson 상관계수를 참고하기도 하고, 카이제곱 검정과 같은 통계적인 방법을 통해 변수 간의 영향도가 적은 것을 검정해서 탈락시킬 특성을 선택한다.

2. 래퍼 방법(Wrapper Methods): 모델의 성능을 기반으로 특성을 선택한다. 재귀적 특성 제거(Recursive Feature Elimination)나 전진/후진 특성 선택(Forward/BackWard Feature Selection)과 같은 방법이 있다. 이는 필터 방법보다 더 정확한 특성 선택을 제공할 수 있다. 래퍼 방법은 모델의 성능을 고려하여 특성을 평가하므로 특성 간의 상호작용이 고려되기 때문이다.

3. 임베디드 방법(Embedded Methods): 모델 자체에 포함된 특성 선택 기능이다. 라쏘회귀나 릿지회귀 같은 알고리즘을 사용하면 특성 선택 기능이 포함된 상태로 모델링이 되며, 이게 임베디드 방법이 된다. 이런 알고리즘을 사용한다면 모델의 복잡도가 줄어들고, 성능을 향상하는데 도움이 된다.

### 특성 선택의 장점

1. 모델 성능 향상: 불필요한 특성을 제거함으로써 모델의 복잡성을 줄이고 예측 성능을 향상시킨다.

2. 해석 가능성: 모델에 사용된 특성이 중요한 역할을 하는지 확인함으로써 결과를 더 잘 이해할 수 있다.

3. 계산 효율성: 선택된 특성만 사용하여 모델을 학습하면 계산 비용을 줄일 수 있다.

4. 과적합 방지: 불필요한 특성을 제거하여 모델이 훈련 데이터에 과도하게 적합되는 것을 방지한다.

## 02 코드 실습: 원핫 인코딩 해보기

In [1]:
import numpy as np
import pandas as pd
import requests

In [2]:
from io import StringIO

In [3]:
url = 'https://raw.githubusercontent.com/datax-official/Machine-Learning/main/day27/cars.csv'

In [4]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
req = requests.get(url, headers = headers)
if req.status_code == 200:
    data = StringIO(req.text)
    df = pd.read_csv(data)
    df.head()
else:
    print('Error:', req.status_code)

In [5]:
df

Unnamed: 0,brand,km_driven,fuel,owner,selling_price
0,Maruti,145500,Diesel,First Owner,450000
1,Skoda,120000,Diesel,Second Owner,370000
2,Honda,140000,Petrol,Third Owner,158000
3,Hyundai,127000,Diesel,First Owner,225000
4,Maruti,120000,Petrol,First Owner,130000
...,...,...,...,...,...
8123,Hyundai,110000,Petrol,First Owner,320000
8124,Hyundai,119000,Diesel,Fourth & Above Owner,135000
8125,Maruti,120000,Diesel,First Owner,382000
8126,Tata,25000,Diesel,First Owner,290000


In [6]:
df['brand'].value_counts()

brand
Maruti           2448
Hyundai          1415
Mahindra          772
Tata              734
Toyota            488
Honda             467
Ford              397
Chevrolet         230
Renault           228
Volkswagen        186
BMW               120
Skoda             105
Nissan             81
Jaguar             71
Volvo              67
Datsun             65
Mercedes-Benz      54
Fiat               47
Audi               40
Lexus              34
Jeep               31
Mitsubishi         14
Force               6
Land                6
Isuzu               5
Kia                 4
Ambassador          4
Daewoo              3
MG                  3
Ashok               1
Opel                1
Peugeot             1
Name: count, dtype: int64

In [7]:
df['fuel'].value_counts()

fuel
Diesel    4402
Petrol    3631
CNG         57
LPG         38
Name: count, dtype: int64

In [8]:
df['owner'].value_counts()

owner
First Owner             5289
Second Owner            2105
Third Owner              555
Fourth & Above Owner     174
Test Drive Car             5
Name: count, dtype: int64

In [9]:
pd.get_dummies(df, columns=['owner','fuel'])

Unnamed: 0,brand,km_driven,selling_price,owner_First Owner,owner_Fourth & Above Owner,owner_Second Owner,owner_Test Drive Car,owner_Third Owner,fuel_CNG,fuel_Diesel,fuel_LPG,fuel_Petrol
0,Maruti,145500,450000,True,False,False,False,False,False,True,False,False
1,Skoda,120000,370000,False,False,True,False,False,False,True,False,False
2,Honda,140000,158000,False,False,False,False,True,False,False,False,True
3,Hyundai,127000,225000,True,False,False,False,False,False,True,False,False
4,Maruti,120000,130000,True,False,False,False,False,False,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...
8123,Hyundai,110000,320000,True,False,False,False,False,False,False,False,True
8124,Hyundai,119000,135000,False,True,False,False,False,False,True,False,False
8125,Maruti,120000,382000,True,False,False,False,False,False,True,False,False
8126,Tata,25000,290000,True,False,False,False,False,False,True,False,False


In [10]:
pd.get_dummies(df,columns=['fuel','owner'],drop_first=True)

Unnamed: 0,brand,km_driven,selling_price,fuel_Diesel,fuel_LPG,fuel_Petrol,owner_Fourth & Above Owner,owner_Second Owner,owner_Test Drive Car,owner_Third Owner
0,Maruti,145500,450000,True,False,False,False,False,False,False
1,Skoda,120000,370000,True,False,False,False,True,False,False
2,Honda,140000,158000,False,False,True,False,False,False,True
3,Hyundai,127000,225000,True,False,False,False,False,False,False
4,Maruti,120000,130000,False,False,True,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...
8123,Hyundai,110000,320000,False,False,True,False,False,False,False
8124,Hyundai,119000,135000,True,False,False,True,False,False,False
8125,Maruti,120000,382000,True,False,False,False,False,False,False
8126,Tata,25000,290000,True,False,False,False,False,False,False


In [11]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df.iloc[:,0:4], df.iloc[:,-1], test_size=0.2, random_state=0)

In [14]:
from sklearn.preprocessing import OneHotEncoder

X_train

Unnamed: 0,brand,km_driven,fuel,owner
3042,Hyundai,60000,LPG,First Owner
1520,Tata,150000,Diesel,Third Owner
2611,Hyundai,110000,Diesel,Second Owner
3544,Mahindra,28000,Diesel,Second Owner
4138,Maruti,15000,Petrol,First Owner
...,...,...,...,...
4931,Tata,70000,Diesel,Third Owner
3264,Ford,100000,Diesel,Second Owner
1653,Hyundai,90000,Petrol,Second Owner
2607,Volkswagen,90000,Diesel,First Owner


In [15]:
X_test

Unnamed: 0,brand,km_driven,fuel,owner
3558,Hyundai,40000,Diesel,First Owner
233,Mahindra,70000,Diesel,First Owner
7952,Maruti,5000,Petrol,First Owner
572,Maruti,120000,Petrol,Third Owner
6960,Lexus,20000,Petrol,First Owner
...,...,...,...,...
7576,Fiat,100000,Diesel,Third Owner
1484,Maruti,120000,Petrol,Third Owner
1881,Maruti,40000,Diesel,First Owner
4917,Hyundai,2350,Petrol,First Owner


문제 발생 및 해결 방법: OneHotEncoder에서 sparse 매개변수가 sparse_output으로 변경되었다.

In [20]:
ohe = OneHotEncoder(drop='first',sparse_output=False,dtype=np.int32)

In [21]:
X_train_new = ohe.fit_transform(X_train[['fuel','owner']])

In [22]:
X_test_new = ohe.transform(X_test[['fuel','owner']])

In [23]:
X_train_new.shape

(6502, 7)

In [24]:
np.hstack((X_train[['brand','km_driven']].values,X_train_new))

array([['Hyundai', 60000, 0, ..., 0, 0, 0],
       ['Tata', 150000, 1, ..., 0, 0, 1],
       ['Hyundai', 110000, 1, ..., 1, 0, 0],
       ...,
       ['Hyundai', 90000, 0, ..., 1, 0, 0],
       ['Volkswagen', 90000, 1, ..., 0, 0, 0],
       ['Hyundai', 110000, 0, ..., 0, 0, 0]], dtype=object)

In [25]:
counts = df['brand'].value_counts()

In [26]:
df['brand'].nunique()
threshold = 100

In [27]:
repl = counts[counts <= threshold].index

In [28]:
pd.get_dummies(df['brand'].replace(repl, 'uncommon')).sample(5)

Unnamed: 0,BMW,Chevrolet,Ford,Honda,Hyundai,Mahindra,Maruti,Renault,Skoda,Tata,Toyota,Volkswagen,uncommon
7911,False,False,False,False,False,False,False,True,False,False,False,False,False
1462,False,False,False,False,False,False,True,False,False,False,False,False,False
2017,False,False,False,False,True,False,False,False,False,False,False,False,False
4487,False,False,False,False,False,False,False,False,False,True,False,False,False
4292,False,False,False,False,False,False,True,False,False,False,False,False,False


## 03 참고 링크

https://www.kaggle.com/code/datascientist97/one-hot-encoding-cars-dataset

https://bommbom.tistory.com/entry/%ED%94%BC%EC%B2%98-%EC%97%94%EC%A7%80%EB%8B%88%EC%96%B4%EB%A7%81Feature-engineering-%EB%B0%A9%EB%B2%95

https://velog.io/@im_ngooh/Day-39-40-feature-engingeering

https://double-d.tistory.com/38

https://revieworlds.com/17