# 24.07.29 머신러닝 학습 14회차:특성 선택과 특성 엔지니어링

## 01 개념

### 🔎Feature Engineering 개념

1. 머신러닝 모델의 성능을 향상시키기 위해 데이터를 변환, 생성 또는 선택하는 과정이다.

2. 데이터를 적절히 가공하여 모델이 더 좋은 예측을 할 수 있도록 돕는다.

### 🔎Feature Engineering 5단계

1. **데이터 이해 및 탐색** (Data Understanding and Exploration)

    - 데이터의 구조, 분포, 결측치, 이상치 등을 파악한다.

    - 각 특성의 의미와 중요성을 이해하는 단계이다.

2. **데이터 전처리** (Data Preprocessing)

    - 결측치 처리: 결측치를 제거하거나 적절한 값으로 대체한다.

    - 이상치 처리: 이상치를 제거하거나 변환한다.

    - 데이터 스케일링: 특성값의 범위를 조정하여 모델의 성능을 향상시킨다. (예: 표준화, 정규화)

3. **특성 변환** (Feature Transformation)

    - 데이터의 분포를 조정하여 모델이 더 잘 학습할 수 있게 한다. (예: 로그 변환, 표준화, 정규화)

    - 로그 변환 (Log Transformation): 데이터의 분포를 정규화한다.

    - 제곱근 변환 (Square Root Transformation): 분포의 왜곡을 줄인다.

    - Box-Cox 변환 (Box-Cox Transformation): 데이터를 정규분포에 가깝게 변환한다.

    - (추가) 범주형 데이터 인코딩 (Categorical Encoding): 범주형 데이터를 숫자형으로 변환하는 과정이다. (예: 원-핫 인코딩, 레이블 인코딩)

4. **특성 생성** (Feature Creation)

    - 기존 데이터에서 새로운 유의미한 특성을 만드는 과정이다. (예: 날짜로 월, 일, 요일 변수 만들기)

    - 다항식 특성 (Polynomial Features): 기존 특성의 조합을 통해 새로운 특성을 생성한다.

    - 상호작용 특성 (Interaction Features): 두 개 이상의 특성을 곱하여 새로운 특성을 생성한다.

    - 시간 특성 (Time Features): 시간 관련 데이터를 처리할 때 날짜 및 시간 정보를 특성으로 사용한다. (예: 연도, 월, 요일)

5. **특성 선택** (Feature Selection)

    - 모델의 성능을 높이기 위해 불필요한 특성을 제거하고 중요한 특성만 선택한다.

    - 자세한 내용은 아래에서 다룬다.

### 🔎Feature Selection 개념

특성 선택은 모델의 성능을 최적화하고 과적합을 방지하기 위해 데이터에서 중요한 특성을 선택하는 과정이다.

### 🔎Feature Selection 3종류

1. 필터 방식 (Filter Methods): 통계적 기법을 사용하여 각 특성과 타깃 변수 간의 상관관계를 평가한다.

    - 분산 임계값 (Variance Threshold): 분산이 낮은 특성을 제거한다. (저분산: 데이터의 변동성이 크지 않다.)

    - 상관계수 (Correlation Coefficient): 특성 간의 상관관계를 분석하여 높은 상관관계를 가진 특성을 제거한다. (예: pearson 상관계수)

    - 통계적 테스트 (Statistical Tests): 카이제곱, ANOVA 등의 통계적 테스트를 통해 중요한 특성을 선택한다.

2. 래퍼 방식 (Wrapper Methods): 모델의 성능을 기반으로 특성을 선택한다. 즉, 여러 특성 조합을 평가하여 최적의 특성 집합을 찾는다.

    - 예를 들어, 전진 선택법(Forward Selection), 후진 제거법(Backward Elimination), 단계적 선택법(Stepwise Selection)이 있다.

    - 재귀적 특성 제거(Recursive Feature Elimination, RFE)도 포함된다. RFE는 모델 성능을 기준으로 특성을 순차적으로 제거하면서 최적의 특성 집합을 찾는 방법이다.

    - 모델의 성능을 고려하여 특성을 평가하므로 특성 간의 상호작용이 고려되기에 필터 방식보다 정확한 특성 선택을 제공한다.

    - 순차 특성 선택 (Sequential Feature Selection): 순차적으로 특성을 추가하거나 제거하면서 모델 성능을 평가한다.

        - 빵맛집 프로젝트에서 시행했던 방법이다.

    - 교차 검증 (Cross-Validation): 모델의 성능을 교차 검증을 통해 평가하면서 최적의 특성 집합을 선택한다.

3. 임베디드 방식 (Embedded Methods): 모델 자체에 포함된 특성 선택 기능이다.

    - LASSO 혹은 Ridge 알고리즘: 회귀 계수에 패널티를 부여하여 중요한 특성을 선택한 상태로 모델링 된다. (규제 방식) 이런 알고리즘을 사용한다면 모델의 복잡도가 줄어들고, 성능을 향상하는데 도움이 된다.

    - 의사결정 나무 (Decision Tree): 의사결정 나무 기반 모델을 사용하여 중요한 특성을 자동으로 선택한다.

    - 랜덤 포레스트 (Random Forest): 여러 결정 나무를 통해 특성 중요도를 평가한다.

### 추가: 재귀적 특성 제거(Recursive Feature Elimination, RFE) 과정

재귀적 특성 제거 과정은 래퍼 방법의 특성을 잘 보여준다. 래퍼 방법은 모델 성능을 기준으로 특성 집합을 선택하며, 모델을 여러 번 훈련시키는 특징이 있다. 이와 같이 RFE도 모델을 여러 번 훈련시키고, 각 단계에서 특성을 제거하면서 최적의 특성 집합을 찾는다. 따라서 RFE는 래퍼 방법의 대표적인 예로 볼 수 있다.

1. 초기 모델 훈련: 모든 특성을 사용하여 모델을 훈련한다.

2. 특성 중요도 평가: 모델의 특성 중요도(예: 회귀 계수의 크기, 트리 기반 모델의 특성 중요도 등)를 평가한다.

3. 특성 제거: 가장 중요도가 낮은 특성을 제거한다.

4. 재귀적 반복: 남은 특성으로 다시 모델을 훈련하고, 특성 중요도를 평가하여 또 하나의 특성을 제거한다. 이 과정을 최적의 특성 집합이 남을 때까지 반복한다.

### 추가: 분석가의 재귀적 특성 제거 작업 절차

기본적으로 자동화된 도구와 코드를 활용하여 효율적으로 수행한다. 분석가는 RFE 과정을 설정하고 모니터링하며, 결과를 해석하는 중요한 역할을 한다.

1. 초기 설정: 분석가는 어떤 모델을 사용할지, 제거할 특성의 수 등을 설정한다. 이 과정에서 분석가는 도메인 지식과 경험을 활용하여 초기 조건을 결정한다.

2. 자동화된 반복 작업: 대부분의 RFE 과정은 코드를 통해 자동화된다. Python의 scikit-learn 라이브러리 등에서 제공하는 함수를 사용하여 RFE를 실행하면, 모델 훈련과 특성 제거 과정이 자동으로 반복된다.

3. 결과 분석: RFE의 결과를 바탕으로 최적의 특성 집합을 도출한 후, 분석가는 이를 해석하고 모델의 성능을 평가한다.

실제로, 분석가는 이 모든 과정을 일일이 수작업으로 하는 것이 아니라, 코드를 작성하여 반복적이고 계산적인 작업을 자동화한다. 그러나, 자동화된 도구의 사용에도 불구하고, 분석가의 전문 지식과 판단은 매우 중요하다. 적절한 설정과 해석 없이 단순히 자동화 도구에만 의존하면, 최적의 결과를 얻기 어렵기 때문이다.

예를 들어, Python의 scikit-learn 라이브러리를 사용하여 RFE를 실행하는 코드는 아래와 같다.

In [None]:
# RFE 라이브러리 불러오기
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression

# 모델과 RFE 설정
model = LinearRegression()
rfe = RFE(model, n_features_to_select=5)

# RFE 실행
rfe.fit(X, y)

# 선택된 특성 확인
selected_features = X.columns[rfe.support_]
print("Selected features: ", selected_features)

### 전진 선택법 (Forward Selection)

전진 선택법은 모델에 포함할 특성을 하나씩 추가하는 방식이다.

1. 초기 모델 설정: 모든 특성이 포함되지 않은 빈 모델에서 시작한다.

2. 특성 추가: 가능한 특성 중에서 가장 성능이 향상되는 특성을 선택하여 모델에 추가한다.

3. 반복: 성능이 더 이상 유의미하게 향상되지 않을 때까지 특성을 하나씩 추가하는 과정을 반복한다.

In [None]:
from sklearn.feature_selection import SequentialFeatureSelector
from sklearn.linear_model import LinearRegression

model = LinearRegression()
sfs = SequentialFeatureSelector(model, n_features_to_select=5, direction='forward')
sfs.fit(X, y)

1. SequentialFeatureSelector 객체를 생성하여 sfs 변수에 저장한다.

2. model은 특성 선택 과정에서 사용할 모델이다.

3. n_features_to_select=5는 최종적으로 선택할 특성의 수를 의미한다.

4. direction='forward'는 전진 선택법을 사용할 것임을 지정한다.

### 후진 제거법 (Backward Elimination)

후진 제거법은 모든 특성을 포함한 모델에서 시작해 성능에 가장 적게 기여하는 특성을 하나씩 제거하는 방식이다.

1. 초기 모델 설정: 모든 특성을 포함한 모델로 시작한다.

2. 특성 제거: 모델에서 가장 덜 유의미한 특성을 제거한다.

3. 반복: 모델 성능에 큰 영향을 미치지 않는 특성을 계속 제거해나간다. 유의미한 성능 저하가 발생하면 중단한다.

In [None]:
sfs = SequentialFeatureSelector(model, n_features_to_select=5, direction='backward')
sfs.fit(X, y)

### 단계적 선택법 (Stepwise Selection)

단계적 선택법은 전진 선택법과 후진 제거법을 결합한 방법이다.

1. 초기 모델 설정: 빈 모델에서 시작한다.

2. 전진 선택: 전진 선택법을 사용하여 특성을 하나씩 추가한다.

3. 후진 제거: 특정 특성이 추가된 후, 이전에 추가된 특성 중에서 덜 유의미한 특성을 제거할 수도 있다.

4. 반복: 성능이 최적화될 때까지 특성을 추가하고 제거하는 과정을 반복한다.

In [None]:
sfs = SequentialFeatureSelector(model, n_features_to_select=5, direction='both')
sfs.fit(X, y)

### 전진 선택법 코드 실습 (1)

In [2]:
from sklearn.feature_selection import SequentialFeatureSelector
from sklearn.linear_model import LinearRegression
import numpy as np

# 특성 데이터
X = np.random.rand(100, 10)
# 타겟 데이터
y = np.random.rand(100)

# 모델 생성
model = LinearRegression()

# SequentialFeatureSelector 객체 생성
sfs = SequentialFeatureSelector(model, n_features_to_select=5, direction='forward')

# 특성 선택 수행
sfs.fit(X, y)

In [10]:
X[0]

array([0.75059444, 0.45404709, 0.03803813, 0.37804393, 0.81382226,
       0.22875328, 0.74756226, 0.88238274, 0.70966153, 0.85032115])

In [11]:
y[0]

0.8169105672992738

### get_support(), transform() 메서드 (2)

1. get_support 메서드를 사용하여 선택된 특성의 인덱스를 출력한다.

2. transform 메서드를 사용하여 선택된 특성들로만 이루어진 데이터셋을 생성한다.

In [13]:
# 선택된 특성의 인덱스
selected_features = sfs.get_support(indices=True)
print("선택된 특성의 인덱스:\n", selected_features)

# 선택된 특성만으로 이루어진 데이터셋
X_selected = sfs.transform(X)
print("선택된 특성으로 이루어진 데이터셋:\n", X_selected)

선택된 특성의 인덱스:
 [0 1 4 5 7]
선택된 특성으로 이루어진 데이터셋:
 [[0.75059444 0.45404709 0.81382226 0.22875328 0.88238274]
 [0.19895538 0.68506887 0.04075825 0.15659769 0.23722498]
 [0.89296349 0.23616155 0.62896909 0.27510936 0.39428722]
 [0.99291477 0.5544429  0.73394536 0.8945464  0.91279243]
 [0.12457241 0.39866087 0.81217953 0.31289616 0.1112216 ]
 [0.06492736 0.17090336 0.2621281  0.13435078 0.78827242]
 [0.27305722 0.49078888 0.37372971 0.80098772 0.40017595]
 [0.28788295 0.31448326 0.17444774 0.85381517 0.46561946]
 [0.9592441  0.59694434 0.8169508  0.69879003 0.25956594]
 [0.39936736 0.03991966 0.20659749 0.39212979 0.48482391]
 [0.23607623 0.51813178 0.95085209 0.345088   0.00938434]
 [0.48869319 0.98929807 0.51971512 0.71079783 0.14140201]
 [0.19983933 0.56534082 0.20003338 0.00342094 0.20234363]
 [0.45969662 0.34032753 0.25274747 0.81849246 0.35138047]
 [0.76321745 0.85272479 0.70782653 0.31025429 0.81519621]
 [0.90232655 0.54353303 0.54853897 0.0670294  0.86759678]
 [0.18353945 0.64172206 0

코드 실행 결과: 선택된 5개의 특성의 인덱스와 선택된 특성들로만 이루어진 새로운 데이터셋을 출력할 수 있다.

### 🔎특성 엔지니어링의 필요성과 장점

특성 엔지니어링과 특성 선택은 머신러닝 모델의 성능을 극대화하는 데 필수적인 단계이다.

1. 성능 향상: 불필요한 특성을 제거함으로써 모델의 복잡성을 줄이고 예측 성능을 향상시킨다.

2. 과적합 방지: 불필요한 특성을 제거하여 모델이 훈련 데이터에 과도하게 적합되는 것을 방지한다.

3. 해석 용이성: 중요한 특성만 남겨두면 모델을 해석하고 이해하기 쉬워진다.

4. 계산 효율성: 불필요한 특성을 제거하여 모델의 훈련 및 예측 시간을 단축할 수 있다.

### 🔎특성 엔지니어링 TIP

1. 도메인 지식 활용: 특성 엔지니어링과 특성 선택에서 도메인 지식이 중요하다. 데이터의 의미와 맥락을 이해하면 더 좋은 특성을 만들고 선택할 수 있다.

2. 시각화 도구 활용: 데이터 시각화 도구(예: Matplotlib, Seaborn)를 사용하여 데이터 분포와 특성 간 관계를 이해하는 것이 중요하다.

3. 피드백 루프: 모델을 여러 번 반복적으로 훈련하고 평가하면서 특성 엔지니어링과 선택 과정을 지속적으로 개선해야 한다.

### 💡결론

1. 특성 엔지니어링과 특성 선택은 데이터 과학과 머신러닝에서 매우 중요한 과정이다.

2. 해당 과정들을 통해 데이터의 품질을 높이고, 모델의 성능을 극대화하며, 과적합을 방지할 수 있다.

3. 각각의 방법을 이해하고 적절히 활용하는 것이 성공적인 머신러닝 프로젝트의 핵심이다.

### 💡요약

1. 특성 엔지니어링 5단계: 데이터 이해 및 탐색 → 데이터 전처리 → 특성 변환 → 특성 생성 → 특성 선택

2. 특성 선택 3종류: 필터 방식, 래퍼 방식, 임베디드 방식

3. 중요한 이유: 성능 향상, 과적합 방지, 해석 용이성, 계산 효율성

### 추가: 머신러닝 파이프라인 (Machine Learning Pipeline)

1. 데이터 수집(Data Collection): 다양한 소스에서 데이터를 수집

2. 데이터 정제(Data Cleaning): 결측치 처리, 중복 제거, 이상치 처리 등

3. 데이터 통합(Data Integration): 여러 소스의 데이터를 통합

4. 데이터 변환(Data Transformation): 데이터 정규화, 스케일링, 로그 변환 등

5. 특성 엔지니어링(Feature Engineering): 유용한 특성 생성 및 변환

6. 특성 선택(Feature Selection): 중요한 특성 선택 및 불필요한 특성 제거

7. 데이터 분할(Data Splitting): 학습 데이터와 테스트 데이터로 분할

8. 모델 학습(Model Training): 머신러닝 모델을 학습 데이터로 훈련

9. 모델 평가(Model Evaluation): 테스트 데이터로 모델 성능 평가

### 추가: 데이터 전처리와 특성 엔지니어링과 머신러닝 파이프라인

1. 데이터 전처리(Data Preprocessing)

    - 데이터 전처리는 데이터의 품질을 향상시키기 위해 데이터를 준비하는 단계이다.

    - 전처리 단계에는 데이터 클렌징(결측치 처리, 이상치 제거 등), 데이터 변환(정규화, 스케일링 등), 데이터 통합 및 변환(데이터 병합, 피처 인코딩 등)이 포함된다.

2. 특성 엔지니어링(Feature Engineering)

    - 특성 엔지니어링은 모델의 성능을 향상시키기 위해 새로운 특성을 생성하거나 기존 특성을 변환하는 과정이다.

    - 특성 선택, 특성 추출, 특성 생성, 차원 축소 등의 작업이 포함된다.

    - 특성 엔지니어링은 전처리 과정을 포함하는데, 그 이유는 특성의 품질을 개선하기 위해 데이터 전처리 작업이 필수적이기 때문이다.

3. 머신러닝 파이프라인(Machine Learning Pipeline)

    - 머신러닝 파이프라인은 데이터 수집부터 모델 평가 및 배포까지의 전체 과정을 포함하는 일련의 작업 단계이다.

    - 파이프라인 단계에는 데이터 전처리, 특성 엔지니어링, 모델 학습, 모델 평가 및 배포 등이 포함된다.

4. 정리

    - 머신러닝 파이프라인: 가장 상위 개념으로, 데이터 전처리와 특성 엔지니어링을 모두 포함한다.

    - 특성 엔지니어링: 데이터 전처리 과정을 포함하여, 모델 성능을 향상시키기 위해 특성을 생성하거나 변환하는 작업을 수행한다.

    - 데이터 전처리: 특성 엔지니어링의 일부로서, 데이터 품질을 개선하는 다양한 작업을 수행한다.

    - 따라서, 특성 엔지니어링은 데이터 전처리를 포함하고 있으며, 데이터 전처리와 특성 엔지니어링 모두 머신러닝 파이프라인의 일부이다!

## 02 코드 실습: 원핫 인코딩 해보기

In [1]:
import numpy as np
import pandas as pd
import requests

In [2]:
from io import StringIO

In [3]:
url = 'https://raw.githubusercontent.com/datax-official/Machine-Learning/main/day27/cars.csv'

In [4]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
req = requests.get(url, headers = headers)
if req.status_code == 200:
    data = StringIO(req.text)
    df = pd.read_csv(data)
    df.head()
else:
    print('Error:', req.status_code)

In [5]:
df

Unnamed: 0,brand,km_driven,fuel,owner,selling_price
0,Maruti,145500,Diesel,First Owner,450000
1,Skoda,120000,Diesel,Second Owner,370000
2,Honda,140000,Petrol,Third Owner,158000
3,Hyundai,127000,Diesel,First Owner,225000
4,Maruti,120000,Petrol,First Owner,130000
...,...,...,...,...,...
8123,Hyundai,110000,Petrol,First Owner,320000
8124,Hyundai,119000,Diesel,Fourth & Above Owner,135000
8125,Maruti,120000,Diesel,First Owner,382000
8126,Tata,25000,Diesel,First Owner,290000


In [6]:
df['brand'].value_counts()

brand
Maruti           2448
Hyundai          1415
Mahindra          772
Tata              734
Toyota            488
Honda             467
Ford              397
Chevrolet         230
Renault           228
Volkswagen        186
BMW               120
Skoda             105
Nissan             81
Jaguar             71
Volvo              67
Datsun             65
Mercedes-Benz      54
Fiat               47
Audi               40
Lexus              34
Jeep               31
Mitsubishi         14
Force               6
Land                6
Isuzu               5
Kia                 4
Ambassador          4
Daewoo              3
MG                  3
Ashok               1
Opel                1
Peugeot             1
Name: count, dtype: int64

In [7]:
df['fuel'].value_counts()

fuel
Diesel    4402
Petrol    3631
CNG         57
LPG         38
Name: count, dtype: int64

In [8]:
df['owner'].value_counts()

owner
First Owner             5289
Second Owner            2105
Third Owner              555
Fourth & Above Owner     174
Test Drive Car             5
Name: count, dtype: int64

In [9]:
pd.get_dummies(df, columns=['owner','fuel'])

Unnamed: 0,brand,km_driven,selling_price,owner_First Owner,owner_Fourth & Above Owner,owner_Second Owner,owner_Test Drive Car,owner_Third Owner,fuel_CNG,fuel_Diesel,fuel_LPG,fuel_Petrol
0,Maruti,145500,450000,True,False,False,False,False,False,True,False,False
1,Skoda,120000,370000,False,False,True,False,False,False,True,False,False
2,Honda,140000,158000,False,False,False,False,True,False,False,False,True
3,Hyundai,127000,225000,True,False,False,False,False,False,True,False,False
4,Maruti,120000,130000,True,False,False,False,False,False,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...
8123,Hyundai,110000,320000,True,False,False,False,False,False,False,False,True
8124,Hyundai,119000,135000,False,True,False,False,False,False,True,False,False
8125,Maruti,120000,382000,True,False,False,False,False,False,True,False,False
8126,Tata,25000,290000,True,False,False,False,False,False,True,False,False


In [10]:
pd.get_dummies(df,columns=['fuel','owner'],drop_first=True)

Unnamed: 0,brand,km_driven,selling_price,fuel_Diesel,fuel_LPG,fuel_Petrol,owner_Fourth & Above Owner,owner_Second Owner,owner_Test Drive Car,owner_Third Owner
0,Maruti,145500,450000,True,False,False,False,False,False,False
1,Skoda,120000,370000,True,False,False,False,True,False,False
2,Honda,140000,158000,False,False,True,False,False,False,True
3,Hyundai,127000,225000,True,False,False,False,False,False,False
4,Maruti,120000,130000,False,False,True,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...
8123,Hyundai,110000,320000,False,False,True,False,False,False,False
8124,Hyundai,119000,135000,True,False,False,True,False,False,False
8125,Maruti,120000,382000,True,False,False,False,False,False,False
8126,Tata,25000,290000,True,False,False,False,False,False,False


In [11]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df.iloc[:,0:4], df.iloc[:,-1], test_size=0.2, random_state=0)

In [14]:
from sklearn.preprocessing import OneHotEncoder

X_train

Unnamed: 0,brand,km_driven,fuel,owner
3042,Hyundai,60000,LPG,First Owner
1520,Tata,150000,Diesel,Third Owner
2611,Hyundai,110000,Diesel,Second Owner
3544,Mahindra,28000,Diesel,Second Owner
4138,Maruti,15000,Petrol,First Owner
...,...,...,...,...
4931,Tata,70000,Diesel,Third Owner
3264,Ford,100000,Diesel,Second Owner
1653,Hyundai,90000,Petrol,Second Owner
2607,Volkswagen,90000,Diesel,First Owner


In [15]:
X_test

Unnamed: 0,brand,km_driven,fuel,owner
3558,Hyundai,40000,Diesel,First Owner
233,Mahindra,70000,Diesel,First Owner
7952,Maruti,5000,Petrol,First Owner
572,Maruti,120000,Petrol,Third Owner
6960,Lexus,20000,Petrol,First Owner
...,...,...,...,...
7576,Fiat,100000,Diesel,Third Owner
1484,Maruti,120000,Petrol,Third Owner
1881,Maruti,40000,Diesel,First Owner
4917,Hyundai,2350,Petrol,First Owner


문제 발생 및 해결 방법: OneHotEncoder에서 sparse 매개변수가 sparse_output으로 변경되었다.

In [20]:
ohe = OneHotEncoder(drop='first',sparse_output=False,dtype=np.int32)

In [21]:
X_train_new = ohe.fit_transform(X_train[['fuel','owner']])

In [22]:
X_test_new = ohe.transform(X_test[['fuel','owner']])

In [23]:
X_train_new.shape

(6502, 7)

In [24]:
np.hstack((X_train[['brand','km_driven']].values,X_train_new))

array([['Hyundai', 60000, 0, ..., 0, 0, 0],
       ['Tata', 150000, 1, ..., 0, 0, 1],
       ['Hyundai', 110000, 1, ..., 1, 0, 0],
       ...,
       ['Hyundai', 90000, 0, ..., 1, 0, 0],
       ['Volkswagen', 90000, 1, ..., 0, 0, 0],
       ['Hyundai', 110000, 0, ..., 0, 0, 0]], dtype=object)

In [25]:
counts = df['brand'].value_counts()

In [26]:
df['brand'].nunique()
threshold = 100

In [27]:
repl = counts[counts <= threshold].index

In [28]:
pd.get_dummies(df['brand'].replace(repl, 'uncommon')).sample(5)

Unnamed: 0,BMW,Chevrolet,Ford,Honda,Hyundai,Mahindra,Maruti,Renault,Skoda,Tata,Toyota,Volkswagen,uncommon
7911,False,False,False,False,False,False,False,True,False,False,False,False,False
1462,False,False,False,False,False,False,True,False,False,False,False,False,False
2017,False,False,False,False,True,False,False,False,False,False,False,False,False
4487,False,False,False,False,False,False,False,False,False,True,False,False,False
4292,False,False,False,False,False,False,True,False,False,False,False,False,False


## 03 참고 링크

https://www.kaggle.com/code/datascientist97/one-hot-encoding-cars-dataset

https://bommbom.tistory.com/entry/%ED%94%BC%EC%B2%98-%EC%97%94%EC%A7%80%EB%8B%88%EC%96%B4%EB%A7%81Feature-engineering-%EB%B0%A9%EB%B2%95

https://velog.io/@im_ngooh/Day-39-40-feature-engingeering

https://double-d.tistory.com/38

https://revieworlds.com/17