## One-Hot Encoding

### 1. Pandas

In [None]:
import pandas as pd

data = {'팀': ['Yankees', 'Red Sox', 'Dodgers', 'Yankees', 'Dodgers']}
df = pd.DataFrame(data)
df

Unnamed: 0,팀
0,Yankees
1,Red Sox
2,Dodgers
3,Yankees
4,Dodgers


In [None]:
encoded_df = pd.get_dummies(df, columns=['팀'], prefix='팀').astype(int)

encoded_df

Unnamed: 0,팀_Dodgers,팀_Red Sox,팀_Yankees
0,0,0,1
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0


### 2. Scikit-Learn

In [None]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(sparse_output=False)
encoded_array = encoder.fit_transform(df[["팀"]])
encoded_df = pd.DataFrame(encoded_array.astype(int), columns=encoder.get_feature_names_out(['팀']))

encoded_df

Unnamed: 0,팀_Dodgers,팀_Red Sox,팀_Yankees
0,0,0,1
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0


### 3. 수동 구현

In [None]:
categories = sorted(df['팀'].unique())

for category in categories:
    df[f'팀_{category}'] = (df['팀'] == category).astype(int)

df.drop(columns=['팀'], axis=1, inplace=True)
df

Unnamed: 0,팀_Dodgers,팀_Red Sox,팀_Yankees
0,0,0,1
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0


Pandas
- 가장 쉽고 직관적이며 데이터프레임 생성이 간편함
- 열 순서를 강제로 설정하기 어려움

Scikit-Learn
- 모델 학습과 연동이 쉽고, 여러 열에 적용 가능
- 다소 복잡하며, 배열을 데이터프레임으로 변환 필요

수동 구현
- 커스텀 로직 쉽게 추가 가능
- 데이터 많으면 코드 길어질 수 있음



