원-핫 인코딩은 범주형 변수를 이진 벡터로 표현하는 방법입니다. 이 기법은 순서 관계가 없는 범주형 데이터를 다룰 때 머신러닝에서 유용하게 사용됩니다.
원-핫 인코딩에서 각 범주는 범주의 수와 같은 길이를 가진 이진 벡터로 표현됩니다. 이 벡터는 해당 범주에 해당하는 인덱스에서는 1의 값을, 다른 모든 인덱스에서는 0의 값을 갖습니다.
예를 들어, 0, 1, 2 세 가지 범주가 있다면, 원-핫 인코딩된 벡터는 다음과 같습니다:

0: [1,0,0]
1: [0,1,0]
2: [0,0,1]

이 방법은 모델이 범주 간에 순서 관계를 가정하지 않도록 보장합니다. 이는 많은 머신러닝 알고리즘에서 중요합니다.

In [5]:
import numpy as np

def to_categorical(x, n_col=None):
    if not n_col:
        n_col = np.amax(x) + 1
    one_hot = np.zeros((x.shape[0], n_col))
    one_hot[np.arange(x.shape[0]), x] = 1
    return one_hot

x = np.array([0, 1, 2, 1, 0])
output = to_categorical(x)
print(output)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]]


`one_hot[np.arange(x.shape[0]), x] = 1`

np.arange(x.shape[0])는 0부터 x.shape[0]-1까지의 인덱스 배열을 생성합니다.


이 인덱스 배열과 x의 값을 사용하여 one_hot 배열의 해당 위치에 1을 할당합니다.

In [10]:
np.amax(x) # array max 값

2

In [16]:
x.shape[0]

5

In [14]:
np.arange(x.shape[0])

array([0, 1, 2, 3, 4])