In [1]:
# 라이브러리 정의
# 형태소분석기 사용
from konlpy.tag import Okt

In [2]:
# 객체 생성
okt = Okt()

In [3]:
# 데이터 정의
text = "나는 자연어 처리를 배운다"

In [4]:
# 단어 토큰화하기
# 형태소분석
tokens = okt.morphs(text)
print(tokens)

['나', '는', '자연어', '처리', '를', '배운다']


In [13]:
# 정수 인코딩된 단어집합 생성
word_to_index = {}
for i,word in enumerate(tokens):
        word_to_index[word] = i
print(word_to_index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [18]:
word_to_index = {word : index for index, word in enumerate(tokens)}

In [6]:
# 원-핫 인코딩하기
# 원-핫 인코딩할 단어 정의
word = "자연어"

# 단어집합의 리스트 사이즈만큼 0으로 채운 빈 리스트 생성
one_hot_vector = [0]*(len(word_to_index))
print(one_hot_vector)

[0, 0, 0, 0, 0, 0]


In [7]:
# 원-핫 인코딩할 단어값(word)을 key로해 정수값 value 조회
index = word_to_index[word]
print(index)

2


In [9]:
### 빈 리스트의 index 위치의 값을 1로 수정하기
one_hot_vector[index] = 1
print(one_hot_vector)

[0, 0, 1, 0, 0, 0]


In [25]:
# 함수만들기
# 함수이름 : one_hot_encoding
# 6개 단어 수행
# 최종 원-핫 인코딩 결과값 변수 : one_hot_data
def one_hot_encoding(word_to_index):
    one_hot_data = []
    word_to_index_list = list(word_to_index.keys())
    for word in word_to_index_list:
        one_hot_vector = [0]*(len(word_to_index_list))
        index = word_to_index[word]
        one_hot_vector[index] = 1
        one_hot_data.append(one_hot_vector)
    return one_hot_data
one_hot_encoding(word_to_index)

[[1, 0, 0, 0, 0, 0],
 [0, 1, 0, 0, 0, 0],
 [0, 0, 1, 0, 0, 0],
 [0, 0, 0, 1, 0, 0],
 [0, 0, 0, 0, 1, 0],
 [0, 0, 0, 0, 0, 1]]

In [26]:
# keras의 원-핫 인코딩 라이브러리
# to_categorical()
# 라이브러리 정의
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

In [39]:
# 데이터 정의
text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [43]:
# 정수인코딩(1부터 시작)

# 토큰화 객체 생성
tokenizer = Tokenizer()

# fit_on_texts() : 단어 빈도수 계산 및 내림차순 정렬
# 정수인코딩까지 모두 수행
tokenizer.fit_on_texts([text])

# 정수인코딩 데이터 조회
print(tokenizer.word_index)

# 원본 데이터를 정수값으로 변환
encoded = tokenizer.texts_to_sequences([text])[0]
print(encoded)

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}
[4, 2, 5, 1, 2, 6, 3, 1, 1, 3, 7]


In [44]:
# 원-핫 인코딩
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]
