*tool - jupyter notebook (python=3.6)

# 단어의 표현 (Word Representation)
- 단어의 표현: 문자를 수치화하는 방법으로 자연어 처리에 필수
- Local Representation (통계 기반): 단어만을 보고 수치화
    + One-hot Encoding
    + N-gram
    + Count Based (BoW, TDM, TF-IDF)
- Distributed Representation (딥러닝 기반): 주변단어 참고하여 수치화
    + Prediction Based (Word2Vec, FastText)
    + Count Based (Windows-GloVe, Full Document-LSA)

## 원핫 인코딩 (One-hot encoding)
- 각각의 벡터를 one-hot vector
- 구현 방법
    + 1. 직접 구현하기
    + 2. sklearn
- 단점
    + 차원의 문제: 표현하고자 하는 단어 증가 > 차원수도 증가
    + 벡터가 단어의 의미를 담지 못함

## 1. 직접 구현하기

In [1]:
# 인코딩 대상 단어를 담은 리스트
word_ls = ['원숭이','바나나','사과','코끼리']

In [2]:
from collections import defaultdict
import numpy as np

In [3]:
# {단어:인덱스} 사전구축
word2id_dic = defaultdict(lambda:len(word2id_dic))    # 사전 내 각 단어마다 인덱스 부여
                                                        # len()만큼 딕셔너리 길이를 만들어줌 > 단어 추가할 때 편리
for word in word_ls:
    word2id_dic[word]

word2id_dic

defaultdict(<function __main__.<lambda>()>,
            {'원숭이': 0, '바나나': 1, '사과': 2, '코끼리': 3})

In [4]:
# 고유단어갯수 : 4개
# n_unique_words = len(word2id_dic)

In [5]:
# 원핫 벡터를 만들기 위해 비어있는 벡터 생성
# one_hot_vectors = np.zeros((len(word_ls), n_unique_words))
one_hot_vectors = np.zeros((len(word_ls), len(word_ls)))
one_hot_vectors

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [6]:
# 단어고유 인덱스
for i, word in enumerate(word_ls):
    index = word2id_dic[word]
    one_hot_vectors[i,index] += 1  # 단어 고유 인덱스에 1을 더해줌.
one_hot_vectors

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [7]:
word2id_dic['원숭이']

0

## 2. sklearn을 활용한 원핫인코딩
- 1) 배열형태로
- 2) 라벨 인코더 부분으로(선언>value넣기)
- 3) 원핫 인코더 부분으로(인덱스>원핫인코더로)
- ref. https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

In [8]:
# !pip install sklearn

In [9]:
# sklearn을 활용한 one-hot-encoding
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

In [10]:
# 예제 데이터 배열 
values = array(word_ls)
values

array(['원숭이', '바나나', '사과', '코끼리'], dtype='<U3')

In [11]:
# 문자열에 숫자를 붙임
label_enc = LabelEncoder()    # 선언
int_enc = label_enc.fit_transform(values)
int_enc

array([2, 0, 1, 3], dtype=int64)

In [12]:
# binary encode
onehot_enc = OneHotEncoder(sparse = False)     # 선언   # False 하면 array 형태로 만든다
int_enc = int_enc.reshape(len(int_enc), 1)     # n:1 matrix로 변환
print(int_enc)                                 
onehot_enc = onehot_enc.fit_transform(int_enc)
onehot_enc

[[2]
 [0]
 [1]
 [3]]


array([[0., 0., 1., 0.],
       [1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 0., 1.]])