# 텍스트 인코딩
<pre>
경마장에 있는 말이 뛰고 있다
그의 말이 법이다
가는 말이 고와야 오는 말이 곱다
</pre>

In [1]:
text = '''경마장에 있는 말이 뛰고 있다
그의 말이 법이다
가는 말이 고와야 오는 말이 곱다'''

### Bag of Words (Scikit-Learn)

- CountVectorizer

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

cvect = CountVectorizer()
cvect.fit([text])

CountVectorizer()

In [3]:
cvect.vocabulary_

{'경마장에': 1,
 '있는': 9,
 '말이': 6,
 '뛰고': 5,
 '있다': 10,
 '그의': 4,
 '법이다': 7,
 '가는': 0,
 '고와야': 2,
 '오는': 8,
 '곱다': 3}

In [4]:
cvect.transform(['가는 말이 고와야 오는 말이 곱다']).toarray()

array([[1, 0, 1, 1, 0, 0, 2, 0, 1, 0, 0]])

- TfidfVectorizer

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer

tvect = TfidfVectorizer()
tvect.fit([text])

TfidfVectorizer()

In [6]:
tvect.vocabulary_

{'경마장에': 1,
 '있는': 9,
 '말이': 6,
 '뛰고': 5,
 '있다': 10,
 '그의': 4,
 '법이다': 7,
 '가는': 0,
 '고와야': 2,
 '오는': 8,
 '곱다': 3}

In [7]:
tvect.transform(['가는 말이 고와야 오는 말이 곱다']).toarray()

array([[0.35355339, 0.        , 0.35355339, 0.35355339, 0.        ,
        0.        , 0.70710678, 0.        , 0.35355339, 0.        ,
        0.        ]])

- N-gram

In [9]:
cvect2 = CountVectorizer(ngram_range=(1,2))
cvect2.fit([text])

CountVectorizer(ngram_range=(1, 2))

In [10]:
cvect2.vocabulary_

{'경마장에': 2,
 '있는': 20,
 '말이': 11,
 '뛰고': 9,
 '있다': 22,
 '그의': 7,
 '법이다': 16,
 '가는': 0,
 '고와야': 4,
 '오는': 18,
 '곱다': 6,
 '경마장에 있는': 3,
 '있는 말이': 21,
 '말이 뛰고': 14,
 '뛰고 있다': 10,
 '있다 그의': 23,
 '그의 말이': 8,
 '말이 법이다': 15,
 '법이다 가는': 17,
 '가는 말이': 1,
 '말이 고와야': 12,
 '고와야 오는': 5,
 '오는 말이': 19,
 '말이 곱다': 13}

In [11]:
cvect2.transform(['가는 말이 고와야 오는 말이 곱다']).toarray()

array([[1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 2, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0,
        0, 0]])

### Keras encoding

In [12]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

- 단어 집합 생성
    - 단어 순서가 가나다 순서가 아니고, 많이 나온 단어 순
    - 인덱스 0이 없음

In [13]:
t = Tokenizer()
t.fit_on_texts([text])

In [14]:
t.index_word

{1: '말이',
 2: '경마장에',
 3: '있는',
 4: '뛰고',
 5: '있다',
 6: '그의',
 7: '법이다',
 8: '가는',
 9: '고와야',
 10: '오는',
 11: '곱다'}

- 단어 집합 크기: 전체 갯수에 1을 더한 값

In [15]:
vocab_size = len(t.index_word) + 1
vocab_size

12

- 문장을 인코딩(숫자로 표현)

In [16]:
t.texts_to_sequences(['그의 말이 법이다'])

[[6, 1, 7]]

In [17]:
sequences = []
for sentence in text.split('\n'):
    encoded = t.texts_to_sequences([sentence])[0]
    sequences.append(encoded)
print(sequences)

[[2, 3, 1, 4, 5], [6, 1, 7], [8, 1, 9, 10, 1, 11]]


In [18]:
max_len = max(len(seq) for seq in sequences)
max_len

6

- Padding
    - RNN에서 사용될 경우에 길이가 같아야 됨
    - 전체 샘플 길이를 max_len에 맞춰 주어야 함
    - 필요한 갯수만큼 0을 추가
    - pre option을 주면 앞쪽을 채움(default)

In [19]:
pad_seq = pad_sequences(sequences, maxlen=max_len)
pad_seq

array([[ 0,  2,  3,  1,  4,  5],
       [ 0,  0,  0,  6,  1,  7],
       [ 8,  1,  9, 10,  1, 11]], dtype=int32)

In [20]:
pad_sequences(sequences, maxlen=max_len, padding='post')

array([[ 2,  3,  1,  4,  5,  0],
       [ 6,  1,  7,  0,  0,  0],
       [ 8,  1,  9, 10,  1, 11]], dtype=int32)