# Unit 18. 텍스트 인코딩
    '경마장에 있는 말이 뛰고 있다‘
    '그의 말이 법이다‘
    '가는 말이 고와야 오는 말이 곱다'

In [1]:
text = '''경마장에 있는 말이 뛰고 있다.
그의 말이 법이다.
가는 말이 고와야 오는 말이 곱다.'''

### Bag of Words
- CountVectorizer

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

cvect = CountVectorizer()
cvect.fit([text])

CountVectorizer()

In [3]:
cvect.vocabulary_

{'가는': 0,
 '경마장에': 1,
 '고와야': 2,
 '곱다': 3,
 '그의': 4,
 '뛰고': 5,
 '말이': 6,
 '법이다': 7,
 '오는': 8,
 '있는': 9,
 '있다': 10}

In [4]:
cvect.transform(['가는 말이 고와야 오는 말이 곱다.']).toarray()

array([[1, 0, 1, 1, 0, 0, 2, 0, 1, 0, 0]])

- TfidfVectorizer

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer

tvect = TfidfVectorizer()
tvect.fit([text])

TfidfVectorizer()

In [6]:
tvect.vocabulary_

{'가는': 0,
 '경마장에': 1,
 '고와야': 2,
 '곱다': 3,
 '그의': 4,
 '뛰고': 5,
 '말이': 6,
 '법이다': 7,
 '오는': 8,
 '있는': 9,
 '있다': 10}

In [7]:
tvect.transform(['가는 말이 고와야 오는 말이 곱다.']).toarray()

array([[0.35355339, 0.        , 0.35355339, 0.35355339, 0.        ,
        0.        , 0.70710678, 0.        , 0.35355339, 0.        ,
        0.        ]])

- N-gram

In [8]:
cvect2 = CountVectorizer(ngram_range=(1,2))
cvect2.fit([text])

CountVectorizer(ngram_range=(1, 2))

In [9]:
cvect2.vocabulary_

{'가는': 0,
 '가는 말이': 1,
 '경마장에': 2,
 '경마장에 있는': 3,
 '고와야': 4,
 '고와야 오는': 5,
 '곱다': 6,
 '그의': 7,
 '그의 말이': 8,
 '뛰고': 9,
 '뛰고 있다': 10,
 '말이': 11,
 '말이 고와야': 12,
 '말이 곱다': 13,
 '말이 뛰고': 14,
 '말이 법이다': 15,
 '법이다': 16,
 '법이다 가는': 17,
 '오는': 18,
 '오는 말이': 19,
 '있는': 20,
 '있는 말이': 21,
 '있다': 22,
 '있다 그의': 23}

In [10]:
cvect2.transform(['가는 말이 고와야 오는 말이 곱다.']).toarray()

array([[1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 2, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0,
        0, 0]])

### Keras encoding

In [11]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

- 단어 집합 생성

In [12]:
t = Tokenizer()
t.fit_on_texts([text])

- 특징
    1. 단어 순서가 가나다 순서가 아니고, 많이 나온 단어 순이다.
    2. 0 index가 없다.

In [13]:
t.index_word

{1: '말이',
 2: '경마장에',
 3: '있는',
 4: '뛰고',
 5: '있다',
 6: '그의',
 7: '법이다',
 8: '가는',
 9: '고와야',
 10: '오는',
 11: '곱다'}

- 단어 집합 크기 - Keras Tokenizer의 시작 인덱스가 1이기 때문

In [14]:
vocab_size = len(t.index_word) + 1
vocab_size

12

- 문장을 숫자로 표현

In [15]:
t.texts_to_sequences(['그의 말이 법이다.'])

[[6, 1, 7]]

In [16]:
sequences = []
for line in text.split('\n'):
    encoded = t.texts_to_sequences([line])[0]
    sequences.append(encoded)
print(sequences)

[[2, 3, 1, 4, 5], [6, 1, 7], [8, 1, 9, 10, 1, 11]]


In [17]:
max_len = max(len(seq) for seq in sequences)
max_len

6

- Padding
    - 전체 샘플 길이를 max_len에 맞추도록 0를 추가
    - pre 옵션을 주면 앞쪽을 채움(default)

In [19]:
pad_seq = pad_sequences(sequences, maxlen=max_len)
pad_seq

array([[ 0,  2,  3,  1,  4,  5],
       [ 0,  0,  0,  6,  1,  7],
       [ 8,  1,  9, 10,  1, 11]], dtype=int32)

In [20]:
pad_seq = pad_sequences(sequences, maxlen=max_len, padding='post')
pad_seq

array([[ 2,  3,  1,  4,  5,  0],
       [ 6,  1,  7,  0,  0,  0],
       [ 8,  1,  9, 10,  1, 11]], dtype=int32)