# 텍스트의 수치화
컴퓨터는 텍스트 보다 숫자를 더 잘 처리하기 때문에 자연어 처리 분야에서 텍스트를 숫자로 바꾸는 여러가지 기법들이 있습니다 😁

* Integer Encoding
 - 단어 토큰화 또는 형태소 토큰화를 수행했다면 각 단어에 고유한 정수를 부여하는 방법
 - 중복이 허용되지 않는 모든 단어들의 집합을 만들어 냅니다. 이를 단어 집합( Vocabulary )라고 해요
* Padding
 - 모든 문장에 대해서 정수 인코딩을 수행했을 때 문장마다의 길이는 다를 수 있죠!
 - 이 때 가상의 단어를 만들어 길이를 추가해 줍니다. 이를 패딩 작업이라고 해요!
* Vectorization
 - One-Hot Encoding
   - 전체 단어 집합의 크기를 벡터의 차원으로 갖습니다
   - 각 단어에 고유한 정수 인덱스를 부여하고, 해당 인덱스의 원소는 1, 나머지 원소는 0을 가지는 벡터로 만들죠
 - Document Term Matrix ( DTM )
   - 각 단어에 고유한 인덱스를 부여한 후에, 문서 마다 해당 단어게 등장한 **횟수**를 인덱스의 값으로 가집니다
 - TF-IDF ( Term Frequency - Inverse Document Frequency )
   - 단어 빈도 - 역 문서 빈도 입니다
   - TF와 IDF 라는 값을 곱한 것입니다.
   - 문서의 유사도, 검색 시스템에서 검색 결과의 순위 등을 구하는 일에 사용됩니다
   - 인공 신경망의 입력으로 사용합니다



# Integer Encoding
문장을 단어 토큰화, 또는 형태소 토큰화를 진행하면 각 단어 및 형태소들을 얻어 낼 수 있는데요, Integer Encoding은 아주 단순히 문장을 구성하는 단어들에 대해 숫자를 부여했다고 생각하면 됩니다.

보통 ABC( 또는 가나다 ) 순, 또는 빈도가 높은 순으로 순서를 구성합니다 😄

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

## [English] Sentence Tokenization

In [None]:
from nltk.tokenize import sent_tokenize

text = """Isn't she lovely.
Isn't she wonderful.
Isn't she precious.
Less than one minute old.
I never thought through love we'd be.
Making one as lovely as she.
But isn't she lovely made from love.
Isn't she pretty.
Truly the angel's best.
Boy, I'm so happy.
We have been heaven blessed.
I can't believe what God has done.
Through us he's given life to one.
But isn't she lovely made from love.
Isn't she lovely.
Life and love are the same.
Life is Aisha.
The meaning of her name.
Londie, it could have not been done.
Without you who conceived the one.
That's so very lovely made from love."""

text = sent_tokenize(text)
print(text)

["Isn't she lovely.", "Isn't she wonderful.", "Isn't she precious.", 'Less than one minute old.', "I never thought through love we'd be.", 'Making one as lovely as she.', "But isn't she lovely made from love.", "Isn't she pretty.", "Truly the angel's best.", "Boy, I'm so happy.", 'We have been heaven blessed.', "I can't believe what God has done.", "Through us he's given life to one.", "But isn't she lovely made from love.", "Isn't she lovely.", 'Life and love are the same.', 'Life is Aisha.', 'The meaning of her name.', 'Londie, it could have not been done.', 'Without you who conceived the one.', "That's so very lovely made from love."]


## [English] Word Tokenization

In [None]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize  

sentences = []
stop_words = set(stopwords.words('english')) # NLTK 불용어

for i in text:
    sentence = word_tokenize(i) # 단어 토큰화
    result = []

    for word in sentence: 
        word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄입니다.
        print
        if word not in stop_words: # 불용어를 제거합니다.
            if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거합니다.
                result.append(word)
    sentences.append(result) 
print(sentences)

[["n't", 'lovely'], ["n't", 'wonderful'], ["n't", 'precious'], ['less', 'one', 'minute', 'old'], ['never', 'thought', 'love'], ['making', 'one', 'lovely'], ["n't", 'lovely', 'made', 'love'], ["n't", 'pretty'], ['truly', 'angel', 'best'], ['boy', 'happy'], ['heaven', 'blessed'], ["n't", 'believe', 'god', 'done'], ['given', 'life', 'one'], ["n't", 'lovely', 'made', 'love'], ["n't", 'lovely'], ['life', 'love'], ['life', 'aisha'], ['meaning', 'name'], ['londie', 'could', 'done'], ['without', 'conceived', 'one'], ['lovely', 'made', 'love']]


## [English] 단어 집합 만들기 ( Python )
단어 집합이란 중복을 제거한 단어들의 집합입니다.

In [None]:
from collections import Counter
words = sum(sentences, [])
print(words)

["n't", 'lovely', "n't", 'wonderful', "n't", 'precious', 'less', 'one', 'minute', 'old', 'never', 'thought', 'love', 'making', 'one', 'lovely', "n't", 'lovely', 'made', 'love', "n't", 'pretty', 'truly', 'angel', 'best', 'boy', 'happy', 'heaven', 'blessed', "n't", 'believe', 'god', 'done', 'given', 'life', 'one', "n't", 'lovely', 'made', 'love', "n't", 'lovely', 'life', 'love', 'life', 'aisha', 'meaning', 'name', 'londie', 'could', 'done', 'without', 'conceived', 'one', 'lovely', 'made', 'love']


In [None]:
vocab = Counter(words) # 파이썬의 Counter 모듈을 이용하면 단어의 모든 빈도를 쉽게 계산할 수 있습니다.
print(vocab)

Counter({"n't": 8, 'lovely': 6, 'love': 5, 'one': 4, 'made': 3, 'life': 3, 'done': 2, 'wonderful': 1, 'precious': 1, 'less': 1, 'minute': 1, 'old': 1, 'never': 1, 'thought': 1, 'making': 1, 'pretty': 1, 'truly': 1, 'angel': 1, 'best': 1, 'boy': 1, 'happy': 1, 'heaven': 1, 'blessed': 1, 'believe': 1, 'god': 1, 'given': 1, 'aisha': 1, 'meaning': 1, 'name': 1, 'londie': 1, 'could': 1, 'without': 1, 'conceived': 1})


In [None]:
print(vocab["lovely"]) # 'lovely'라는 단어의 빈도수 출력

6


## [English] Integer Encoding( Python )
가나다 순, 또는 빈도 내림 차순으로 정렬하여 각 단어에 중복되지 않는 정수를 부여합니다

In [None]:
# 빈도수가 높은 순서대로 정렬
vocab_sorted = sorted(vocab.items(), key = lambda x:x[1], reverse = True)
print(vocab_sorted)

[("n't", 8), ('lovely', 6), ('love', 5), ('one', 4), ('made', 3), ('life', 3), ('done', 2), ('wonderful', 1), ('precious', 1), ('less', 1), ('minute', 1), ('old', 1), ('never', 1), ('thought', 1), ('making', 1), ('pretty', 1), ('truly', 1), ('angel', 1), ('best', 1), ('boy', 1), ('happy', 1), ('heaven', 1), ('blessed', 1), ('believe', 1), ('god', 1), ('given', 1), ('aisha', 1), ('meaning', 1), ('name', 1), ('londie', 1), ('could', 1), ('without', 1), ('conceived', 1)]


In [None]:
# 이제 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스를 부여합니다.
word2idx = {}
i=0
for (word, frequency) in vocab_sorted :
    if frequency > 1 : # 정제(Cleaning) 챕터에서 언급했듯이 빈도수가 적은 단어는 제외한다.
        i = i+1
        word2idx[word] = i
print(word2idx)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5, 'life': 6, 'done': 7}


단어를 모두 사용하는 것이 아닌, 빈도수가 가장 높은 n개의 단어만 사용하고 싶은 경우가 있습니다! 위 단어들은 빈도수가 높은 순으로 낮은 정수가 부여되어 있기 때문에 상위 빈도수 n개만 사용하고 싶으면 `vocab`에서 정수값이 1부터 n개 까지인 단어들만 사용하면 됩니다! 5개만 사용한다고 가정해 보겠습니다

In [None]:
vocab_size = 5
words_frequency = [w for w,c in word2idx.items() if c >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
for w in words_frequency:
    del word2idx[w] # 해당 단어에 대한 인덱스 정보를 삭제

In [None]:
print(word2idx)

NameError: ignored

위 단어 집합을 이용해 정수 인코딩을 진행해 보겠습니다. 들어 가기 전 제일 마지막에 `UNK` 토큰을 추가해 줄 텐데요, `UNK`는 UnKnown의 약자로써 단어 집합에 없는 단어를 의미합니다. 또는 `OOV`(Out of Vocabulary)라고도 합니다.

In [None]:
word2idx['UNK'] = 6
print(word2idx)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5, 'UNK': 6}


In [None]:
encoded = []
for s in sentences:
    temp = []
    for w in s:
        try:
            temp.append(word2idx[w])
        except KeyError:
            temp.append(word2idx['UNK'])
    encoded.append(temp)
print("변환 전 : {}".format(sentences[:5]))
print("변환 후 : {}".format(encoded[:5]))

변환 전 : [["n't", 'lovely'], ["n't", 'wonderful'], ["n't", 'precious'], ['less', 'one', 'minute', 'old'], ['never', 'thought', 'love']]
변환 후 : [[1, 2], [1, 6], [1, 6], [6, 4, 6, 6], [6, 6, 3]]


## [English] Vocab & Integer Encoding (Tensorflow)
텐서플로우를 이용해 훨씬 쉽게 단어 집합을 만들고, 정수 인코딩을 할 수 있습니다

In [None]:
print(sentences)

[["n't", 'lovely'], ["n't", 'wonderful'], ["n't", 'precious'], ['less', 'one', 'minute', 'old'], ['never', 'thought', 'love'], ['making', 'one', 'lovely'], ["n't", 'lovely', 'made', 'love'], ["n't", 'pretty'], ['truly', 'angel', 'best'], ['boy', 'happy'], ['heaven', 'blessed'], ["n't", 'believe', 'god', 'done'], ['given', 'life', 'one'], ["n't", 'lovely', 'made', 'love'], ["n't", 'lovely'], ['life', 'love'], ['life', 'aisha'], ['meaning', 'name'], ['londie', 'could', 'done'], ['without', 'conceived', 'one'], ['lovely', 'made', 'love']]


텐서플로우는 정수 인코딩을 수행하는 전처리 도구인 `keras.preprocessing.text.Tokenizer`를 제공합니다.

`fit_on_texts`는 입력한 텍스트로부터 단어 빈도수가 높은 순으로 낮은 정수 인덱스를 부여하는데, 정확히 앞서 설명한 정수 인코딩 작업이 이루어진다고 보면됩니다. 각 단어에 인덱스가 어떻게 부여되었는지를 보려면, `word_index`를 사용합니다.

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) # fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.

print(tokenizer.word_index)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5, 'life': 6, 'done': 7, 'wonderful': 8, 'precious': 9, 'less': 10, 'minute': 11, 'old': 12, 'never': 13, 'thought': 14, 'making': 15, 'pretty': 16, 'truly': 17, 'angel': 18, 'best': 19, 'boy': 20, 'happy': 21, 'heaven': 22, 'blessed': 23, 'believe': 24, 'god': 25, 'given': 26, 'aisha': 27, 'meaning': 28, 'name': 29, 'londie': 30, 'could': 31, 'without': 32, 'conceived': 33}


In [None]:
# 각 단어의 빈도수 확인하기
print(tokenizer.word_counts)

OrderedDict([("n't", 8), ('lovely', 6), ('wonderful', 1), ('precious', 1), ('less', 1), ('one', 4), ('minute', 1), ('old', 1), ('never', 1), ('thought', 1), ('love', 5), ('making', 1), ('made', 3), ('pretty', 1), ('truly', 1), ('angel', 1), ('best', 1), ('boy', 1), ('happy', 1), ('heaven', 1), ('blessed', 1), ('believe', 1), ('god', 1), ('done', 2), ('given', 1), ('life', 3), ('aisha', 1), ('meaning', 1), ('name', 1), ('londie', 1), ('could', 1), ('without', 1), ('conceived', 1)])


In [None]:
# 입력으로 들어온 코퍼스에 대해 각 단어를 이미 정해진 인덱스로 변환 시킨다 ( 정수 인코딩 )
print(tokenizer.texts_to_sequences(sentences))

[[1, 2], [1, 8], [1, 9], [10, 4, 11, 12], [13, 14, 3], [15, 4, 2], [1, 2, 5, 3], [1, 16], [17, 18, 19], [20, 21], [22, 23], [1, 24, 25, 7], [26, 6, 4], [1, 2, 5, 3], [1, 2], [6, 3], [6, 27], [28, 29], [30, 31, 7], [32, 33, 4], [2, 5, 3]]


케라스의 `Tokenizer`의 `num_words`는 위에서 했었던 것 처럼 상위 n개의 단어만 사용하게 해주는 옵션입니다.

In [None]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 1) # 상위 5개 단어만 사용
tokenizer.fit_on_texts(sentences)

위의 매개변수를 잘 보면 `num_words`에 `vocab_size + 1`을 한 것을 알 수 있는데요, 케라스의 `Tokenizer`는 후에 배워볼 `padding`을 `0`으로 설정하기 때문입니다.

즉, `5`개만 사용한다고 `5`개만 넣게 되면 실제로는 `0,1,2,3,4`만 사용하는 꼴이 되어버리죠. 따라서 `vocab_size + 1`로 `padding`까지 고려해야 합니다.

In [None]:
print(tokenizer.texts_to_sequences(sentences))

[[1, 2], [1], [1], [4], [3], [4, 2], [1, 2, 5, 3], [1], [], [], [], [1], [4], [1, 2, 5, 3], [1, 2], [3], [], [], [], [4], [2, 5, 3]]


`OOV`에 대해서는 단어를 정수로 바꾸는 과정에서 아예 제거를 한다는 특징이 있습니다. 위 결과에서 비어져 있는 리스트들이 보이시나요? 단어 집합에 없는 단어들은 `OOV`로 간주하여 관리하고 싶다면 `oov_token` 매개변수를 사용합니다.

In [None]:
vocab_size = 5
# 빈도수 상위 5개 단어만 사용. 숫자 0(패딩)과 OOV를 고려해서 단어 집합의 크기는 +2
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV')
tokenizer.fit_on_texts(sentences)
print(tokenizer.texts_to_sequences(sentences))

[[2, 3], [2, 1], [2, 1], [1, 5, 1, 1], [1, 1, 4], [1, 5, 3], [2, 3, 6, 4], [2, 1], [1, 1, 1], [1, 1], [1, 1], [2, 1, 1, 1], [1, 1, 5], [2, 3, 6, 4], [2, 3], [1, 4], [1, 1], [1, 1], [1, 1, 1], [1, 1, 5], [3, 6, 4]]


`OOV`를 사용하기로 결정 했다면 `Tokenizer`는 `OOV`를 인덱스 1로 설정합니다.

In [None]:
print('단어 OOV의 인덱스 : {}'.format(tokenizer.word_index['OOV']))

단어 OOV의 인덱스 : 1


## [Korean] Tokenization & Integer Encoding 까지 Tensorflow로 구현하기

In [None]:
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.3MB/s 
[?25hCollecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 9.2MB/s 
[?25hCollecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/8b/f7/a368401e630f0e390dd0e62c39fb928e5b23741b53c2360ee7d376660927/JPype1-1.0.2-cp36-cp36m-manylinux2010_x86_64.whl (3.8MB)
[K     |████████████████████████████████| 3.8MB 45.9MB/s 
[?25hCollecting colorama
  Downloading https://files.pythonhosted.org/packages/44/98/5b86278fbbf250d239ae0ecb724f8572af1c91f4a11edf4d36a206189440/colorama-0.4.4-py2.py3-none-any.whl
Collecting tweepy>=3.7.0
  D

In [None]:
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh

Cloning into 'Mecab-ko-for-Google-Colab'...
remote: Enumerating objects: 60, done.[K
remote: Counting objects: 100% (60/60), done.[K
remote: Compressing objects: 100% (55/55), done.[K
remote: Total 60 (delta 23), reused 20 (delta 5), pack-reused 0[K
Unpacking objects: 100% (60/60), done.
/content/Mecab-ko-for-Google-Colab
Installing konlpy.....
Done
Installing mecab-0.996-ko-0.9.2.tar.gz.....
Downloading mecab-0.996-ko-0.9.2.tar.gz.......
from https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
--2020-10-18 05:29:26--  https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
Resolving bitbucket.org (bitbucket.org)... 18.205.93.0, 18.205.93.1, 18.205.93.2, ...
Connecting to bitbucket.org (bitbucket.org)|18.205.93.0|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://bbuseruploads.s3.amazonaws.com/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz?Signature=q7HHuq8eHIMpcCZgOOJXrGcag%2BA%3D&Expires=160

In [None]:
import pandas as pd
import numpy as np
import urllib.request
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt", filename="ratings_test.txt")

('ratings_test.txt', <http.client.HTTPMessage at 0x7f37bdc18eb8>)

In [None]:
train_data = pd.read_table('ratings_test.txt')
train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        50000 non-null  int64 
 1   document  49997 non-null  object
 2   label     50000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.1+ MB


In [None]:
train_data.head()

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0


In [None]:
train_data['document'].nunique()

49157

In [None]:
# 중복 데이터 제거 및 null 값 제거
train_data.drop_duplicates(subset=['document'], inplace=True) # 중복 제거
train_data = train_data.dropna(how='any') # Null값이 존재하는 행 제거

In [None]:
train_data['document'] = train_data['document'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]", "")
train_data.head()

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,,0
2,8544678,뭐야 이 평점들은 나쁘진 않지만 점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임 돈주고 보기에는,0
4,6723715,만 아니었어도 별 다섯 개 줬을텐데 왜 로 나와서 제 심기를 불편하게 하죠,0


In [None]:
train_data['document'].replace('', np.nan, inplace=True)
print(train_data.isnull().sum())

id            0
document    162
label         0
dtype: int64


In [None]:
# document가 Nan값인 행 날리기
train_data = train_data.dropna(how = 'any')
print(len(train_data))

48995


In [None]:
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

In [None]:
from konlpy.tag import Okt

okt = Okt()
okt.morphs("와 이런 것도 영화라고 차라리 뮤직비디오를 만드는 게 나을 뻔", stem=True)

['오다', '이렇다', '것', '도', '영화', '라고', '차라리', '뮤직비디오', '를', '만들다', '게', '나다', '뻔']

In [None]:
X_train = []
for sentence in train_data['document']:
  temp_X = []
  temp_X = okt.morphs(sentence, stem=True) # 토큰화
  temp_X = [ word for word in temp_X if not word in stopwords ] # 불용어 제거
  X_train.append(temp_X)

In [None]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(X_train)

# BOW (Bag Of Words)
단어들의 가방이란 뜻으로써, 단어의 순서는 무의미해지고, 단어의 빈도수에만 집중합니다. 이미 우리는 정수 인코딩을 할 때 **DTM**이라는 단어 가방을 마련해 봤어요!

## TF-IDF (Term Frequency - Inverse Document Frequency)
DTM을 기반으로 중요한 단어에 가중치는 주는 방식이에요! 결과적으로만 말하자면 TF-IDF의 값을 기반으로 중요한 단어는 값이 올라가고, TF-IDF 기준으로 중요하지 않은 단어는 값이 DOWN이 됩니다!

tf-idf의 정의에 대해 이야기 해보겠습니다.

* $tf(d, t)$ : 특정 문서 d에서의 특정 단어 $t$의 등장 횟수. 즉 DTM 상에서의 단어들의 값
* $df(t)$ : 단어 $t$가 등장한 문서의 수
* $idf(t)$ : $df(t)$에 반비례 하는 수.

참고로 idf는 다음과 같아요!

$$
idf(t) = log(\frac{n}{1+df(t)})
$$

위 식에서 $n$은 문서의 개수입니다!

### tf, df, idf 구현하기

In [None]:

# n번 문서(document)에서 단어(term)이 등장한 횟수
def term_frequency(term, document):
  return document.count(term)

# term(단어)이 문서'들'(documents)에서 몇번 등장했는지를 세어주기
def document_frequency(term, documents):
  term_count = 0
  for document in documents:
    term_count += term in document
  
  return term_count

def inverse_document_frequency(term, documents):
  from math import log

  N  = len(documents) # 전체 문서의 개수
  df = document_frequency(term, documents) # term이 등장한 문서의 개수

  # idf 구하기
  return log(N / (df + 1))

# 단어, 전체 문서, 문서 인덱스
def tf_idf(term, documents, idx):
  document = documents[idx]
  return term_frequency(term, document) * inverse_document_frequency(term, documents)

In [None]:
from konlpy.tag import Mecab
mecab = Mecab()

docs = [
  '동해 물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. 무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세. 동해 가고 싶다',
  '남산 위에 저 소나무, 철갑을 두른 듯 바람 서리 불변함은 우리 기상일세. 무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세. 소나무 이쁘다',
  '가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세. 무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세. 가을 하늘 보고 싶다.',
  '이 기상과 이 마음으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세. 무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세. 나라를 사랑하자'
] 
vocab = list(set(w for doc in docs for w in mecab.nouns(doc)))
vocab.sort()

In [None]:
import pandas as pd

In [None]:
result = []
for i in range(len(docs)): # 각 문서에 대해서 아래 명령을 수행
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]        
        result[-1].append(term_frequency(t, d))

tf_ = pd.DataFrame(result, columns = vocab)
tf_

Unnamed: 0,가슴,가을,강산,구름,기상,길,나라,남산,달,대한,데,동해,듯,마음,만세,무궁화,물,바람,백두산,보우,보전,불변,사람,사랑,삼천리,서리,소나무,우리,위,일편단심,철갑,충성,하느님,하늘,화려
0,0,0,1,0,0,1,1,0,0,2,0,2,0,0,1,1,1,0,1,1,1,0,1,0,1,0,0,1,0,0,0,0,1,0,1
1,0,0,1,0,1,1,0,1,0,2,0,0,1,0,0,1,0,1,0,0,1,1,1,0,1,1,2,1,1,0,1,0,0,0,1
2,1,2,1,1,0,1,0,0,1,2,1,0,0,0,0,1,0,0,0,0,1,0,1,0,1,0,0,1,0,1,0,0,0,2,1
3,0,0,1,0,1,1,2,0,0,2,0,0,0,1,0,1,0,0,0,0,1,0,1,2,1,0,0,0,0,0,0,1,0,0,1


In [None]:
result = []
for j in range(len(vocab)):
    t = vocab[j]
    result.append(inverse_document_frequency(t, docs))

idf_ = pd.DataFrame(result, index = vocab, columns = ["IDF"])
idf_

Unnamed: 0,IDF
가슴,0.693147
가을,0.693147
강산,-0.223144
구름,0.693147
기상,0.287682
길,-0.223144
나라,0.287682
남산,0.693147
달,0.693147
대한,-0.223144


In [None]:
result = []
N = len(docs)
for i in range(N):
    result.append([])
    for j in range(len(vocab)):
        t = vocab[j]
        result[-1].append(tf_idf(t, docs, i))

tfidf_ = pd.DataFrame(result, columns = vocab)
tfidf_

Unnamed: 0,가슴,가을,강산,구름,기상,길,나라,남산,달,대한,데,동해,듯,마음,만세,무궁화,물,바람,백두산,보우,보전,불변,사람,사랑,삼천리,서리,소나무,우리,위,일편단심,철갑,충성,하느님,하늘,화려
0,0.0,0.0,-0.223144,0.0,0.0,-0.223144,0.287682,0.0,0.0,-0.446287,0.0,1.386294,0.0,0.0,0.693147,-0.223144,0.693147,0.0,0.693147,0.693147,-0.223144,0.0,-0.223144,0.0,-0.223144,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.0,-0.223144
1,0.0,0.0,-0.223144,0.0,0.287682,-0.223144,0.0,0.693147,0.0,-0.446287,0.0,0.0,0.693147,0.0,0.0,-0.223144,0.0,0.693147,0.0,0.0,-0.223144,0.693147,-0.223144,0.0,-0.223144,0.693147,1.386294,0.0,0.693147,0.0,0.693147,0.0,0.0,0.0,-0.223144
2,0.693147,1.386294,-0.223144,0.693147,0.0,-0.223144,0.0,0.0,0.693147,-0.446287,0.693147,0.0,0.0,0.0,0.0,-0.223144,0.0,0.0,0.0,0.0,-0.223144,0.0,-0.223144,0.0,-0.223144,0.0,0.0,0.0,0.0,0.693147,0.0,0.0,0.0,1.386294,-0.223144
3,0.0,0.0,-0.223144,0.0,0.287682,-0.223144,0.575364,0.0,0.0,-0.446287,0.0,0.0,0.0,0.693147,0.0,-0.223144,0.0,0.0,0.0,0.0,-0.223144,0.0,-0.223144,1.386294,-0.223144,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.0,0.0,-0.223144


# 텐서플로우로 BOW 구현하기

In [None]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
docs = [
  '동해 물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. 무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세. 동해 가고 싶다',
  '남산 위에 저 소나무, 철갑을 두른 듯 바람 서리 불변함은 우리 기상일세. 무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세. 소나무 이쁘다',
  '가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세. 무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세. 가을 하늘 보고 싶다.',
  '이 기상과 이 마음으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세. 무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세. 나라를 사랑하자'
] 

In [None]:
t = Tokenizer()
t.fit_on_texts(docs)
print(t.word_index)

{'무궁화': 1, '삼천리': 2, '화려': 3, '강산': 4, '대한': 5, '사람': 6, '대한으로': 7, '길이': 8, '보전하세': 9, '동해': 10, '싶다': 11, '소나무': 12, '우리': 13, '가을': 14, '하늘': 15, '이': 16, '물과': 17, '백두산이': 18, '마르고': 19, '닳도록': 20, '하느님이': 21, '보우하사': 22, '우리나라': 23, '만세': 24, '가고': 25, '남산': 26, '위에': 27, '저': 28, '철갑을': 29, '두른': 30, '듯': 31, '바람': 32, '서리': 33, '불변함은': 34, '기상일세': 35, '이쁘다': 36, '공활한데': 37, '높고': 38, '구름': 39, '없이': 40, '밝은': 41, '달은': 42, '가슴': 43, '일편단심일세': 44, '보고': 45, '기상과': 46, '마음으로': 47, '충성을': 48, '다하여': 49, '괴로우나': 50, '즐거우나': 51, '나라': 52, '사랑하세': 53, '나라를': 54, '사랑하자': 55}


먼저, DTM을 만들어 보겠습니다. text_to_matrix 라는 함수를 사용하며, 모드 설정은 count 입니다.

In [None]:
print(t.texts_to_matrix(docs, mode = 'count')) # texts_to_matrix의 입력으로 texts를 넣고, 모드는 'count'

[[0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 2. 1. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 1. 1.
  1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 2. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1. 0. 1. 2. 2. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 2. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1.
  1. 1. 1. 1. 1. 1. 1. 1.]]


binary 모드는 단순히 있는지, 없는지에 대한 여부를 1과 0으로 나타내 줍니다.

In [None]:
print(t.texts_to_matrix(docs, mode = 'binary'))

[[0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 1. 1.
  1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1.
  1. 1. 1. 1. 1. 1. 1. 1.]]


tfidf 모드는 tf-idf 값을 구해줍니다!

In [None]:
print(t.texts_to_matrix(docs, mode = 'tfidf').round(2)) # 둘째 자리까지 반올림하여 출력

[[0.   0.59 0.59 0.59 0.59 0.59 0.59 0.59 0.59 0.59 1.86 0.85 0.   0.
  0.   0.   0.   1.1  1.1  1.1  1.1  1.1  1.1  1.1  1.1  1.1  0.   0.
  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.59 0.59 0.59 0.59 0.59 0.59 0.59 0.59 0.59 0.   0.   1.86 0.85
  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   1.1  1.1
  1.1  1.1  1.1  1.1  1.1  1.1  1.1  1.1  1.1  0.   0.   0.   0.   0.
  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.59 0.59 0.59 0.59 0.59 0.59 0.59 0.59 0.59 0.   0.85 0.   0.85
  1.86 1.86 0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
  0.   0.   0.   0.   0.   0.   0.   0.   0.   1.1  1.1  1.1  1.1  1.1
  1.1  1.1  1.1  1.1  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.59 0.59 0.59 0.59 0.59 0.59 0.59 0.59 0.59 0.   0.   0.   0.
  0.   0.   1.86 0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
  0. 

마지막으로 freq 모드는 각 문서에서의 각 단어 등장 횟수를 분자로, 각 문서의 개수를 분모로 놓는 값입니다.

In [None]:
print(t.texts_to_matrix(docs, mode = 'freq').round(2)) # 둘째 자리까지 반올림하여 출력

[[0.   0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.1  0.05 0.   0.
  0.   0.   0.   0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.   0.
  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.   0.   0.09 0.04
  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.04 0.04
  0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.   0.   0.   0.   0.
  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.   0.04 0.   0.04
  0.08 0.08 0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.04 0.04 0.04 0.04 0.04
  0.04 0.04 0.04 0.04 0.   0.   0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.   0.   0.   0.
  0.   0.   0.1  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
  0