# 텍스트의 수치화

컴퓨터는 텍스트보다 숫자를 더 잘 처리한다.
* Integer Encoding( 정수 인코딩 )
  * 단어 토큰화( Word Tokenization ) 또는 형태소 분리 후 각 단어에 **고유한 정수**를 부여
  * 중복이 허용되지 않는 모든 단어들의 집합을 만들어야 한다. **단어 집합(Vocabulary)**이라고 한다.
* Padding
  * 모든 문장에 대해서 정수 인코딩을 수행했을 때 문장마다의 길이는 다를 수 있다.
  * 이 때 가상의 단어를 만들어 길이를 추가해준다. (보통은 0으로 추가) 이를, padding 작업이라고 한다.
* Vectorization
  * One-Hot Encoding
    * 전체 단어 집합의 크기를 벡터의 차원으로 갖습니다.
    * 각 단어에 고유한 정수 인덱스를 부요하고, 해당 인덱스의 원소는 1, 나머지 원소는 0으로 가지는 벡터를 만든다.
  * Document Term Matrix( DTM )
    * 각 단어에 고유한 인덱스를 부여한 후에, 문서마다 해당 단어가 등장한 횟수를 인덱스의 값으로 가진다.
  * TF-IDF( Term Frequency - Inverse Document Frequency )
    * 단어 빈도 - 역 문서 빈도
    * TF와 IDF라는 값을 곱한 값
    * 문서의 유사도, 검색 시스템에서 검색 결과의 순위 등을 구하는 일에 사용된다.
    * 인공 신경망의 입력으로도 사용이 가능

임베딩에 대한 이해가 필수적이다.

# Integer Encoding
문장을 단어 토큰화 또는 형태소 분리를 진행하면 각 단어 및 형태소들을 얻어낼 수 있다. Integer Encoding은 아주 단순히 문장을 구성하는 단어들에 대해 **숫자를 부여**했다고 생각하면 된다.

숫자를 부여하는 기준은 **ABC(가나다)**순, 또는 **빈도가 높은 순**으로 순서를 구성한다

In [5]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [6]:
from nltk.tokenize import sent_tokenize

text = """Isn't she lovely.
Isn't she wonderful.
Isn't she precious.
Less than one minute old.
I never thought through love we'd be.
Making one as lovely as she.
But isn't she lovely made from love.
Isn't she pretty.
Truly the angel's best.
Boy, I'm so happy.
We have been heaven blessed.
I can't believe what God has done.
Through us he's given life to one.
But isn't she lovely made from love.
Isn't she lovely.
Life and love are the same.
Life is Aisha.
The meaning of her name.
Londie, it could have not been done.
Without you who conceived the one.
That's so very lovely made from love."""

text = sent_tokenize(text)

print(text)

["Isn't she lovely.", "Isn't she wonderful.", "Isn't she precious.", 'Less than one minute old.', "I never thought through love we'd be.", 'Making one as lovely as she.', "But isn't she lovely made from love.", "Isn't she pretty.", "Truly the angel's best.", "Boy, I'm so happy.", 'We have been heaven blessed.', "I can't believe what God has done.", "Through us he's given life to one.", "But isn't she lovely made from love.", "Isn't she lovely.", 'Life and love are the same.', 'Life is Aisha.', 'The meaning of her name.', 'Londie, it could have not been done.', 'Without you who conceived the one.', "That's so very lovely made from love."]


## [English] Word Tokenization

In [7]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [8]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# 단어 토큰화된 전체 문장을 가지고 있을 배열
sentences = []
stop_words = set(stopwords.words('english')) # 불용어를 집합화

# 문장들을 하나씩 꺼내서 단어 토큰화
for i in text:
  sentence = word_tokenize(i) # 단어 토큰화
  result = [] # 정제 작업이 완료된 단어를 추가할 배열

  for word in sentence:
    # 소문자화
    word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄인다.

    if word not in stop_words: # 불용어 처리
      # 길이가 2이하인 경우도 걸러줍니다.
      if len(word) > 2:
        result.append(word)
  
  sentences.append(result)

print(sentences)

[["n't", 'lovely'], ["n't", 'wonderful'], ["n't", 'precious'], ['less', 'one', 'minute', 'old'], ['never', 'thought', 'love'], ['making', 'one', 'lovely'], ["n't", 'lovely', 'made', 'love'], ["n't", 'pretty'], ['truly', 'angel', 'best'], ['boy', 'happy'], ['heaven', 'blessed'], ["n't", 'believe', 'god', 'done'], ['given', 'life', 'one'], ["n't", 'lovely', 'made', 'love'], ["n't", 'lovely'], ['life', 'love'], ['life', 'aisha'], ['meaning', 'name'], ['londie', 'could', 'done'], ['without', 'conceived', 'one'], ['lovely', 'made', 'love']]


## [English] 단어 집합 만들기( Python )
단어 집합이란? 중복을 제가한 단어들의 집합

In [9]:
# 각 배열에 등장한 횟수가 많을 수록 앞 번호에 위치
from collections import Counter
words = sum(sentences, []) # sentences에 들있는 모든 배열을 비어있는 배열에 합치는 역할 ( extends )
print(words)

["n't", 'lovely', "n't", 'wonderful', "n't", 'precious', 'less', 'one', 'minute', 'old', 'never', 'thought', 'love', 'making', 'one', 'lovely', "n't", 'lovely', 'made', 'love', "n't", 'pretty', 'truly', 'angel', 'best', 'boy', 'happy', 'heaven', 'blessed', "n't", 'believe', 'god', 'done', 'given', 'life', 'one', "n't", 'lovely', 'made', 'love', "n't", 'lovely', 'life', 'love', 'life', 'aisha', 'meaning', 'name', 'londie', 'could', 'done', 'without', 'conceived', 'one', 'lovely', 'made', 'love']


In [10]:
# 단어 집합 만들기
vocab = Counter(words)
print(vocab)

Counter({"n't": 8, 'lovely': 6, 'love': 5, 'one': 4, 'made': 3, 'life': 3, 'done': 2, 'wonderful': 1, 'precious': 1, 'less': 1, 'minute': 1, 'old': 1, 'never': 1, 'thought': 1, 'making': 1, 'pretty': 1, 'truly': 1, 'angel': 1, 'best': 1, 'boy': 1, 'happy': 1, 'heaven': 1, 'blessed': 1, 'believe': 1, 'god': 1, 'given': 1, 'aisha': 1, 'meaning': 1, 'name': 1, 'londie': 1, 'could': 1, 'without': 1, 'conceived': 1})


In [11]:
# lovely 의 횟수는?
print(vocab['lovely'])

6


## [English] Integer Encoding (Python)
가나다 순 또는 빈도 내림차순으로 정렬하여 각 단어에 중복되지 않는 정수를 부여

In [13]:
vocab_sorted = sorted(vocab.items(), key = lambda x : x[1], reverse=True)
print(vocab_sorted)

[("n't", 8), ('lovely', 6), ('love', 5), ('one', 4), ('made', 3), ('life', 3), ('done', 2), ('wonderful', 1), ('precious', 1), ('less', 1), ('minute', 1), ('old', 1), ('never', 1), ('thought', 1), ('making', 1), ('pretty', 1), ('truly', 1), ('angel', 1), ('best', 1), ('boy', 1), ('happy', 1), ('heaven', 1), ('blessed', 1), ('believe', 1), ('god', 1), ('given', 1), ('aisha', 1), ('meaning', 1), ('name', 1), ('londie', 1), ('could', 1), ('without', 1), ('conceived', 1)]


In [14]:
# 높은 빈도수를 가진 단어일 수록 낮은 정수 인텍스를 부여( 앞쪽에 배치 )
word2idx = {}
i = 0
for (word, frequency) in vocab_sorted:
  if frequency > 1:
    i = i + 1
    word2idx[word] = i

print(word2idx)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5, 'life': 6, 'done': 7}


* 빈도수가 가장 높은 상위 n개만 선택해서 단어집합으로 사용하기

In [16]:
# vocab_size = 단어 집합의 크기
vocab_size = 5 # 반드시 암기!!

# 단어 집합의 인덱스를 구하기
words_frequency = [w for w,c in word2idx.items() if c >= vocab_size + 1]
print(words_frequency)

['life', 'done']


In [17]:
for w in words_frequency:
  del word2idx[w]

print(word2idx)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5}


### OOV( Out Of Vocabulary )처리
UNK(Unknown)토큰을 추가할 것이다. 
* UNK(OOV)란 단어집합에 없는 단어를 위한 인덱스
  * 신조어, 오타, 단어 집합에 포함되지 않는 단어를 위한 처리


In [18]:
word2idx['UNK'] = 6
print(word2idx)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5, 'UNK': 6}


## [English] Encoding 해보기
* 단어를 숫자로 표현하는 것

In [20]:
# 인코딩을 저장하기 위한 배열
encoded = []

for s in sentences:
  # 임시로 인코딩된 내용을 저장할 배열
  temp = []

  # 단어를 하나씩 꺼내기
  for w in s:
    # 있는 키라면
    try:
      # 단어 집합에서 하나씩 꺼내서 임시배열에 추가
      temp.append(word2idx[w])
    except:
      temp.append(word2idx["UNK"])
  encoded.append(temp)

print("변경 전 : ", sentences[:5])
print("변환 후 : ", encoded[:5])

변경 전 :  [["n't", 'lovely'], ["n't", 'wonderful'], ["n't", 'precious'], ['less', 'one', 'minute', 'old'], ['never', 'thought', 'love']]
변환 후 :  [[1, 2], [1, 6], [1, 6], [6, 4, 6, 6], [6, 6, 3]]


## [English] Vocab & Integer Encoding( Tensorflow )


In [21]:
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer()

# fit_on_texts() 함수에 코퍼스 (sentences)를 집어 넣으면 바로 빈도수를 기준으로 단어 집합을 만들어 준다.
tokenizer.fit_on_texts(sentences)

print(tokenizer.word_index) # 생성된 단어집합 (vocab) 확인하기

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5, 'life': 6, 'done': 7, 'wonderful': 8, 'precious': 9, 'less': 10, 'minute': 11, 'old': 12, 'never': 13, 'thought': 14, 'making': 15, 'pretty': 16, 'truly': 17, 'angel': 18, 'best': 19, 'boy': 20, 'happy': 21, 'heaven': 22, 'blessed': 23, 'believe': 24, 'god': 25, 'given': 26, 'aisha': 27, 'meaning': 28, 'name': 29, 'londie': 30, 'could': 31, 'without': 32, 'conceived': 33}


In [22]:
# 단어의 빈도수 확인하기
print(tokenizer.word_counts)

OrderedDict([("n't", 8), ('lovely', 6), ('wonderful', 1), ('precious', 1), ('less', 1), ('one', 4), ('minute', 1), ('old', 1), ('never', 1), ('thought', 1), ('love', 5), ('making', 1), ('made', 3), ('pretty', 1), ('truly', 1), ('angel', 1), ('best', 1), ('boy', 1), ('happy', 1), ('heaven', 1), ('blessed', 1), ('believe', 1), ('god', 1), ('done', 2), ('given', 1), ('life', 3), ('aisha', 1), ('meaning', 1), ('name', 1), ('londie', 1), ('could', 1), ('without', 1), ('conceived', 1)])


In [23]:
# 인코딩 수행하기
print(tokenizer.texts_to_sequences(sentences))

[[1, 2], [1, 8], [1, 9], [10, 4, 11, 12], [13, 14, 3], [15, 4, 2], [1, 2, 5, 3], [1, 16], [17, 18, 19], [20, 21], [22, 23], [1, 24, 25, 7], [26, 6, 4], [1, 2, 5, 3], [1, 2], [6, 3], [6, 27], [28, 29], [30, 31, 7], [32, 33, 4], [2, 5, 3]]


In [25]:
# 디코딩 수행하기
print(tokenizer.sequences_to_texts([[1, 2], [1, 9]]))

["n't lovely", "n't precious"]


## OOV 및 PADDING 설정
keras의 Tokenizer에 PADDING과 OOV를 사용하기로 했으면, PAD : 0으로, OOV : 1로 자동 설정된다.

In [26]:
# 상위 다섯개의 토큰만 사용하기
vocab_size = 5

# num_words : 사용할 단어 집합의 개수
# +2 를 한 이유 : PADDING, OOV 토큰을 추가적으로 부여해야 하기 때문!
tokenizer = Tokenizer(num_words=vocab_size + 2, oov_token="OOV" )
tokenizer.fit_on_texts(sentences)
print(tokenizer.texts_to_sequences(sentences))

[[2, 3], [2, 1], [2, 1], [1, 5, 1, 1], [1, 1, 4], [1, 5, 3], [2, 3, 6, 4], [2, 1], [1, 1, 1], [1, 1], [1, 1], [2, 1, 1, 1], [1, 1, 5], [2, 3, 6, 4], [2, 3], [1, 4], [1, 1], [1, 1], [1, 1, 1], [1, 1, 5], [3, 6, 4]]


In [27]:
print("OOV 토큰의 인덱스 : {}".format(tokenizer.word_index["OOV"]))

OOV 토큰의 인덱스 : 1


## [한국어] 토큰화 및 정수 인코딩을 Tensorflow로 구현

In [28]:
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.3MB/s 
Collecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 8.5MB/s 
[?25hCollecting colorama
  Downloading https://files.pythonhosted.org/packages/44/98/5b86278fbbf250d239ae0ecb724f8572af1c91f4a11edf4d36a206189440/colorama-0.4.4-py2.py3-none-any.whl
Collecting tweepy>=3.7.0
  Downloading https://files.pythonhosted.org/packages/67/c3/6bed87f3b1e5ed2f34bd58bf7978e308c86e255193916be76e5a5ce5dfca/tweepy-3.10.0-py2.py3-none-any.whl
Collecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/de/af/93f92b38ec1ff3091cd38982ed19cea2800f

In [29]:
import pandas as pd
import numpy as np
import urllib.request
from tensorflow.keras.preprocessing.text import Tokenizer

In [30]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt", filename="ratings_test.txt")

('ratings_test.txt', <http.client.HTTPMessage at 0x7f288e5a6da0>)

In [32]:
train_data = pd.read_table('ratings_test.txt')
train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        50000 non-null  int64 
 1   document  49997 non-null  object
 2   label     50000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.1+ MB


In [33]:
train_data.head()

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0


1. null 값 제거
2. 중복 제거
3. 특수문자 및 영어 제거

In [34]:
train_data['document'].nunique() # 중복되지 않은 데이터의 개수확인

49157

In [35]:
# 중복데이터 제거 및 null 값 제거
train_data.drop_duplicates(subset=['document'], inplace=True)
train_data = train_data.dropna(how='any')

In [37]:
# 정규식을 이용하여 한글만 추출
train_data['document'] = train_data['document'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]", "") # 한글 및 공백이 아닌 문자는 모두 ""
train_data.head()

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,,0
2,8544678,뭐야 이 평점들은 나쁘진 않지만 점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임 돈주고 보기에는,0
4,6723715,만 아니었어도 별 다섯 개 줬을텐데 왜 로 나와서 제 심기를 불편하게 하죠,0


비어있는 문자열 정제

In [39]:
train_data['document'].replace('', np.nan, inplace=True)
train_data.isnull().sum()

id            0
document    162
label         0
dtype: int64

In [40]:
train_data = train_data.dropna(how='any')
print(len(train_data))

48995


In [41]:
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

보통 한국어에서의 불용어 처리는 stemming 또는 normalization 적용 후에 한다.

In [42]:
from konlpy.tag import Okt

okt = Okt()
okt.morphs("뭐야 이 평점들은 나쁘진 않지만 점 짜리는 더더욱 아니잖아", stem=True)

['뭐',
 '야',
 '이',
 '평점',
 '들',
 '은',
 '나쁘다',
 '않다',
 '점',
 '짜다',
 '리',
 '는',
 '더',
 '더욱',
 '아니다']

In [43]:
x_train = []

for sentence in train_data['document']:
  temp_x = []
  temp_x = okt.morphs(sentence, stem=True) # 토큰화
  temp_x = [word for word in temp_x if not word in stopwords ] # 불용어 제거
  x_train.append(temp_x)

In [44]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(x_train)

In [45]:
tokenizer.word_counts

OrderedDict([('굳다', 137),
             ('ㅋ', 811),
             ('뭐', 1178),
             ('야', 508),
             ('평점', 2210),
             ('나쁘다', 218),
             ('않다', 2555),
             ('점', 2531),
             ('짜다', 318),
             ('리', 106),
             ('더', 1509),
             ('더욱', 94),
             ('아니다', 2667),
             ('지루하다', 1159),
             ('완전', 813),
             ('막장', 228),
             ('임', 702),
             ('돈', 696),
             ('주다', 1275),
             ('보기', 551),
             ('에는', 355),
             ('만', 2976),
             ('별', 634),
             ('다섯', 36),
             ('개', 698),
             ('왜', 1706),
             ('로', 2648),
             ('나오다', 2168),
             ('제', 491),
             ('심기', 1),
             ('불편하다', 103),
             ('음악', 390),
             ('주가', 16),
             ('되다', 3030),
             ('최고', 1950),
             ('영화', 17231),
             ('진정하다', 109),
             ('쓰레기', 1068),
    