<a href="https://colab.research.google.com/github/dohyeon-kim012/MachineLearning-DeepLearning/blob/main/DeepLearning/16.%ED%85%8D%EC%8A%A4%ED%8A%B8%20%EB%B6%84%EC%84%9D%EC%9D%84%20%EC%9C%84%ED%95%9C%20%EC%9D%B8%EC%BD%94%EB%94%A9.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 텍스트의 수치화
컴퓨터는 텍스트보다 숫자를 더 잘 처리한다. 텍스트를 수치화 시키는 작업에 대해 알아봄
1. **Integer Encoding ( 정수 인코딩 )**
  * 단어 토큰화( Word Tokenization ) 또는 형태소 분리 후에 각 단어에 대한 **고유한 정수**를 부여
  * 중복이 허용되지 않는 모든 단어들의 집합을 만들어야 한다. **단어 집합(Vocabulary)**이라고 한다
  - OOV : UNK(unknown) 토큰이라고도 함  
  단어 집합에 포함되지 않은 단어들을 정수화하기 위한 토큰으로, 주로 집합 내의 앞쪽 ( 0번 / 1번 ) 에 위치함
2. Padding
  * 모든 문장에 대해서 정수 인코딩을 했을 때 문장마다의 길이가 다를 수 있다.
  * 이때 가상의 단어( 예를 들면 `<pad>` )를 만들어서 단어집합에 0번으로 추가시켜 준다. 이를 Padding 작업이라고 한다.
  * 짧은 길이의 문장의 제일 앞이나 뒤에 `<pad>` 정수를 추가


## Integer Encoding

토큰에 고유한 정수를 부여하는 작업

숫자를 부여하는 기준은 ABC ( 가나다 ) 순 또는 빈도가 높은 순으로 순서 구성
- 많이 등장한 단어일수록 작은 정수를 부여받는 식

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

### Encoding 전 단계

#### [English] Sentence Tokenization

In [None]:
text = """Isn't she lovely.
Isn't she wonderful.
Isn't she precious.
Less than one minute old.
I never thought through love we'd be.
Making one as lovely as she.
But isn't she lovely made from love.
Isn't she pretty.
Truly the angel's best.
Boy, I'm so happy.
We have been heaven blessed.
I can't believe what God has done.
Through us he's given life to one.
But isn't she lovely made from love.
Isn't she lovely.
Life and love are the same.
Life is Aisha.
The meaning of her name.
Londie, it could have not been done.
Without you who conceived the one.
That's so very lovely made from love."""

In [None]:
# Sentence Tokenization

from nltk.tokenize import sent_tokenize

sent_tokens = sent_tokenize(text)
print(sent_tokens)

["Isn't she lovely.", "Isn't she wonderful.", "Isn't she precious.", 'Less than one minute old.', "I never thought through love we'd be.", 'Making one as lovely as she.', "But isn't she lovely made from love.", "Isn't she pretty.", "Truly the angel's best.", "Boy, I'm so happy.", 'We have been heaven blessed.', "I can't believe what God has done.", "Through us he's given life to one.", "But isn't she lovely made from love.", "Isn't she lovely.", 'Life and love are the same.', 'Life is Aisha.', 'The meaning of her name.', 'Londie, it could have not been done.', 'Without you who conceived the one.', "That's so very lovely made from love."]


#### [English] Word Tokenization

In [None]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

stop_words = set(stopwords.words('english')) # 불용어 집합화

위의 문장이 단어 토큰화 되면 아래와 같은 2차원의 배열을 이루게 됨

```python
 [["Isn't", "She", "lovely"],
  ["Isn't", "she", "wonderful"]]
```

리스트를 먼저 만들어 `for` 문을 통해 단어 토큰화 시키기

In [None]:
# 단어 토큰화된 전체 문장을 가지고 있을 리스트
sentences = []

# 문장을 하나씩 꺼내서 단어 토큰화시키기
for sent in sent_tokens:
    # print(sent)
    word_tokens = word_tokenize(sent) # 각 문장에 대한 단어 토큰화
    # print(word_tokens)
    result = [] # 정제 작업이 완료된 단어를 추가할 배열 ( 불용어 처리, 길이가 짧은 단어 등 제외 처리 )

    for word in word_tokens:
        # 모든 단어를 소문자화 ( -> 정규화 normalization )
        word = word.lower() 

        # 불용어 처리
        if word not in stop_words:

            # 단어의 길이가 2 초과인 것만 사용하기
            if len(word) > 2:
                result.append(word)
        
    sentences.append(result)

# print(result)
print(sentences)

[["n't", 'lovely'], ["n't", 'wonderful'], ["n't", 'precious'], ['less', 'one', 'minute', 'old'], ['never', 'thought', 'love'], ['making', 'one', 'lovely'], ["n't", 'lovely', 'made', 'love'], ["n't", 'pretty'], ['truly', 'angel', 'best'], ['boy', 'happy'], ['heaven', 'blessed'], ["n't", 'believe', 'god', 'done'], ['given', 'life', 'one'], ["n't", 'lovely', 'made', 'love'], ["n't", 'lovely'], ['life', 'love'], ['life', 'aisha'], ['meaning', 'name'], ['londie', 'could', 'done'], ['without', 'conceived', 'one'], ['lovely', 'made', 'love']]


for 문이 돌 때마다 result는 계속 새로 만들어짐  
--> 가장 마지막에 result를 프린트 하면 마지막 문장의 토큰화된 단어들만 나옴  
`['lovely', 'made', 'love']`

#### [English] 단어 집합 만들기 ( Python )

규칙 : 등장한 횟수가 많은 단어 일수록 앞 번호에 위치

In [None]:
# 1. 문장 별로 모여있는 단어들을 풀어서 합치기 
#     배열의 확장이 필요!! (2차원 배열 -> 1차원 배열)

words = sum(sentences, []) 
# sentences에 들어있는 모든 배열을 비어있는 배열(새로운 리스트)에 합치는 역할 (확장 extends 됨)
print(words)

["n't", 'lovely', "n't", 'wonderful', "n't", 'precious', 'less', 'one', 'minute', 'old', 'never', 'thought', 'love', 'making', 'one', 'lovely', "n't", 'lovely', 'made', 'love', "n't", 'pretty', 'truly', 'angel', 'best', 'boy', 'happy', 'heaven', 'blessed', "n't", 'believe', 'god', 'done', 'given', 'life', 'one', "n't", 'lovely', 'made', 'love', "n't", 'lovely', 'life', 'love', 'life', 'aisha', 'meaning', 'name', 'londie', 'could', 'done', 'without', 'conceived', 'one', 'lovely', 'made', 'love']


In [None]:
# 2. 배치를 위해 빈도수 구하기
from collections import Counter # 횟수 세기 용도
vocab = Counter(words) # 배열 내 단어들의 모든 빈도를 손쉽게 계산 가능
print(vocab)

Counter({"n't": 8, 'lovely': 6, 'love': 5, 'one': 4, 'made': 3, 'life': 3, 'done': 2, 'wonderful': 1, 'precious': 1, 'less': 1, 'minute': 1, 'old': 1, 'never': 1, 'thought': 1, 'making': 1, 'pretty': 1, 'truly': 1, 'angel': 1, 'best': 1, 'boy': 1, 'happy': 1, 'heaven': 1, 'blessed': 1, 'believe': 1, 'god': 1, 'given': 1, 'aisha': 1, 'meaning': 1, 'name': 1, 'londie': 1, 'could': 1, 'without': 1, 'conceived': 1})


In [None]:
# lovely는 몇 번 나왔나?
vocab['lovely']

6

가나다 순 또는 **빈도 내림차순**으로 정렬하여 각 단어에 중복되지 않는 정수를 부여

In [None]:
# 빈도수가 높은 순서대로 정렬해서 리스트에 넣어 두기
# dict의 items를 뽑아서 value로 내림차순 정렬해야 함
vocab_sorted = sorted(vocab.items(), key=lambda x : x[1], reverse=True) 
# key : 정렬한 기준 (여기서 x[1]는 value 의미)
# 내림차순이니까 reverse=True
# sorted : 리스트를 정렬
print(vocab_sorted)

[("n't", 8), ('lovely', 6), ('love', 5), ('one', 4), ('made', 3), ('life', 3), ('done', 2), ('wonderful', 1), ('precious', 1), ('less', 1), ('minute', 1), ('old', 1), ('never', 1), ('thought', 1), ('making', 1), ('pretty', 1), ('truly', 1), ('angel', 1), ('best', 1), ('boy', 1), ('happy', 1), ('heaven', 1), ('blessed', 1), ('believe', 1), ('god', 1), ('given', 1), ('aisha', 1), ('meaning', 1), ('name', 1), ('londie', 1), ('could', 1), ('without', 1), ('conceived', 1)]


높은 빈도수를 가진 단어일수록 낮은 정수 인덱스 부여 ( 앞쪽에 배치 )

In [None]:
word2idx = {}
i = 0

for (word, frequency) in vocab_sorted:

    # 정제 작업 : 빈도수가 적은 단어 제외
    if frequency > 1:
        i = i+1
        word2idx[word] = i # dict에 단어와 정수 추가

print(word2idx)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5, 'life': 6, 'done': 7}


★★★★빈도수가 가장 높은 **상위 n개**만 선택해서 단어집합으로 사용하기★★★★

단어 집합의 크기 / 단어 집합에서 사용할 단어의 개수  
`vocab_size = 5`

In [None]:
vocab_size = 5

# 포함되지 않을 단어 구하기
#   idx가 vocab_size(5)보다 초과된 것들만 삭제하는 단어에 넣기
del_word = [w for w, idx in word2idx.items() if idx >= vocab_size +1]
print(del_word)

['life', 'done']


In [None]:
for w in del_word:
    del word2idx[w] # del 함수 이용하여 데이터 지우기

print(word2idx)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5}


### Encoding 수행하기

인코딩 : 단어를 숫자로 표현하는 것

In [None]:
# UNK 토큰 만들기
word2idx["<oov>"] = 6
print(word2idx)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5, '<oov>': 6}


`<oov>` (unknown UNK) 토큰은 앞쪽 (0번 / 1번) 으로 들어가는 게 일반적임

In [None]:
# 인코딩된 데이터를 저장하기 위한 배열
encoded = []

for sent in sentences:
    # print(sent)

    # 임시로 인코딩된 내용을 저장
    temp = []

    # 단어를 하나씩 꺼내기
    for w in sent:
        if w in word2idx: # 단어집합에 단어가 있으면
            temp.append(word2idx[w]) # 키값에 맞는 정수를 추가
        else: # 키값이 없으면
            temp.append(word2idx["<oov>"]) # 단어 집합에 없는 단어는 <oov> 토큰의 정수 추가
    
    encoded.append(temp)

print("변환 전 : {}".format(sentences[:5]))
print("변환 후 : {}".format(encoded[:5]))

변환 전 : [["n't", 'lovely'], ["n't", 'wonderful'], ["n't", 'precious'], ['less', 'one', 'minute', 'old'], ['never', 'thought', 'love']]
변환 후 : [[1, 2], [1, 6], [1, 6], [6, 4, 6, 6], [6, 6, 3]]


#### [English] Vocab & Integer Encoding ( Tensorflow )

In [None]:
# Tensorflow의 Tokenizer 불러오기
from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer()

Tokenizer의 fit_on_texts() 함수에 코퍼스(sentences)를 집어 넣으면 바로 빈도수를 기준으로 단어 집합 만들어줌  
```python 
tokenizer.fit_on_texts(sentences)
```

--> 형태소 분리의 결과가 들어가는데, 이 때 형태소 분리의 결과는 반드시 항상 **2차원 리스트** 여야 함  

print()에서 바로 word_index로 확인할 수 있음
```python
print(tokenizer.word_index)
```

In [None]:
tokenizer.fit_on_texts(sentences)

print(tokenizer.word_index)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5, 'life': 6, 'done': 7, 'wonderful': 8, 'precious': 9, 'less': 10, 'minute': 11, 'old': 12, 'never': 13, 'thought': 14, 'making': 15, 'pretty': 16, 'truly': 17, 'angel': 18, 'best': 19, 'boy': 20, 'happy': 21, 'heaven': 22, 'blessed': 23, 'believe': 24, 'god': 25, 'given': 26, 'aisha': 27, 'meaning': 28, 'name': 29, 'londie': 30, 'could': 31, 'without': 32, 'conceived': 33}


In [None]:
# 단어의 빈도수 확인하기 (tokenizer의 word_counts 함수 사용)
print(tokenizer.word_counts)

OrderedDict([("n't", 8), ('lovely', 6), ('wonderful', 1), ('precious', 1), ('less', 1), ('one', 4), ('minute', 1), ('old', 1), ('never', 1), ('thought', 1), ('love', 5), ('making', 1), ('made', 3), ('pretty', 1), ('truly', 1), ('angel', 1), ('best', 1), ('boy', 1), ('happy', 1), ('heaven', 1), ('blessed', 1), ('believe', 1), ('god', 1), ('done', 2), ('given', 1), ('life', 3), ('aisha', 1), ('meaning', 1), ('name', 1), ('londie', 1), ('could', 1), ('without', 1), ('conceived', 1)])


In [None]:
# 인코딩 (texts_to_sequences 함수)
print(tokenizer.texts_to_sequences(sentences))

[[1, 2], [1, 8], [1, 9], [10, 4, 11, 12], [13, 14, 3], [15, 4, 2], [1, 2, 5, 3], [1, 16], [17, 18, 19], [20, 21], [22, 23], [1, 24, 25, 7], [26, 6, 4], [1, 2, 5, 3], [1, 2], [6, 3], [6, 27], [28, 29], [30, 31, 7], [32, 33, 4], [2, 5, 3]]


In [None]:
# 디코딩 (sequences_to_texts 함수) - 자동으로 join까지 진행됨
print(tokenizer.sequences_to_texts([[1, 2], [1, 9]]))

["n't lovely", "n't precious"]


### OOV 및 Padding 설정

keras의 Tokenizer에서는 `pad : 0, oov : 1` 로 자동 설정

In [None]:
# 상위 5개의 토큰만 사용하기
vocab_size = 5

# num_sords : 단어집합 내에서 사용할 단어 개수
tokenizer = Tokenizer(num_words=vocab_size+2,    oov_token="<oov>")
#   기본 단어 집합에 padding, oov 토큰을 추가적으로 부여해야 하기 때문에 +2
tokenizer.fit_on_texts(sentences)
print(tokenizer.texts_to_sequences(sentences))

[[2, 3], [2, 1], [2, 1], [1, 5, 1, 1], [1, 1, 4], [1, 5, 3], [2, 3, 6, 4], [2, 1], [1, 1, 1], [1, 1], [1, 1], [2, 1, 1, 1], [1, 1, 5], [2, 3, 6, 4], [2, 3], [1, 4], [1, 1], [1, 1], [1, 1, 1], [1, 1, 5], [3, 6, 4]]


1번 토큰 -> `<oov> 토큰`

In [None]:
print("OOV 토큰의 인덱스 : {}".format(tokenizer.word_index["<oov>"]))

OOV 토큰의 인덱스 : 1


# [Korean] 토큰화 및 정수 인코딩을 Tensorflow로 구현

In [None]:
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 155kB/s 
Collecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 11.6MB/s 
Collecting colorama
  Downloading https://files.pythonhosted.org/packages/44/98/5b86278fbbf250d239ae0ecb724f8572af1c91f4a11edf4d36a206189440/colorama-0.4.4-py2.py3-none-any.whl
Collecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/98/88/f817ef1af6f794e8f11313dcd1549de833f4599abcec82746ab5ed086686/JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448kB)
[K     |████████████████████████████████| 450kB 29.2MB/s 
Installing collected packag

In [None]:
import pandas as pd
import numpy as np
import urllib.request

from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt", filename="ratings_test.txt")

('ratings_test.txt', <http.client.HTTPMessage at 0x7fd7536513d0>)

In [None]:
df_train = pd.read_table("ratings_test.txt", encoding='utf-8')
df_train.head()

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0


In [None]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        50000 non-null  int64 
 1   document  49997 non-null  object
 2   label     50000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.1+ MB


데이터 전처리 
1. null 값 제거
2. 중복 문장 제거
3. 특수 문자 및 영어 제거

텍스트 인코딩
1. 각 문장별 형태소 분리 
2. Tokenizer에 집어 넣기
3. 단어 집합 생성

In [None]:
df_train = df_train.drop_duplicates(subset=['document'])
df_train = df_train.dropna(how='any')

df_train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 49157 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        49157 non-null  int64 
 1   document  49157 non-null  object
 2   label     49157 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.5+ MB


In [None]:
df_train['document'] = df_train['document'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]", "")
df_train.head()

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,,0
2,8544678,뭐야 이 평점들은 나쁘진 않지만 점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임 돈주고 보기에는,0
4,6723715,만 아니었어도 별 다섯 개 줬을텐데 왜 로 나와서 제 심기를 불편하게 하죠,0


In [None]:
df_train['document'].replace('', np.nan, inplace=True)
df_train = df_train.dropna(how='any')
df_train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 48995 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        48995 non-null  int64 
 1   document  48995 non-null  object
 2   label     48995 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.5+ MB


In [None]:
df_train['document'].nunique()

48417

In [None]:
df_train.isnull().sum()

id          0
document    0
label       0
dtype: int64

불용어 처리  

일반적으로 한국어에 대한 불용어 처리는 stemming, normalization 적용 후 한다

In [None]:
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

In [None]:
from konlpy.tag import Okt
okt = Okt()

In [None]:
X_train = []

for sentence in df_train['document']:
    temp_X = []
    temp_X = okt.morphs(sentence, stem=True, norm=True)
    temp_X = [word for word in temp_X if not word in stopwords]

    X_train.append(temp_X)

X_train[:3]

KeyboardInterrupt: ignored

In [None]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(X_train)

In [None]:
tokenizer.texts_to_sequences(X_train)[:3]