### 정수인코딩: 텍스트를 숫자로 바꾸는 기법

In [1]:
text = '''모처럼 전국에 비가 내리고 있습니다.
대부분 밤까지 계속되기 때문에 종일 우산이 필요하겠는데요.
비의 양도 많고 바람도 강하게 불기 때문에 작은 우산 말고 큰 우산 챙기는 게 더 좋습니다.
특히 제주와 남해안에서 비바람이 강합니다.
'''

from nltk.tokenize import sent_tokenize
# 문장 토큰화
text = sent_tokenize(text)
print(text)

['모처럼 전국에 비가 내리고 있습니다.', '대부분 밤까지 계속되기 때문에 종일 우산이 필요하겠는데요.', '비의 양도 많고 바람도 강하게 불기 때문에 작은 우산 말고 큰 우산 챙기는 게 더 좋습니다.', '특히 제주와 남해안에서 비바람이 강합니다.']


In [2]:
# 명사추출
from konlpy.tag import Okt
okt = Okt()
text2 = []
for txt in text:
    t = okt.nouns(txt)
    text2.append(t)
text2

[['모처럼', '전국', '비'],
 ['대부분', '밤', '계속', '때문', '종일', '우산'],
 ['비', '양도', '바람', '불기', '때문', '우산', '우산', '게', '더'],
 ['제주', '남해안', '비바람']]

In [3]:
# 명사와 형용사 추출
text3 = []
for txt in text:
    morph = okt.pos(txt)
    text3.append(morph)
text3

[[('모처럼', 'Noun'),
  ('전국', 'Noun'),
  ('에', 'Josa'),
  ('비', 'Noun'),
  ('가', 'Josa'),
  ('내리고', 'Verb'),
  ('있습니다', 'Adjective'),
  ('.', 'Punctuation')],
 [('대부분', 'Noun'),
  ('밤', 'Noun'),
  ('까지', 'Josa'),
  ('계속', 'Noun'),
  ('되기', 'Verb'),
  ('때문', 'Noun'),
  ('에', 'Josa'),
  ('종일', 'Noun'),
  ('우산', 'Noun'),
  ('이', 'Josa'),
  ('필요하겠는데요', 'Adjective'),
  ('.', 'Punctuation')],
 [('비', 'Noun'),
  ('의', 'Josa'),
  ('양도', 'Noun'),
  ('많고', 'Adjective'),
  ('바람', 'Noun'),
  ('도', 'Josa'),
  ('강하게', 'Adjective'),
  ('불기', 'Noun'),
  ('때문', 'Noun'),
  ('에', 'Josa'),
  ('작은', 'Adjective'),
  ('우산', 'Noun'),
  ('말고', 'Josa'),
  ('큰', 'Verb'),
  ('우산', 'Noun'),
  ('챙기는', 'Verb'),
  ('게', 'Noun'),
  ('더', 'Noun'),
  ('좋습니다', 'Adjective'),
  ('.', 'Punctuation')],
 [('특히', 'Adverb'),
  ('제주', 'Noun'),
  ('와', 'Josa'),
  ('남해안', 'Noun'),
  ('에서', 'Josa'),
  ('비바람', 'Noun'),
  ('이', 'Josa'),
  ('강합니다', 'Adjective'),
  ('.', 'Punctuation')]]

In [4]:
text4 = []
for text in text3:
    line = []
    for word, tag in text:
        if tag in ['Noun', 'Adjective']:
            line.append(word)
    text4.append(line)
text4

[['모처럼', '전국', '비', '있습니다'],
 ['대부분', '밤', '계속', '때문', '종일', '우산', '필요하겠는데요'],
 ['비',
  '양도',
  '많고',
  '바람',
  '강하게',
  '불기',
  '때문',
  '작은',
  '우산',
  '우산',
  '게',
  '더',
  '좋습니다'],
 ['제주', '남해안', '비바람', '강합니다']]

In [5]:
### 불용어처리

vocab = {}
sentences = []
stop_words = ['더','게']

for txt in text4:
    result = []
    for word in txt:
        # 불용어 제거
        if word not in stop_words:   # 불용어가 아니면
            result.append(word)
            if word not in vocab:  # 새로운 단어면    
                vocab[word] = 0    # 출현횟수 0으로
            vocab[word] += 1       # 출현횟수 1 증가
    sentences.append(result)
sentences

[['모처럼', '전국', '비', '있습니다'],
 ['대부분', '밤', '계속', '때문', '종일', '우산', '필요하겠는데요'],
 ['비', '양도', '많고', '바람', '강하게', '불기', '때문', '작은', '우산', '우산', '좋습니다'],
 ['제주', '남해안', '비바람', '강합니다']]

In [11]:
vocab   # 출현빈도가 높으면 중요한 단어일 가능성이 높음

{'모처럼': 1,
 '전국': 1,
 '비': 2,
 '있습니다': 1,
 '대부분': 1,
 '밤': 1,
 '계속': 1,
 '때문': 2,
 '종일': 1,
 '우산': 3,
 '필요하겠는데요': 1,
 '양도': 1,
 '많고': 1,
 '바람': 1,
 '강하게': 1,
 '불기': 1,
 '작은': 1,
 '좋습니다': 1,
 '제주': 1,
 '남해안': 1,
 '비바람': 1,
 '강합니다': 1}

In [7]:
vocab['우산']

3

In [8]:
# 단어에 일련번호 부여
word_to_index = {}
i = 0
for word in vocab:
    if vocab[word] > 1:   # 빈도수가 1보다 큰 단어들만 추가
        i += 1
        word_to_index[word] = i    # 단어에 번호를 매김
word_to_index


{'비': 1, '때문': 2, '우산': 3}

In [9]:
# out-of-vocabulary 단어 집합에 없는 단어
# 출현빈도수가 낮은 단어들은 word_to_index에 없으므로 word_to_index에 OOV라는 단어를 추가하고 처리
word_to_index['OOV'] = len(word_to_index) + 1
encoded = []
for s in sentences:   # 문장 반복
    temp = []
    for w in s:       # 문장의 단어들 반복
        try:
            temp.append(word_to_index[w])   # 단어의 고유번호를 리스트에 추가
        except:
            temp.append(word_to_index['OOV'])   # 존재하지 않는 단어의 OOV의 인덱스를 추가
    encoded.append(temp)
encoded   # 출현빈도수가 낮은 단어들은 4번으로 번호를 줌

[[4, 4, 1, 4],
 [4, 4, 4, 2, 4, 3, 4],
 [1, 4, 4, 4, 4, 4, 2, 4, 3, 3, 4],
 [4, 4, 4, 4]]

In [12]:
import numpy as np

# 2차원 데이터를 1차원으로 바꾸고
words = np.hstack(sentences)
print(words)

['모처럼' '전국' '비' '있습니다' '대부분' '밤' '계속' '때문' '종일' '우산' '필요하겠는데요' '비' '양도'
 '많고' '바람' '강하게' '불기' '때문' '작은' '우산' '우산' '좋습니다' '제주' '남해안' '비바람' '강합니다']


In [13]:
# 단어의 출현빈도를 쉽게 계산하는 클래스: Counter
from collections import Counter
vocab = Counter(words) 
print(vocab)

Counter({'우산': 3, '비': 2, '때문': 2, '모처럼': 1, '전국': 1, '있습니다': 1, '대부분': 1, '밤': 1, '계속': 1, '종일': 1, '필요하겠는데요': 1, '양도': 1, '많고': 1, '바람': 1, '강하게': 1, '불기': 1, '작은': 1, '좋습니다': 1, '제주': 1, '남해안': 1, '비바람': 1, '강합니다': 1})


In [14]:
print(vocab["우산"]) # 단어의 빈도수

3


In [15]:
# 출현빈도가 높은 상위 5개의 단어
vocab_size = 5
vocab = vocab.most_common(vocab_size)
vocab


[('우산', 3), ('비', 2), ('때문', 2), ('모처럼', 1), ('전국', 1)]

In [16]:
word_to_index = {}
i = 0
for (word, frequency) in vocab :
    i = i+1
    word_to_index[word] = i
print(word_to_index)

{'우산': 1, '비': 2, '때문': 3, '모처럼': 4, '전국': 5}


### 단어의 출현빈도

tf 한 문서에서 단어의 출현빈도

df 여러 문서의 출현빈도가 높은 단어: 모든 문서에 나오는 단어라면 중요하지 않을 가능성이 있음 (ex. 참고문헌, 기자, 날씨 등등)

### 정수인코딩의 단점: 단어의 순서가 없음
→ 원핫인코딩: 단어의 순서에 맞게 배열