# 표제어 추출 (Lemmatization)

말뭉치(코퍼스)의 단어 개수를 줄일 수 있는 기법

be 동사 : be, am, are, is

공부하다 : 공부하고, 공부하게, 공부여서

- 분석시에 단어 빈도수 기반으로 진행 -> 자연어 처리 단계에서 자주 사용
- 형태소로부터 단어를 만들어가는 : 형태학
  * 어간(stem) : 의미가 있는 단어의 핵심부분
  * 접사(affix) : 단어에 추가적인 의미를 부여하는 부분

  형태학적 파싱 : 코퍼스에서 어간과 접사를 분리하는 것
  
  ex) students => student + s

In [None]:
import nltk # 자연어 처리를 위한 패키지
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [None]:
# WordNetLemmatizer : NLTK에서 지원한느 표제어 추출 도구
from nltk.stem import WordNetLemmatizer

In [None]:
lemmatizer = WordNetLemmatizer()

words = ['sky','computer','having','lives','love','mouse','dies','listened','ate','has']

print('추출 전 : ',words)
print('추출 후 : ',[lemmatizer.lemmatize(word) for word in words])

추출 전 :  ['sky', 'computer', 'having', 'lives', 'love', 'mouse', 'dies', 'listened', 'ate', 'has']
추출 후 :  ['sky', 'computer', 'having', 'life', 'love', 'mouse', 'dy', 'listened', 'ate', 'ha']


In [None]:
lemmatizer.lemmatize('dies','v')

'die'

In [None]:
lemmatizer.lemmatize('listened','v')

'listen'

In [None]:
lemmatizer.lemmatize('better','a')

# v : 동사 / a : 형용사 / n : 명사 / r : 부사

'good'

In [None]:
lemmatizer.lemmatize('has','v')

'have'

# 어간 추출 (Stemming)

In [None]:
import nltk 
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

In [None]:
sentence = """At the entreaty of Zoraida
orders were given to set on shore her father and the other Morrs who
where still bound, for she could not endure, not could her tender heart
bear to see her father in bonds and her fellow-countrymen prisoners
bofore her eyes. We promised her to do this at the moment of departure,
for as it was uninhabited we ran no risk in releasing them at ther
place."""

In [None]:
stemmer = PorterStemmer()

words2 = word_tokenize(sentence)
print(words2)
print()
print([stemmer.stem(w) for w in words2])

['At', 'the', 'entreaty', 'of', 'Zoraida', 'orders', 'were', 'given', 'to', 'set', 'on', 'shore', 'her', 'father', 'and', 'the', 'other', 'Morrs', 'who', 'where', 'still', 'bound', ',', 'for', 'she', 'could', 'not', 'endure', ',', 'not', 'could', 'her', 'tender', 'heart', 'bear', 'to', 'see', 'her', 'father', 'in', 'bonds', 'and', 'her', 'fellow-countrymen', 'prisoners', 'bofore', 'her', 'eyes', '.', 'We', 'promised', 'her', 'to', 'do', 'this', 'at', 'the', 'moment', 'of', 'departure', ',', 'for', 'as', 'it', 'was', 'uninhabited', 'we', 'ran', 'no', 'risk', 'in', 'releasing', 'them', 'at', 'ther', 'place', '.']

['At', 'the', 'entreati', 'of', 'zoraida', 'order', 'were', 'given', 'to', 'set', 'on', 'shore', 'her', 'father', 'and', 'the', 'other', 'morr', 'who', 'where', 'still', 'bound', ',', 'for', 'she', 'could', 'not', 'endur', ',', 'not', 'could', 'her', 'tender', 'heart', 'bear', 'to', 'see', 'her', 'father', 'in', 'bond', 'and', 'her', 'fellow-countrymen', 'prison', 'bofor', 'her

# PorterStemmer : 알고리즘

규칙 기반의 접근 => 어림짐작하는 작업 => 섬세 X => 사전에 없는 단어가 도출될 가능성 있음

* 마틴포터 홈페이지에서 다양하게 살펴볼 수 있음

- 규칙 기반의 접근 
  * ALIZE => AL
  * ANCE => 삭제
  * ICAL => IC

In [None]:
word = ['initialize','alliance','typical']

print('추출 전 : ',word)
print('추출 후 : ',[stemmer.stem(w) for w in word])

추출 전 :  ['initialize', 'alliance', 'typical']
추출 후 :  ['initi', 'allianc', 'typic']


In [None]:
#NLTK에서는 포터 알고리즘외에도 랭커스터 스태머 (Lancaster Stemmer) 알고리즘을 지원
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

In [None]:
porter = PorterStemmer()
lancaster = LancasterStemmer()

words = ['sky','computer','having','lives','love','mouse','dies','listened','ate','has']
print(words)

['sky', 'computer', 'having', 'lives', 'love', 'mouse', 'dies', 'listened', 'ate', 'has']


In [None]:
print([porter.stem(w) for w in words])

['sky', 'comput', 'have', 'live', 'love', 'mous', 'die', 'listen', 'ate', 'ha']


In [None]:
print([lancaster.stem(w) for w in words])

# 두 스태머가 다른 결과를 보여줌
# 두 스태머는 서로 다른 알고리즘 사용하기 때문
# 제대로 된 표제어를 뽑아오지는 못하고 있음


['sky', 'comput', 'hav', 'liv', 'lov', 'mous', 'die', 'list', 'at', 'has']


# 불용어(Stopword)

단어들 중에서 의미가 없는 단어

데이터 중에서 의미가 있는 단어 토큰만 취급하기 위해서 의미를 가지지 않은 단어들을 제거하는 작업 수행

In [None]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
from nltk.corpus import stopwords 

In [None]:
#NLTK에 있는 불용어
s = stopwords.words('english')
print(len(s))
print(s[:20])

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [None]:
ex = """Why is it, think ye, Christians, that this wiched woman is rejoiced at your giving
me my liberty? Nay berily, it is only because of the hindrance my presence
offers to the execution of her base designs."""

# NLTK에서 지정한 불용어를 가져오기
sw = set(stopwords.words('english'))
# print(sw)
# 문장을 단어로 쪼개는 작업
word = word_tokenize(ex)

# 불용어가 아닌 단어들만 list에 담아서 출력
result = []
for w in word: # 단어로 쪼갠것을 하나씩 반복문 돌린다.
  # if w in sw: # 불용어에 포함된다면
  if w not in sw: # 불용어에 포함되지 않는다면
    result.append(w)

print(word)
print()
print(result)

['Why', 'is', 'it', ',', 'think', 'ye', ',', 'Christians', ',', 'that', 'this', 'wiched', 'woman', 'is', 'rejoiced', 'at', 'your', 'giving', 'me', 'my', 'liberty', '?', 'Nay', 'berily', ',', 'it', 'is', 'only', 'because', 'of', 'the', 'hindrance', 'my', 'presence', 'offers', 'to', 'the', 'execution', 'of', 'her', 'base', 'designs', '.']

['Why', ',', 'think', 'ye', ',', 'Christians', ',', 'wiched', 'woman', 'rejoiced', 'giving', 'liberty', '?', 'Nay', 'berily', ',', 'hindrance', 'presence', 'offers', 'execution', 'base', 'designs', '.']


# 한국어 불용어 제거하기

- 토큰화 -> 조사 or 접속사같이 명사 or 형용사에서 필요없는 단어들을 제거

- 한국어의 경우에는 사용자가 직접 불용어를 지정해서 사용하는 경우가 많음

In [None]:
pip install Konlpy

Collecting Konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 81.3 MB/s 
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 43.3 MB/s 
Installing collected packages: JPype1, Konlpy
Successfully installed JPype1-1.3.0 Konlpy-0.6.0


In [None]:
from konlpy.tag import Okt

In [None]:
okt = Okt()

ex = "점심시간이네? 나는 비빔밥을 먹고있는데 이게 양이 은근 많아. 그리고 헛배가 자꾸 부르는 것 같아."
sw = "는 그리고 이네"

sw = set(sw.split(" "))
token = okt.morphs(ex) # 형태소 분석

result = [w for w in token if w not in sw]

print(token) # 불용어 제거 전
print()
print(result) # 불용어 제거 후

['점심시간', '이네', '?', '나', '는', '비빔밥', '을', '먹고있는데', '이', '게', '양', '이', '은근', '많아', '.', '그리고', '헛배', '가', '자꾸', '부르는', '것', '같아', '.']

['점심시간', '?', '나', '비빔밥', '을', '먹고있는데', '이', '게', '양', '이', '은근', '많아', '.', '헛배', '가', '자꾸', '부르는', '것', '같아', '.']


# 정수 인코딩 (Integer Encoding)

컴퓨터 입장에서 텍스트보다는 숫자를 더 쉽게 처리하는 경향이 있음

텍스트에 정수를 부여하는 방법
1. 단어를 빈도수를 기준으로 정렬
2. 정렬된 집합 구성
3. 빈도가 높은순 -> 낮은순으로 숫자를 부여


In [None]:
# 영어 동요
text = """Hush little baby don't say a word
Papa's gonnna buy you a mockingbird
If that mockingbird won't sing
Papa's gonna buy you a diamond ring
If that diamond ring turns brass
Papa's gonna buy you a looking glass
If that looking glass gets broken
Papa's gonna buy you a billy goat
If that billy goat won't pull
Papa's gonna buy you a cart and bull
If that cart and bull turn over
Papa's gonna buy you a dog named Rover
So hush little baby don't you cry
Daddy loves you and so do I """
text

"Hush little baby don't say a word\nPapa's gonnna buy you a mockingbird\nIf that mockingbird won't sing\nPapa's gonna buy you a diamond ring\nIf that diamond ring turns brass\nPapa's gonna buy you a looking glass\nIf that looking glass gets broken\nPapa's gonna buy you a billy goat\nIf that billy goat won't pull\nPapa's gonna buy you a cart and bull\nIf that cart and bull turn over\nPapa's gonna buy you a dog named Rover\nSo hush little baby don't you cry\nDaddy loves you and so do I "

In [None]:
from nltk.tokenize import sent_tokenize # 영어 문장 토큰화
from nltk.tokenize import word_tokenize # 영어 단어 토큰화
from nltk.corpus import stopwords

In [None]:
# 문장 토큰화
sentence = sent_tokenize(text)
sentence

["Hush little baby don't say a word\nPapa's gonnna buy you a mockingbird\nIf that mockingbird won't sing\nPapa's gonna buy you a diamond ring\nIf that diamond ring turns brass\nPapa's gonna buy you a looking glass\nIf that looking glass gets broken\nPapa's gonna buy you a billy goat\nIf that billy goat won't pull\nPapa's gonna buy you a cart and bull\nIf that cart and bull turn over\nPapa's gonna buy you a dog named Rover\nSo hush little baby don't you cry\nDaddy loves you and so do I"]

In [None]:
# 단어 토큰화 -> 불용어를 뺀 단어 토큰들을 list에 담기

sw = set(stopwords.words('english'))
final_sentence = [] #나중에 추가 - 밑에 제일 많은 5개 뽑을 때
# result = [] # 나중 밑으로 옮긴거
aa = {}
for s in sentence:
  # 단어 토큰화
  word = word_tokenize(s)
  reuslt = [] # 나중에 위에서 여기로
  for w in word:
    w = w.lower() # 모든 단어를 소문자화 -> 단어 개수를 줄이는데 도움 O
    if w not in sw:
      if len(w) > 2:
        result.append(w)
        if w not in aa:
          aa[w] = 0
        aa[w] += 1
  final_sentence.append(result) # 나중에추가

print(final_sentence)
print(aa)

[['점심시간', '?', '나', '비빔밥', '을', '먹고있는데', '이', '게', '양', '이', '은근', '많아', '.', '헛배', '가', '자꾸', '부르는', '것', '같아', '.', 'hush', 'little', 'baby', "n't", 'say', 'word', 'papa', 'gonnna', 'buy', 'mockingbird', 'mockingbird', "n't", 'sing', 'papa', 'gon', 'buy', 'diamond', 'ring', 'diamond', 'ring', 'turns', 'brass', 'papa', 'gon', 'buy', 'looking', 'glass', 'looking', 'glass', 'gets', 'broken', 'papa', 'gon', 'buy', 'billy', 'goat', 'billy', 'goat', "n't", 'pull', 'papa', 'gon', 'buy', 'cart', 'bull', 'cart', 'bull', 'turn', 'papa', 'gon', 'buy', 'dog', 'named', 'rover', 'hush', 'little', 'baby', "n't", 'cry', 'daddy', 'loves']]
{'hush': 2, 'little': 2, 'baby': 2, "n't": 4, 'say': 1, 'word': 1, 'papa': 6, 'gonnna': 1, 'buy': 6, 'mockingbird': 2, 'sing': 1, 'gon': 5, 'diamond': 2, 'ring': 2, 'turns': 1, 'brass': 1, 'looking': 2, 'glass': 2, 'gets': 1, 'broken': 1, 'billy': 2, 'goat': 2, 'pull': 1, 'cart': 2, 'bull': 2, 'turn': 1, 'dog': 1, 'named': 1, 'rover': 1, 'cry': 1, 'daddy': 1, 'love

In [None]:
# time 단어의 빈도 수
print(aa['baby'])

2


In [None]:
# sorted() 함수 : 빈도수대로 정렬
# sorted(정렬할 데이터, key옵션, reverse옵션)
#       key 옵션 : key parameter
#                 어떤 것을 기준으로 정렬할지 (key에 준 값으로 정렬)
#       reverse 옵션 : False(default) >> 오름차순

# sort() vs sorted()
#       sort는 리스트 자체를 정렬해서 바꾸는 형태
#       sorted는 원래 리스트는 그대로 두고, 정렬한 것을 새로운 리스트에 넣는 형태

# key=lambda x:x[1] => x[1]의 값이 정렬의 기준 => 빈도수를 기준으로 정렬

aaSort = sorted(aa.items(),key=lambda x:x[1],reverse=True) #빈도수가 많은 순서대로
print(aaSort)

[('papa', 6), ('buy', 6), ('gon', 5), ("n't", 4), ('hush', 2), ('little', 2), ('baby', 2), ('mockingbird', 2), ('diamond', 2), ('ring', 2), ('looking', 2), ('glass', 2), ('billy', 2), ('goat', 2), ('cart', 2), ('bull', 2), ('say', 1), ('word', 1), ('gonnna', 1), ('sing', 1), ('turns', 1), ('brass', 1), ('gets', 1), ('broken', 1), ('pull', 1), ('turn', 1), ('dog', 1), ('named', 1), ('rover', 1), ('cry', 1), ('daddy', 1), ('loves', 1)]


In [None]:
# [높은 빈도수]를 가지고 있는 단어일수록 [낮은 정수값]을 부여 (정수는 1부터 부여)

# 빈도수가 1이하인 것들은 삭제(결과에 안나오게)
# {'papa':6, 'fun':2, 'stop':3,...}

aa_index = {}
i = 0
for (word, frequency) in aaSort:
  if (frequency > 1):
    i = i+1
    aa_index[word] = i

print(aa_index)
# index가 1이면 가장 많이 언급된 단어 

{'papa': 1, 'buy': 2, 'gon': 3, "n't": 4, 'hush': 5, 'little': 6, 'baby': 7, 'mockingbird': 8, 'diamond': 9, 'ring': 10, 'looking': 11, 'glass': 12, 'billy': 13, 'goat': 14, 'cart': 15, 'bull': 16}


In [None]:
# 단어 빈도수가 가장 높은 상위 5개 출력
freSize = 5

# 인덱스가 5초과 (6이상)인 단어들을 aa_final이라는 변수에 담기
aa_final = [w for (w, index)in aa_index.items() if index >= freSize +1]

# 기존 aa_index에서 aa_final에 담겨있는 단어를 삭제
for w in aa_final:
  del aa_index[w]
print(aa_index)

{'papa': 1, 'buy': 2, 'gon': 3, "n't": 4, 'hush': 5}


In [None]:
# ['papa','buy','gon','n't','hush','little'] >> aa_index에 더이상 존재하지 않는 little 단어가 존재
# [1,2,3,4,5,?]
# Out-Of-Vocabulary : 단어 집합에 없는 단어 >> OOV
# aa_index에 'OOV'라는 단어가 있는 자리를 하나 만들고, 그 단어 집합에 존재하지 않는 단어를
#     OOV의 인덱스로 인코딩


In [None]:
aa_index['OOV'] = len(aa_index)+1
print(aa_index)

{'papa': 1, 'buy': 2, 'gon': 3, "n't": 4, 'hush': 5, 'OOV': 6}


In [None]:
# 문장마다 텍스트 대신 그 자리에 해당하는 인덱스로 변환
# 문장 토큰화 : sentence
# 문장마다 단어로 토큰화 : final_sentence

# [[1,4,2,4,6,3,2,1,...]]
encoding_sentences = []
for fs in final_sentence:
  encoding_sentence = []
  for w in fs:
    try :
      # 단어 집합에 있는 단어면 해당 단어의 정수를 넣어줌
      encoding_sentence.append(aa_index[w])
    except KeyError:
      # 단어 집합에 없는 단어라면 OOV의 정수값 반환
      encoding_sentence.append(aa_index['OOV'])
    encoding_sentences.append(encoding_sentence)
print(encoding_sentences)

[[6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5, 6, 6, 4, 6, 6, 1, 6, 2, 6, 6, 4, 6, 1, 3, 2, 6, 6, 6, 6, 6, 6, 1, 3, 2, 6, 6, 6, 6, 6, 6, 1, 3, 2, 6, 6, 6, 6, 4, 6, 1, 3, 2, 6, 6, 6, 6, 6, 1, 3, 2, 6, 6, 6, 5, 6, 6, 4, 6, 6, 6], [6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5, 6, 6, 4, 6, 6, 1, 6, 2, 6, 6, 4, 6, 1, 3, 2, 6, 6, 6, 6, 6, 6, 1, 3, 2, 6, 6, 6, 6, 6, 6, 1, 3, 2, 6, 6, 6, 6, 4, 6, 1, 3, 2, 6, 6, 6, 6, 6, 1, 3, 2, 6, 6, 6, 5, 6, 6, 4, 6, 6, 6], [6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5, 6, 6, 4, 6, 6, 1, 6, 2, 6, 6, 4, 6, 1, 3, 2, 6, 6, 6, 6, 6, 6, 1, 3, 2, 6, 6, 6, 6, 6, 6, 1, 3, 2, 6, 6, 6, 6, 4, 6, 1, 3, 2, 6, 6, 6, 6, 6, 1, 3, 2, 6, 6, 6, 5, 6, 6, 4, 6, 6, 6], [6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5, 6, 6, 4, 6, 6, 1, 6, 2, 6, 6, 4, 6, 1, 3, 2, 6, 6, 6, 6, 6, 6, 1, 3, 2, 6, 6, 6, 6, 6, 6, 1, 3, 2, 6, 6, 6, 6, 4, 6, 1, 3, 2, 6, 6, 6, 6, 6, 1, 3, 2, 6, 6, 6, 5, 6, 6, 4, 6, 6, 6], [6, 6, 6, 6, 6, 6, 

# Counter


In [None]:
from collections import Counter

In [None]:
print(final_sentence)

[['점심시간', '?', '나', '비빔밥', '을', '먹고있는데', '이', '게', '양', '이', '은근', '많아', '.', '헛배', '가', '자꾸', '부르는', '것', '같아', '.', 'hush', 'little', 'baby', "n't", 'say', 'word', 'papa', 'gonnna', 'buy', 'mockingbird', 'mockingbird', "n't", 'sing', 'papa', 'gon', 'buy', 'diamond', 'ring', 'diamond', 'ring', 'turns', 'brass', 'papa', 'gon', 'buy', 'looking', 'glass', 'looking', 'glass', 'gets', 'broken', 'papa', 'gon', 'buy', 'billy', 'goat', 'billy', 'goat', "n't", 'pull', 'papa', 'gon', 'buy', 'cart', 'bull', 'cart', 'bull', 'turn', 'papa', 'gon', 'buy', 'dog', 'named', 'rover', 'hush', 'little', 'baby', "n't", 'cry', 'daddy', 'loves']]


In [None]:
# list 속의 list 지우고 하나의 list에 다 넣기
one_list = sum(final_sentence, [])
print(one_list)

['점심시간', '?', '나', '비빔밥', '을', '먹고있는데', '이', '게', '양', '이', '은근', '많아', '.', '헛배', '가', '자꾸', '부르는', '것', '같아', '.', 'hush', 'little', 'baby', "n't", 'say', 'word', 'papa', 'gonnna', 'buy', 'mockingbird', 'mockingbird', "n't", 'sing', 'papa', 'gon', 'buy', 'diamond', 'ring', 'diamond', 'ring', 'turns', 'brass', 'papa', 'gon', 'buy', 'looking', 'glass', 'looking', 'glass', 'gets', 'broken', 'papa', 'gon', 'buy', 'billy', 'goat', 'billy', 'goat', "n't", 'pull', 'papa', 'gon', 'buy', 'cart', 'bull', 'cart', 'bull', 'turn', 'papa', 'gon', 'buy', 'dog', 'named', 'rover', 'hush', 'little', 'baby', "n't", 'cry', 'daddy', 'loves']


In [None]:
# Counter 모듈 사용해서 단어의 빈도수를 세어보기
wf = Counter(one_list)
print(wf)

Counter({'papa': 6, 'buy': 6, 'gon': 5, "n't": 4, '이': 2, '.': 2, 'hush': 2, 'little': 2, 'baby': 2, 'mockingbird': 2, 'diamond': 2, 'ring': 2, 'looking': 2, 'glass': 2, 'billy': 2, 'goat': 2, 'cart': 2, 'bull': 2, '점심시간': 1, '?': 1, '나': 1, '비빔밥': 1, '을': 1, '먹고있는데': 1, '게': 1, '양': 1, '은근': 1, '많아': 1, '헛배': 1, '가': 1, '자꾸': 1, '부르는': 1, '것': 1, '같아': 1, 'say': 1, 'word': 1, 'gonnna': 1, 'sing': 1, 'turns': 1, 'brass': 1, 'gets': 1, 'broken': 1, 'pull': 1, 'turn': 1, 'dog': 1, 'named': 1, 'rover': 1, 'cry': 1, 'daddy': 1, 'loves': 1})


In [None]:
# 빈도수가 높은 상위 5개만 저장
freSize = 5
wf = wf.most_common(freSize)
wf

[('papa', 6), ('buy', 6), ('gon', 5), ("n't", 4), ('이', 2)]

In [None]:
# 높은 빈도수부터 낮은 숫자를 부여
i = 0 
wf_index = {}
for (word, frequency) in wf:
  i = i+1
  wf_index[word] = i

print(wf_index)

{'papa': 1, 'buy': 2, 'gon': 3, "n't": 4, '이': 5}


# FreqDist

NLTK에서 빈도수 계산도구 - Counter()와 비슷

In [None]:
from nltk import FreqDist
import numpy as np

In [None]:
print(final_sentence)

[['점심시간', '?', '나', '비빔밥', '을', '먹고있는데', '이', '게', '양', '이', '은근', '많아', '.', '헛배', '가', '자꾸', '부르는', '것', '같아', '.', 'hush', 'little', 'baby', "n't", 'say', 'word', 'papa', 'gonnna', 'buy', 'mockingbird', 'mockingbird', "n't", 'sing', 'papa', 'gon', 'buy', 'diamond', 'ring', 'diamond', 'ring', 'turns', 'brass', 'papa', 'gon', 'buy', 'looking', 'glass', 'looking', 'glass', 'gets', 'broken', 'papa', 'gon', 'buy', 'billy', 'goat', 'billy', 'goat', "n't", 'pull', 'papa', 'gon', 'buy', 'cart', 'bull', 'cart', 'bull', 'turn', 'papa', 'gon', 'buy', 'dog', 'named', 'rover', 'hush', 'little', 'baby', "n't", 'cry', 'daddy', 'loves']]


In [None]:
# 문장 구분 삭제(np.hstach)
one_list = FreqDist(np.hstack(final_sentence))
one_list

FreqDist({'.': 2,
          '?': 1,
          'baby': 2,
          'billy': 2,
          'brass': 1,
          'broken': 1,
          'bull': 2,
          'buy': 6,
          'cart': 2,
          'cry': 1,
          'daddy': 1,
          'diamond': 2,
          'dog': 1,
          'gets': 1,
          'glass': 2,
          'goat': 2,
          'gon': 5,
          'gonnna': 1,
          'hush': 2,
          'little': 2,
          'looking': 2,
          'loves': 1,
          'mockingbird': 2,
          "n't": 4,
          'named': 1,
          'papa': 6,
          'pull': 1,
          'ring': 2,
          'rover': 1,
          'say': 1,
          'sing': 1,
          'turn': 1,
          'turns': 1,
          'word': 1,
          '가': 1,
          '같아': 1,
          '것': 1,
          '게': 1,
          '나': 1,
          '많아': 1,
          '먹고있는데': 1,
          '부르는': 1,
          '비빔밥': 1,
          '양': 1,
          '은근': 1,
          '을': 1,
          '이': 2,
          '자꾸': 1,
       

In [None]:
print(one_list['bull'])

2


In [None]:
freSize = 5
one_list = one_list.most_common(freSize)
one_list

[('papa', 6), ('buy', 6), ('gon', 5), ("n't", 4), ('이', 2)]

In [None]:
word_index = {w[0] : i + 1 for i, w in enumerate(one_list)}
print(word_index)

{'papa': 1, 'buy': 2, 'gon': 3, "n't": 4, '이': 5}


In [None]:
# enumerate() 함수
#     순서가 존재하는 자료형을 입력 받아서, 순차적으로 부여받은 인덱스도 함께 리턴
l = [1,2,3,4,5]
for i, v in enumerate(l): # 입력 순서대로 0부터 인덱스 부여
  print('index : {}, value : {}'.format(i,v))

index : 0, value : 1
index : 1, value : 2
index : 2, value : 3
index : 3, value : 4
index : 4, value : 5


# 캐라스 (Keras)

text preprocessing(텍스트 전처리)을 위한 다양한 도구를 제공



In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
final_sentence = [['점심시간', '?', '나', '비빔밥', '을', '먹고있는데', '이', '게', '양', '이', '은근', '많아', '.', '헛배', '가', '자꾸', '부르는', '것', '같아', '.', 'hush', 'little', 'baby', "n't", 'say', 'word', 'papa', 'gonnna', 'buy', 'mockingbird', 'mockingbird', "n't", 'sing', 'papa', 'gon', 'buy', 'diamond', 'ring', 'diamond', 'ring', 'turns', 'brass', 'papa', 'gon', 'buy', 'looking', 'glass', 'looking', 'glass', 'gets', 'broken', 'papa', 'gon', 'buy', 'billy', 'goat', 'billy', 'goat', "n't", 'pull', 'papa', 'gon', 'buy', 'cart', 'bull', 'cart', 'bull', 'turn', 'papa', 'gon', 'buy', 'dog', 'named', 'rover', 'hush', 'little', 'baby', "n't", 'cry', 'daddy', 'loves']]

print(final_sentence)

[['점심시간', '?', '나', '비빔밥', '을', '먹고있는데', '이', '게', '양', '이', '은근', '많아', '.', '헛배', '가', '자꾸', '부르는', '것', '같아', '.', 'hush', 'little', 'baby', "n't", 'say', 'word', 'papa', 'gonnna', 'buy', 'mockingbird', 'mockingbird', "n't", 'sing', 'papa', 'gon', 'buy', 'diamond', 'ring', 'diamond', 'ring', 'turns', 'brass', 'papa', 'gon', 'buy', 'looking', 'glass', 'looking', 'glass', 'gets', 'broken', 'papa', 'gon', 'buy', 'billy', 'goat', 'billy', 'goat', "n't", 'pull', 'papa', 'gon', 'buy', 'cart', 'bull', 'cart', 'bull', 'turn', 'papa', 'gon', 'buy', 'dog', 'named', 'rover', 'hush', 'little', 'baby', "n't", 'cry', 'daddy', 'loves']]


In [None]:
tokenizer = Tokenizer()

# fit_one_texts(코퍼스) >> 빈도수를 기준으로 단어 집합을 만들어 줌
# 높은 빈도수의 단어부터 낮은 숫자를 분여 << 정수 인코딩
tokenizer.fit_on_texts(final_sentence)

In [None]:
# word_index : 각각 어떤 인덱스가 부여되었는지 확인
print(tokenizer.word_index)

In [None]:
# word_counts : 단어 빈도수가 궁금하다면 
print(tokenizer.word_counts)

In [None]:
# texts_to_sequences(코퍼스) : text를 부여받은 인덱스로 변환하기
print(tokenizer.texts_to_sequences(final_sentence))

In [None]:
# 빈도수가 높은 상위 5개만 사용하겠다라고 지정하는 방법
# tokenizer = Tokenizer()
word_size = 5
tokenizer = Tokenizer(num_words = word_size + 1) # num_words는 count를 0부터 세기 때문에 +1을 해야함 
tokenizer.fit_on_texts(final_sentence)


In [None]:
# word_index : 각각 어떤 인덱스가 부여되었는지 확인
print(tokenizer.word_index)

In [None]:
# word_counts : 단어 빈도수가 궁금하다면 
print(tokenizer.word_counts)

In [None]:
# texts_to_sequences(코퍼스) : text를 부여받은 인덱스로 변환하기
print(tokenizer.texts_to_sequences(final_sentence))

In [None]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(final_sentence)


In [None]:
freSize = 5
wf = [w for w, i in tokenizer.word_index.items() if i >= freSize + 1]
for w in wf:
  del tokenizer.word_index[w]
  del tokenizer.word_counts[w]

print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(final_sentence))

{'papa': 1, 'buy': 2, 'gon': 3, "n't": 4, '이': 5}
OrderedDict([('이', 2), ("n't", 4), ('papa', 6), ('buy', 6), ('gon', 5)])
[[5, 5, 4, 1, 2, 4, 1, 3, 2, 1, 3, 2, 1, 3, 2, 4, 1, 3, 2, 1, 3, 2, 4]]


In [None]:
# keras의 tokenizer에 (기본 설정이) 단어 집합에 없는 단어의 경우
# OOV(Out-Of-Vocabulary)에 대해서는 단어 자체를 제거하는 특성

# OOV를 따로 설정해서 가지고 있고 싶다면 'oov_token'이라는 것을 사용
freSize = 5
tokenizer = Tokenizer(num_words=freSize+2, oov_token='OOV')
tokenizer.fit_on_texts(final_sentence)

In [None]:
tokenizer.word_index['OOV']

1

In [None]:
print(tokenizer.texts_to_sequences(final_sentence))
# oov_token을 사용하면 OOV의 인덱스가 1로 설정
# 3 나머지 빈도수 상위 5개 (단위집합) 자동적으로 인덱스가 + 1씩 추가됨

[[1, 1, 1, 1, 1, 1, 6, 1, 1, 6, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 5, 1, 1, 2, 1, 3, 1, 1, 5, 1, 2, 4, 3, 1, 1, 1, 1, 1, 1, 2, 4, 3, 1, 1, 1, 1, 1, 1, 2, 4, 3, 1, 1, 1, 1, 5, 1, 2, 4, 3, 1, 1, 1, 1, 1, 2, 4, 3, 1, 1, 1, 1, 1, 1, 5, 1, 1, 1]]


# 한국어 정수 인덱스

In [None]:
text = """그냥 청와대로 갔으면 아무 일도 벌어지지 않았으리라. “청와대를 국민께 돌려드리겠다”라며 윤석열 대통령 당선자가 청와대 입주를 거부하면서 국론은 분열됐고, 대통령직인수위원회는 2개월여를 허비했다.윤 당선자는 당선 직후 기자회견을 열고 대통령 집무실은 서울 용산 국방부 청사를, 관저는 한남동 육군참모총장 공관을 이용하겠다고 말했다. 급작스러운 발표에 국가안보의 중심인 국방부는 쫓겨나듯 ‘이사’해야 했고, 안보 위기상황 발생 시 긴급하게 사용될 국방부 영내 헬기장은 대통령 전용 헬기를 위해 자리를 양보해야 했다. 용산의 군인아파트도 대통령실 직원들을 위해 일부를 비워주는 상황이 벌어졌다."""

text

'그냥 청와대로 갔으면 아무 일도 벌어지지 않았으리라. “청와대를 국민께 돌려드리겠다”라며 윤석열 대통령 당선자가 청와대 입주를 거부하면서 국론은 분열됐고, 대통령직인수위원회는 2개월여를 허비했다.윤 당선자는 당선 직후 기자회견을 열고 대통령 집무실은 서울 용산 국방부 청사를, 관저는 한남동 육군참모총장 공관을 이용하겠다고 말했다. 급작스러운 발표에 국가안보의 중심인 국방부는 쫓겨나듯 ‘이사’해야 했고, 안보 위기상황 발생 시 긴급하게 사용될 국방부 영내 헬기장은 대통령 전용 헬기를 위해 자리를 양보해야 했다. 용산의 군인아파트도 대통령실 직원들을 위해 일부를 비워주는 상황이 벌어졌다.'

In [None]:
stop_word="아 휴 아이구 아이쿠 아이고 어 나 우리 저희 따라 의해 을 를 에 의 가 으로 로 에게 뿐이다 의거하여 근거하여 입각하여 기준으로 예하면 예를 들면 예를 들자면 저 소인 소생 저희 지말고 하지마 하지마라 다른 물론 또한 그리고 비길수 없다 해서는 안된다 뿐만 아니라 만이 아니다 만은 아니다 막론하고 관계없이 그치지 않다 그러나 그런데 하지만 든간에 논하지 않다 따지지 않다 설사 비록 더라도 아니면 만 못하다 하는 편이 낫다 불문하고 향하여 향해서 향하다 쪽으로 틈타 이용하여 타다 오르다 제외하고 이 외에 이 밖에 하여야 비로소 한다면 몰라도 외에도 이곳 여기 부터 기점으로 따라서 할 생각이다 하려고하다 이리하여 그리하여 그렇게 함으로써 하지만 일때 할때 앞에서 중에서 보는데서 으로써 로써 까지 해야한다 일것이다 반드시 할줄알다 할수있다 할수있어 임에 틀림없다 한다면 등 등등 제 겨우 단지 다만 할뿐 딩동 댕그 대해서 대하여 대하면 훨씬 얼마나 얼마만큼 얼마큼 남짓 여 얼마간 약간 다소 좀 조금 다수 몇 얼마 지만 하물며 또한 그러나 그렇지만 하지만 이외에도 대해 말하자면 뿐이다 다음에 반대로 반대로 말하자면 이와 반대로 바꾸어서 말하면 바꾸어서 한다면 만약 그렇지않으면 까악 툭 딱 삐걱거리다 보드득 비걱거리다 꽈당 응당 해야한다 에 가서 각 각각 여러분 각종 각자 제각기 하도록하다 와 과 그러므로 그래서 고로 한 까닭에 하기 때문에 거니와 이지만 대하여 관하여 관한 과연 실로 아니나다를가 생각한대로 진짜로 한적이있다 하곤하였다 하 하하 허허 아하 거바 와 오 왜 어째서 무엇때문에 어찌 하겠는가 무슨 어디 어느곳 더군다나 하물며 더욱이는 어느때 언제 야 이봐 어이 여보시오 흐흐 흥 휴 헉헉 헐떡헐떡 영차 여차 어기여차 끙끙 아야 앗 아야 콸콸 졸졸 좍좍 뚝뚝 주룩주룩 솨 우르르 그래도 또 그리고 바꾸어말하면 바꾸어말하자면 혹은 혹시 답다 및 그에 따르는 때가 되어 즉 지든지 설령 가령 하더라도 할지라도 일지라도 지든지 몇 거의 하마터면 인젠 이젠 된바에야 된이상 만큼 어찌됏든 그위에 게다가 점에서 보아 비추어 보아 고려하면 하게될것이다 일것이다 비교적 좀 보다더 비하면 시키다 하게하다 할만하다 의해서 연이서 이어서 잇따라 뒤따라 뒤이어 결국 의지하여 기대여 통하여 자마자 더욱더 불구하고 얼마든지 마음대로 주저하지 않고 곧 즉시 바로 당장 하자마자 밖에 안된다 하면된다 그래 그렇지 요컨대 다시 말하자면 바꿔 말하면 즉 구체적으로 말하자면 시작하여 시초에 이상 허 헉 허걱 바와같이 해도좋다 해도된다 게다가 더구나 하물며 와르르 팍 퍽 펄렁 동안 이래 하고있었다 이었다 에서 로부터 까지 예하면 했어요 해요 함께 같이 더불어 마저 마저도 양자 모두 습니다 가까스로 하려고하다 즈음하여 다른 다른 방면으로 해봐요 습니까 했어요 말할것도 없고 무릎쓰고 개의치않고 하는것만 못하다 하는것이 낫다 매 매번 들 모 어느것 어느 로써 갖고말하자면 어디 어느쪽 어느것 어느해 어느 년도 라 해도 언젠가 어떤것 어느것 저기 저쪽 저것 그때 그럼 그러면 요만한걸 그래 그때 저것만큼 그저 이르기까지 할 줄 안다 할 힘이 있다 너 너희 당신 어찌 설마 차라리 할지언정 할지라도 할망정 할지언정 구토하다 게우다 토하다 메쓰겁다 옆사람 퉤 쳇 의거하여 근거하여 의해 따라 힘입어 그 다음 버금 두번째로 기타 첫번째로 나머지는 그중에서 견지에서 형식으로 쓰여 입장에서 위해서 단지 의해되다 하도록시키다 뿐만아니라 반대로 전후 전자 앞의것 잠시 잠깐 하면서 그렇지만 다음에 그러한즉 그런즉 남들 아무거나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 어떻게 만약 만일 위에서 서술한바와같이 인 듯하다 하지 않는다면 만약에 무엇 무슨 어느 어떤 아래윗 조차 한데 그럼에도 불구하고 여전히 심지어 까지도 조차도 하지 않도록 않기 위하여 때 시각 무렵 시간 동안 어때 어떠한 하여금 네 예 우선 누구 누가 알겠는가 아무도 줄은모른다 줄은 몰랏다 하는 김에 겸사겸사 하는바 그런 까닭에 한 이유는 그러니 그러니까 때문에 그 너희 그들 너희들 타인 것 것들 너 위하여 공동으로 동시에 하기 위하여 어찌하여 무엇때문에 붕붕 윙윙 나 우리 엉엉 휘익 윙윙 오호 아하 어쨋든 만 못하다 하기보다는 차라리 하는 편이 낫다 흐흐 놀라다 상대적으로 말하자면 마치 아니라면 쉿 그렇지 않으면 그렇지 않다면 안 그러면 아니었다면 하든지 아니면 이라면 좋아 알았어 하는것도 그만이다 어쩔수 없다 하나 일 일반적으로 일단 한켠으로는 오자마자 이렇게되면 이와같다면 전부 한마디 한항목 근거로 하기에 아울러 하지 않도록 않기 위해서 이르기까지 이 되다 로 인하여 까닭으로 이유만으로 이로 인하여 그래서 이 때문에 그러므로 그런 까닭에 알 수 있다 결론을 낼 수 있다 으로 인하여 있다 어떤것 관계가 있다 관련이 있다 연관되다 어떤것들 에 대해 이리하여 그리하여 여부 하기보다는 하느니 하면 할수록 운운 이러이러하다 하구나 하도다 다시말하면 다음으로 에 있다 에 달려 있다 우리 우리들 오히려 하기는한데 어떻게 어떻해 어찌됏어 어때 어째서 본대로 자 이 이쪽 여기 이것 이번 이렇게말하자면 이런 이러한 이와 같은 요만큼 요만한 것 얼마 안 되는 것 이만큼 이 정도의 이렇게 많은 것 이와 같다 이때 이렇구나 것과 같이 끼익 삐걱 따위 와 같은 사람들 부류의 사람들 왜냐하면 중의하나 오직 오로지 에 한하다 하기만 하면 도착하다 까지 미치다 도달하다 정도에 이르다 할 지경이다 결과에 이르다 관해서는 여러분 하고 있다 한 후 혼자 자기 자기집 자신 우에 종합한것과같이 총적으로 보면 총적으로 말하면 총적으로 대로 하다 으로서 참 그만이다 할 따름이다 쿵 탕탕 쾅쾅 둥둥 봐 봐라 아이야 아니 와아 응 아이 참나 년 월 일 령 영 일 이 삼 사 오 육 륙 칠 팔 구 이천육 이천칠 이천팔 이천구 하나 둘 셋 넷 다섯 여섯 일곱 여덟 아홉 령 영 이 있 하 것 들 그 되 수 이 보 않 없 나 사람 주 아니 등 같 우리 때 년 가 한 지 대하 오 말 일 그렇 위하 때문 그것 두 말하 알 그러나 받 못하 일 그런 또 문제 더 사회 많 그리고 좋 크 따르 중 나오 가지 씨 시키 만들 지금 생각하 그러 속 하나 집 살 모르 적 월 데 자신 안 어떤 내 내 경우 명 생각 시간 그녀 다시 이런 앞 보이 번 나 다른 어떻 여자 개 전 들 사실 이렇 점 싶 말 정도 좀 원 잘 통하 놓"

In [None]:
# 한국어 -> Konlpy
!pip install konlpy




In [None]:
# 형태소 분석용
from konlpy.tag import Okt

In [None]:
# 형태소 분석
okt = Okt()
text = okt.morphs(text)
print(text)

['그냥', '청와대로', '갔으면', '아무', '일도', '벌어지지', '않았으리라', '.', '“', '청와대', '를', '국민', '께', '돌려', '드리겠다', '”', '라며', '윤석열', '대통령', '당선자', '가', '청와대', '입주를', '거부', '하면서', '국론', '은', '분열', '됐고', ',', '대통령직', '인', '수', '위원회', '는', '2', '개월', '여', '를', '허비했다', '.', '윤', '당선자', '는', '당선', '직후', '기자회견', '을', '열고', '대통령', '집무실', '은', '서울', '용산', '국방부', '청사', '를', ',', '관저', '는', '한남동', '육군', '참모총장', '공관', '을', '이용', '하겠다고', '말', '했다', '.', '급작', '스러운', '발표', '에', '국가', '안보', '의', '중심', '인', '국방부', '는', '쫓겨나듯', '‘', '이사', '’', '해야', '했고', ',', '안보', '위기', '상황', '발생', '시', '긴급하게', '사용', '될', '국방부', '영내', '헬기장', '은', '대통령', '전용', '헬기', '를', '위해', '자리', '를', '양보', '해야', '했다', '.', '용산', '의', '군인아파트', '도', '대통령실', '직원', '들', '을', '위해', '일부', '를', '비워주는', '상황', '이', '벌어졌다', '.']


In [None]:
# 불용어에 포함된 단어를 제외 + 단어의 글자수가 1초과하는 단어만 포함 
# 그 단어의 빈도수 확인
# ex) {'청와대로':1,'일도':2,...}

wf = {}
words=[]
result = []

for w in text:
  if w not in stop_word:  #불용어에 포함된 단어 제거
    if len(w) > 1:        #단어 글자수가 1초과인것만 (1글자짜리 제거)
      result.append(w)
      if w not in wf:
        wf[w] = 0
      wf[w] += 1

words.append(result)
print(words)
print(wf)

[['그냥', '청와대로', '갔으면', '일도', '벌어지지', '않았으리라', '청와대', '국민', '돌려', '드리겠다', '라며', '윤석열', '대통령', '당선자', '청와대', '입주를', '거부', '국론', '분열', '됐고', '대통령직', '위원회', '개월', '허비했다', '당선자', '당선', '직후', '기자회견', '열고', '대통령', '집무실', '서울', '용산', '국방부', '청사', '관저', '한남동', '육군', '참모총장', '공관', '하겠다고', '했다', '급작', '스러운', '발표', '국가', '안보', '중심', '국방부', '쫓겨나듯', '이사', '했고', '안보', '위기', '상황', '발생', '긴급하게', '사용', '국방부', '영내', '헬기장', '대통령', '전용', '헬기', '자리', '양보', '했다', '용산', '군인아파트', '대통령실', '직원', '일부', '비워주는', '상황', '벌어졌다']]
{'그냥': 1, '청와대로': 1, '갔으면': 1, '일도': 1, '벌어지지': 1, '않았으리라': 1, '청와대': 2, '국민': 1, '돌려': 1, '드리겠다': 1, '라며': 1, '윤석열': 1, '대통령': 3, '당선자': 2, '입주를': 1, '거부': 1, '국론': 1, '분열': 1, '됐고': 1, '대통령직': 1, '위원회': 1, '개월': 1, '허비했다': 1, '당선': 1, '직후': 1, '기자회견': 1, '열고': 1, '집무실': 1, '서울': 1, '용산': 2, '국방부': 3, '청사': 1, '관저': 1, '한남동': 1, '육군': 1, '참모총장': 1, '공관': 1, '하겠다고': 1, '했다': 2, '급작': 1, '스러운': 1, '발표': 1, '국가': 1, '안보': 2, '중심': 1, '쫓겨나듯': 1, '이사': 1, '했고': 1, '위기': 1, '상황': 2, '발생': 1, '긴급하게

In [None]:
# 빈도수 기준으로 정렬 (내림차순)
wfSort = sorted(wf.items(), key=lambda x: x[1], reverse=True)
print(wfSort)

[('대통령', 3), ('국방부', 3), ('청와대', 2), ('당선자', 2), ('용산', 2), ('했다', 2), ('안보', 2), ('상황', 2), ('그냥', 1), ('청와대로', 1), ('갔으면', 1), ('일도', 1), ('벌어지지', 1), ('않았으리라', 1), ('국민', 1), ('돌려', 1), ('드리겠다', 1), ('라며', 1), ('윤석열', 1), ('입주를', 1), ('거부', 1), ('국론', 1), ('분열', 1), ('됐고', 1), ('대통령직', 1), ('위원회', 1), ('개월', 1), ('허비했다', 1), ('당선', 1), ('직후', 1), ('기자회견', 1), ('열고', 1), ('집무실', 1), ('서울', 1), ('청사', 1), ('관저', 1), ('한남동', 1), ('육군', 1), ('참모총장', 1), ('공관', 1), ('하겠다고', 1), ('급작', 1), ('스러운', 1), ('발표', 1), ('국가', 1), ('중심', 1), ('쫓겨나듯', 1), ('이사', 1), ('했고', 1), ('위기', 1), ('발생', 1), ('긴급하게', 1), ('사용', 1), ('영내', 1), ('헬기장', 1), ('전용', 1), ('헬기', 1), ('자리', 1), ('양보', 1), ('군인아파트', 1), ('대통령실', 1), ('직원', 1), ('일부', 1), ('비워주는', 1), ('벌어졌다', 1)]


In [None]:
# 빈도수가 높을수록 낮은 숫자 부여 
# ex) {'대통령':1,'국방부':2,'청와대':3,'당선자':4,...}
wfIndex = {}
i=0
for (w, f) in wfSort: #단어와 빈도수 뽑기
  i+=1
  wfIndex[w] = i
print(wfIndex)

{'대통령': 1, '국방부': 2, '청와대': 3, '당선자': 4, '용산': 5, '했다': 6, '안보': 7, '상황': 8, '그냥': 9, '청와대로': 10, '갔으면': 11, '일도': 12, '벌어지지': 13, '않았으리라': 14, '국민': 15, '돌려': 16, '드리겠다': 17, '라며': 18, '윤석열': 19, '입주를': 20, '거부': 21, '국론': 22, '분열': 23, '됐고': 24, '대통령직': 25, '위원회': 26, '개월': 27, '허비했다': 28, '당선': 29, '직후': 30, '기자회견': 31, '열고': 32, '집무실': 33, '서울': 34, '청사': 35, '관저': 36, '한남동': 37, '육군': 38, '참모총장': 39, '공관': 40, '하겠다고': 41, '급작': 42, '스러운': 43, '발표': 44, '국가': 45, '중심': 46, '쫓겨나듯': 47, '이사': 48, '했고': 49, '위기': 50, '발생': 51, '긴급하게': 52, '사용': 53, '영내': 54, '헬기장': 55, '전용': 56, '헬기': 57, '자리': 58, '양보': 59, '군인아파트': 60, '대통령실': 61, '직원': 62, '일부': 63, '비워주는': 64, '벌어졌다': 65}
