# ref

In [1]:
# https://wikidocs.net/book/2155
# https://www.nltk.org/data.html
# https://www.nltk.org/nltk_data/

# imports

In [2]:
from konlpy.tag import Okt
okt = Okt()

print(okt.pos('아버지가 방에 들어가신다'))
print(okt.pos('아버지가방에들어가신다'))

[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]
[('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]


In [3]:
import nltk

In [4]:
print(okt.pos('아버지가 방에 들어가신다'))

[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]


In [5]:
sent = '개 배고프다'
print(okt.pos(sent))

[('개', 'Noun'), ('배고프다', 'Adjective')]


In [6]:
sent = '아니 그걸 왜 들어감?'
print(okt.pos(sent))

[('아니', 'Adjective'), ('그걸', 'Adverb'), ('왜', 'Noun'), ('들어감', 'Verb'), ('?', 'Punctuation')]


In [7]:
sent = 'adsp 보기 싫다...'
print(okt.pos(sent))

[('adsp', 'Alpha'), ('보기', 'Noun'), ('싫다', 'Adjective'), ('...', 'Punctuation')]


In [8]:
sent = 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ개웃곀ㅋㅋㅋㅋ'
print(okt.pos(sent))

[('ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'KoreanParticle'), ('개웃곀', 'Noun'), ('ㅋㅋㅋㅋ', 'KoreanParticle')]


# Tokenization

## word

In [9]:
from nltk.tokenize import word_tokenize  
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [10]:
from nltk.tokenize import word_tokenize  
print(word_tokenize("아니, 그걸 왜 들어감?"))

['아니', ',', '그걸', '왜', '들어감', '?']


In [11]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [12]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("아니, 그걸 왜 들어감?"))

['아니', ',', '그걸', '왜', '들어감', '?']


In [13]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [14]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## sentence

In [15]:
from nltk.tokenize import sent_tokenize
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [16]:
from nltk.tokenize import sent_tokenize
text = """앤서니 파우치 미국 국립알레르기·전염병연구소 소장은 다음달 초에는 미국내 5세부터 11세의 어린이도 코로나19 백신접종이 가능할 것이라고 전망했습니다.

파우치 소장은 ABC방송에 출연해 화이자 백신의 데이터가 좋아보였다며 모든 절차가 잘 진행된다면 11월 첫 주나 둘째 주 5세부터 11세의 어린이들이 접종받을 수 있을 것이라고 말했습니다.

미국 식품의약국 외부 자문기구가 현지시간 26일, 화이자 백신의 긴급사용 승인 권고여부를 논의할 예정인 가운데, 파우치 소장의 언급이 논의 직전 나왔다는 점에서 긴급승인 가능성이 큰 것으로 전망됩니다."""
print(sent_tokenize(text))

['앤서니 파우치 미국 국립알레르기·전염병연구소 소장은 다음달 초에는 미국내 5세부터 11세의 어린이도 코로나19 백신접종이 가능할 것이라고 전망했습니다.', '파우치 소장은 ABC방송에 출연해 화이자 백신의 데이터가 좋아보였다며 모든 절차가 잘 진행된다면 11월 첫 주나 둘째 주 5세부터 11세의 어린이들이 접종받을 수 있을 것이라고 말했습니다.', '미국 식품의약국 외부 자문기구가 현지시간 26일, 화이자 백신의 긴급사용 승인 권고여부를 논의할 예정인 가운데, 파우치 소장의 언급이 논의 직전 나왔다는 점에서 긴급승인 가능성이 큰 것으로 전망됩니다.']


In [17]:
# import kss
# text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
# print(kss.split_sentences(text))

## taging

In [18]:
# pkg 필요
# from nltk.tag import pos_tag
# text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
# tokenized_sentence = word_tokenize(text)
# print(pos_tag(tokenized_sentence))

In [19]:
from konlpy.tag import Kkma
okt = Kkma()

print(okt.pos('아버지가 방에 들어가신다'))
print(okt.pos('아버지가방에들어가신다'))

[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN')]
[('아버지', 'NNG'), ('가방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN')]


In [20]:
# Konlpy
# 1) morphs() : 형태소 추출
# 2) pos() : 품사 태깅(Part-of-speech tagging)
# 3) nouns() : 명사 추출

In [21]:
import pandas as pd

In [22]:
df = pd.read_csv('../../projects_dacon/food_demand/input/train.csv')

In [23]:
df.head()

Unnamed: 0,일자,요일,본사정원수,본사휴가자수,본사출장자수,본사시간외근무명령서승인건수,현본사소속재택근무자수,조식메뉴,중식메뉴,석식메뉴,중식계,석식계
0,2016-02-01,월,2601,50,150,238,0.0,모닝롤/찐빵 우유/두유/주스 계란후라이 호두죽/쌀밥 (쌀:국내산) 된장찌개 쥐...,"쌀밥/잡곡밥 (쌀,현미흑미:국내산) 오징어찌개 쇠불고기 (쇠고기:호주산) 계란찜 ...","쌀밥/잡곡밥 (쌀,현미흑미:국내산) 육개장 자반고등어구이 두부조림 건파래무침 ...",1039.0,331.0
1,2016-02-02,화,2601,50,173,319,0.0,모닝롤/단호박샌드 우유/두유/주스 계란후라이 팥죽/쌀밥 (쌀:국내산) 호박젓국찌...,"쌀밥/잡곡밥 (쌀,현미흑미:국내산) 김치찌개 가자미튀김 모둠소세지구이 마늘쫑무...","콩나물밥*양념장 (쌀,현미흑미:국내산) 어묵국 유산슬 (쇠고기:호주산) 아삭고추무...",867.0,560.0
2,2016-02-03,수,2601,56,180,111,0.0,모닝롤/베이글 우유/두유/주스 계란후라이 표고버섯죽/쌀밥 (쌀:국내산) 콩나물국...,"카레덮밥 (쌀,현미흑미:국내산) 팽이장국 치킨핑거 (닭고기:국내산) 쫄면야채무침 ...","쌀밥/잡곡밥 (쌀,현미흑미:국내산) 청국장찌개 황태양념구이 (황태:러시아산) 고기...",1017.0,573.0
3,2016-02-04,목,2601,104,220,355,0.0,"모닝롤/토마토샌드 우유/두유/주스 계란후라이 닭죽/쌀밥 (쌀,닭:국내산) 근대국...","쌀밥/잡곡밥 (쌀,현미흑미:국내산) 쇠고기무국 주꾸미볶음 부추전 시금치나물 ...","미니김밥*겨자장 (쌀,현미흑미:국내산) 우동 멕시칸샐러드 군고구마 무피클 포...",978.0,525.0
4,2016-02-05,금,2601,278,181,34,0.0,모닝롤/와플 우유/두유/주스 계란후라이 쇠고기죽/쌀밥 (쌀:국내산) 재첩국 방...,"쌀밥/잡곡밥 (쌀,현미흑미:국내산) 떡국 돈육씨앗강정 (돼지고기:국내산) 우엉잡채...","쌀밥/잡곡밥 (쌀,현미흑미:국내산) 차돌박이찌개 (쇠고기:호주산) 닭갈비 (닭고기:...",925.0,330.0


In [24]:
df = df[['조식메뉴', '중식메뉴']]

In [25]:
pd.set_option('max_colwidth', None)

In [26]:
df.shape

(1205, 2)

In [27]:
df.head()

Unnamed: 0,조식메뉴,중식메뉴
0,"모닝롤/찐빵 우유/두유/주스 계란후라이 호두죽/쌀밥 (쌀:국내산) 된장찌개 쥐어채무침 포기김치 (배추,고추가루:국내산)","쌀밥/잡곡밥 (쌀,현미흑미:국내산) 오징어찌개 쇠불고기 (쇠고기:호주산) 계란찜 청포묵무침 요구르트 포기김치 (배추,고추가루:국내산)"
1,"모닝롤/단호박샌드 우유/두유/주스 계란후라이 팥죽/쌀밥 (쌀:국내산) 호박젓국찌개 시래기조림 포기김치 (배추,고추가루:국내산)","쌀밥/잡곡밥 (쌀,현미흑미:국내산) 김치찌개 가자미튀김 모둠소세지구이 마늘쫑무침 요구르트 배추겉절이 (배추,고추가루:국내산)"
2,"모닝롤/베이글 우유/두유/주스 계란후라이 표고버섯죽/쌀밥 (쌀:국내산) 콩나물국 느타리호박볶음 포기김치 (배추,고추가루:국내산)","카레덮밥 (쌀,현미흑미:국내산) 팽이장국 치킨핑거 (닭고기:국내산) 쫄면야채무침 견과류조림 요구르트 포기김치 (배추,고추가루:국내산)"
3,"모닝롤/토마토샌드 우유/두유/주스 계란후라이 닭죽/쌀밥 (쌀,닭:국내산) 근대국 멸치볶음 포기김치 (배추,고추가루:국내산)","쌀밥/잡곡밥 (쌀,현미흑미:국내산) 쇠고기무국 주꾸미볶음 부추전 시금치나물 요구르트 포기김치 (배추,고추가루:국내산)"
4,"모닝롤/와플 우유/두유/주스 계란후라이 쇠고기죽/쌀밥 (쌀:국내산) 재첩국 방풍나물 포기김치 (배추,고추가루:국내산)","쌀밥/잡곡밥 (쌀,현미흑미:국내산) 떡국 돈육씨앗강정 (돼지고기:국내산) 우엉잡채 청경채무침 요구르트 포기김치 (배추,고추가루:국내산)"


In [28]:
kkma = Kkma()
text = df.iloc[29, 1]
# print(kkma.morphs(text))
# print(kkma.pos(text))
print(kkma.nouns(text))

['쌀밥', '잡곡밥', '쌀', '국내산', '사골', '사골우거지국', '우거지', '국', '쇠고기', '호주', '호주산', '산', '탕', '탕수어', '수어', '파래', '파래김', '김', '양념장', '깻', '깻순나물', '순', '나물', '깍두기', '김치']


In [29]:
df['nouns'] = df.apply(lambda x: kkma.nouns(x['중식메뉴']), axis=1)

noun_list = []

for i in range(df.shape[0]):
    for j in range(len(df['nouns'][i])):
        noun_list.append(df['nouns'][i][j])

pd.DataFrame({'menu':noun_list}).value_counts().head(5)

menu
김치      1149
국내산     1066
쌀       1049
쌀밥      1003
잡곡밥      879
dtype: int64

In [30]:
import re

In [31]:
ab = []
a = ['김치', '국내산', '쌀', '쌀']
b = ['쌀국수', '잡곡밥']

ab.append(a)
ab.append(b)
ab

[['김치', '국내산', '쌀', '쌀'], ['쌀국수', '잡곡밥']]

In [32]:
sum(ab, [])

['김치', '국내산', '쌀', '쌀', '쌀국수', '잡곡밥']

In [33]:
print(text_to_word_sequence(df.iloc[1, 1]))

['쌀밥', '잡곡밥', '쌀', '현미흑미', '국내산', '김치찌개', '가자미튀김', '모둠소세지구이', '마늘쫑무침', '요구르트', '배추겉절이', '배추', '고추가루', '국내산']


In [34]:
# sen_list = []
# for sen in df['중식메뉴']:
#     sen = re.sub(r'\([^)]*\)', '', sen.strip())  #(s) 제거
#     sen = re.sub(r'[^)]*\)', '', sen.strip())    #s) 제거
#     sen = re.sub(r'\([^)]*', '', sen.strip())    #(s 제거
#     sen = re.sub(' +', ' ', sen.strip())       #공백,탭 제거
   
#     #nous = kkma.nouns(sen)
#     nous = text_to_word_sequence(sen)
#     sen_list.append(nous)  
# sen_list = sum(sen_list, [])  #2차원-->1차원으로 변환
# pd.DataFrame(sen_list).value_counts().sort_values(ascending=False).head()

# text preprocessing

## stemming & lemmatisation

In [35]:
from nltk.stem import WordNetLemmatizer # 품사 태깅 함께 사용
lemmatizer = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([lemmatizer.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [36]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
stemmer = PorterStemmer()
text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


## stopword

In [37]:
from nltk.corpus import stopwords  
stopwords.words('english')[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [38]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) # 영어 불용어 불러오기

word_tokens = word_tokenize(example)

result = []
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

print(word_tokens) 
print(result) 

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


In [39]:
from nltk.corpus import  stopwords
from sklearn.feature_extraction.text import CountVectorizer

example = ["Family is not an important thing. It's everything."]
sw = set(stopwords.words('english')) # 영어 불용어 불러오기

cvect = CountVectorizer(stop_words=sw)
res   = cvect.fit_transform(example)

In [40]:
print(res) # COO(밀집행렬) vs. CRS(희소행렬)

  (0, 1)	1
  (0, 2)	1
  (0, 3)	1
  (0, 0)	1


In [41]:
res.toarray()

array([[1, 1, 1, 1]], dtype=int64)

In [42]:
cvect.vocabulary_

{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}

In [43]:
# https://github.com/stopwords-iso/stopwords-ko

f = open('./stopword_ko.txt', mode='r', encoding='UTF-8')

stopword_ko = []

for word in f:
    stopword_ko.append(word.rstrip('\n'))

In [44]:
example = ['나는 타인의 시선에 개의치않고, 언젠가 훌륭한 사람이 되겠다.']

cvect = CountVectorizer(stop_words=stopword_ko)
res   = cvect.fit_transform(example)



In [45]:
print(res)

  (0, 0)	1
  (0, 4)	1
  (0, 3)	1
  (0, 5)	1
  (0, 2)	1
  (0, 1)	1


In [46]:
res.toarray()

array([[1, 1, 1, 1, 1, 1]], dtype=int64)

In [47]:
cvect.vocabulary_

{'나는': 0, '타인의': 4, '시선에': 3, '훌륭한': 5, '사람이': 2, '되겠다': 1}

## 빈도수 정렬

In [48]:
vocab_sorted = sorted(cvect.vocabulary_.items(), key = lambda x:x[1], reverse = True)

In [49]:
vocab_sorted

[('훌륭한', 5), ('타인의', 4), ('시선에', 3), ('사람이', 2), ('되겠다', 1), ('나는', 0)]

## keras tokenizer

In [50]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [51]:
text = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

tokenizer = Tokenizer()
tokenizer.fit_on_texts(text)

In [52]:
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


## padding

In [53]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [54]:
preprocessed_sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)

In [55]:
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)

In [56]:
encoded

[[1, 5],
 [1, 8, 5],
 [1, 3, 5],
 [9, 2],
 [2, 4, 3, 2],
 [3, 2],
 [1, 4, 6],
 [1, 4, 6],
 [1, 4, 2],
 [7, 7, 3, 2, 10, 1, 11],
 [1, 12, 3, 13]]

In [57]:
max_len = max((len(item) for item in encoded))
max_len

7

In [58]:
for sentence in encoded:
    while len(sentence) < max_len:
        sentence.append(0)

In [59]:
encoded

[[1, 5, 0, 0, 0, 0, 0],
 [1, 8, 5, 0, 0, 0, 0],
 [1, 3, 5, 0, 0, 0, 0],
 [9, 2, 0, 0, 0, 0, 0],
 [2, 4, 3, 2, 0, 0, 0],
 [3, 2, 0, 0, 0, 0, 0],
 [1, 4, 6, 0, 0, 0, 0],
 [1, 4, 6, 0, 0, 0, 0],
 [1, 4, 2, 0, 0, 0, 0],
 [7, 7, 3, 2, 10, 1, 11],
 [1, 12, 3, 13, 0, 0, 0]]

In [60]:
preprocessed_sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
encoded

[[1, 5],
 [1, 8, 5],
 [1, 3, 5],
 [9, 2],
 [2, 4, 3, 2],
 [3, 2],
 [1, 4, 6],
 [1, 4, 6],
 [1, 4, 2],
 [7, 7, 3, 2, 10, 1, 11],
 [1, 12, 3, 13]]

In [61]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

pad_sequences(encoded, padding='post')

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

## onehotencode

In [62]:
from tensorflow.keras.utils import to_categorical

text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text]) # input list
tokenizer.word_index

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}

In [63]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
encoded

[2, 5, 1, 6, 3, 7]

In [64]:
oe = to_categorical(encoded)
oe

array([[0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1.]], dtype=float32)

# vector similarity exercise

In [65]:
# 유클리드 거리
# 맨해튼 거리
# 문장 간 거리 구하기
# 문서 사이의 거리 구하기 : 코사인 유사도. 각도에 따라
# 군집 간 거리 구하기

In [66]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [67]:
df = pd.read_csv('./movies_metadata.csv')[['original_title', 'overview']]

  exec(code_obj, self.user_global_ns, self.user_ns)


In [68]:
df.dropna(axis=0, how='any', inplace=True)

In [69]:
df = df.drop_duplicates().head(10000)

In [70]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10000 entries, 0 to 10033
Data columns (total 2 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   original_title  10000 non-null  object
 1   overview        10000 non-null  object
dtypes: object(2)
memory usage: 234.4+ KB


In [71]:
df.head()

Unnamed: 0,original_title,overview
0,Toy Story,"Led by Woody, Andy's toys live happily in his room until Andy's birthday brings Buzz Lightyear onto the scene. Afraid of losing his place in Andy's heart, Woody plots against Buzz. But when circumstances separate Buzz and Woody from their owner, the duo eventually learns to put aside their differences."
1,Jumanji,"When siblings Judy and Peter discover an enchanted board game that opens the door to a magical world, they unwittingly invite Alan -- an adult who's been trapped inside the game for 26 years -- into their living room. Alan's only hope for freedom is to finish the game, which proves risky as all three find themselves running from giant rhinoceroses, evil monkeys and other terrifying creatures."
2,Grumpier Old Men,"A family wedding reignites the ancient feud between next-door neighbors and fishing buddies John and Max. Meanwhile, a sultry Italian divorcée opens a restaurant at the local bait shop, alarming the locals who worry she'll scare the fish away. But she's less interested in seafood than she is in cooking up a hot time with Max."
3,Waiting to Exhale,"Cheated on, mistreated and stepped on, the women are holding their breath, waiting for the elusive ""good man"" to break a string of less-than-stellar lovers. Friends and confidants Vannah, Bernie, Glo and Robin talk it all out, determined to find a better way to breathe."
4,Father of the Bride Part II,"Just when George Banks has recovered from his daughter's wedding, he receives the news that she's pregnant ... and that George's wife, Nina, is expecting too. He was planning on selling their home, but that's a plan that -- like George -- will have to change with the arrival of both a grandchild and a kid of his own."


In [72]:
from sklearn.feature_extraction.text import TfidfVectorizer

title_list    = df['original_title'].tolist()
overview_list = df['overview'].tolist()

vectorizer = TfidfVectorizer(stop_words='english')
result = vectorizer.fit_transform(overview_list).toarray()

In [73]:
vectorizer.vocabulary_

{'led': 16704,
 'woody': 31901,
 'andy': 1454,
 'toys': 29541,
 'live': 17111,
 'happily': 12970,
 'room': 24796,
 'birthday': 3300,
 'brings': 4012,
 'buzz': 4380,
 'lightyear': 16968,
 'scene': 25427,
 'afraid': 902,
 'losing': 17310,
 'place': 21987,
 'heart': 13195,
 'plots': 22089,
 'circumstances': 5507,
 'separate': 25852,
 'owner': 20963,
 'duo': 9077,
 'eventually': 10060,
 'learns': 16679,
 'aside': 1982,
 'differences': 8167,
 'siblings': 26349,
 'judy': 15610,
 'peter': 21693,
 'discover': 8346,
 'enchanted': 9622,
 'board': 3518,
 'game': 11729,
 'opens': 20588,
 'door': 8742,
 'magical': 17643,
 'world': 31933,
 'unwittingly': 30515,
 'invite': 15037,
 'alan': 1056,
 'adult': 816,
 'trapped': 29667,
 'inside': 14756,
 '26': 329,
 'years': 32128,
 'living': 17124,
 'hope': 13738,
 'freedom': 11441,
 'finish': 10896,
 'proves': 22870,
 'risky': 24578,
 'running': 24981,
 'giant': 12009,
 'rhinoceroses': 24432,
 'evil': 10080,
 'monkeys': 19195,
 'terrifying': 28939,
 'creat

In [74]:
result.shape

(10000, 32394)

In [75]:
cos_sim = cosine_similarity(result, result)

In [76]:
cos_sim

array([[1.        , 0.01683564, 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.01683564, 1.        , 0.04874263, ..., 0.        , 0.        ,
        0.04748687],
       [0.        , 0.04874263, 1.        , ..., 0.        , 0.00494326,
        0.01429592],
       ...,
       [0.        , 0.        , 0.        , ..., 1.        , 0.        ,
        0.0044784 ],
       [0.        , 0.        , 0.00494326, ..., 0.        , 1.        ,
        0.02178917],
       [0.        , 0.04748687, 0.01429592, ..., 0.0044784 , 0.02178917,
        1.        ]])

In [77]:
cos_sim.shape

(10000, 10000)

In [87]:
news = pd.read_csv('../crawling/ytn_news.csv')

In [91]:
print(news.shape)
news[:2]

(1010, 4)


Unnamed: 0,title,content,cate,rdate
0,"1단 로켓 고비 넘겼는데, 예상 밖의 복병 3단","[앵커]\r누리호 발사에 가장 큰 변수는 1단 로켓의 정상 작동 여부였습니다.이 고비는 깨끗하게 성공했는데, 전혀 고려의 대상이 되지 않던 3단 로켓이 복병으로 등장했습니다.이성규 기자가 보도합니다.[기자]\r누리호의 심장인 75톤 엔진.지난 2018년, 하나의 엔진으로 구성된 시험 발사는 성공했습니다.누리호는 75톤 엔진 4개를 묶어 1단으로 사용합니다.4개의 엔진이 마치 하나처럼 작동하는 '클러스터링'이라는 고도의 기술이 필요합니다.연구진이 누리호 발사에서 가장 큰 고비로 꼽는 부분이었습니다.[조기주 / 한국항공우주연구원 발사체팀장 : 엔진 4개를 클러스터링하는데 비행 중에 엔진 하나가 오작동하면 발사체의 자세 제어가 힘듭니다. 최악의 경우엔 발사 실패합니다.]하지만 1단과 2단 로켓은 연소와 분리 모두 시원스럽게 통과했습니다.우려가 무색할 정도였습니다.문제는 전혀 고려하지 않았던 3단에서 발생했습니다.7톤급 액체 엔진이 예정했던 연소 시간보다 46초나 덜 타고 꺼져 버린 겁니다.마지막 구간에서 탄력을 받아 초속 7.5km의 속도로 궤도에 진입해야 하는데 그 속도에 도달하는 데 실패한 것입니다.[이상률 / 한국항공우주연구원장 : 세부 원인과 이런 것들은 저희 기술진들이 좀 더 분석하겠다. 부족한 부분은 조사위원회와 내부 검토를 통해 내년 5월에는 문제가 없도록 보완하겠다.]7톤 엔진은 75톤 엔진에 비해 구조가 훨씬 간단해 원인을 찾고 개선하는 데 어려움은 없을 것으로 보입니다.따라서 내년 5월로 예정된 2차 발사에는 완벽한 상태의 누리호로 미완이 아닌 완성된 발사에 도전할 수 있을 전망입니다.YTN 사이언스 이성규입니다.YTN 이성규 (sklee95@ytn.co.kr)",3,2021-10-22 02:53
1,"""누리호, 정상 비행은 성공...위성 궤도안착은 실패""","한국형 발사체 누리호가 목표 고도인 700km에는 도달했으나, 탑재체인 '더미 위성'을 궤도에 올려놓는 데는 실패했습니다.임혜숙 과학기술정보통신부 장관은 누리호 발사 결과 브리핑에서 위성 모사체가 700㎞의 고도 목표까지 비행은 성공했지만, 초당 7.5km의 목표 속도에는 미치지 못해 지구 저궤도 안착에는 실패했다고 밝혔습니다.탑재체가 궤도에 안착하지 못한 것은 3단에 달린 7t급 액체엔진의 작동이 목표대로 521초 동안 연소되지 못하고, 475초 만에 조기에 종료돼, 마지막 순간에 충분한 속력을 얻지 못한 탓이라고 설명했습니다.임 장관은 ""누리호 1단부는 75t급 엔진 4기가 클러스터링 돼 300t급의 추력을 내는 게 핵심 기술""이라며 이번 발사를 통해 1단부 비행이 정상적으로 진행됐다고 의미를 부여했습니다.임 장관은 ""또 1단, 페어링, 2단이 분리하고 3단이 성공적으로 점화된 것은 소기의 성과""라며 ""이는 국내의 발사체 기술력이 상당 수준으로 축적됐음을 보여주는 결과""라고 평가했습니다.과기정통부는 발사를 주관한 한국항공우주연구원 연구진과 외부전문가들이 참여하는 '발사조사 위원회'를 즉시 구성해 3단 엔진 조기 종료의 원인을 규명하고, 문제점을 보완해 2차 발사를 추진할 예정입니다.누리호 2차 발사는 내년 5월 19일로 잠정 결정된 상태입니다.YTN 이승은 (selee@ytn.co.kr)",3,2021-10-22 02:50


In [92]:
news['content'] = news['content'].str.replace('\r', ' ')

In [108]:
news.dropna(axis=0, inplace=True)

In [109]:
news.shape

(971, 4)

In [110]:
news[:2]

Unnamed: 0,title,content,cate,rdate
0,"1단 로켓 고비 넘겼는데, 예상 밖의 복병 3단","[앵커] 누리호 발사에 가장 큰 변수는 1단 로켓의 정상 작동 여부였습니다.이 고비는 깨끗하게 성공했는데, 전혀 고려의 대상이 되지 않던 3단 로켓이 복병으로 등장했습니다.이성규 기자가 보도합니다.[기자] 누리호의 심장인 75톤 엔진.지난 2018년, 하나의 엔진으로 구성된 시험 발사는 성공했습니다.누리호는 75톤 엔진 4개를 묶어 1단으로 사용합니다.4개의 엔진이 마치 하나처럼 작동하는 '클러스터링'이라는 고도의 기술이 필요합니다.연구진이 누리호 발사에서 가장 큰 고비로 꼽는 부분이었습니다.[조기주 / 한국항공우주연구원 발사체팀장 : 엔진 4개를 클러스터링하는데 비행 중에 엔진 하나가 오작동하면 발사체의 자세 제어가 힘듭니다. 최악의 경우엔 발사 실패합니다.]하지만 1단과 2단 로켓은 연소와 분리 모두 시원스럽게 통과했습니다.우려가 무색할 정도였습니다.문제는 전혀 고려하지 않았던 3단에서 발생했습니다.7톤급 액체 엔진이 예정했던 연소 시간보다 46초나 덜 타고 꺼져 버린 겁니다.마지막 구간에서 탄력을 받아 초속 7.5km의 속도로 궤도에 진입해야 하는데 그 속도에 도달하는 데 실패한 것입니다.[이상률 / 한국항공우주연구원장 : 세부 원인과 이런 것들은 저희 기술진들이 좀 더 분석하겠다. 부족한 부분은 조사위원회와 내부 검토를 통해 내년 5월에는 문제가 없도록 보완하겠다.]7톤 엔진은 75톤 엔진에 비해 구조가 훨씬 간단해 원인을 찾고 개선하는 데 어려움은 없을 것으로 보입니다.따라서 내년 5월로 예정된 2차 발사에는 완벽한 상태의 누리호로 미완이 아닌 완성된 발사에 도전할 수 있을 전망입니다.YTN 사이언스 이성규입니다.YTN 이성규 (sklee95@ytn.co.kr)",3,2021-10-22 02:53
1,"""누리호, 정상 비행은 성공...위성 궤도안착은 실패""","한국형 발사체 누리호가 목표 고도인 700km에는 도달했으나, 탑재체인 '더미 위성'을 궤도에 올려놓는 데는 실패했습니다.임혜숙 과학기술정보통신부 장관은 누리호 발사 결과 브리핑에서 위성 모사체가 700㎞의 고도 목표까지 비행은 성공했지만, 초당 7.5km의 목표 속도에는 미치지 못해 지구 저궤도 안착에는 실패했다고 밝혔습니다.탑재체가 궤도에 안착하지 못한 것은 3단에 달린 7t급 액체엔진의 작동이 목표대로 521초 동안 연소되지 못하고, 475초 만에 조기에 종료돼, 마지막 순간에 충분한 속력을 얻지 못한 탓이라고 설명했습니다.임 장관은 ""누리호 1단부는 75t급 엔진 4기가 클러스터링 돼 300t급의 추력을 내는 게 핵심 기술""이라며 이번 발사를 통해 1단부 비행이 정상적으로 진행됐다고 의미를 부여했습니다.임 장관은 ""또 1단, 페어링, 2단이 분리하고 3단이 성공적으로 점화된 것은 소기의 성과""라며 ""이는 국내의 발사체 기술력이 상당 수준으로 축적됐음을 보여주는 결과""라고 평가했습니다.과기정통부는 발사를 주관한 한국항공우주연구원 연구진과 외부전문가들이 참여하는 '발사조사 위원회'를 즉시 구성해 3단 엔진 조기 종료의 원인을 규명하고, 문제점을 보완해 2차 발사를 추진할 예정입니다.누리호 2차 발사는 내년 5월 19일로 잠정 결정된 상태입니다.YTN 이승은 (selee@ytn.co.kr)",3,2021-10-22 02:50


In [119]:
news_content = news['content'].tolist()

In [120]:
stopword_ko = ['!', '"', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '...', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ';', '<', '=', '>', '?', '@', '\\', '^', '_', '`', '|', '~', '·', '—', '——', '‘', '’', '“', '”', '…', '、', '。', '〈', '〉', '《', '》', '가', '가까스로', '가령', '각', '각각', '각자', '각종', '갖고말하자면', '같다', '같이', '개의치않고', '거니와', '거바', '거의', '것', '것과 같이', '것들', '게다가', '게우다', '겨우', '견지에서', '결과에 이르다', '결국', '결론을 낼 수 있다', '겸사겸사', '고려하면', '고로', '곧', '공동으로', '과', '과연', '관계가 있다', '관계없이', '관련이 있다', '관하여', '관한', '관해서는', '구', '구체적으로', '구토하다', '그', '그들', '그때', '그래', '그래도', '그래서', '그러나', '그러니', '그러니까', '그러면', '그러므로', '그러한즉', '그런 까닭에', '그런데', '그런즉', '그럼', '그럼에도 불구하고', '그렇게 함으로써', '그렇지', '그렇지 않다면', '그렇지 않으면', '그렇지만', '그렇지않으면', '그리고', '그리하여', '그만이다', '그에 따르는', '그위에', '그저', '그중에서', '그치지 않다', '근거로', '근거하여', '기대여', '기점으로', '기준으로', '기타', '까닭으로', '까악', '까지', '까지 미치다', '까지도', '꽈당', '끙끙', '끼익', '나', '나머지는', '남들', '남짓', '너', '너희', '너희들', '네', '넷', '년', '논하지 않다', '놀라다', '누가 알겠는가', '누구', '다른', '다른 방면으로', '다만', '다섯', '다소', '다수', '다시 말하자면', '다시말하면', '다음', '다음에', '다음으로', '단지', '답다', '당신', '당장', '대로 하다', '대하면', '대하여', '대해 말하자면', '대해서', '댕그', '더구나', '더군다나', '더라도', '더불어', '더욱더', '더욱이는', '도달하다', '도착하다', '동시에', '동안', '된바에야', '된이상', '두번째로', '둘', '둥둥', '뒤따라', '뒤이어', '든간에', '들', '등', '등등', '딩동', '따라', '따라서', '따위', '따지지 않다', '딱', '때', '때가 되어', '때문에', '또', '또한', '뚝뚝', '라 해도', '령', '로', '로 인하여', '로부터', '로써', '륙', '를', '마음대로', '마저', '마저도', '마치', '막론하고', '만 못하다', '만약', '만약에', '만은 아니다', '만이 아니다', '만일', '만큼', '말하자면', '말할것도 없고', '매', '매번', '메쓰겁다', '몇', '모', '모두', '무렵', '무릎쓰고', '무슨', '무엇', '무엇때문에', '물론', '및', '바꾸어말하면', '바꾸어말하자면', '바꾸어서 말하면', '바꾸어서 한다면', '바꿔 말하면', '바로', '바와같이', '밖에 안된다', '반대로', '반대로 말하자면', '반드시', '버금', '보는데서', '보다더', '보드득', '본대로', '봐', '봐라', '부류의 사람들', '부터', '불구하고', '불문하고', '붕붕', '비걱거리다', '비교적', '비길수 없다', '비로소', '비록', '비슷하다', '비추어 보아', '비하면', '뿐만 아니라', '뿐만아니라', '뿐이다', '삐걱', '삐걱거리다', '사', '삼', '상대적으로 말하자면', '생각한대로', '설령', '설마', '설사', '셋', '소생', '소인', '솨', '쉿', '습니까', '습니다', '시각', '시간', '시작하여', '시초에', '시키다', '실로', '심지어', '아', '아니', '아니나다를가', '아니라면', '아니면', '아니었다면', '아래윗', '아무거나', '아무도', '아야', '아울러', '아이', '아이고', '아이구', '아이야', '아이쿠', '아하', '아홉', '안 그러면', '않기 위하여', '않기 위해서', '알 수 있다', '알았어', '앗', '앞에서', '앞의것', '야', '약간', '양자', '어', '어기여차', '어느', '어느 년도', '어느것', '어느곳', '어느때', '어느쪽', '어느해', '어디', '어때', '어떠한', '어떤', '어떤것', '어떤것들', '어떻게', '어떻해', '어이', '어째서', '어쨋든', '어쩔수 없다', '어찌', '어찌됏든', '어찌됏어', '어찌하든지', '어찌하여', '언제', '언젠가', '얼마', '얼마 안 되는 것', '얼마간', '얼마나', '얼마든지', '얼마만큼', '얼마큼', '엉엉', '에', '에 가서', '에 달려 있다', '에 대해', '에 있다', '에 한하다', '에게', '에서', '여', '여기', '여덟', '여러분', '여보시오', '여부', '여섯', '여전히', '여차', '연관되다', '연이서', '영', '영차', '옆사람', '예', '예를 들면', '예를 들자면', '예컨대', '예하면', '오', '오로지', '오르다', '오자마자', '오직', '오호', '오히려', '와', '와 같은 사람들', '와르르', '와아', '왜', '왜냐하면', '외에도', '요만큼', '요만한 것', '요만한걸', '요컨대', '우르르', '우리', '우리들', '우선', '우에 종합한것과같이', '운운', '월', '위에서 서술한바와같이', '위하여', '위해서', '윙윙', '육', '으로', '으로 인하여', '으로서', '으로써', '을', '응', '응당', '의', '의거하여', '의지하여', '의해', '의해되다', '의해서', '이', '이 되다', '이 때문에', '이 밖에', '이 외에', '이 정도의', '이것', '이곳', '이때', '이라면', '이래', '이러이러하다', '이러한', '이런', '이럴정도로', '이렇게 많은 것', '이렇게되면', '이렇게말하자면', '이렇구나', '이로 인하여', '이르기까지', '이리하여', '이만큼', '이번', '이봐', '이상', '이어서', '이었다', '이와 같다', '이와 같은', '이와 반대로', '이와같다면', '이외에도', '이용하여', '이유만으로', '이젠', '이지만', '이쪽', '이천구', '이천육', '이천칠', '이천팔', '인 듯하다', '인젠', '일', '일것이다', '일곱', '일단', '일때', '일반적으로', '일지라도', '임에 틀림없다', '입각하여', '입장에서', '잇따라', '있다', '자', '자기', '자기집', '자마자', '자신', '잠깐', '잠시', '저', '저것', '저것만큼', '저기', '저쪽', '저희', '전부', '전자', '전후', '점에서 보아', '정도에 이르다', '제', '제각기', '제외하고', '조금', '조차', '조차도', '졸졸', '좀', '좋아', '좍좍', '주룩주룩', '주저하지 않고', '줄은 몰랏다', '줄은모른다', '중에서', '중의하나', '즈음하여', '즉', '즉시', '지든지', '지만', '지말고', '진짜로', '쪽으로', '차라리', '참', '참나', '첫번째로', '쳇', '총적으로', '총적으로 말하면', '총적으로 보면', '칠', '콸콸', '쾅쾅', '쿵', '타다', '타인', '탕탕', '토하다', '통하여', '툭', '퉤', '틈타', '팍', '팔', '퍽', '펄렁', '하', '하게될것이다', '하게하다', '하겠는가', '하고 있다', '하고있었다', '하곤하였다', '하구나', '하기 때문에', '하기 위하여', '하기는한데', '하기만 하면', '하기보다는', '하기에', '하나', '하느니', '하는 김에', '하는 편이 낫다', '하는것도', '하는것만 못하다', '하는것이 낫다', '하는바', '하더라도', '하도다', '하도록시키다', '하도록하다', '하든지', '하려고하다', '하마터면', '하면 할수록', '하면된다', '하면서', '하물며', '하여금', '하여야', '하자마자', '하지 않는다면', '하지 않도록', '하지마', '하지마라', '하지만', '하하', '한 까닭에', '한 이유는', '한 후', '한다면', '한다면 몰라도', '한데', '한마디', '한적이있다', '한켠으로는', '한항목', '할 따름이다', '할 생각이다', '할 줄 안다', '할 지경이다', '할 힘이 있다', '할때', '할만하다', '할망정', '할뿐', '할수있다', '할수있어', '할줄알다', '할지라도', '할지언정', '함께', '해도된다', '해도좋다', '해봐요', '해서는 안된다', '해야한다', '해요', '했어요', '향하다', '향하여', '향해서', '허', '허걱', '허허', '헉', '헉헉', '헐떡헐떡', '형식으로 쓰여', '혹시', '혹은', '혼자', '훨씬', '휘익', '휴', '흐흐', '흥', '힘입어', '︿', '！', '＃', '＄', '％', '＆', '（', '）', '＊', '＋', '，', '０', '１', '２', '３', '４', '５', '６', '７', '８', '９', '：', '；', '＜', '＞', '？', '＠', '［', '］', '｛', '｜', '｝', '～', '￥', ]

In [121]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidfv = TfidfVectorizer(stop_words=stopword_ko).fit(news_content)



In [123]:
tfidfv.vocabulary_

{'앵커': 18116,
 '누리호': 8146,
 '발사에': 12196,
 '가장': 3071,
 '변수는': 12915,
 '1단': 530,
 '로켓의': 10204,
 '정상': 23814,
 '작동': 22588,
 '여부였습니다': 18659,
 '고비는': 4654,
 '깨끗하게': 6969,
 '성공했는데': 15609,
 '전혀': 23455,
 '고려의': 4593,
 '대상이': 8869,
 '되지': 9651,
 '않던': 17915,
 '3단': 1310,
 '로켓이': 10205,
 '복병으로': 13269,
 '등장했습니다': 9927,
 '이성규': 21310,
 '기자가': 6655,
 '보도합니다': 13096,
 '기자': 6654,
 '누리호의': 8157,
 '심장인': 17366,
 '75톤': 2060,
 '엔진': 18584,
 '지난': 25257,
 '2018년': 715,
 '하나의': 28899,
 '엔진으로': 18587,
 '구성된': 5590,
 '시험': 17020,
 '발사는': 12169,
 '성공했습니다': 15612,
 '누리호는': 8151,
 '4개를': 1552,
 '묶어': 11367,
 '1단으로': 537,
 '사용합니다': 14486,
 '4개의': 1554,
 '엔진이': 18591,
 '하나처럼': 28901,
 '작동하는': 22591,
 '클러스터링': 27630,
 '이라는': 21139,
 '고도의': 4573,
 '기술이': 6581,
 '필요합니다': 28856,
 '연구진이': 18837,
 '발사에서': 12198,
 '고비로': 4655,
 '꼽는': 7008,
 '부분이었습니다': 13459,
 '조기주': 24266,
 '한국항공우주연구원': 29154,
 '발사체팀장': 12222,
 '클러스터링하는데': 27633,
 '비행': 14137,
 '중에': 25058,
 '하나가': 28883,
 '오작동하면': 19548,
 '발사체의': 12216,
 '자

In [122]:
result = tfidfv.transform(news_content).toarray()
result[:5]

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [124]:
result.shape

(971, 30795)

In [127]:
news.iloc[10, :]

title                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         발사장면 분석...나로호와 달랐던 누리호
content    [앵커] 아직도 지난 목요일 누리호 발사 장면의 흥분된 마음이 생생한데요.고흥 나로 우주센터에서는 지난 2013년 이후 8년 만에 발사체가 우주로 향했습니다.8년 전 나로호와 달랐던 누리호의 발사 장면의 특징을 정혜윤 기자가 정리했습니다.[기자] 누리호 발사 순간.75톤급 엔진 4개가 동시에 화염을 뿜으며 300톤급 출력을 냅니다.2008년 나로호 1단은 170톤급.거의 2배 가까운 위력을 지녀 발사 순간의 화염 크기에서 그 차이를 확인할 수 있습니다.누리호 발사의 가장 생생한 화면은 지하에 숨겨 둔 고화질 카메라에서 포착됐습니다.가장 가까운 위치에서 

In [130]:
result[10]

array([0., 0., 0., ..., 0., 0., 0.])

In [132]:
cos_sim = cosine_similarity(result[10].reshape(1, -1), result)

In [146]:
cos_df = pd.DataFrame(cos_sim.reshape(-1))

In [147]:
cos_df

Unnamed: 0,0
0,0.068615
1,0.053805
2,0.068296
3,0.089597
4,0.058591
...,...
966,0.013015
967,0.012938
968,0.011833
969,0.009765


In [152]:
cos_df.sort_values(0, ascending=False).head(10)

Unnamed: 0,0
10,1.0
371,0.14746
425,0.12742
423,0.12742
827,0.125425
373,0.119671
381,0.118887
364,0.117941
481,0.117846
384,0.117478


In [156]:
idx = cos_df.sort_values(0, ascending=False).head(30).index

In [157]:
news.iloc[idx, :]

Unnamed: 0,title,content,cate,rdate
11,발사장면 분석...나로호와 달랐던 누리호,"[앵커] 아직도 지난 목요일 누리호 발사 장면의 흥분된 마음이 생생한데요.고흥 나로 우주센터에서는 지난 2013년 이후 8년 만에 발사체가 우주로 향했습니다.8년 전 나로호와 달랐던 누리호의 발사 장면의 특징을 정혜윤 기자가 정리했습니다.[기자] 누리호 발사 순간.75톤급 엔진 4개가 동시에 화염을 뿜으며 300톤급 출력을 냅니다.2008년 나로호 1단은 170톤급.거의 2배 가까운 위력을 지녀 발사 순간의 화염 크기에서 그 차이를 확인할 수 있습니다.누리호 발사의 가장 생생한 화면은 지하에 숨겨 둔 고화질 카메라에서 포착됐습니다.가장 가까운 위치에서 엄청난 불꽃과 수증기, 그리고 누리호가 하늘로 솟구치는 모습이 보입니다.하늘로 치솟은 누리호의 모습은 두 곳에서 동시에 추적됩니다.우주센터 앞바다와 고흥 전망대에 배치된 망원 카메라는 오랜 시간 동안 누리호의 기체와 화염을 따라갑니다.33m의 나로호보다 큰 47m의 누리호 기체, 그리고 더 강력한 로켓은 보는 이의 감동과 탄성을 자아냅니다.[김성한 / 부산 양정동 : 너무 감격스러워서 사실은 눈물이 조금 맺혔었습니다.]첫 발사의 감동과 아쉬움을 뒤로하고 나로 우주센터는 다시 불을 밝힌 채, 1차 발사의 문제점 분석과 내년 5월의 2차 발사 준비에 돌입했습니다.]YTN 정혜윤입니다.YTN 정혜윤 (jdkim@ytn.co.kr)",3,2021-10-23 01:05
381,누리호 발사 준비 돌입...발사대 주변 교통 통제 시작,"[앵커] 순수 우리나라 기술로 개발한 첫 우주발사체 '누리호'가 오늘(21일) 오후 발사를 앞두고 본격적인 발사 준비 절차에 돌입했습니다.발사대가 있는 나로우주센터 주변은 안전한 발사를 위해 교통 통제가 시작되는 등 긴장감이 고조되는 모습입니다.나로우주센터에 나가 있는 취재기자 연결합니다. 홍민기 기자![기자] 네, 전남 고흥 나로우주센터에 나와 있습니다.[앵커] 네, 누리호가 발사 준비에 돌입했다고요?[기자] 네, 한국항공우주연구원은 조금 전인 오전 10시부터 누리호의 발사 준비를 시작했다고 밝혔습니다.현재는 누리호 내부 전자 설비가 정상 작동하는지를 확인하고 있는 것으로 전해졌는데요.여기서 문제가 없다면, 발사 1시간 반 전에서 50분 전까진 추진제와 산화제 충전이 이뤄집니다.발사 10분 전까지 기상 상황 등에 이상이 없으면 프로그램에 따라 자동으로 카운트 다운에 돌입합니다.발사 예정시각은 현재 오후 네 시로 예정돼 있는데요.다만 확정된 시간은 아닙니다.오늘 오전과 오후 두 차례, 발사관리위원회가 회의를 통해 최종 발사 시각을 결정하는데요.정확한 발사 시각은 오늘 오후 두 시 반쯤, 공식 발표될 예정입니다.사실, 신형 우주 발사체의 성공 확률은 30% 정도에 불과한 것으로 알려져 있고, 누리호도 예외가 아닙니다.그만큼 발사 과정에서 수많은 난관을 뚫어야 하기 때문인데요.가장 큰 변수는 날씨입니다.지상풍은 평균 초속 15m보다 약해야 하고, 비행경로에 낙뢰도 없어야 합니다.지상을 벗어난 뒤에도, 우주 물체와 충돌 가능성은 없는지 살펴야 합니다.[앵커] 네, 나로우주센터 주변 통제도 시작됐다고요?[기자] 네, 그렇습니다.누리호가 본격적인 발사 준비에 돌입하면서, 발사대가 위치한 나로우주센터 주변 교통도 통제되기 시작했습니다.먼저 발사대 반경 3㎞ 육상 교통이 통제되기 시작했고,발사 두 시간 전에는 바닷길과 하늘길도 모두 통제될 예정입니다.통제는 발사가 완전히 끝난 뒤까지 이어질 예정인데요.발사가 성공했는지는 발사 16분 7초 뒤에 판가름납니다.다만 위성 모사체가 목표 궤도에 올라갔는지 등 최종 임무의 성공 여부는 비행과정에서 획득한 데이터를 분석해 약 30분 정도 뒤에 확인할 수 있습니다.지금까지 전남 고흥 나로우주센터에서 YTN 홍민기입니다.YTN 홍민기입니다.YTN 홍민기 (hongmg1227@ytn.co.kr)",3,2021-10-21 11:16
445,한 달 남은 누리호 발사...미리 보는 발사 과정,"[앵커] 우리 기술로 개발한 한국형발사체, '누리 호'가 한 달 뒤인 10월 21일 발사됩니다.나로호 이후 8년 9개월 만에 고흥 나로우주센터에서 날아오를 누리 호의 발사 과정을 미리 살펴봤습니다.보도에 김진두 기자입니다.[기자][권현준 / 과기부 거대공공연구정책관 : 발사 허가 신청 시 항우연에서 요청한 발사 예정일은 1차 발사 2021년 10월 21일이며….]예정된 발사일의 전날 아침, '누리 호'는 무진동 차량에 실려 사람이 걷는 정도인 시속 1.8km의 속도로 발사대로 향합니다.발사대에 수직으로 세워지고 추진제와 전기를 공급하는 탯줄 역할을 할 '엄빌리칼'이 연결되면 전날 준비 작업은 완료됩니다.발사 당일 오전, 기상 조건을 확인해 이상이 없으면 나로우주센터 추적소와 제주도, 팔라우 섬 추적소가 통신 안테나를 켜고 발사 관제 준비에 돌입합니다.이어 '누리 호'에 헬륨가스가 주입되고 연로와 산화제를 공급하면 발사를 위한 사전 준비는 마무리됩니다.발사 30분 전, 누리 호를 수직으로 잡아주던 '이렉터'가 분리되고 발사 10분 전 카운트 다운이 시작됩니다.발사 순간, 엄청난 화염을 내뿜으며 1단 엔진이 점화되고 300톤 최대 추력을 받아 '누리 호'는 하늘로 솟아오릅니다.2분 만에 대기권을 벗어나고 성층권에 도달한 '누리 호'는 1단을 떼어내고 2단 점화에 들어갑니다.1단보다 속도가 2배 이상 증가한 '누리 호'는 200km 고도에서 페어링을 먼저 분리하고 147초간의 비행 끝에 마지막 3단에 임무를 넘깁니다.지상 이륙 16분 뒤, 인공위성 투입 고도인 700km에 도달한 '누리 호'에서 1.5톤 무게의 위성 모사체가 분리됩니다.위성 분리 약 30분 뒤, 발사 데이터 분석을 통해 최종 발사 성공 여부가 확인되며 '누리 호' 발사는 막을 내립니다.YTN 김진두입니다.YTN 김진두 (jdkim@ytn.co.kr)",3,2021-09-21 00:12
443,한 달 남은 누리호 발사...미리 보는 발사 과정,"[앵커] 우리 기술로 개발한 한국형발사체, '누리 호'가 한 달 뒤인 10월 21일 발사됩니다.나로호 이후 8년 9개월 만에 고흥 나로우주센터에서 날아오를 누리 호의 발사 과정을 미리 살펴봤습니다.보도에 김진두 기자입니다.[기자][권현준 / 과기부 거대공공연구정책관 : 발사 허가 신청 시 항우연에서 요청한 발사 예정일은 1차 발사 2021년 10월 21일이며….]예정된 발사일의 전날 아침, '누리 호'는 무진동 차량에 실려 사람이 걷는 정도인 시속 1.8km의 속도로 발사대로 향합니다.발사대에 수직으로 세워지고 추진제와 전기를 공급하는 탯줄 역할을 할 '엄빌리칼'이 연결되면 전날 준비 작업은 완료됩니다.발사 당일 오전, 기상 조건을 확인해 이상이 없으면 나로우주센터 추적소와 제주도, 팔라우 섬 추적소가 통신 안테나를 켜고 발사 관제 준비에 돌입합니다.이어 '누리 호'에 헬륨가스가 주입되고 연로와 산화제를 공급하면 발사를 위한 사전 준비는 마무리됩니다.발사 30분 전, 누리 호를 수직으로 잡아주던 '이렉터'가 분리되고 발사 10분 전 카운트 다운이 시작됩니다.발사 순간, 엄청난 화염을 내뿜으며 1단 엔진이 점화되고 300톤 최대 추력을 받아 '누리 호'는 하늘로 솟아오릅니다.2분 만에 대기권을 벗어나고 성층권에 도달한 '누리 호'는 1단을 떼어내고 2단 점화에 들어갑니다.1단보다 속도가 2배 이상 증가한 '누리 호'는 200km 고도에서 페어링을 먼저 분리하고 147초간의 비행 끝에 마지막 3단에 임무를 넘깁니다.지상 이륙 16분 뒤, 인공위성 투입 고도인 700km에 도달한 '누리 호'에서 1.5톤 무게의 위성 모사체가 분리됩니다.위성 분리 약 30분 뒤, 발사 데이터 분석을 통해 최종 발사 성공 여부가 확인되며 '누리 호' 발사는 막을 내립니다.YTN 김진두입니다.YTN 김진두 (jdkim@ytn.co.kr)",3,2021-09-21 22:49
866,"내일 누리호 발사, 날씨 문제 없을 듯","내일 오후로 예정된 '누리호' 발사에 날씨로 인한 지장은 없을 것으로 보입니다.기상청은 '누리호' 발사가 예정된 내일 오후 4시를 전후해 나로 우주센터에는 구름만 조금 낄 뿐 비교적 맑은 날씨가 예상된다고 밝혔습니다.우주센터 주변과 누리호 발사 궤적 상에 낙뢰가 발생할 가능성은 희박하고, 바람도 북풍이나 북서풍이 초속 3∼9m로 불 것으로 보입니다.YTN 정혜윤 (jh0302@ytn.co.kr)",6,2021-10-20 09:46
383,누리호 오늘 우주로...오후 4시 발사 예정,"[앵커] 순수 우리나라 기술로 개발한 첫 우주발사체 '누리호'가 오늘(21일) 우주로 날아오릅니다.현재 발사 예정 시각은 오후 4시인데, 정확한 발사 시각은 오후 2시 반에 공식 발표될 예정입니다.나로우주센터에 나가 있는 취재기자 연결합니다. 홍민기 기자![기자] 네, 전남 고흥 나로우주센터에 나와 있습니다.[앵커] 누리호는 오늘 몇 시쯤 발사되는 건가요?[기자] 현재 계획대로라면, 오후 네 시쯤입니다.다만 확정된 시간은 아닙니다.오늘 오전과 오후 두 차례, 발사관리위원회가 회의를 통해 최종 발사 시각을 결정하는데요.정확한 발사 시각은 오늘 오후 두 시 반쯤, 공식 발표될 예정입니다.사실, 신형 우주 발사체의 성공 확률은 30% 정도에 불과한 것으로 알려져 있고, 누리호도 예외가 아닙니다.그만큼 발사 과정에서 수많은 난관을 뚫어야 하기 때문인데요.가장 큰 변수는 날씨입니다.지상풍은 평균 초속 15m보다 약해야 하고, 비행경로에 낙뢰도 없어야 합니다.지상을 벗어난 뒤에도, 우주 물체와 충돌 가능성은 없는지 살펴야 합니다.항공우주연구원 측은 현재 지상 날씨에는 크게 문제가 없는 것으로 보고 있는데요.고층풍 등 지상 10㎞ 이상의 기상 조건도 자세히 분석하는 중입니다.[앵커] 누리호 발사 절차는 어떻게 되나요?[기자] 네, 현재 누리호는 발사대에 똑바로 선 채 고정된 상태인데요.연료와 전원 등을 공급하는 공급선, 이른바 엄빌리칼도 어제 연결을 마쳤습니다.이제 발사 6시간 전인 오전 10시쯤부터는 본격적인 발사 준비가 시작되는데요.발사 1시간 반 전에서 50분 전까진 추진체 충전이 이뤄지고, 10분 전까지 기상 상황 등에 이상이 없으면 이륙하게 됩니다. 발사가 성공했는지는 발사 16분 7초 뒤에 판가름납니다.위성 모사체가 목표 궤도에 올라갔는지 등 최종 임무의 성공 여부는 비행과정에서 획득한 데이터를 분석해 약 30분 정도 뒤에 확인할 수 있습니다.지금까지 전남 고흥 나로우주센터에서 YTN 홍민기입니다.YTN 홍민기 (hongmg1227@ytn.co.kr)",3,2021-10-21 06:46
391,누리호 이후 5번 더 발사...'달 착륙'까지 간다,"[앵커] 누리호는 내일 발사의 성패와 상관없이 앞으로 5차례 더 발사될 예정입니다.꾸준한 발사를 통해 확보한 데이터를 바탕으로 누리호 성능을 높여 2030년에 달 탐사에도 도전한다는 계획입니다.정혜윤 기자가 보도합니다.[기자] 12년의 개발과정을 통해 완성된 누리호는 총 2번의 발사가 계획돼 있습니다.이번 발사의 성패와 관계없이 내년 5월 또 한 번의 발사가 예정돼 있습니다.이후에는 2027년까지 6,874억 원의 예산이 투입돼 누리호 신뢰도 확보 사업이 시작됩니다.누리호 4기를 더 만들고 차세대 중형 위성 3호와 차세대 소형위성을 실어 쏘면서 발사체 성능과 안전성, 신뢰도를 높이자는 겁니다.12년간 누리호 개발에 참여했던 300여 개 민간 기업이 기술을 완성하고 고도화할 수 있는 계기를 만들어주는 효과도 있습니다.이후에는 누리호로 2030년에는 달 착륙선을 쏘아 올린다는 게 정부의 구상입니다.하지만 38만km 떨어진 달로 가기에는 누리호의 성능을 한 단계 이상 높여야 합니다.이를 위해 필요한 것이 한국형발사체 고도화 사업이지만, 지난해 예비타당성 조사에서 탈락해 아쉬움을 주고 있습니다.[권현준 / 과기부 거대공공연구정책관 : 애초 계획에 따르면 달 탐사선을 보내는 수준 정도로 만들려고 했는데 평가하는 과정에서 좀 더 성능이 뛰어난 쪽으로 해야 하는 게 아닌가….]하지만 이번까지 6번의 누리호 발사에서 성과를 보인다면 미국과 러시아, 중국에 이은 세계 4번째 자력 '달 착륙'에 도전할 가능성도 열릴 전망입니다.YTN 정혜윤입니다.YTN 정혜윤 (jdkim@ytn.co.kr)",3,2021-10-20 21:20
374,"[현장영상] ""발사시각 결정 전 종합적 검토 통해 오후 5시 누리호 발사 예정""","[앵커] 우주센터 상층에 부는 강한 바람으로 발사 시각 결정이 조금 늦춰졌습니다.정부는 조금 전인 오후 2시누리호의 최종 준비상황과 기상 상황 등을 종합 검토해 발사 여부와 최종 시각 등을 확정했는데요,현장 연결해 직접 들어보겠습니다.[구혁채] 안녕하십니까. 과기정통부 대변인 구혁채입니다. 그럼 지금부터 금일 있었던 제5차 발사관리위원회 개최 결과를 발사관리위원장이신 용홍택 용홍택 과기정통부 제1차관에서 브리핑하시겠습니다.[용홍택] 안녕하세요. 과학기술정보통신부 제1차관 용홍택입니다. 10월 21일 14시 30분 현재 누리호 발사 준비 상황을 말씀을 드리겠습니다.오늘 개최된 누리호 발사관리위원회는 발사시각을 결정하기 전에 누리호 발사를 위한 기술적 준비 상황, 기상 상황, 우주 물체와의 충돌 가능성 등을 종합적으로 검토해서 오늘 오후 5시 정각 발사를 목표로 발사 운영 절차를 진행하기로 최종 결정하였습니다.당초 오후 4시 발사를 예정하였으나 발사대 하부 시스템 및 밸브 점검에 추가적인 시간이 소요됐습니다. 다음 발사 전에 고층풍의 세기 및 변동폭에 의한 영향이 누리호가 견딜 수 있는 하중보다 커질 것으로 예상되는 경우 발사 일정이 변동될 수가 있습니다.누리호는 발사 약 1시간 20분 전에 연료 충전을, 발사 약 50분 전에는 산화제 충전이 완료될 예정입니다.누리호는 발사 10분 전부터 발사 자동운영에 들어가게 되며 발사 자동운영 중에 이상현상을 감지하게 되면 발사가 자동으로 중단이 됩니다.과학기술정보통신부와 한국항공우주연구원은 안전하고 신뢰할 수 있는 누리호 발사를 위해서 마지막 순간까지 최선의 노력을 다하겠습니다. 감사합니다.YTN 용홍택 (selee@ytn.co.kr)",3,2021-10-21 14:39
514,누리호 오늘 오후 발사...16분간의 첫 비행 도전,"첫 국산 발사체 누리호가 오늘 오후 전남 고흥 나로우주센터에서 발사됩니다.누리호는 오늘 오전 상층 바람과 우주 물체와의 충돌 여부를 살핀 뒤 발사 4시간 전, 연료와 산화제 주입을 시작합니다.이어 발사 30분 전 기립 장치를 제거한 뒤 10분 전, 컴퓨터가 제어하는 발사 자동운용에 돌입합니다.카운트 다운 이후 발사된 누리호는 16분간의 첫 비행을 하게 되고 이후 30분 정도 뒤 발사 궤적 데이터를 분석해 발사 성공·실패 여부가 판별됩니다.이번 발사 결과를 바탕으로 누리호는 내년 5월 또 발사에 나서고 2027년까지 4번의 추가 비행이 예정돼 있습니다.YTN 김진두 (jdkim@ytn.co.kr)",4,2021-10-21 00:02
394,누리호 내일 오후 발사...16분간의 첫 비행,"첫 국산 발사체 누리호가 내일 오후 전남 고흥 나로우주센터에서 발사됩니다.누리호는 내일 오전 상층 바람과 우주 물체와의 충돌 여부를 살핀 뒤 발사 4시간 전, 연료와 산화제 주입을 시작합니다.이어 발사 30분 전 기립 장치를 제거한 뒤 10분 전, 컴퓨터가 제어하는 발사 자동운용에 돌입합니다.카운트 다운 이후 발사된 누리호는 16분간의 첫 비행을 하게 되고 이후 30분 정도 뒤 발사 궤적 데이터를 분석해 발사 성공·실패 여부가 판별됩니다.이번 발사 결과를 바탕으로 누리호는 내년 5월 또 발사에 나서고 2027년까지 4번의 추가 비행이 예정돼 있습니다.YTN 김진두 (jdkim@ytn.co.kr)",3,2021-10-20 18:12
