In [3]:
from sklearn.cluster import KMeans
# common_text에는 파싱된 워드 리스트들이 들어가 있음.
from gensim.test.utils import common_texts
# Doc2Vec이 우리가 텍스트를 사용해서 학습되는 모델(뉴럴넷)이고 
# TaggedDocument가 넘겨주는 텍스트들. 
# 여기서, corpus와 ID들을 함께 넘겨줘야 하는데, 여기서 ID는 tag와 같은 말임
# Q: 여기서, 여러 tag를 함께 넘겨준 다음, 적합한 태그를 찾아주는 방식으로도 처리할 수 있는지 파악하는 것이 필요함. 
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

# import하기
import json
  
# Opening JSON file
f = open('key_as_space.json')  
awesome_file = json.load(f)

# TaggedDocument는 해당 corpus의 id를 함께 넘겨주는 것을 말합니다. 
# 아래 코드에서 doc에는 단어의 묶음이, tags에는 해당 문서를 표현하는 태그가 들어가게 됨. 
# 흠, 그렇다면, 이 태그에 고유 id가 아닌 다른 것을 넣어주면 현재 문서에 맞는 tag를 찾아주기도 하나? 
# 이렇게 할 경우, words에는 문서를, tags에는 키워드를 넣고, words에서 tags를 예측하는 짓을 할 수도 있지 않을까? 

common_texts_and_tags = [
    (value_array, key) for key, value_array in awesome_file.items()
]
# print("##"*20)
# print("tags and its texts")
# print("##"*20)
# for text, tag in common_texts_and_tags:
#     print(f"tag: {tag}, text: {text}")
#     print("\n")

# text: 단어별로 분할되어 있는 리스트 
# tags: 해당 문서를 의미하는 태그. 여기서, tags를 unique id로 넣기는 했는데, 그렇지 않게 넣어서 학습시키는 것도 가능할 것으로 보임. 
TRAIN_documents = [TaggedDocument(words=text, tags=tag) for text, tag in common_texts_and_tags]
# training. 
# 여러 Parameter들을 사용하여 튜닝할 수 있음. 
model = Doc2Vec(TRAIN_documents, vector_size=5, window=3, epochs=1000, min_count=0, workers=4)

print("##"*20)
print("Accessing Document vector")
print("##"*20)
# # document의 vector를 구하는 방법은, 기 학습된 docvec을 가져오거나, 해당 단어를 넣고 다시 예측하는 것. 
# # 단, tag로 접근이 가능할 뿐, 학습한 doc를 그대로 가져오는 것은 어려운 것으로 보임. 
# # 또한, 여기서, 학습된 vector와 inferring한 vector가 미묘하게 다른데, 이것은 현재 train set이 적어서 그런 것으로 보임. 
for text, tags in common_texts_and_tags:
    trained_doc_vec = model.docvecs[tags[0]]
    inferred_doc_vec = model.infer_vector(text)
    print(f"tags: {tags}, text: {text}")
    print(f"trained_doc_vec: {trained_doc_vec}")
    print(f"inferred_doc_vec: {inferred_doc_vec}")
    print("--"*20)
    
# print("##"*20)
# print("predicting Document vector")
# print("##"*20)

# new_documents = [
#     ["computer", "interface"], 
#     ["I", "am", "a", "boy"]
# ]
# # predict training set with its infering vector)
# for text in new_documents:
#     inferred_v = model.infer_vector(text)
#     # 현재 doc를 모델을 사용하여 벡터화할때의 값 
#     print(f"vector of {text}: {inferred_v}")
#     # 기학습된 문서중에서 현재 벡터와 가장 유사한 벡터를 가지는 문서를 topn만큼 추출합니다. 
#     most_similar_docs = model.docvecs.most_similar([inferred_v], topn=3)
#     # index와 그 유사도를 함께 보여줍니다. 
#     # index(tag)가 아닌 문서를 바로 보여주기는 어려운 것 같고, 
#     for index, similarity in most_similar_docs:
#         print(f"{index}, similarity: {similarity}")
#     #print(most_similar_docs)
#     print("=="*20)

# # document clustering 

# print("##"*30)
# print("K-Means Clustering")
# print("##"*30)
# Clustering_Method = KMeans(n_clusters=2, random_state=0)
# X = model.docvecs.vectors_docs # document vector 전체를 가져옴. 
# Clustering_Method.fit(X)# fitting 
# # 결과를 보면 알겠지만, 생각보다 클러스터링이 잘 되지 않음. 
# # 일단은 이것 또한 트레이닝 셋이 적어서 그런 것으로 보임. 
# cluster_dict = {i:[] for i in range(0, 2)}
# for text_tags, label in zip(common_texts_and_tags, Clustering_Method.labels_):
#     text, tags = text_tags
#     cluster_dict[label].append(text)
# for label, lst in cluster_dict.items():
#     print(f"Cluster {label}")
#     for x in lst:
#         print(x)
#     print("--"*30)
# print("##"*20)

########################################
Accessing Document vector
########################################
tags: user interface components, text: ['component', 'page', 'map', 'message', 'element', 'color', 'graph', 'table', 'tags', 'number', 'form', 'input', 'links', 'filter', 'button', 'card', 'widget', 'loader', 'notifications', 'layer', 'icons', 'error', 'control', 'rating', 'chart', 'header', 'slides', 'menu', 'cell', 'grid', 'options', 'tabs', 'comments', 'labels', 'select', 'feed', 'barchart', 'plot', 'calendar', 'drag and drop', 'panel', 'viewer', 'move', 'preview', 'star', 'progress', 'alert', 'directive', 'ionic framework', 'selector', 'region', 'contacts', 'dialog', 'scroll', 'transform', 'semantic', 'motion', 'react components', 'ng', 'range', 'gallery', 'multiple', 'data visualization', 'clock', 'trigger', 'selection', 'counter', 'md', 'transformer', 'logo', 'segment', 'picker', 'jquery plugin', 'touch', 'rotation', 'gradient', 'mask', 'toggle', 'overlay', 'slider', 'modal

  trained_doc_vec = model.docvecs[tags[0]]


tags: learning resources, text: ['learning', 'actions', 'project', 'example', 'list', 'tutorial', 'collection', 'training', 'resources', 'course', 'book', 'links', 'paper', 'programming', 'jobs', 'patterns', 'workshop', 'lab', 'challenge', 'article', 'guide', 'exercise', 'students', 'snippets', 'talk', 'university', 'coding', 'research', 'study', 'playbook', 'education', 'reference', 'practice', 'school', 'hack', 'food', 'reading', 'experimental', 'recipes', 'cookbook', 'technology', 'help', 'playground', 'engineering', 'logic', 'knowledge', 'daily', 'interview', 'udacity', 'launch', 'courses', 'lesson', 'tech', 'summary', 'leetcode', 'skills', 'instructions', 'startup', 'programmer', 'full stack', 'beginner', 'web development', 'revision', 'tips', 'roadmap', 'guidelines', 'teaching', 'cheatsheet', 'coursera', 'offer', 'academic', 'ebook', 'weekly', 'diy', 'curriculum', 'gitbook', 'principles', 'checklist', 'teachers', 'tricks', 'howto', 'certification', 'anki', 'handbook', 'interview 