In [1]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(min_df = 1)

In [2]:
contents = ['상처받은 아이들은 너무 일찍 커버려',
            '내가 상처받은 거 아는 사람 불편해',
            '잘 사는 사람들은 좋은 사람 되기 쉬워',
            '아무 일도 아니야 괜찮아']

In [3]:
from konlpy.tag import Twitter
t = Twitter()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


In [4]:
contents_tokens = [t.morphs(row) for row in contents]
contents_tokens

[['상처', '받은', '아이', '들', '은', '너무', '일찍', '커버', '려'],
 ['내', '가', '상처', '받은', '거', '아는', '사람', '불편해'],
 ['잘', '사는', '사람', '들', '은', '좋은', '사람', '되기', '쉬워'],
 ['아무', '일도', '아니야', '괜찮아']]

In [5]:
contents_for_vectorize = []

for content in contents_tokens:
    sentence = '' 
    for word in content:
        sentence = sentence + ' ' + word 
    
    contents_for_vectorize.append(sentence)

contents_for_vectorize

[' 상처 받은 아이 들 은 너무 일찍 커버 려',
 ' 내 가 상처 받은 거 아는 사람 불편해',
 ' 잘 사는 사람 들 은 좋은 사람 되기 쉬워',
 ' 아무 일도 아니야 괜찮아']

In [6]:
X = vectorizer.fit_transform(contents_for_vectorize)
X

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 20 stored elements and shape (4, 17)>

In [7]:
num_samples, num_features = X.shape
num_samples, num_features

(4, 17)

In [8]:
vectorizer.get_feature_names_out()

array(['괜찮아', '너무', '되기', '받은', '불편해', '사는', '사람', '상처', '쉬워', '아는',
       '아니야', '아무', '아이', '일도', '일찍', '좋은', '커버'], dtype=object)

In [9]:
X.toarray().transpose()

array([[0, 0, 0, 1],
       [1, 0, 0, 0],
       [0, 0, 1, 0],
       [1, 1, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 1, 0],
       [0, 1, 2, 0],
       [1, 1, 0, 0],
       [0, 0, 1, 0],
       [0, 1, 0, 0],
       [0, 0, 0, 1],
       [0, 0, 0, 1],
       [1, 0, 0, 0],
       [0, 0, 0, 1],
       [1, 0, 0, 0],
       [0, 0, 1, 0],
       [1, 0, 0, 0]])

In [10]:
new_post = ['상처받기 싫어 괜찮아']
new_post_tokens = [t.morphs(row) for row in new_post]

new_post_for_vectorize = []

for content in new_post_tokens:
    sentence = '' 
    for word in content:
        sentence = sentence + ' ' + word
    
    new_post_for_vectorize.append(sentence)

new_post_for_vectorize

[' 상처 받기 싫어 괜찮아']

In [11]:
new_post_vec = vectorizer.transform(new_post_for_vectorize)
new_post_vec.toarray()

array([[1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [12]:
import scipy as sp 

def dist_raw(v1, v2):
    delta = v1 - v2 
    return sp.linalg.norm(delta.toarray())

In [13]:
dist = [dist_raw(each, new_post_vec) for each in X]
dist

[np.float64(2.449489742783178),
 np.float64(2.23606797749979),
 np.float64(3.1622776601683795),
 np.float64(2.0)]

In [14]:
print("Best post is ", dist.index(min(dist)), ", dist = ", min(dist))
print("test post is --> ", new_post)
print("best dist post is --> ", content[dist.index(min(dist))])

Best post is  3 , dist =  2.0
test post is -->  ['상처받기 싫어 괜찮아']
best dist post is -->  괜찮아


In [15]:
for i in range(0, len(contents)):
    print(X.getrow(i).toarray())

print('---------------')
print(new_post_vec.toarray())

[[0 1 0 1 0 0 0 1 0 0 0 0 1 0 1 0 1]]
[[0 0 0 1 1 0 1 1 0 1 0 0 0 0 0 0 0]]
[[0 0 1 0 0 1 2 0 1 0 0 0 0 0 0 1 0]]
[[1 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0]]
---------------
[[1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0]]


In [16]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(min_df=1, decode_error='ignore')


In [17]:
X = vectorizer.fit_transform(contents_for_vectorize)
num_samples, num_features = X.shape
num_samples, num_features

(4, 17)

In [18]:
X.toarray().transpose()

array([[0.        , 0.        , 0.        , 0.5       ],
       [0.43671931, 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.39264414, 0.        ],
       [0.34431452, 0.40104275, 0.        , 0.        ],
       [0.        , 0.50867187, 0.        , 0.        ],
       [0.        , 0.        , 0.39264414, 0.        ],
       [0.        , 0.40104275, 0.6191303 , 0.        ],
       [0.34431452, 0.40104275, 0.        , 0.        ],
       [0.        , 0.        , 0.39264414, 0.        ],
       [0.        , 0.50867187, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.5       ],
       [0.        , 0.        , 0.        , 0.5       ],
       [0.43671931, 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.5       ],
       [0.43671931, 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.39264414, 0.        ],
       [0.43671931, 0.        , 0.        , 0.        ]])

In [19]:
new_post_vec = vectorizer.transform(new_post_for_vectorize)
new_post_vec.toarray()

array([[0.78528828, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.6191303 , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        ]])

In [20]:
def dist_norm(v1, v2):
    v1_normalized = v1 / sp.linalg.norm(v1.toarray())
    v2_normalized = v2 / sp.linalg.norm(v2.toarray())

    delta = v1_normalized - v2_normalized

    return sp.linalg.norm(delta.toarray())

In [21]:
dist = [dist_norm(each, new_post_vec) for each in X]

print("Best post is ", dist.index(min(dist)), ", dist = ", min(dist))
print("test post is --> ", new_post)
print("best dist post is --> ", contents[dist.index(min(dist))])


Best post is  3 , dist =  1.1021396119773588
test post is -->  ['상처받기 싫어 괜찮아']
best dist post is -->  아무 일도 아니야 괜찮아


In [23]:
import urllib.request
import json 
import datetime 

In [31]:
def gen_search_url(api_node, search_text, start_num, disp_num):
    base = "https://openapi.naver.com/v1/search"
    node = '/' + api_node + '.json'
    param_query = "?query=" + urllib.parse.quote(search_text)
    param_start = "&start=" + str(start_num)
    param_disp = "&display=" + str(disp_num)

    return base + node + param_query + param_start + param_disp

In [32]:
def get_result_onpage(url):
    request = urllib.request.Request(url)
    request.add_header("X-Naver-Client-Id", client_id)
    request.add_header("X-Naver-Client-Secret", client_secret)

    response = urllib.request.urlopen(request)

    print("[%s] Url Request Success" % datetime.datetime.now())

    return json.loads(response.read().decode('utf-8'))

In [35]:
client_id = "Ny9Zb5PCQIw3nBGmZq_x"
client_secret = "SBt_8d16mL"

In [36]:
url = gen_search_url('kin', '파이썬', 10, 10)
one_result = get_result_onpage(url)
one_result

[2024-11-21 10:54:22.367960] Url Request Success


{'lastBuildDate': 'Thu, 21 Nov 2024 10:54:22 +0900',
 'total': 313397,
 'start': 10,
 'display': 10,
 'items': [{'title': '아두이노 코딩언어 <b>파이썬</b> 씨플플중',
   'link': 'https://kin.naver.com/qna/detail.naver?d1id=1&dirId=10405&docId=476905301&qb=7YyM7J207I2s&enc=utf8&section=kin.qna&rank=10&search_sort=0&spq=0',
   'description': '... c/c++중 어느게 더 우선적이고 <b>파이썬</b>도 배우는게 나을지... <b>파이썬</b>은.. &quot;전통적인 아두이노 스튜디오 기반... RP2040에 마이크로<b>파이썬</b>을 얹으면 어지간한 건 날로 먹을 수... 마이크로<b>파이썬</b>을 쓸 때가 많고요 (개발에 걸리는 시간이... '},
  {'title': '<b>파이썬</b>에서 = &gt; 표시의 의미',
   'link': 'https://kin.naver.com/qna/detail.naver?d1id=1&dirId=10402&docId=476945232&qb=7YyM7J207I2s&enc=utf8&section=kin.qna&rank=11&search_sort=0&spq=0',
   'description': '<b>파이썬</b> 왕초보 입니다. <b>파이썬</b> 코딩할 때 =&gt; 표시의 의미는 무엇입니까? a = 5, b = 10 이라 했을 때, &gt;= 왼쪽 값이 오른쪽 값보다 크거나 같으면 (a &gt;= b) → false 비교연산자로 사용됩니다'},
  {'title': '<b>파이썬</b> 원그리기',
   'link': 'https://kin.naver.com/qna/detail.naver?d1id=1&dirId=10402&docId=477725545&qb=7YyM7J207I2

In [37]:
one_result['items'][0]['description']

'... c/c++중 어느게 더 우선적이고 <b>파이썬</b>도 배우는게 나을지... <b>파이썬</b>은.. &quot;전통적인 아두이노 스튜디오 기반... RP2040에 마이크로<b>파이썬</b>을 얹으면 어지간한 건 날로 먹을 수... 마이크로<b>파이썬</b>을 쓸 때가 많고요 (개발에 걸리는 시간이... '

In [42]:
def delete_tag(input_str):
    input_str = input_str.replace("<b>", "")
    input_str = input_str.replace("</b>", "")

    return input_str

In [43]:
def get_description(pages):
    contents = []
    for snetences in pages['items']:
        contents.append(delete_tag(snetences['description']))

    return contents


In [44]:
contents = get_description(one_result)
contents

['... c/c++중 어느게 더 우선적이고 파이썬도 배우는게 나을지... 파이썬은.. &quot;전통적인 아두이노 스튜디오 기반... RP2040에 마이크로파이썬을 얹으면 어지간한 건 날로 먹을 수... 마이크로파이썬을 쓸 때가 많고요 (개발에 걸리는 시간이... ',
 '파이썬 왕초보 입니다. 파이썬 코딩할 때 =&gt; 표시의 의미는 무엇입니까? a = 5, b = 10 이라 했을 때, &gt;= 왼쪽 값이 오른쪽 값보다 크거나 같으면 (a &gt;= b) → false 비교연산자로 사용됩니다',
 't.circle(300,62) 처럼 파이썬에서 저렇게 circle 뒤에 순서쌍으로 표현된건 뭘 의미하는건가요? 함수 호출 시 함수명 뒤에 오는 (A, B)와 같은 형태에서 A와 B는 함수의 인자(arguments)입니다. 함수는 보통 특정 작업을 수행할 때... ',
 '... 이걸 불러 오잖아요 근데 파이썬은 그런 게 없잖아요 왜 그런가요?... 파이썬에서는 모듈, 또는 라이브러리라고 부릅니다. 다른 언어에서도... 파이썬은 쉬운 사용을 목표로 하기 때문에 한상 늘 포함될만한, stdio 에 해당하는... ',
 '파이썬개발자 준비해보려고 하는데요 요즘 파이썬개발자도 많이 준비하는 추세인가요? 그리고 제가 자바는 다룰 수... 혹시 파이썬과 자바 둘다 다룰 수 있는 강의가 있는지 궁금합니다 주변에는 백엔드 개발자분들이 많은데 파이썬 자바... ',
 '... 조금더 파이썬을 집중해서 배워야할지... 아님 다른 것들도 같이... 그냥 파이썬 정도만 배워가도 문제가 없을까요? 데이터 관련 작업을 주로... 파이썬 공부 관련으로 궁금하신 사항 있으시다면 아래 오픈채팅으로 문의... ',
 '... 파이썬이 무슨 차이인가요? 그리고 파이참이랑 아나콘다 설치되있으면 파이썬 필요없나요? 그리고 파이썬 과제를... 달아드려볼게요~ - 파이썬은 프로그래밍 언어이고 - 파이참은 파이썬 언어를 사용해서 코딩할 수 있는 에디터 같은... ',
 '엑셀을 많이 사용하는 업무라 

In [46]:
from sklearn.feature_extraction.text import CountVectorizer
from konlpy.tag import Okt

t = Okt()
vectorizer = CountVectorizer(min_df=1)

In [47]:
contents_tokens = [t.morphs(row) for row in contents]
contents_tokens

[['...',
  'c',
  '/',
  'c',
  '++',
  '중',
  '어느',
  '게',
  '더',
  '우선',
  '적',
  '이고',
  '파이썬',
  '도',
  '배우는게',
  '나을지',
  '...',
  '파이썬',
  '은',
  '..',
  '&',
  'quot',
  ';',
  '전통',
  '적',
  '인',
  '아두이노',
  '스튜디오',
  '기반',
  '...',
  'RP',
  '2040',
  '에',
  '마이크로',
  '파이썬',
  '을',
  '얹으면',
  '어지간한',
  '건',
  '날로',
  '먹을',
  '수',
  '...',
  '마이크로',
  '파이썬',
  '을',
  '쓸',
  '때',
  '가',
  '많고요',
  '(',
  '개발',
  '에',
  '걸리는',
  '시간',
  '이',
  '...'],
 ['파이썬',
  '왕초보',
  '입니다',
  '.',
  '파이썬',
  '코딩',
  '할',
  '때',
  '=&',
  'gt',
  ';',
  '표시',
  '의',
  '의미',
  '는',
  '무엇',
  '입',
  '니까',
  '?',
  'a',
  '=',
  '5',
  ',',
  'b',
  '=',
  '10',
  '이라',
  '했을',
  '때',
  ',',
  '&',
  'gt',
  ';=',
  '왼쪽',
  '값',
  '이',
  '오른쪽',
  '값',
  '보다',
  '크거나',
  '같으면',
  '(',
  'a',
  '&',
  'gt',
  ';=',
  'b',
  ')',
  '→',
  'false',
  '비교',
  '연산자',
  '로',
  '사용',
  '됩니다'],
 ['t.circle',
  '(',
  '300',
  ',',
  '62',
  ')',
  '처럼',
  '파이썬',
  '에서',
  '저렇게',
  'circle',
  '뒤',
  '에',


In [48]:
contents_for_vectorize = []

for content in contents_tokens:
    sentence = '' 
    for word in content:
        sentence = sentence + ' ' + word

    contents_for_vectorize.append(sentence)

contents_for_vectorize

[' ... c / c ++ 중 어느 게 더 우선 적 이고 파이썬 도 배우는게 나을지 ... 파이썬 은 .. & quot ; 전통 적 인 아두이노 스튜디오 기반 ... RP 2040 에 마이크로 파이썬 을 얹으면 어지간한 건 날로 먹을 수 ... 마이크로 파이썬 을 쓸 때 가 많고요 ( 개발 에 걸리는 시간 이 ...',
 ' 파이썬 왕초보 입니다 . 파이썬 코딩 할 때 =& gt ; 표시 의 의미 는 무엇 입 니까 ? a = 5 , b = 10 이라 했을 때 , & gt ;= 왼쪽 값 이 오른쪽 값 보다 크거나 같으면 ( a & gt ;= b ) → false 비교 연산자 로 사용 됩니다',
 ' t.circle ( 300 , 62 ) 처럼 파이썬 에서 저렇게 circle 뒤 에 순서쌍 으로 표현 된건 뭘 의미 하는건 가요 ? 함수 호출 시 함수 명 뒤 에 오는 ( A , B ) 와 같은 형태 에서 A 와 B 는 함수 의 인자 ( arguments ) 입니다 . 함수 는 보통 특정 작업 을 수행 할 때 ...',
 ' ... 이 걸 불러 오잖아요 근데 파이썬 은 그런 게 없잖아요 왜 그런 가요 ?... 파이썬 에서는 모듈 , 또는 라이브러리 라고 부릅니다 . 다른 언어 에서도 ... 파이썬 은 쉬운 사용 을 목표 로 하기 때문 에 한 상 늘 포함 될만 한 , stdio 에 해당 하는 ...',
 ' 파이썬 개발자 준비 해보려고 하는데요 요즘 파이썬 개발자 도 많이 준비 하는 추세 인가요 ? 그리고 제 가 자바 는 다룰 수 ... 혹시 파이썬 과 자바 둘다 다룰 수 있는 강의 가 있는지 궁금합니다 주변 에는 백엔드 개발자 분들 이 많은데 파이썬 자바 ...',
 ' ... 조금 더 파이썬 을 집중 해서 배워 야할지 ... 아님 다른 것 들 도 같이 ... 그냥 파이썬 정도 만 배워가도 문제 가 없을까요 ? 데이터 관련 작업 을 주로 ... 파이썬 공부 관련 으로 궁금하신 사항 있으시다면 아래 오픈 채팅 으로 문의 ...',
 ' ... 파이썬 이 무슨 차이 인

In [49]:
X = vectorizer.fit_transform(contents_for_vectorize)
X

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 244 stored elements and shape (10, 195)>

In [51]:
num_samples, num_features = X.shape
num_samples, num_features

(10, 195)

In [52]:
vectorizer.get_feature_names_out()

array(['10', '2040', '300', '62', 'arguments', 'chains', 'circle',
       'error', 'false', 'from', 'gt', 'import', 'langchain', 'quot',
       'retrievalqa', 'rp', 'stdio', '가요', '강의', '같으면', '같은', '같이', '개발',
       '개발자', '건지', '걸리는', '공부', '과제', '관련', '궁금하신', '궁금합니다', '그냥', '그런',
       '그리고', '근데', '기반', '깔아', '나을지', '날로', '네이버', '노트북', '니까', '다룰',
       '다른', '다스', '데이터', '도보', '독학', '되어', '되있으면', '된건', '될듯', '될만',
       '됩니다', '둘다', '뒀는', '드려', '등등', '때문', '또는', '라고', '라이브러리', '랭체인',
       '마이크로', '많고요', '많은데', '많이', '먹을', '모듈', '목표', '무슨', '무엇', '문의',
       '문제', '배우는게', '배워', '배워가도', '백엔드', '버전', '보다', '보려고', '보면', '보통',
       '볼게요', '부릅니다', '분들', '불러', '비교', '비해', '사용', '사항', '설치', '수행',
       '순서쌍', '쉬운', '쉽다고는', '스튜디오', '시간', '시작', '신분', '실행', '아나콘다', '아님',
       '아두이노', '아래', '야할지', '어느', '어떻게', '어지간한', '언어', '얹으면', '업무',
       '없을까요', '없잖아요', '에는', '에디터', '에서', '에서는', '에서도', '엑셀', '연산자', '오는',
       '오른쪽', '오잖아요', '오픈', '왕초보', '왼쪽', '요즘', '우선', '웹서버', '유툽', '으로',

In [53]:
new_post = ['파이썬을 배우는데 좋은 방법이 어떤 것인지 추천해주세요']
new_post_tokens = [t.morphs(row) for row in new_post]

new_post_for_vectorize = []

for content in new_post_tokens:
    sentence = '' 
    for word in content:
        sentence = sentence + " " + word
    new_post_for_vectorize.append(sentence)

new_post_for_vectorize

[' 파이썬 을 배우는데 좋은 방법 이 어떤 것 인지 추천 해주세요']

In [54]:
new_post_vec = vectorizer.transform(new_post_for_vectorize)
new_post_vec.toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [55]:
import scipy as sp 

def dist_raw(v1, v2):
    delta = v1 - v2
    return sp.linalg.norm(delta.toarray())

In [56]:
dist = [dist_raw(each, new_post_vec) for each in X]
dist

[np.float64(5.744562646538029),
 np.float64(5.477225575051661),
 np.float64(6.782329983125268),
 np.float64(5.656854249492381),
 np.float64(7.3484692283495345),
 np.float64(6.0),
 np.float64(6.928203230275509),
 np.float64(6.244997998398398),
 np.float64(5.656854249492381),
 np.float64(7.3484692283495345)]

In [57]:
print("Best post is ", dist.index(min(dist)), ", dist = ", min(dist))
print("test post is --> ", new_post)
print("best dist post is --> ", contents[dist.index(min(dist))])

Best post is  1 , dist =  5.477225575051661
test post is -->  ['파이썬을 배우는데 좋은 방법이 어떤 것인지 추천해주세요']
best dist post is -->  파이썬 왕초보 입니다. 파이썬 코딩할 때 =&gt; 표시의 의미는 무엇입니까? a = 5, b = 10 이라 했을 때, &gt;= 왼쪽 값이 오른쪽 값보다 크거나 같으면 (a &gt;= b) → false 비교연산자로 사용됩니다


In [58]:
def dist_norm(v1, v2):
    v1_normalized = v1 / sp.linalg.norm(v1.toarray())
    v2_normalized = v2 / sp.linalg.norm(v2.toarray())

    delta = v1_normalized - v2_normalized

    return sp.linalg.norm(delta.toarray())

In [59]:
dist = [dist_norm(each, new_post_vec) for each in X]

print("Best post is ", dist.index(min(dist)), ", dist = ", min(dist))
print("test post is --> ", new_post)
print("best dist post is --> ", contents[dist.index(min(dist))])

Best post is  6 , dist =  0.8218683854090972
test post is -->  ['파이썬을 배우는데 좋은 방법이 어떤 것인지 추천해주세요']
best dist post is -->  ... 파이썬이 무슨 차이인가요? 그리고 파이참이랑 아나콘다 설치되있으면 파이썬 필요없나요? 그리고 파이썬 과제를... 달아드려볼게요~ - 파이썬은 프로그래밍 언어이고 - 파이참은 파이썬 언어를 사용해서 코딩할 수 있는 에디터 같은... 


In [None]:
def tfidf(t, d, D):
    tf = float(d.count(t)) / sum(d.count(w) for w in set(d))
    idf = sp.log(float(len(D)) / (len([doc for doc in D if t in doc])))
    return tf * idf

In [61]:
new_post_vec = vectorizer.transform(new_post_for_vectorize)
new_post_vec.toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [62]:
dist = [dist_norm(each, new_post_vec) for each in X]

print("Best post is ", dist.index(min(dist)), ", dist = ", min(dist))
print("test post is --> ", new_post)
print("best dist post is --> ", contents[dist.index(min(dist))])

Best post is  6 , dist =  0.8218683854090972
test post is -->  ['파이썬을 배우는데 좋은 방법이 어떤 것인지 추천해주세요']
best dist post is -->  ... 파이썬이 무슨 차이인가요? 그리고 파이참이랑 아나콘다 설치되있으면 파이썬 필요없나요? 그리고 파이썬 과제를... 달아드려볼게요~ - 파이썬은 프로그래밍 언어이고 - 파이참은 파이썬 언어를 사용해서 코딩할 수 있는 에디터 같은... 
