In [54]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(min_df = 1)    

In [56]:
contents = ['상처받은 아이들은 너무 일찍 커버려',
           '내가 상처받은 거 아는 사람 불편해',
           '잘 사는 사람들은 좋은 사람 되기 쉬워',
           '아무 일도 아니야 괜찮아']

In [57]:
from konlpy.tag import Okt
t = Okt()

In [58]:
contents_tokens = [t.morphs(row) for row in contents]
contents_tokens

[['상처', '받은', '아이', '들', '은', '너무', '일찍', '커버', '려'],
 ['내', '가', '상처', '받은', '거', '아는', '사람', '불편해'],
 ['잘', '사는', '사람', '들', '은', '좋은', '사람', '되기', '쉬워'],
 ['아무', '일도', '아니야', '괜찮아']]

In [59]:
contents_for_vectorize = []

for content in contents_tokens:
    sentence = ''
    for word in content:
        sentence = sentence + ' ' + word
        
    contents_for_vectorize.append(sentence)
    
contents_for_vectorize

[' 상처 받은 아이 들 은 너무 일찍 커버 려',
 ' 내 가 상처 받은 거 아는 사람 불편해',
 ' 잘 사는 사람 들 은 좋은 사람 되기 쉬워',
 ' 아무 일도 아니야 괜찮아']

In [60]:
X = vectorizer.fit_transform(contents_for_vectorize)
X

<4x17 sparse matrix of type '<class 'numpy.int64'>'
	with 20 stored elements in Compressed Sparse Row format>

In [61]:
num_samples, num_features = X.shape
num_samples, num_features

(4, 17)

In [62]:
vectorizer.get_feature_names()

['괜찮아',
 '너무',
 '되기',
 '받은',
 '불편해',
 '사는',
 '사람',
 '상처',
 '쉬워',
 '아는',
 '아니야',
 '아무',
 '아이',
 '일도',
 '일찍',
 '좋은',
 '커버']

In [63]:
X.toarray().transpose()

array([[0, 0, 0, 1],
       [1, 0, 0, 0],
       [0, 0, 1, 0],
       [1, 1, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 1, 0],
       [0, 1, 2, 0],
       [1, 1, 0, 0],
       [0, 0, 1, 0],
       [0, 1, 0, 0],
       [0, 0, 0, 1],
       [0, 0, 0, 1],
       [1, 0, 0, 0],
       [0, 0, 0, 1],
       [1, 0, 0, 0],
       [0, 0, 1, 0],
       [1, 0, 0, 0]], dtype=int64)

In [64]:
new_post = ['상처받기 싫어 괜찮아']
new_post_tokens = [t.morphs(row) for row in new_post]

new_post_for_vectorize = []

for content in new_post_tokens:
    sentence = ''
    for word in content:
        sentence = sentence + ' ' + word
        
    new_post_for_vectorize.append(sentence)
    
new_post_for_vectorize

[' 상처 받기 싫어 괜찮아']

In [65]:
new_post_vec = vectorizer.transform(new_post_for_vectorize)
new_post_vec

<1x17 sparse matrix of type '<class 'numpy.int64'>'
	with 2 stored elements in Compressed Sparse Row format>

In [12]:
new_post_vec.toarray()

array([[1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)

In [13]:
import scipy as sp

def dist_raw(v1, v2):
    delta = v1 - v2
    return sp.linalg.norm(delta.toarray())

In [14]:
dist = [dist_raw(each, new_post_vec) for each in X]
dist

[2.449489742783178, 2.23606797749979, 3.1622776601683795, 2.0]

In [15]:
print('Best post is', dist.index(min(dist)), 'dist = ', min(dist))
print('test post is -->', new_post)
print('best dist post is -->', contents[dist.index(min(dist))])

Best post is 3 dist =  2.0
test post is --> ['상처받기 싫어 괜찮아']
best dist post is --> 아무 일도 아니야 괜찮아


In [16]:
for i in range(0, len(contents)):
    print(X.getrow(i).toarray())
    
print('-----------------------')
print(new_post_vec.toarray())

[[0 1 0 1 0 0 0 1 0 0 0 0 1 0 1 0 1]]
[[0 0 0 1 1 0 1 1 0 1 0 0 0 0 0 0 0]]
[[0 0 1 0 0 1 2 0 1 0 0 0 0 0 0 1 0]]
[[1 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0]]
-----------------------
[[1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0]]


In [17]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(min_df=1, decode_error='ignore')

In [18]:
X = vectorizer.fit_transform(contents_for_vectorize)
num_samples, num_features = X.shape
num_samples, num_features

(4, 17)

In [19]:
X.toarray().transpose()

array([[0.        , 0.        , 0.        , 0.5       ],
       [0.43671931, 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.39264414, 0.        ],
       [0.34431452, 0.40104275, 0.        , 0.        ],
       [0.        , 0.50867187, 0.        , 0.        ],
       [0.        , 0.        , 0.39264414, 0.        ],
       [0.        , 0.40104275, 0.6191303 , 0.        ],
       [0.34431452, 0.40104275, 0.        , 0.        ],
       [0.        , 0.        , 0.39264414, 0.        ],
       [0.        , 0.50867187, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.5       ],
       [0.        , 0.        , 0.        , 0.5       ],
       [0.43671931, 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.5       ],
       [0.43671931, 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.39264414, 0.        ],
       [0.43671931, 0.        , 0.        , 0.        ]])

In [20]:
new_post_vec = vectorizer.transform(new_post_for_vectorize)
new_post_vec.toarray()

array([[0.78528828, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.6191303 , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        ]])

In [21]:
def dist_norm(v1, v2):
    v1_normalized = v1 / sp.linalg.norm(v1.toarray())
    v2_normalized = v2 / sp.linalg.norm(v2.toarray())
    
    delta = v1_normalized - v2_normalized
    
    return sp.linalg.norm(delta.toarray())

In [22]:
dist = [dist_norm(each, new_post_vec) for each in X]

print('Best post is', dist.index(min(dist)), 'dist = ', min(dist))
print('test post is -->', new_post)
print('best dist post is -->', contents[dist.index(min(dist))])

Best post is 3 dist =  1.1021396119773588
test post is --> ['상처받기 싫어 괜찮아']
best dist post is --> 아무 일도 아니야 괜찮아


In [23]:
import urllib.request
import json
import datetime

In [24]:
def gen_search_url(api_node, search_text, start_num, disp_num):
    base = 'https://openapi.naver.com/v1/search'
    node = '/' + api_node + '.json'
    param_query = '?query=' + urllib.parse.quote(search_text)
    param_start = '&start=' + str(start_num)
    param_disp = '&display=' + str(disp_num)
    
    return base + node + param_query + param_start + param_disp

In [25]:
def get_result_onpage(url):
    request = urllib.request.Request(url)
    request.add_header("X-Naver-Client-Id", client_id)
    request.add_header("X-Naver-Client-Secret", client_secret)

    response = urllib.request.urlopen(request)
    
    print('[%s] Url Request Success' % datetime.datetime.now())
    
    return json.loads(response.read().decode('utf-8'))

In [26]:
client_id = 'a2CX1cdZ6h5Ho4D4boOD'
client_secret = 'BwGKb34Tvs'

url = gen_search_url('kin', '파이썬', 10, 10)
one_result = get_result_onpage(url)
one_result

[2020-12-24 15:22:11.653172] Url Request Success


{'lastBuildDate': 'Thu, 24 Dec 2020 15:22:11 +0900',
 'total': 161435,
 'start': 10,
 'display': 10,
 'items': [{'title': '<b>파이썬</b>인강 추천해주세요.',
   'link': 'https://kin.naver.com/qna/detail.nhn?d1id=1&dirId=10402&docId=376128989&qb=7YyM7J207I2s&enc=utf8&section=kin.qna&rank=10&search_sort=0&spq=0',
   'description': '<b>파이썬</b>인강 보면서 방학때 공부하려 하는데요 유튭은 보다가 답답해서 포기했어요 ㅜ 괜찮은 <b>파이썬</b>인강 사이트 아는것 있으면 추천좀 해주세요!!! 안녕하세요~ <b>파이썬</b>인강을... 아무래도 <b>파이썬</b>을 공부하고 싶으신데 처음 접한다면... '},
  {'title': '<b>파이썬</b> 과제좀 알려주세요ㅠㅠ',
   'link': 'https://kin.naver.com/qna/detail.nhn?d1id=1&dirId=10402&docId=375864197&qb=7YyM7J207I2s&enc=utf8&section=kin.qna&rank=11&search_sort=0&spq=0',
   'description': '<b>파이썬</b> 과제좀 알려주세요ㅠㅠ  안녕하세요. 지식인에서도 과제풀이를 해주시는 분이 계시긴 하지만... C언어, <b>파이썬</b>, 자바 등의 코딩이나 프로그래밍 작업에 대해 문의줘보실 수 있는데요. 관련하여 사이트... '},
  {'title': '<b>파이썬</b>기초학원 라이브 화상강의 퀄리티 좋은곳이 어디죠?',
   'link': 'https://kin.naver.com/qna/detail.nhn?d1id=1&dirId=10402&docId=376486231&qb=7YyM7J207I2s&enc=utf8&section=kin.q

In [27]:
one_result['items'][0]['description']

'<b>파이썬</b>인강 보면서 방학때 공부하려 하는데요 유튭은 보다가 답답해서 포기했어요 ㅜ 괜찮은 <b>파이썬</b>인강 사이트 아는것 있으면 추천좀 해주세요!!! 안녕하세요~ <b>파이썬</b>인강을... 아무래도 <b>파이썬</b>을 공부하고 싶으신데 처음 접한다면... '

In [28]:
def delete_tag(input_str):
    input_str = input_str.replace('<b>', "")
    input_str = input_str.replace('</b>', "")
    
    return input_str

In [31]:
def get_description(pages):
    contents = []
    for sentences in pages['items']:
        contents.append(delete_tag(sentences['description']))
        
    return contents

In [32]:
contents = get_description(one_result)
contents

['파이썬인강 보면서 방학때 공부하려 하는데요 유튭은 보다가 답답해서 포기했어요 ㅜ 괜찮은 파이썬인강 사이트 아는것 있으면 추천좀 해주세요!!! 안녕하세요~ 파이썬인강을... 아무래도 파이썬을 공부하고 싶으신데 처음 접한다면... ',
 '파이썬 과제좀 알려주세요ㅠㅠ  안녕하세요. 지식인에서도 과제풀이를 해주시는 분이 계시긴 하지만... C언어, 파이썬, 자바 등의 코딩이나 프로그래밍 작업에 대해 문의줘보실 수 있는데요. 관련하여 사이트... ',
 '파이썬기초학원을 찾고 있습니다 전에 독학으로 파이썬기초를 공부해봤는데 바쁘기도 했고 제대로 공부를 못하고 시간이 꽤 지났거든요 파이썬기초학원을 다녀서 전문적으로... 알려주는 파이썬기초학원을 알려주세요 안녕하세요... ',
 '파이썬 공부해보려고하는 초보자입니다 인강 추천해주시면 감사드리겠습니다 파이썬강의를 찾으시나요? 파이썬이 다른 언어들에 비해 비교적 배우기 쉽다고 해도... 위해 파이썬강의 중에 KG에듀원 비대면 라이브 강의를... ',
 '파이썬에서 받은 숫자가 소수인지 아닌지 판별 코드를 어떻게 적어야 하나요?? 아래와 같이 소수인지 아닌지 판별하는 함수를 하나 만들어서 사용하시면 됩니다 # 소수이면 True 아니면 False 를... ',
 'c언어에서 시뮬레이션을 돌린 수치를 가지고 파이썬으로 그래프를 그리는... 수치를 파이썬으로 옮기는 방안도 알려주십시요. 수치를 텍스트 파일로 만들고 파이썬에서... ',
 '주말에 시간이 남아서 개인발전을 할려고 하다가 파이썬이 요즘 많이 사용... 지거든요 파이썬비대면수업좀 추천해 주세요 IT분야는 실습 부분 때문에... c언어,파이썬,리눅스,ccna정도 비대면으로 교육을 진행 하고 있습니다... ',
 '기초자식이 없는데 파이썬학원 다니면서 차근차근 배워보려고요. 아는 곳 있으면 알려주세요.  파이썬학원 포함... 하지만 모든 파이썬 학원이 다 같은 내용으로 진행되지는... 그래서 이 부분은 파이썬학원에 직접 방문해서... ',
 'VSCode로 파이썬을 사

In [33]:
from sklearn.feature_extraction.text import CountVectorizer
from konlpy.tag import Okt
t = Okt()
vectorizer = CountVectorizer(min_df=1)

In [35]:
contents_tokens = [t.morphs(row) for row in contents]
contents_tokens

[['파이썬',
  '인강',
  '보면서',
  '방학',
  '때',
  '공부',
  '하려',
  '하는데요',
  '유튭',
  '은',
  '보다가',
  '답답해서',
  '포기',
  '했어요',
  'ㅜ',
  '괜찮은',
  '파이썬',
  '인강',
  '사이트',
  '아는것',
  '있으면',
  '추천',
  '좀',
  '해주세요',
  '!!!',
  '안녕하세요',
  '~',
  '파이썬',
  '인강',
  '을',
  '...',
  '아무래도',
  '파이썬',
  '을',
  '공부',
  '하고',
  '싶으신',
  '데',
  '처음',
  '접',
  '한',
  '다',
  '면',
  '...'],
 ['파이썬',
  '과제',
  '좀',
  '알려주세요',
  'ㅠㅠ',
  '안녕하세요',
  '.',
  '지식인',
  '에서도',
  '과제',
  '풀이',
  '를',
  '해주시',
  '는',
  '분',
  '이',
  '계시긴',
  '하지만',
  '...',
  'C',
  '언어',
  ',',
  '파이썬',
  ',',
  '자바',
  '등',
  '의',
  '코딩',
  '이나',
  '프로그래밍',
  '작업',
  '에',
  '대해',
  '문의',
  '줘',
  '보실',
  '수',
  '있는데요',
  '.',
  '관련',
  '하여',
  '사이트',
  '...'],
 ['파이썬',
  '기초',
  '학원',
  '을',
  '찾고',
  '있습니다',
  '전',
  '에',
  '독학',
  '으로',
  '파이썬',
  '기초',
  '를',
  '공부',
  '해봤는데',
  '바쁘',
  '기도',
  '했고',
  '제대로',
  '공부',
  '를',
  '못',
  '하고',
  '시간',
  '이',
  '꽤',
  '지났거든요',
  '파이썬',
  '기초',
  '학원',
  '을',
  '다녀서',
  '전문',
  '적',
  '으로',


In [36]:
contents_for_vectorize = []

for content in contents_tokens:
    sentence = ''
    for word in content:
        sentence = sentence + ' ' + word
        
    contents_for_vectorize.append(sentence)
    
contents_for_vectorize

[' 파이썬 인강 보면서 방학 때 공부 하려 하는데요 유튭 은 보다가 답답해서 포기 했어요 ㅜ 괜찮은 파이썬 인강 사이트 아는것 있으면 추천 좀 해주세요 !!! 안녕하세요 ~ 파이썬 인강 을 ... 아무래도 파이썬 을 공부 하고 싶으신 데 처음 접 한 다 면 ...',
 ' 파이썬 과제 좀 알려주세요 ㅠㅠ 안녕하세요 . 지식인 에서도 과제 풀이 를 해주시 는 분 이 계시긴 하지만 ... C 언어 , 파이썬 , 자바 등 의 코딩 이나 프로그래밍 작업 에 대해 문의 줘 보실 수 있는데요 . 관련 하여 사이트 ...',
 ' 파이썬 기초 학원 을 찾고 있습니다 전 에 독학 으로 파이썬 기초 를 공부 해봤는데 바쁘 기도 했고 제대로 공부 를 못 하고 시간 이 꽤 지났거든요 파이썬 기초 학원 을 다녀서 전문 적 으로 ... 알려주는 파이썬 기초 학원 을 알려주세요 안녕하세요 ...',
 ' 파이썬 공부 해보려고하는 초보자 입니다 인강 추천 해주시면 감사 드리겠습니다 파이썬 강의 를 찾으시나요 ? 파이썬 이 다른 언어 들 에 비해 비교 적 배우기 쉽다고 해도 ... 위해 파이썬 강의 중 에 KG 에듀 원 비대 면 라이브 강의 를 ...',
 ' 파이썬 에서 받은 숫자 가 소수 인지 아닌지 판별 코드 를 어떻게 적어야 하나요 ?? 아래 와 같이 소수 인지 아닌지 판별 하는 함수 를 하나 만들어서 사용 하시면 됩니다 # 소수 이 면 True 아니면 False 를 ...',
 ' c 언어 에서 시뮬레이션 을 돌린 수치 를 가지 고 파이썬 으로 그래프 를 그리는 ... 수치 를 파이썬 으로 옮기는 방안 도 알려주십시요 . 수치 를 텍스트 파일 로 만들고 파이썬 에서 ...',
 ' 주말 에 시간 이 남아 서 개인 발전 을 할려고 하다가 파이썬 이 요즘 많이 사용 ... 지거든요 파이썬 비대 면 수업 좀 추천 해 주세요 IT 분야 는 실습 부분 때문 에 ... c 언어 , 파이썬 , 리눅스 , ccna 정도 비 대면 으로 교육 을 진행 하고 있습니다 ...',
 ' 기초 자식 이

In [37]:
X = vectorizer.fit_transform(contents_for_vectorize)
X

<10x185 sparse matrix of type '<class 'numpy.int64'>'
	with 238 stored elements in Compressed Sparse Row format>

In [38]:
num_samples, num_features = X.shape
num_samples, num_features

(10, 185)

In [39]:
vectorizer.get_feature_names()

['ccna',
 'false',
 'it',
 'kg',
 'print',
 'quot',
 'syntaxerror',
 'true',
 'utf',
 'vscode',
 'ㅠㅠ',
 '가지',
 '감사',
 '강의',
 '같은',
 '같이',
 '개인',
 '게시',
 '계시',
 '계시긴',
 '공부',
 '과제',
 '관련',
 '괜찮은',
 '교육',
 '그래서',
 '그래프',
 '그리는',
 '기도',
 '기초',
 '남아',
 '납니다',
 '내용',
 '눌렀는데',
 '다녀서',
 '다니면서',
 '다른',
 '답답해서',
 '답변',
 '대면',
 '대해',
 '독학',
 '돌린',
 '되지는',
 '됩니다',
 '드리겠습니다',
 '들어야',
 '때문',
 '라고',
 '라이브',
 '리눅스',
 '만들고',
 '만들어서',
 '많습니다',
 '많이',
 '모든',
 '문의',
 '물의',
 '바쁘',
 '받은',
 '발전',
 '방문',
 '방안',
 '방학',
 '배우기',
 '배워',
 '보다가',
 '보려고요',
 '보면서',
 '보실',
 '부분',
 '분만',
 '분야',
 '비교',
 '비대',
 '비해',
 '사용',
 '사이트',
 '소개',
 '소수',
 '수업',
 '수치',
 '숫자',
 '쉽다고',
 '시간',
 '시뮬레이션',
 '실습',
 '실행',
 '싶어요',
 '싶으신',
 '아는',
 '아는것',
 '아니면',
 '아닌지',
 '아래',
 '아무래도',
 '아시',
 '안녕하세요',
 '알려주는',
 '알려주세요',
 '알려주십시요',
 '어디서',
 '어떻게',
 '언어',
 '없는데',
 '에듀',
 '에러',
 '에서',
 '에서도',
 '오류',
 '옮기는',
 '요즘',
 '위해',
 '유튭',
 '으로',
 '이나',
 '인강',
 '인데',
 '인지',
 '입니다',
 '입력',
 '있는데요',
 '있습니다',
 '있으면',
 '자바',
 '자식',
 '작업',
 '저장',
 '적어야',
 '전

In [40]:
new_post = ['파이썬을 배우는데 좋은 방법이 어떤 것인지 추천해주세요']
new_post_tokens = [t.morphs(row) for row in new_post]

new_post_for_vectorize = []

for content in new_post_tokens:
    sentence = ''
    for word in content:
        sentence = sentence + ' ' + word
        
    new_post_for_vectorize.append(sentence)
    
new_post_for_vectorize

[' 파이썬 을 배우는데 좋은 방법 이 어떤 것 인지 추천 해주세요']

In [41]:
new_post_vec = vectorizer.transform(new_post_for_vectorize)
new_post_vec.toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 1, 0, 0, 0, 0]], dtype=int64)

In [42]:
import scipy as sp

def dist_raw(v1, v2):
    delta = v1 - v2
    return sp.linalg.norm(delta.toarray())

In [43]:
dist = [dist_raw(each, new_post_vec) for each in X]
dist

[6.4031242374328485,
 5.477225575051661,
 7.810249675906654,
 6.4031242374328485,
 6.244997998398398,
 6.0,
 5.916079783099616,
 7.14142842854285,
 5.656854249492381,
 7.745966692414834]

In [44]:
print('Best post is', dist.index(min(dist)), 'dist = ', min(dist))
print('test post is -->', new_post)
print('best dist post is -->', contents[dist.index(min(dist))])

Best post is 1 dist =  5.477225575051661
test post is --> ['파이썬을 배우는데 좋은 방법이 어떤 것인지 추천해주세요']
best dist post is --> 파이썬 과제좀 알려주세요ㅠㅠ  안녕하세요. 지식인에서도 과제풀이를 해주시는 분이 계시긴 하지만... C언어, 파이썬, 자바 등의 코딩이나 프로그래밍 작업에 대해 문의줘보실 수 있는데요. 관련하여 사이트... 


In [45]:
def dist_norm(v1, v2):
    v1_normalized = v1 / sp.linalg.norm(v1.toarray())
    v2_normalized = v2 / sp.linalg.norm(v2.toarray())
    
    delta = v1_normalized - v2_normalized
    
    return sp.linalg.norm(delta.toarray())

In [47]:
dist = [dist_norm(each, new_post_vec) for each in X]

print('Best post is', dist.index(min(dist)), 'dist = ', min(dist))
print('test post is -->', new_post)
print('best dist post is -->', contents[dist.index(min(dist))])

Best post is 0 dist =  1.0690449676496976
test post is --> ['파이썬을 배우는데 좋은 방법이 어떤 것인지 추천해주세요']
best dist post is --> 파이썬인강 보면서 방학때 공부하려 하는데요 유튭은 보다가 답답해서 포기했어요 ㅜ 괜찮은 파이썬인강 사이트 아는것 있으면 추천좀 해주세요!!! 안녕하세요~ 파이썬인강을... 아무래도 파이썬을 공부하고 싶으신데 처음 접한다면... 


In [48]:
def tfidf(t, d, D):
    tf = float(d.count(t)) / sum(d.count(w) for w in set(d))
    idf = sp.log(float(len(D)) / len([doc for doc in D if t in doc]))
    return tf * idf

In [49]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(min_df=1, decode_error='ignore')

In [51]:
X = vectorizer.fit_transform(contents_for_vectorize)
num_samples, num_features = X.shape
num_samples, num_features

(10, 185)

In [52]:
new_post_vec = vectorizer.transform(new_post_for_vectorize)
new_post_vec.toarray()

array([[0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.  

In [53]:
dist = [dist_norm(each, new_post_vec) for each in X]

print('Best post is', dist.index(min(dist)), 'dist = ', min(dist))
print('test post is -->', new_post)
print('best dist post is -->', contents[dist.index(min(dist))])

Best post is 0 dist =  1.2258249187699364
test post is --> ['파이썬을 배우는데 좋은 방법이 어떤 것인지 추천해주세요']
best dist post is --> 파이썬인강 보면서 방학때 공부하려 하는데요 유튭은 보다가 답답해서 포기했어요 ㅜ 괜찮은 파이썬인강 사이트 아는것 있으면 추천좀 해주세요!!! 안녕하세요~ 파이썬인강을... 아무래도 파이썬을 공부하고 싶으신데 처음 접한다면... 
