# Document Query

In [1]:
'''
Import dataset
'''
import pandas as pd
yes24 = pd.read_csv("./data/yes24-prep.csv", names=['name', 'id', 'text'])
yes24.head()

Unnamed: 0,name,id,text
0,초한지 6,9788937000000.0,단 한번 승리 천하 고조 유방 단 번의 패배 모든 것 초패 항우 이 책 유방 한우 ...
1,폭풍의 언덕,9791156000000.0,인간 애증 격정 치명 복수 화제 드라마 비밀 의 모티프 폭풍 언덕 서른 해 생 살 ...
2,"걸, 마돈나 세트",9788993000000.0,걸 직장 여성 심리 리얼 유쾌하 소설 얼굴 잔 주름 이제 화장 발 이 제 나이 도 ...
3,커피점 탈레랑의 사건 수첩 2,9791185000000.0,잔 커피 년 추억 터키 속담 교토 거리 뒤편 자리 커피점 탈레랑 미호 시 여동생 미...
4,무의미의 축제,9788937000000.0,농담 거짓말 의미 무의미 일상 축제 경계 삶 인간 본질 더욱 원숙 해진 시선 수 존...


In [2]:
'''
TF-IDF Model 생성
'''
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

count_vectorizer = CountVectorizer() # Vectorize
count_vector = count_vectorizer.fit_transform(yes24.text)

tfidf_transformer = TfidfTransformer() # Transform to TF-IDF
tfidf_features = tfidf_transformer.fit_transform(count_vector)

In [3]:
'''
Query data 생성
'''
query = ["개념 원리"] # 띄어쓰기 단위로 구분하여 처리됨

q = count_vectorizer.transform(query) # count vectorizer 사용
print(q)
q = tfidf_transformer.transform(q) # query도 tf-idf로
print(q)

  (0, 903)	1
  (0, 29203)	1
  (0, 29203)	0.7322325234023486
  (0, 903)	0.681054720027568


In [4]:
'''
Score 계산 (Cosine Distance)
'''
from scipy.spatial import distance

# calculate the distance between query and every other document
# e.g. print(distance.cosine(q.toarray(), tfidf_features[0].toarray()))
distances = [ distance.cosine(q.toarray(), feat.toarray()) for feat in tfidf_features]

In [5]:
'''
계산한 Score를 통해 가장 비슷한 상위 10개 받아와보기
'''
# sort indices by distances, excluding the first one which is distance from query to itself (0)
idx_closest = sorted(range(len(distances)), key=lambda k: distances[k])[1:]
idx_closest[:10]

for index in idx_closest[:10]:
    print(index, distances[index])

13867 0.5236652629552107
6470 0.5373176731204501
2015 0.5948296809364537
16340 0.5985437055906844
1333 0.6079028126846131
6430 0.6079028126846131
11373 0.6079028126846131
13857 0.6079028126846131
18387 0.6147441847870276
12855 0.6235894539059026


In [6]:
'''
이에 대한 최종 검색 결과
'''
yes24.loc[idx_closest[:10]] # id = ISBN

Unnamed: 0,name,id,text
13867,헤르메스 가르침,9791185000000.0,이 책 모든 신비 사상 아버지 점성술 설립 연금술 창안 헤르메스 핵심 가르침 헤르메...
6470,개념-뿌리들,9788977000000.0,소운 이정우 저작 집 의 권 개념 뿌리 은 년 간 개념 뿌리 권 합본 책 철학 공부...
2015,하나님의 학습법,9788953000000.0,성경 자녀 교육법 오늘날 한국 사회 가장 문제 교육 입시 위주 파행 교육 그 도 과...
16340,그림으로 이해하는 경제사상,9788958000000.0,인간 그 자체 하나 경제 행위 여러 경제 개념 용어 이 책 현대 의미 경제 개념 중...
1333,노아가 동물을 태워요,9788904000000.0,사물 세상 구체 개념 유아 가장 개념 책 시리즈 개념 하나님 로부터 것 하나님 창조...
6430,예수님이 아픈사람을 고쳐요,9788904000000.0,사물 세상 구체 개념 유아 가장 개념 책 시리즈 개념 하나님 로부터 것 하나님 창조...
11373,다윗이 양들을 돌봐요,9788904000000.0,사물 세상 구체 개념 유아 가장 개념 책 시리즈 개념 하나님 로부터 것 하나님 창조...
13857,베드로는 기뻐요,9788904000000.0,사물 세상 구체 개념 유아 가장 개념 책 시리즈 개념 하나님 로부터 것 하나님 창조...
18387,과학실험 큐티,9788904000000.0,이 책 아이 수 투명인간 원리 내비게이션 원리 관성 법칙 비행기 양력 등 평소 과학...
12855,회사 개념어 사전,9788966000000.0,개념 바로 일이 바로 선 고객 보고 업 본질 전략 경영 과 관리 당신 조직 개념 어...
