### 코사인 유사도 직접 구현

In [1]:
from numpy import dot
from numpy.linalg import norm
import numpy as np

In [2]:
# dot : 집합의 행렬곱
# norm : 리스트 값들을 각각 제곱하고 모두 더한 후에 루트
def cos_sim(A,B):
    return dot(A,B)/(norm(A) * norm(B))

In [3]:
doc1 = np.array([0,0,1,1])
doc2 = np.array([1,0,0,1])
doc3 = np.array([2,0,0,2])

In [4]:
cos_sim(doc3,doc2)

0.9999999999999998

In [5]:
cos_sim(doc1,doc2)

0.4999999999999999

### 뉴스데이터 로드 하기

In [6]:
import pandas as pd
df = pd.read_csv("naver_news_lecture.csv", encoding="ansi")
df = df[['press','category','title','contents','date']]

In [7]:
df = df[df["press"]=="MBC"]

In [8]:
df = df.reset_index(drop=True)

In [9]:
df.index

RangeIndex(start=0, stop=1829, step=1)

In [10]:
df[df["title"].duplicated()].sort_values(by=['title'])

Unnamed: 0,press,category,title,contents,date
741,MBC,속보,"""3차 북미회담 언젠가 열릴 것""…친서에 언급",동영상 뉴스\n \n [정오뉴스]◀ 앵커 ▶\n \n 트럼프 미국 대통령이 김정은 ...,20190626
346,MBC,속보,"""北 침략 이겨내고 대한민국 정체성 지킨 6·25""",동영상 뉴스\n \n [뉴스투데이]◀ 앵커 ▶\n \n 6·25전쟁 69주년을 맞아...,20190625
1337,MBC,속보,"""金, 비핵화 의지 확고""…오늘 한·러 정상회담",동영상 뉴스\n \n [930MBC뉴스]◀ 앵커 ▶\n \n 문재인 대통령과 시진핑...,20190628
1291,MBC,속보,"""金, 비핵화 의지 확고""…오늘 한·러 정상회담",동영상 뉴스\n \n [뉴스투데이]◀ 앵커 ▶ \n \n G20 정상회의에 참석한 ...,20190628
1265,MBC,속보,"""金, 비핵화 의지 확고""…오늘 한·러 정상회담",동영상 뉴스\n \n [뉴스투데이]◀ 앵커 ▶\n \n G20 정상회의에 참석한 문...,20190628
337,MBC,속보,"""김정은과 우호적인 친서…매우 좋은 관계""",동영상 뉴스\n \n [뉴스투데이]◀ 앵커 ▶\n \n 트럼프 미국 대통령이 김정은...,20190625
435,MBC,속보,"""김정은과 우호적인 친서…매우 좋은 관계""",동영상 뉴스\n \n [정오뉴스]◀ 앵커 ▶\n \n 트럼프 미국 대통령이 김정은 ...,20190625
381,MBC,속보,"""김정은과 우호적인 친서…매우 좋은 관계""",동영상 뉴스\n \n [930MBC뉴스]◀ 앵커 ▶\n \n 트럼프 미국 대통령이 ...,20190625
747,MBC,속보,"""압도적 힘으로 이란 소멸"" vs ""정면대응할 것""",동영상 뉴스\n \n [정오뉴스]◀ 앵커 ▶\n \n 미국과 이란 문제는 대통령 간...,20190626
698,MBC,속보,"""압도적 힘으로 이란 소멸"" vs ""정면대응할 것""",동영상 뉴스\n \n [930MBC뉴스]◀ 앵커 ▶\n \n 미국과 이란의 지도자 ...,20190626


In [11]:
df.head()

Unnamed: 0,press,category,title,contents,date
0,MBC,속보,"백악관, 트럼프 친서 확인…""북미정상 연락 계속 진행돼와""",미국 백악관이 도덜드 트럼프 대통령이 김정은 북한 국무위원장에게 친서를 보낸 사실을...,20190624
1,MBC,속보,"""차드서 보코하람 기습 공격에 군인 등 8명 사망""",중부 아프리카 차드에서 나이지리아 이슬람 무장단체 보코하람이 기습 공격을 펼쳐 군인...,20190624
2,MBC,속보,인도 종교행사장 대형텐트 붕괴로 최소 14명 사망,"인도 종교행사장에서 대형텐트가 무너져, 최소 14명이 숨지는 사고가 발생했습니다.\...",20190624
3,MBC,속보,"이란 외무 ""5월 26일에도 美 무인기 영공 침범""","이란이 이달 20일 뿐 아니라, 지난달 26일에도 미군 무인기가 영공을 침입했다고 ...",20190624
4,MBC,속보,나이지리아 남동부서 송유관 폭발해 최소 8명 사망,서아프리카 나이지리아의 남동부 유전지대인 리버스주에서 현지시간 22일 송유관이 폭발...,20190624


### sklearn 라이브러리를 이용한 코사인 유사도 측정

In [12]:
from sklearn.metrics.pairwise import linear_kernel
from sklearn.feature_extraction.text import TfidfVectorizer
from IPython.display import clear_output
from konlpy.tag import Okt
konlpy = Okt()

-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


In [13]:
doc_list = []
progress = 0
for idx, item in df.iterrows():
    words = konlpy.morphs(item['contents']+" "+item['title'])
    doc_list.append((" ").join(words))
    
    # 진행 상황을 출력
    progress += 1
    clear_output(wait=True)
    print("진행 상황 :", progress, "/", len(df))

진행 상황 : 1829 / 1829


In [14]:
tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(doc_list)

In [15]:
print(tfidf_matrix.shape)

(1829, 25753)


In [17]:
cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)

In [18]:
len(cosine_sim)

1829

In [19]:
indices = pd.Series(df.index, index=df['title']).drop_duplicates()

In [20]:
df.head()

Unnamed: 0,press,category,title,contents,date
0,MBC,속보,"백악관, 트럼프 친서 확인…""북미정상 연락 계속 진행돼와""",미국 백악관이 도덜드 트럼프 대통령이 김정은 북한 국무위원장에게 친서를 보낸 사실을...,20190624
1,MBC,속보,"""차드서 보코하람 기습 공격에 군인 등 8명 사망""",중부 아프리카 차드에서 나이지리아 이슬람 무장단체 보코하람이 기습 공격을 펼쳐 군인...,20190624
2,MBC,속보,인도 종교행사장 대형텐트 붕괴로 최소 14명 사망,"인도 종교행사장에서 대형텐트가 무너져, 최소 14명이 숨지는 사고가 발생했습니다.\...",20190624
3,MBC,속보,"이란 외무 ""5월 26일에도 美 무인기 영공 침범""","이란이 이달 20일 뿐 아니라, 지난달 26일에도 미군 무인기가 영공을 침입했다고 ...",20190624
4,MBC,속보,나이지리아 남동부서 송유관 폭발해 최소 8명 사망,서아프리카 나이지리아의 남동부 유전지대인 리버스주에서 현지시간 22일 송유관이 폭발...,20190624


In [21]:
indices['백악관, 트럼프 친서 확인…"북미정상 연락 계속 진행돼와"']

0

In [22]:
# 상위 20위 유사 문서를 가져오는 함수
def get_recommendations(title, cosine_sim = cosine_sim):
    idx = indices[title]
    sim_scores = list(enumerate(cosine_sim[idx])) # 코사인 유사도 가져오기
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True) # 내림차순 정렬
    sim_scores = sim_scores[0:21] # 상위 21개만 추출
    doc_idx = [i[0] for i in sim_scores] 
    scores = [ score[1] for score in sim_scores]
    ret = df[['title','contents']].iloc[doc_idx]
    ret = pd.DataFrame(ret)
    ret['score'] = scores
    return ret

In [27]:
retdf = get_recommendations('백악관, 트럼프 친서 확인…"북미정상 연락 계속 진행돼와"')
retdf

[0, 284, 175, 1822, 911, 381, 691, 741, 652, 91, 48, 12, 14, 298, 337, 435, 136, 604, 1753, 7, 1754]


Unnamed: 0,title,contents,score
0,"백악관, 트럼프 친서 확인…""북미정상 연락 계속 진행돼와""",미국 백악관이 도덜드 트럼프 대통령이 김정은 북한 국무위원장에게 친서를 보낸 사실을...,1.0
284,"트럼프 ""김정은에 매우 우호적인 친서 보냈다""",도널드 트럼프 미국 대통령은 김정은 북한 국무위원장에게 매우 우호적인 친서를 보냈다...,0.378843
175,"[정치 와호장룡] ""흥미로운 내용있다""…북·미 대화 전환점되나?",동영상 뉴스\n \n [뉴스외전]◎ 방송 : MBC <뉴스외전> 월~금 14:00~...,0.341351
1822,"트럼프 ""김정은, 백악관으로 초청할 것""",도널드 트럼프 미국 대통령이 김정은 북한 국무위원장에게 백악관을 방문해 달라는 뜻을...,0.323267
911,"트럼프 ""이번에 김정은 안 만날 것…다른 방식으로 얘기할지도""",도널드 트럼프 미국 대통령은 G20 정상회의 참석 등을 위해 아시아를 방문하는 기간...,0.309309
381,"""김정은과 우호적인 친서…매우 좋은 관계""",동영상 뉴스\n \n [930MBC뉴스]◀ 앵커 ▶\n \n 트럼프 미국 대통령이 ...,0.303395
691,"""3차 북미회담 언젠가 열릴 것""…친서에 언급",동영상 뉴스\n \n [930MBC뉴스]◀ 앵커 ▶\n \n 트럼프 미국 대통령이 ...,0.301226
741,"""3차 북미회담 언젠가 열릴 것""…친서에 언급",동영상 뉴스\n \n [정오뉴스]◀ 앵커 ▶\n \n 트럼프 미국 대통령이 김정은 ...,0.300103
652,"""3차 북미정상회담 언젠가 열릴 것""…친서에 언급",동영상 뉴스\n \n [뉴스투데이]◀ 앵커 ▶\n \n 트럼프 미국 대통령이 김정은...,0.294198
91,"""협상 재개 가능성 높다…美 당장 응할 것""",동영상 뉴스\n \n [930MBC뉴스]◀ 앵커 ▶\n \n 트럼프 미국 대통령이 ...,0.289429


Unnamed: 0,title,contents,score
0,"백악관, 트럼프 친서 확인…""북미정상 연락 계속 진행돼와""",미국 백악관이 도덜드 트럼프 대통령이 김정은 북한 국무위원장에게 친서를 보낸 사실을...,1.0
284,"트럼프 ""김정은에 매우 우호적인 친서 보냈다""",도널드 트럼프 미국 대통령은 김정은 북한 국무위원장에게 매우 우호적인 친서를 보냈다...,0.378843
175,"[정치 와호장룡] ""흥미로운 내용있다""…북·미 대화 전환점되나?",동영상 뉴스\n \n [뉴스외전]◎ 방송 : MBC <뉴스외전> 월~금 14:00~...,0.341351
1822,"트럼프 ""김정은, 백악관으로 초청할 것""",도널드 트럼프 미국 대통령이 김정은 북한 국무위원장에게 백악관을 방문해 달라는 뜻을...,0.323267
911,"트럼프 ""이번에 김정은 안 만날 것…다른 방식으로 얘기할지도""",도널드 트럼프 미국 대통령은 G20 정상회의 참석 등을 위해 아시아를 방문하는 기간...,0.309309
381,"""김정은과 우호적인 친서…매우 좋은 관계""",동영상 뉴스\n \n [930MBC뉴스]◀ 앵커 ▶\n \n 트럼프 미국 대통령이 ...,0.303395
691,"""3차 북미회담 언젠가 열릴 것""…친서에 언급",동영상 뉴스\n \n [930MBC뉴스]◀ 앵커 ▶\n \n 트럼프 미국 대통령이 ...,0.301226
741,"""3차 북미회담 언젠가 열릴 것""…친서에 언급",동영상 뉴스\n \n [정오뉴스]◀ 앵커 ▶\n \n 트럼프 미국 대통령이 김정은 ...,0.300103
652,"""3차 북미정상회담 언젠가 열릴 것""…친서에 언급",동영상 뉴스\n \n [뉴스투데이]◀ 앵커 ▶\n \n 트럼프 미국 대통령이 김정은...,0.294198
91,"""협상 재개 가능성 높다…美 당장 응할 것""",동영상 뉴스\n \n [930MBC뉴스]◀ 앵커 ▶\n \n 트럼프 미국 대통령이 ...,0.289429
