In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
!pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m75.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m42.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [None]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from konlpy.tag import Okt
import re

# 데이터 로드
data = pd.read_excel('/content/drive/MyDrive/[텍스트분석] 팀 프로젝트/dataset/article_df_final.xlsx', engine='openpyxl')

# 전처리: 한글 형태소 분석 및 특수문자 제거
okt = Okt()
data['main'] = data['main'].apply(lambda x: ' '.join(okt.morphs(re.sub(r"[^ㄱ-ㅎㅏ-ㅣ가-힣\s]", "", x))))



# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(data['main'])

# 코사인 유사도 계산
cosine_sim = cosine_similarity(X)

# 추천 함수 정의
def get_recommendations(idx, cosine_sim=cosine_sim):
    # 해당 기사와 모든 기사와의 유사도를 가져온다.
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도에 따라 기사들을 정렬한다.
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 20개의 기사를 받아온다.
    sim_scores = sim_scores[1:21]

    # 가장 유사한 20개의 기사의 인덱스를 얻는다.
    movie_indices = [idx[0] for idx in sim_scores]

    # 가장 유사한 20개의 기사내용과 유사도를 리턴한다.
    similar_articles = data[['main', 'section']].iloc[movie_indices]
    similar_articles['similarity'] = [idx[1] for idx in sim_scores]

    return similar_articles





# 추천 기사 호출
goal = 260
print("해당 기사: ")
print(data.loc[goal])
print("\n유사 기사:")
ans = get_recommendations(goal)
ans


해당 기사: 
Unnamed: 0                                                  260
title                           오늘(25일) 한국은행 금통위..기준금리 3연속 동결하나
date                                        2023.05.25. 오전 8:24
main          이창용 총재 금융통화위원회 주재 사진 연합뉴스   한국은행 금융통화위원회 금통위 가...
section                                                     101
url           https://n.news.naver.com/mnews/article/660/000...
Name: 260, dtype: object

유사 기사:


Unnamed: 0,main,section,similarity
489,한국은행 금융통화위원회 이하 금통위 가 지난 월 과 월 에 이어 오늘 일 기준금리 ...,101,0.703187
302,한국은행 금융통화위원회 가 지난 월 과 월 에 이어 오늘 기준금리 를 다시 로 동결...,101,0.631542
454,앵커 이창용 한 은 총재 의 기자간담회 와 질의 응답 은 여기 까지 보겠습니다 오늘...,101,0.527416
425,한국은행 이 기준금리 를 연속 동결 했다 경제성장률 은 로 하향 했다 한 은 은 일...,101,0.484246
339,이창용 한국은행 총재 가 일 서울 중구 한국은행 에서 열린 금융통화위원회 에서 의사...,101,0.460878
362,경제 현장 오늘 이슈 체크 유혜미 한양대 금융 경제 학부 교수 한국은행 금융통화위원...,101,0.440935
354,이창용 한국은행 총재 가 일 서울 중구 한국은행 에서 열린 금융통화위원회 에서 의사...,101,0.437722
343,한국은행 이 일 기준금리 를 또다시 로 동결 했다 이 에 따라 한국 과 미국 과의 ...,101,0.428075
290,상보 \n\n\n\n 이창용 한국은행 총재 사진 가운데 가 일 오전 서울 중구 한국...,101,0.423591
322,이창용 총재 연내 인하 가능성 언급 주목 성장 률 전 망치 안팎 하향 유력 \n\n...,101,0.422057
