# 데이터 모두 불러와 합치기

In [4]:
from tqdm import tqdm
import pandas as pd
from glob import glob

In [5]:
files = sorted(glob('./data/*.csv'))
date_cols = ['date']
data_all = pd.DataFrame()
for file in tqdm(files):
    df_day = pd.read_csv(file, parse_dates=date_cols) # date 컬럼 datetime 형식으로 불러오기
    data_all = pd.concat([data_all, df_day])
data_all.reset_index(drop=True, inplace=True)

100%|████████████████████████████████████████████████████████████████████████████████| 730/730 [01:49<00:00,  6.69it/s]


In [6]:
data_all

Unnamed: 0,arcid,press,title,content,journalist,date,link,category,token
0,233343622,중앙일보,프로배구 2·3일 경기 연기.. 중계방송 스태프 코로나19 확진,한국배구연맹은 2~3일 주말에 열리는 프로배구 4경기를 연기한다고 1일 밝혔다. 중...,이해준 기자,2021-01-01,https://v.daum.net/v/20210101233343622,society,
1,233139613,세계일보,"""산에서 커피 팔고 싶어"" 조두순의 소박한 꿈 이뤄질까? 시민들 '불안'",아동 성범죄자 조두순(69·사진)씨가 지난달 출소 뒤 보름 만에 외부활동에 나섰던 ...,현화영 기자,2021-01-01,https://v.daum.net/v/20210101233139613,society,
2,233101608,서울신문,확진 1000명 목전 두고..秋 '구치소 집단감염' 첫 사과(종합),"[서울신문] 추미애, ‘구치소 집단감염’ 첫 사과“집단감염 송구…취약한 부분 드러나...",김채현 기자,2021-01-01,https://v.daum.net/v/20210101233101608,society,
3,231448533,국민일보,문건 유출? 미루기?.. 벌써 다 퍼진 '2.5단계 연장안',정부가 수도권 사회적 거리두기 조정안을 2일 발표하기로 한 상황에서 ‘지금의 단계를...,문지연 기자,2021-01-01,https://v.daum.net/v/20210101231448533,society,
4,231238518,뉴스1,'해변 폐쇄·드론 감시' 강릉 해맞이객 90% 줄어..그래도 1만6천명,(강릉=뉴스1) 이종재 기자 = 새해 첫날인 1일 강원 강릉지역을 찾은 해맞이객이 ...,이종재 기자,2021-01-01,https://v.daum.net/v/20210101231238518,society,
...,...,...,...,...,...,...,...,...,...
1411408,10122552,세계일보,"한국남동발전, 8년째 취약계층 평생학습 지원",한국남동발전은 본사가 있는 지역 야학시설인 경남 진주향토시민학교에 후원금을 전달했다...,강승우 기자,2022-12-31,https://v.daum.net/v/20221231010122552,society,
1411409,10117551,세계일보,"KIS제주, 하버드대 2년 연속 합격생 배출",제주영어교육도시 내 KIS제주(Korea International School Je...,임성준 기자,2022-12-31,https://v.daum.net/v/20221231010117551,society,
1411410,1003411,한국일보,늘어나는 방음터널... 번지면 대형 화재인데 방염 규정은 전무,46명의 사상자가 발생한 경기 과천시 갈현고가교 방음터널 화재로 방음터널 안전성이 ...,원다라 기자,2022-12-31,https://v.daum.net/v/20221231001003411,society,
1411411,423387,국민일보,[핫인픽] #배달할증료 #한파·폭설 출근길 #메시 지폐,"지난 한 주 동안 있었던 핫한 뉴스 TOP3를 소개하는 코너, ‘핫한 뉴스만 모았다...",문혜정 기자,2022-12-31,https://v.daum.net/v/20221231000423387,society,


In [9]:
data_all.iloc[1125112]

arcid                                                 101841849
press                                                       뉴스1
title                            19년 동안 2억2000만원 내 놓은 기부천사 황영희씨
content       (용인=뉴스1) 김평석 기자 = 2억원. 지난해 통계청에서 발표한 대한민국 1인당 ...
journalist                                               김평석 기자
date                                        2022-07-28 00:00:00
link                     https://v.daum.net/v/20220728101841849
category                                                society
token                                                       NaN
Name: 1125112, dtype: object

# 모델 학습, 저장

In [33]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pickle

In [11]:
tfidf_vec = TfidfVectorizer() # ngram_range=(1, 2)

In [12]:
%%time
# tfidf_dtm = tfidf_vec.fit_transform(data_all['token'])
tfidf_dtm = tfidf_vec.fit_transform(data_all['content'])

CPU times: total: 4min 37s
Wall time: 4min 52s


In [34]:
with open("./model/pickled_tfidf_vec.bin", "wb") as f:
    pickle.dump(tfidf_vec, f)

In [35]:
with open("./model/pickled_tfidf_dtm.bin", "wb") as f:
    pickle.dump(tfidf_dtm, f)

# 전체 데이터 유사도 추천

## 크롤링된 기사 제목으로 유사 기사 추천

In [36]:
with open("./model/pickled_tfidf_vec.bin", "rb") as f:
    tfidf_dtm = pickle.load(f)

In [38]:
with open("./model/pickled_tfidf_dtm.bin", "rb") as f:
    tfidf_dtm = pickle.load(f)

In [39]:
def get_recommend_by_title(title, n, drange=False):
    # 타이틀로 저장된 토큰 호출, 축적된 기사들과 유사도 연산
    token = data_all.loc[data_all['title'] == title]['content'].values[0]
    tfidf_content = tfidf_vec.transform([token])
    
    # 기간 설정
    if drange:
        data_filtered_idx = data_all[data_all['date'].isin(pd.date_range(drange[0], drange[1]))].index
        tfidf_dtm_filtered = tfidf_dtm[data_filtered_idx]
        cos_sim_res = cosine_similarity(tfidf_content, tfidf_dtm_filtered)
    else:
        cos_sim_res = cosine_similarity(tfidf_content, tfidf_dtm)
    
    
    # 유사도 정렬, 추출
    sim_scores = list(enumerate(cos_sim_res[0]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    sim_scores_n = sim_scores[1:n+1]
    # sim_scores_n = [sim for sim in sim_scores_n if sim[1] >= 0.6] # 유사도 60% 이상 필터=>옵션화 가능?###############
    
    # 해당하는 기사 가져오기
    article_idx = [article_dict[0] for article_dict in sim_scores_n]
    rst = data_all.iloc[article_idx][['press', 'title', 'date', 'link']]
    rst['similarity'] = [round(sim[1], 4)*100 for sim in sim_scores_n]
        
    return rst[['press', 'similarity', 'title', 'date', 'link']]

In [40]:
%%time
get_recommend_by_title("19년 동안 2억2000만원 내 놓은 기부천사 황영희씨", 10)

CPU times: total: 26.3 s
Wall time: 32.7 s


Unnamed: 0,press,similarity,title,date,link
1125386,뉴시스,78.21,19년 동안 불우이웃 돕기 2억2000만원 통큰 기부..용인 황영희씨 '귀감',2022-07-28,https://v.daum.net/v/20220728075049664
678475,국민일보,16.04,"""나 찍었냐"" 코빅 '징맨', 2명 때리고 폰 부숴 입건",2021-11-30,https://v.daum.net/v/20211130194457049
228598,연합뉴스,14.28,파출부·목욕탕 등으로 어렵게 모은 4억원 쾌척한 80대 할머니,2021-04-20,https://v.daum.net/v/20210420151007291
10919,서울신문,14.03,"'마약 투약' 황하나 내일 구속 심사..""재범 처벌"" 국민청원도",2021-01-06,https://v.daum.net/v/20210106101601214
229000,한국일보,13.87,"군산 노판순 할머니, 파출부·목욕탕 운영으로 모은 1억 기부",2021-04-20,https://v.daum.net/v/20210420134307774
227720,한겨레,13.77,"""고생해봐서 어려운 이웃들 보면 마음 아파요""",2021-04-20,https://v.daum.net/v/20210420202610480
13294,뉴시스,13.58,"황하나, 마약 혐의 1시간 구속심사..""아니요"" 한마디(종합)",2021-01-07,https://v.daum.net/v/20210107114758465
614316,뉴시스,13.34,"'마약' 황하나 2심 실형 구형..""제정신 아녔다"" 눈물",2021-10-28,https://v.daum.net/v/20211028122101974
679553,중앙일보,13.32,"""지금 나 찍었냐"" 때리고 폰 파손..'징맨' 황철순 또 폭행혐의",2021-11-30,https://v.daum.net/v/20211130143145041
607645,연합뉴스,13.23,"용인시 기부천사 황규열씨, 팔순에 아너 소사이어티 가입",2021-10-26,https://v.daum.net/v/20211026173905399


In [41]:
%%time
get_recommend_by_title('19년 동안 2억2000만원 내 놓은 기부천사 황영희씨', 10, drange=['2021-01-01', '2021-12-31'])

CPU times: total: 12.8 s
Wall time: 19.5 s


Unnamed: 0,press,similarity,title,date,link
228598,연합뉴스,14.28,파출부·목욕탕 등으로 어렵게 모은 4억원 쾌척한 80대 할머니,2021-04-20,https://v.daum.net/v/20210420151007291
10919,서울신문,14.03,"'마약 투약' 황하나 내일 구속 심사..""재범 처벌"" 국민청원도",2021-01-06,https://v.daum.net/v/20210106101601214
229000,한국일보,13.87,"군산 노판순 할머니, 파출부·목욕탕 운영으로 모은 1억 기부",2021-04-20,https://v.daum.net/v/20210420134307774
227720,한겨레,13.77,"""고생해봐서 어려운 이웃들 보면 마음 아파요""",2021-04-20,https://v.daum.net/v/20210420202610480
13294,뉴시스,13.58,"황하나, 마약 혐의 1시간 구속심사..""아니요"" 한마디(종합)",2021-01-07,https://v.daum.net/v/20210107114758465
614316,뉴시스,13.34,"'마약' 황하나 2심 실형 구형..""제정신 아녔다"" 눈물",2021-10-28,https://v.daum.net/v/20211028122101974
679553,중앙일보,13.32,"""지금 나 찍었냐"" 때리고 폰 파손..'징맨' 황철순 또 폭행혐의",2021-11-30,https://v.daum.net/v/20211130143145041
607645,연합뉴스,13.23,"용인시 기부천사 황규열씨, 팔순에 아너 소사이어티 가입",2021-10-26,https://v.daum.net/v/20211026173905399
649863,뉴스1,13.22,'집유기간 중 또 마약' 황하나 오늘 항소심 선고..1심 징역 2년,2021-11-15,https://v.daum.net/v/20211115060035842
683847,조선일보,12.99,"말려도 소용 없네..황철순, 폭행 당시 영상 보니",2021-12-01,https://v.daum.net/v/20211201060108385


* TODO
    1. ~다음 뉴스 주소로 검색~
    2. ~기사 본문 넣어서 검색~
    3. DB연동
    4. flask 서버 연동

In [None]:
# 쿼리가 다음 뉴스 주소일 경우
if query.startswith('https://news.daum.net/breakingnews/'):
    pass
elif query:
    pass
else:
    pass

## 다음 url로 유사 기사 추천

In [56]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

In [64]:
stop_content = ["무단전재", "재배포금지","저작권자 ⓒ 서울신문사","무단복제 및 전재","무단 전재 및 재배포","제보는 카톡", "☞", "무단 전재-재배포", "▶연합뉴스 앱 지금 바로 다운받기~"]
rep_list = ['기사내용 요약']

In [65]:
def create_soup(url):
    i = 0
    ## 요청 오류시 10번  재시도
    while i < 10 :
        try:
            res = requests.get(url)
            res.raise_for_status()
            soup = BeautifulSoup(res.content, 'html.parser', from_encoding='cp949')
            break
        except:
            i += 1
            
    return soup

In [7]:
def content_only_scraper(link):
    article_soup = create_soup(link)

    # 본문 정리
    article = article_soup.find_all('section')[1]
    content = article.find_all(True, attrs={'dmcf-ptype':'general'})
    rst = []
    for para in content:
        for tmp in para.text.split('\n'):
            if tmp.strip() != '':
                rst.append(tmp.strip())
    content = []
    for c in rst:
        for i in stop_content:
            if i in c:
                break
        else:
            for rep in rep_list:
                c = c.replace(rep, '')
            content.append(c)
    content = ' '.join(content)
    if len(content) < 200:
        return False
    
    return content

In [68]:
def get_recommend_by_url(url, n, drange=False):
    # 다음 뉴스인지 확인
    if not url.startswith('https://v.daum.net/v/'):
        return False
    # 본문 스크랩
    content = content_only_scraper(url)

    #### 형태소 분석코드 ####
    token = content
    
    tfidf_content = tfidf_vec.transform([token])
    
    # 기간 설정
    if drange:
        data_filtered_idx = data_all[data_all['date'].isin(pd.date_range(drange[0], drange[1]))].index
        tfidf_dtm_filtered = tfidf_dtm[data_filtered_idx]
        cos_sim_res = cosine_similarity(tfidf_content, tfidf_dtm_filtered)
    else:
        cos_sim_res = cosine_similarity(tfidf_content, tfidf_dtm)
    
    
    # 유사도 정렬, 추출
    sim_scores = list(enumerate(cos_sim_res[0]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    sim_scores_n = sim_scores[1:n+1]
    # sim_scores_n = [sim for sim in sim_scores_n if sim[1] >= 0.6] # 유사도 60% 이상 필터=>옵션화 가능?###############
    
    # 해당하는 기사 가져오기
    article_idx = [article_dict[0] for article_dict in sim_scores_n]
    rst = data_all.iloc[article_idx][['press', 'title', 'date', 'link']]
    rst['similarity'] = [round(sim[1], 4)*100 for sim in sim_scores_n]
        
    return rst[['press', 'similarity', 'title', 'date', 'link']]

In [69]:
url = """https://v.daum.net/v/20230206162031399"""
get_recommend_by_url(url, 10)

Unnamed: 0,press,similarity,title,date,link
1357681,뉴시스,25.17,"'자녀 입시비리' 조국 전 장관, 1심 결심공판 출석 [뉴시스Pic]",2022-12-02,https://v.daum.net/v/20221202141500738
1357622,뉴시스,24.85,"검찰, 조국 '자녀 입시비리·감찰무마 혐의' 징역 5년 구형",2022-12-02,https://v.daum.net/v/20221202143703564
1346082,뉴시스,24.24,"조국 입시비리 등 의혹, 이번주 결심…이르면 올해 1심 결론",2022-11-27,https://v.daum.net/v/20221127095726043
340379,뉴시스,22.13,"조국·정경심, 나란히 법정 선다..'자녀 입시비리' 혐의",2021-06-11,https://v.daum.net/v/20210611050019369
327314,뉴시스,21.57,"조국·정경심, 나란히 법정 선다..6개월만에 재판 재개",2021-06-06,https://v.daum.net/v/20210606050052336
1357621,국민일보,21.16,"檢, ‘자녀 입시비리·감찰무마’ 조국에 징역 5년 구형",2022-12-02,https://v.daum.net/v/20221202143705568
462938,연합뉴스,21.06,"[08월 11일 15시 02] 정경심 2심도 징역 4년..""입시제도 공정성 훼손""",2021-08-11,https://v.daum.net/v/20210811145405794
463723,연합뉴스,20.88,"[2보] 정경심 2심도 징역 4년..""입시비리 전부 유죄""",2021-08-11,https://v.daum.net/v/20210811112452255
463639,서울신문,20.48,"정경심, 2심도 징역 4년..""자녀 입시비리 모두 유죄""",2021-08-11,https://v.daum.net/v/20210811114114049
327183,국민일보,20.42,조국·정경심 나란히 법정 선다..6개월 만에 재판 재개,2021-06-06,https://v.daum.net/v/20210606085500027


## 직접 입력한 본문(문자열)로 유사 기사 추천

In [70]:
def get_recommend_by_content(content, n, drange=False):
    #### 형태소 분석코드 ####
    token = content
    
    tfidf_content = tfidf_vec.transform([token])
    
    # 기간 설정
    if drange:
        data_filtered_idx = data_all[data_all['date'].isin(pd.date_range(drange[0], drange[1]))].index
        tfidf_dtm_filtered = tfidf_dtm[data_filtered_idx]
        cos_sim_res = cosine_similarity(tfidf_content, tfidf_dtm_filtered)
    else:
        cos_sim_res = cosine_similarity(tfidf_content, tfidf_dtm)
    
    
    # 유사도 정렬, 추출
    sim_scores = list(enumerate(cos_sim_res[0]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    sim_scores_n = sim_scores[1:n+1]
    # sim_scores_n = [sim for sim in sim_scores_n if sim[1] >= 0.6] # 유사도 60% 이상 필터=>옵션화 가능?###############
    
    # 해당하는 기사 가져오기
    article_idx = [article_dict[0] for article_dict in sim_scores_n]
    rst = data_all.iloc[article_idx][['press', 'title', 'date', 'link']]
    rst['similarity'] = [round(sim[1], 4)*100 for sim in sim_scores_n]
        
    return rst[['press', 'similarity', 'title', 'date', 'link']]

In [71]:
arc_content = """2011년 한국을 떠나 러시아로 귀화한 전 쇼트트랙 선수 빅토르 안(38·한국명 안현수)의 국내 복귀 시도가 일단 무산됐다. 경기도 성남시청 직장운동부 빙상팀 코치에 지원했으나, 최종 후보에 들지 못해서다.

성남시는 29일 “시청 빙상팀 코치직 채용 전형에 빅토르 안을 포함해 7명이 지원했는데, 빅토르 안은 상위 2배수 후보에 들지 않았다”고 밝혔다. 시 관계자는 “서류와 면접 심사를 통해 기술, 소통 능력 등 여러 요소를 종합해 판단했다”며 “빙상계 여론과 언론 보도 등을 통해 나오는 시각도 평가에 반영됐다”고 했다.

성남시는 지난해 12월 19일 빙상팀 코치를 뽑기 위한 채용 공고를 냈다. 빅토르 안과 베이징 동계올림픽에서 중국 대표팀을 이끈 김선태 전 감독 등 7명이 지원했다. 김 전 감독도 최종 후보에 들지 못한 것으로 전해졌다.

빅토르 안은 2006년 토리노 동계올림픽에서 3개의 금메달을 딴 한국 쇼트트랙의 간판이었다. 2011년 소속팀이었던 성남시청이 빙상팀을 해체하자 선수 생활을 이어가기 위해 러시아로 귀화했다. 2014년 소치 동계올림픽에는 러시아 선수로 나서 3관왕에 올랐다. 2018년 평창 동계올림픽 출전이 무산된 이후에는 은퇴를 선언하고 지도자로 변신했다. 2022년 베이징 동계올림픽에서는 중국 대표팀 코치로 활동했다.

성남시는 31일 빙상팀 코치 선발 결과를 발표할 예정이다."""
get_recommend_by_content(arc_content, 10)

Unnamed: 0,press,similarity,title,date,link
812691,뉴스1,34.76,"""선배 대우 원하냐""..안현수, 韓대표팀 쓰담쓰담 격려에 '뭇매'[영상]",2022-02-08,https://v.daum.net/v/20220208100049059
150711,조선일보,32.18,"연금 챙긴 빅토르 안, 빈손 임효준.. 같은 귀화인데, 무슨 차이?",2021-03-14,https://v.daum.net/v/20210314104031586
837129,뉴스1,27.26,"안현수 ""중국팀 맡아 영광이었다""..""입국 금지"" 누리꾼 부글부글",2022-02-21,https://v.daum.net/v/20220221114748785
850068,세계일보,25.61,"""'러시아 귀화' 빅토르 안, 軍에 차출?""..사실과 달라",2022-02-28,https://v.daum.net/v/20220228143522260
814217,동아일보,25.29,"원희룡 ""안현수 귀화, 이재명 탓""..李측 ""거짓말 매일 진화""",2022-02-09,https://v.daum.net/v/20220209143615361
877433,세계일보,22.91,"안현수, 아내 쇼핑몰 '대만' 표기 논란에 사과..""하나의 중국 지지""",2022-03-15,https://v.daum.net/v/20220315090138474
877420,뉴스1,22.09,"빅토르 안, 아내 쇼핑몰 '대만' 표기에 식겁..""中 친구들에 사과""",2022-03-15,https://v.daum.net/v/20220315091034800
1337775,한겨레,21.37,빅토르 최 탄생 60돌 24일 토크콘서트,2022-11-23,https://v.daum.net/v/20221123194504622
813715,뉴스1,19.93,"'안현수♥' 우나리, 악플에도 쇼핑몰 이벤트 강행 ""찾아줘 감사""",2022-02-09,https://v.daum.net/v/20220209161558472
876784,뉴시스,19.89,"빅토르 안 ""하나의 중국 지지""..아내 쇼핑몰 '대만' 표기 사과",2022-03-15,https://v.daum.net/v/20220315114145271


In [72]:
arc_content = """빅토르 안 국내 복귀 시도"""
get_recommend_by_content(arc_content, 10)

Unnamed: 0,press,similarity,title,date,link
837129,뉴스1,35.84,"안현수 ""중국팀 맡아 영광이었다""..""입국 금지"" 누리꾼 부글부글",2022-02-21,https://v.daum.net/v/20220221114748785
1337775,한겨레,35.13,빅토르 최 탄생 60돌 24일 토크콘서트,2022-11-23,https://v.daum.net/v/20221123194504622
812691,뉴스1,33.21,"""선배 대우 원하냐""..안현수, 韓대표팀 쓰담쓰담 격려에 '뭇매'[영상]",2022-02-08,https://v.daum.net/v/20220208100049059
150711,조선일보,31.53,"연금 챙긴 빅토르 안, 빈손 임효준.. 같은 귀화인데, 무슨 차이?",2021-03-14,https://v.daum.net/v/20210314104031586
877420,뉴스1,24.69,"빅토르 안, 아내 쇼핑몰 '대만' 표기에 식겁..""中 친구들에 사과""",2022-03-15,https://v.daum.net/v/20220315091034800
850068,세계일보,22.02,"""'러시아 귀화' 빅토르 안, 軍에 차출?""..사실과 달라",2022-02-28,https://v.daum.net/v/20220228143522260
1375132,서울신문,19.83,"유턴기업 수도권에 뺏길라… 지자체, 지원 확대·맞춤산단까지 유치전",2022-12-12,https://v.daum.net/v/20221212050216041
813715,뉴스1,19.69,"'안현수♥' 우나리, 악플에도 쇼핑몰 이벤트 강행 ""찾아줘 감사""",2022-02-09,https://v.daum.net/v/20220209161558472
877433,세계일보,19.49,"안현수, 아내 쇼핑몰 '대만' 표기 논란에 사과..""하나의 중국 지지""",2022-03-15,https://v.daum.net/v/20220315090138474
210135,세계일보,18.04,"박원순 피해자, 오세훈과 면담..피해자 측 ""업무 복귀 등 논의""",2021-04-12,https://v.daum.net/v/20210412180141539
