In [86]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import random
import os

import re
from pandas.io import json
import requests
import datetime
from datetime import datetime
from bs4 import BeautifulSoup
import bs4.element
from tqdm.notebook import tqdm
from konlpy.tag import Komoran

from sklearn.manifold import TSNE
from gensim.test.utils import common_texts
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from gensim.models.word2vec import Word2Vec
from sklearn.metrics.pairwise import cosine_similarity
from konlpy.tag import Okt
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')


# 함수화

In [123]:
def get_preprocessing_data(data) : 
    data['title_contents'] = data['title'] + " " + data['contents']
    data.drop(['date','image_url','title', 'contents'], axis = 1, inplace = True)
    # 결측치 처리 
    data = data.fillna(" ")
    
    return data 

def make_doc2vec_data(data, column, t_document=False):
    data_doc = []
    for tag, doc in zip(data.index, data[column]):
        doc = doc.split(" ")
        data_doc.append(([tag], doc))
    if t_document:
        data = [TaggedDocument(words=text, tags=tag) for tag, text in data_doc]
        return data
    else:
        return data_doc
    
def make_doc2vec_models(tagged_data, tok, vector_size=128, window = 3, epochs = 40, min_count = 0, workers = 4):
    model = Doc2Vec(tagged_data, vector_size=vector_size, window=window, epochs=epochs, min_count=min_count, workers=workers)
    model.save(f'./{tok}_news_model.doc2vec')

'''    
def make_word2vec_models() :
    model = Word2Vec(tokenized_data,  # 리스트 형태의 데이터
                 sg=1,                # 0: CBOW, 1: Skip-gram
                 vector_size=100,     # 벡터 크기
                 window=3,     # 고려할 앞뒤 폭(앞뒤 3단어)
                 min_count=3,  # 사용할 단어의 최소 빈도(3회 이하 단어 무시)
                 workers=4)    # 동시에 처리할 작업 수(코어 수와 비슷하게 설정)
'''   
    
def make_user_embedding(index_list, data_doc, model):
    model.dv = model.__dict__['docvecs']
    user = []
    user_embedding = []
    for i in index_list: 
        user.append(data_doc[i][0][0])
    for i in user:
        user_embedding.append(model.dv[i])
    user_embedding = np.array(user_embedding)
    user = np.mean(user_embedding, axis = 0)
    return user

def get_recommened_contents(user, data_doc, model):
    scores = []

    for tags, text in data_doc:
        trained_doc_vec = model.docvecs[tags[0]]
        scores.append(cosine_similarity(user.reshape(-1, 128), trained_doc_vec.reshape(-1, 128)))

    scores = np.array(scores).reshape(-1)
    scores = np.argsort(-scores)[:100]
    
    return input_data.iloc[scores, :]

def view_user_history(data):
    return data[['title_contents', 'category']]

# Crawling 

In [88]:
date = str(datetime.now())
date = date[:date.rfind(':')].replace(' ', '_')
date = date.replace(':','시') + '분'
today = str(datetime.now().strftime('%Y%m%d'))
print(today)

def get_soup_obj(url):
    headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36" }
    res = requests.get(url, headers = headers)
    soup = BeautifulSoup(res.text,'lxml')
    
    return soup

def get_news_contents(url):
    soup = get_soup_obj(url)
    body = soup.find('div', class_="_article_body_contents")

    news_contents = ''
    for content in body:
        if type(content) is bs4.element.NavigableString and len(content) > 50:
            news_contents += content.strip() + ' '

    return news_contents

def get_news_info(url, s) : 
    default_img = "https://search.naver.com/search.naver?where=image&sm=tab_jum&query=naver#"
    current_page = 1     
    news_info_list = []

    for i in range (10) : 
        sec_url = url + s + "&date=" + today + "&page=" + str(current_page)
        soup = get_soup_obj(sec_url)
        lis = soup.find('ul', class_='type06_headline').find_all("li", limit=15)

        for li in lis : 
            try :
                imsigisa = li.a.attrs.get('href')
                if imsigisa!="":
                    soup2 = get_soup_obj(imsigisa)
                    lis2 = soup2.find('span', class_='end_photo_org').find_all("img", limit=15)
                    imsiurl = ""
                    for li2 in lis2 :
                        imsiurl = li2.attrs.get('src')
                else:
                    imsiurl = li.img.attrs.get('src') if li.img else default_img
            except Exception as e:
                imsiurl = li.img.attrs.get('src') if li.img else default_img

            news_info = {
            "title" : li.img.attrs.get('alt') if li.img else li.a.text.replace("\n", "").replace("\t","").replace("\r","") , 
            "date" : li.find(class_="date").text,
            "news_url" : li.a.attrs.get('href'),
            "image_url" :  imsiurl,
            "category" : s }

            try :
                news_contents = get_news_contents(news_info['news_url'])
                news_info['contents'] = news_contents
                news_info_list.append(news_info)
            except Exception as e : 
                continue
        
        current_page += 1 
    
    print(s + " 분야 크롤링 완료")    
    return news_info_list

sid = ['100', '101', '102', '103', '104', '105']
default_url = "https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1="
df = pd.DataFrame()

for s in sid : 
    news = get_news_info(default_url, s)
    df = df.append(news)

20211124
100 분야 크롤링 완료
101 분야 크롤링 완료
102 분야 크롤링 완료
103 분야 크롤링 완료
104 분야 크롤링 완료
105 분야 크롤링 완료


# model and EDA 

In [89]:
input_data = get_preprocessing_data(df)

data_doc_contents = make_doc2vec_data(input_data, 'title_contents')
data_doc_contents_tag = make_doc2vec_data(input_data, 'title_contents', t_document=True)

make_doc2vec_models(data_doc_contents_tag, tok=False)

model_contents = Doc2Vec.load('./False_news_model.doc2vec')

print(input_data['category'].value_counts())



104    100
103    100
101    100
100    100
105    100
102    100
Name: category, dtype: int64


In [99]:
input_data.loc[input_data['category']=='100'].sample(n=10)

Unnamed: 0,news_url,category,title_contents
5,https://news.naver.com/main/read.naver?mode=LS...,100,"원희룡, 선대위 정책본부장 맡는다…윤석열 요청 [데일리안 = 정도원 기자] 국민의힘..."
98,https://news.naver.com/main/read.naver?mode=LS...,100,"이재명 “디지털 대전환에 135조 투자, 일자리 200만개 창출” 이재명 더불어민주..."
26,https://news.naver.com/main/read.naver?mode=LS...,100,"與 ""종부세 폭탄? 상위 2% 정밀폭격""…野 ""갈라치기냐"" [데일리안 = 정계성 기..."
9,https://news.naver.com/main/read.naver?mode=LS...,100,대법원 유죄에도 진압 정당성 주장… 5·18단체 “죽기전 사죄했어야” 전두환 전 대...
62,https://news.naver.com/main/read.naver?mode=LS...,100,"""윤석열 곁 떠난다"" 선언한 장제원 ""한 번도 자리 탐한 적 없어"" 윤석열 국민의힘..."
0,https://news.naver.com/main/read.naver?mode=LS...,100,"이재명, 오늘 중소기업 정책 발표...민생·개혁 입법 간담회 이 후보는 오후 2시..."
21,https://news.naver.com/main/read.naver?mode=LS...,100,"이재명, 민주당 상임위원장-간사단 간담회…중소기업 정책 발표 더불어민주당 이재명 대..."
7,https://news.naver.com/main/read.naver?mode=LS...,100,‘5월 아픔’ 외면한 채… 전두환(全斗煥·90) 전 대통령이 23일 별세했다. 지난...
56,https://news.naver.com/main/read.naver?mode=LS...,100,전두환 1931~2021 제11대(1980~81)·12대(1981~88) 대통령을 ...
24,https://news.naver.com/main/read.naver?mode=LS...,100,"윤석열 “박원순 시장 시절 서울시, 친여 시민단체들 금고” [데일리안 = 김희정 기..."


# recommand

In [125]:
id = "9834min"
response = requests.get("https://hciuxteam3-default-rtdb.firebaseio.com/Users/" + id + "/UserHistory.json")
json_data = response.json()

user_category = pd.DataFrame.from_dict(json_data, orient='index')
user_category = user_category.transpose()
#print(user_category)

key_list = user_category.columns
value_list = user_category.iloc[:1,:]
user_history = pd.DataFrame()
temp_df = pd.DataFrame()

for li in key_list : 
    num = user_category[li].iloc[0]
    temp_df = input_data.loc[input_data['category']==li].sample(n=10*num,  random_state=1004)
    user_history = user_history.append(temp_df, ignore_index=True)

user = make_user_embedding(user_history.index.values.tolist(), data_doc_contents, model_contents)
result = get_recommened_contents(user, data_doc_contents, model_contents)
pd.DataFrame(result.loc[:, ['category', 'title_contents']])

   100  101  102  103  104  105
0    3    2    4    2    2    3


Unnamed: 0,category,title_contents
60,100,[전두환과 강원도]최규하 하야시키고 박영록 부정축재자로 몰아 전두환 전 대통령과 강...
60,103,[오늘의 날씨] 11월 24일
60,104,세계보건기구 “중·저소득국에 코로나 항체 검사 기술 특허료 없이 제공” 세계보건기구...
60,105,"인도, 모든 암호화폐 금지하는 법안 상정 예정(상보) (서울=뉴스1) 박병진 기자 ..."
60,101,[Data & Now] 경단녀 43% “육아 때문에 퇴직” 올해 상반기 미취업 기혼...
...,...,...
75,101,한국GM ‘대형 수입차’ 승부수…타호·GMC시에라 국내 출시 한국GM이 대형차 승부...
70,105,"인도, 모든 암호화폐 금지하는 법안 상정 예정(상보) (서울=뉴스1) 박병진 기자 ..."
70,102,마트·길거리·학교·집까지…일상 파고든 몰카 범죄 디지털 성범죄인 ‘불법촬영'이 장소...
70,104,세계보건기구 “중·저소득국에 코로나 항체 검사 기술 특허료 없이 제공” 세계보건기구...


In [129]:
#result['category'].value_counts()

102    17
105    17
104    17
103    17
100    16
101    16
Name: category, dtype: int64