In [None]:
# DB 연결

from pymongo.mongo_client import MongoClient
from dotenv import load_dotenv
import os

load_dotenv()

password = os.environ.get("db_password")

uri = "mongodb+srv://dyun:"+password+"@happynews.9ffr0e6.mongodb.net/?retryWrites=true&w=majority&appName=AtlasApp"

# Create a new client and connect to the server
client = MongoClient(uri)

db = client.happynews


In [30]:
# 감성분석 모델 호출
import tensorflow as tf
from transformers import BertTokenizer, TFBertForSequenceClassification, PreTrainedTokenizerFast, TFBartForConditionalGeneration
import tensorflow_addons as tfa
from tqdm import tqdm
import numpy as np

MODEL_NAME = "klue/bert-base"
tokenizer = BertTokenizer.from_pretrained(MODEL_NAME)
summary_tokenizer = PreTrainedTokenizerFast.from_pretrained("ainize/kobart-news")
summary_model = TFBartForConditionalGeneration.from_pretrained("ainize/kobart-news", from_pt=True)
MAX_SEQ_LEN = 256

BEST_MODEL_NAME = './model/contents_best.h5'

# 최고 성능의 모델 불러오기
sentiment_model_best = tf.keras.models.load_model(BEST_MODEL_NAME,
                                                  custom_objects={'TFBertForSequenceClassification': TFBertForSequenceClassification})

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
Some weights of the PyTorch model were not used when initializing the TF 2.0 model TFBartForConditionalGeneration: ['model.decoder.embed_tokens.weight', 'model.encoder.embed_tokens.weight', 'lm_head.weight']
- This IS expected if you are initializing TFBartForConditionalGeneration from a PyTorch model trained on another task or with another architecture (e.g. initializing a TFBertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFBartForConditionalGeneration from a PyTorch model that you expect to be exactly identical (e.g. initializing a TFBertForSequenceClassification model from a BertForSequenceClassification model).
All the weights of TFBartForConditionalGeneration were initialized from the PyTorch model.
If your task is similar to the task the model of the checkpoint w

In [31]:
# 입력 변경

def convert_data_one_x(X_data):
    # BERT 입력으로 들어가는 token, mask, segment, target 저장용 리스트
    tokens, masks, segments = [], [], []
    
    # token: 입력 문장 토큰화
    token = tokenizer.encode(X_data, truncation = True, padding = 'max_length', max_length = MAX_SEQ_LEN)
    
    # Mask: 토큰화한 문장 내 패딩이 아닌 경우 1, 패딩인 경우 0으로 초기화
    num_zeros = token.count(0)
    mask = [1] * (MAX_SEQ_LEN - num_zeros) + [0] * num_zeros
    
    # segment: 문장 전후관계 구분: 오직 한 문장이므로 모두 0으로 초기화
    segment = [0]*MAX_SEQ_LEN

    tokens.append(token)
    masks.append(mask)
    segments.append(segment)

    # numpy array로 저장
    tokens = np.array(tokens)
    masks = np.array(masks)
    segments = np.array(segments)

    return [tokens, masks, segments]

In [32]:
def nlp_summary(content):
    input_ids = summary_tokenizer.encode(content)
    input_ids = [summary_tokenizer.bos_token_id] + input_ids + [summary_tokenizer.eos_token_id]
    input_ids = tf.convert_to_tensor([input_ids])
    summary_ids = summary_model.generate(
        input_ids = input_ids,
        bos_token_id = summary_model.config.bos_token_id,
        eos_token_id = summary_model.config.eos_token_id,
        length_penalty=1.0,
        max_length = 128,
        min_length = 32,
        num_beams=4,
    )
    
    return summary_tokenizer.decode(summary_ids[0], skip_special_tokens=True)

In [33]:
import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
from datetime import datetime

title_list = []
summary_list = []
link_list = []
prob_list = []
time_list = []

code = 102
date = 20230830
page = 1
cnt = 0

while (cnt <= 100):
    url = 'https://news.naver.com/main/list.naver?mode=LSD&mid=shm&listType=summary&sid1='+str(code)+'&date='+str(date)+'&page='+str(page)
    headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.90 Safari/537.36'}
    news = requests.get(url, headers=headers)
    soup = BeautifulSoup(news.content, 'html.parser')

    news_list = soup.select('.newsflash_body .type06_headline')
    news_list.extend(soup.select('.newsflash_body .type06'))

    for cur_news in news_list:
        lis = cur_news.findAll('li')
        for li in lis:
            try:
                news_title_info = li.findAll("dt")[1]
            except:
                news_title_info = li.findAll("dt")[0]
            summary = li.find('dd').text.replace("\n", "").replace("\t","")
            # pattern = r'\.\.\.([가-힣0-9]+)일전'
            # summary  = re.sub(pattern,'',summary)
            news_title = news_title_info.text.replace("\n", "").replace("\t","")
            pred = sentiment_model_best.predict(convert_data_one_x(summary))
        
            label = np.argmax(pred, axis = 1)
            if (pred[0][1]) >= 0.6375:
                cnt+=1
                link = news_title_info.a.get('href')
                soup2 = BeautifulSoup(requests.get(link, headers=headers).content, 'html.parser')
                time = soup2.select_one(".media_end_head_info_datestamp").select_one(".media_end_head_info_datestamp_time").get("data-date-time")
                # datetime.strptime(time, "%Y-%m-%d")
                content = soup2.select_one("#newsct_article").text.replace("\n","").replace("\t","")
                content_summary = nlp_summary(content)
                print(content_summary)
                title_list.append(news_title)
                summary_list.append(content_summary)
                # print(news_title, pred[0][1])
                link_list.append(link)
                prob_list.append(pred[0][1])
    page+=1
    if page > 400:
        break
# print(title_list)

happy_news_df = pd.DataFrame()

happy_news_df['title'] = title_list
happy_news_df['link'] = link_list
happy_news_df['summary'] = summary_list
happy_news_df['prob'] = prob_list
happy_news_df['time'] = time
happy_news_df.reset_index(inplce=True)
happy_news_df.rename(columns={'Unnamed: 0':'id'}, inplace=True)

happy_news_df.to_csv("temp.csv", index=False, encoding='utf-8-sig')

현재원지방변호사회는 30일 교권 침해 대응에 강원도교육청과 업무협약을 맺고 소속 변호사가 경찰 조사에 동행하고, 법률 상담 등을 지원하기로 했으며 30일 강원지방변호사회는 강원도교육청과 업무협약을 맺고 교권 침해가 발생하면 변호사가 경찰 조사에 동행하고, 법률 상담 등을 지원하기로 했다.
김시가 국내 수산물 안전성 홍보와 울산지역 수산물 소비 촉진에 나섰으며김두겸 울산시장과 울산시청 공무원 등 2백 여명은 울산농수산물도매시장에서 우리 수산물 이용 홍보 행사를 가졌으며 수산물 판매 촉진을 위해 참가자들은 수산물을 이용한 점심식사를 하며 도매 시장 상인들의 의견도 들었습니다.
지난장 추진위원회를 결성하고 장애인체육회 설립을 추진한 부산 기장군장애인체육회가 지난 29일 기장읍행정복지센터에서 임원 16명이 참석한 가운데 인준패 전달식을 갖고 공식 활동에 들어갔다고 30일 기장군이 밝혔다.
‘동해 거점도시 문화·관광 박람회’를 정기적으로 개최해 회원 도시별 특색있는 문화·관광 자원과 비전 공유, 공동 관광 상품 개발을 통해 회원 도시 간 교류를 지속하며 환동해권  MICE 산업 성장을 위해 국제전시컨벤션센터 건립을 추진 중이며, 이를 통한 환동해권 문화관광 교류의 플랫폼 기능으로 도시 간 교류를 더욱 촉진할 것으로 기대하며포항시는 30일 중국 길림성 연길시에서 개최한 ‘제27회 환동해 거점도시 회의’에 참가했다.
경기안양시는 30일 유니세프 한국위원회와 아동친화도시 조성을 위한 업무협약을 맺고 위원회와 협력 체계를 구축해 아동친화도시 조성을 위한 10대 원칙을 목표로 2024년 12월 인증을 목표로 추진한다.
30종훈 교육감은 30일 경남교육청 학생안전체험원에서 학부모 30여명과 안전시설을 경험하고 ‘존중과 협력으로 안전한 학교 만들기’라는 주제에 대해 의견을 나누는 시간을 가졌다.
경남완수 경남도지사가 30일 오후 밀양공공산후조리원을 방문해, 산모들이 인근 도시로 이동해 산후조리를 하는 불편을 해소하고 안심하고 편안한 환경에서 조리에 전념하는 동시에 출산에 따른 경제

InvalidArgumentError: Exception encountered when calling layer 'embed_positions' (type TFBartLearnedPositionalEmbedding).

{{function_node __wrapped__ResourceGather_device_/job:localhost/replica:0/task:0/device:CPU:0}} indices[1053] = 1055 is not in [0, 1028) [Op:ResourceGather] name: 

Call arguments received by layer 'embed_positions' (type TFBartLearnedPositionalEmbedding):
  • input_shape=['tf.Tensor(shape=(), dtype=int32)', 'tf.Tensor(shape=(), dtype=int32)']
  • past_key_values_length=0
  • position_ids=None

In [45]:
happy_news_df.head()

Unnamed: 0,title,link,summary,prob,time
0,"강원지방변호사회, 교권 침해 대응 법률 지원",https://n.news.naver.com/mnews/article/056/001...,현재원지방변호사회는 30일 교권 침해 대응에 강원도교육청과 업무협약을 맺고 소속 변...,0.637543,2023-08-30
1,"울산시, 수산물 소비 촉진 캠페인 나서",https://n.news.naver.com/mnews/article/056/001...,김시가 국내 수산물 안전성 홍보와 울산지역 수산물 소비 촉진에 나섰으며김두겸 울산시...,0.637685,2023-08-30
2,"기장군장애인체육회, 인준패 받고 공식 활동 개시",https://n.news.naver.com/mnews/article/016/000...,지난장 추진위원회를 결성하고 장애인체육회 설립을 추진한 부산 기장군장애인체육회가 지...,0.638208,2023-08-30
3,포항시-4개국 회원 도시 … 환동해 거점도시 교류·협력 강화,https://n.news.naver.com/mnews/article/277/000...,‘동해 거점도시 문화·관광 박람회’를 정기적으로 개최해 회원 도시별 특색있는 문화·...,0.63765,2023-08-30
4,"안양시, '유니세프 아동친화도시' 2024년 인증 추진",https://n.news.naver.com/mnews/article/119/000...,경기안양시는 30일 유니세프 한국위원회와 아동친화도시 조성을 위한 업무협약을 맺고 ...,0.637996,2023-08-30


In [None]:
code_list = [100,101,102,103,104,105]
result = pd.DataFrame()
for code in code_list:
    data = make_urllist(code, 20230601)
    result = pd.concat([result,data])


In [None]:
result

Unnamed: 0,news
0,모두에게 보여주고 싶은 기사라면?beta 이 기사를 추천합니다 버튼을 눌러주세요.\...
1,모두에게 보여주고 싶은 기사라면?beta 이 기사를 추천합니다 버튼을 눌러주세요.\...
2,모두에게 보여주고 싶은 기사라면?beta 이 기사를 추천합니다 버튼을 눌러주세요.\...
3,모두에게 보여주고 싶은 기사라면?beta 이 기사를 추천합니다 버튼을 눌러주세요.\...
4,모두에게 보여주고 싶은 기사라면?beta 이 기사를 추천합니다 버튼을 눌러주세요.\...
...,...
195,모두에게 보여주고 싶은 기사라면?beta 이 기사를 추천합니다 버튼을 눌러주세요.\...
196,모두에게 보여주고 싶은 기사라면?beta 이 기사를 추천합니다 버튼을 눌러주세요.\...
197,모두에게 보여주고 싶은 기사라면?beta 이 기사를 추천합니다 버튼을 눌러주세요.\...
198,모두에게 보여주고 싶은 기사라면?beta 이 기사를 추천합니다 버튼을 눌러주세요.\...
