In [2]:
import pandas as pd
import numpy as np
import requests
from bs4 import BeautifulSoup
from pymongo import MongoClient
import pymongo
from datetime import datetime
from dateutil.relativedelta import relativedelta
from haystack.document_stores import ElasticsearchDocumentStore
from haystack.nodes import BM25Retriever
from haystack.nodes import TransformersReader
from haystack.pipelines import ExtractiveQAPipeline
from haystack.utils import print_answers
import warnings 

warnings.filterwarnings(action='ignore')

In [3]:
class DBUpdater:
    def __init__(self):
        self.connection = pymongo.MongoClient()
        self.db_pension = self.connection.pension

        print(self.db_pension)

        self.db_pension_news = self.db_pension.news

        print(self.db_pension_news)
        
    def __del__(self):
        self.client.close()
    
    def update_news(self, pages=10):
        now = datetime.today()
        last = now - relativedelta(years=1)

        now = now.strftime('%Y.%m.%d')
        last = last.strftime('%Y.%m.%d')
        
        search = ['ETF', 'IRP', '연금저축', '연금상품',
          '증권', '수익률', '수령', '납입', '한도',
          '이전', '사망', '노후', '출금', '세제',
          '연령', '세대', '2030', '퇴직',
          '국민연금', '연금개혁', '운용', '펀드',
          '종목', '가입', '수수료', '가입서류', '연금계좌',
          '원금보장', '비교', '해지']

        base = ['"개인연금"', '"퇴직연금"']
        subjects = base + [f'{b} +'+s for b in base for s in search]
        
        link_list = set()

        for row in self.db_pension_news.find():
            link_list.add(row['link'])
        
        for subject in subjects:
            for i in range(0, pages):
                start = 1 + (i*10)
    
                headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/98.0.4758.102"}
                url = f'https://search.naver.com/search.naver?where=news&sm=tab_pge&query={subject}&sort=0&photo=0&field=0&pd=5&ds={last}&de={now}&mynews=0&office_type=0&office_section_code=0&news_office_checked=&nso=so:r,p:1y,a:all&start={start}'

                res = requests.get(url)
                res.raise_for_status()

                soup = BeautifulSoup(res.text, 'lxml')

                ul = soup.find('ul', {'class': 'list_news'})
                links = ul.find_all('a', {'class': 'info'})

                for link in links:
                    if link not in link_list and '네이버' in link.text:
                        url_a = link['href']
                        try:
                            res_a = requests.get(url_a, headers=headers)
                            soup_a = BeautifulSoup(res_a.text, 'lxml')
                            title = soup_a.find('h2', {'class': 'media_end_head_headline'})
                            date = soup_a.find('span', {'class': 'media_end_head_info_datestamp_time _ARTICLE_DATE_TIME'})
                            article = soup_a.find('div', {'class': 'newsct_article'})
                            article = article.text.replace('\t\t', '\n\n').split('\n\n')
                            for p in article:
                                p = p.replace('\n', ' ').replace('\t', '').replace('\xa0', ' ').strip()
                                if len(p) < 30:
                                    continue
                                else:
                                    temp = dict()
                                    temp['title'] = title.text
                                    temp['date'] = date.text.split()[0][:-1]
                                    temp['article'] = p
                                    temp['link'] = url_a
                                    temp['subject'] = ''.join(subject.replace('"', '').split('+'))
                                    self.db_pension_news.insert_one(temp)
                                    link_list.add(url_a)
                        except:
                            pass
                
            print(f'{subject} is done!')
        print('Update: END')
        
    def delete_old_news(self):
        old = datetime.today() - relativedelta(years=1)
        old = old.strftime('%Y.%m.%d') 
        self.db_pension_news.delete_many({"date": {"$lt": old}}) 
        print('Delete: END')
        
    def sync_data(self):
        mongo_data = self.client['pension']['news'].find()
        news_df = pd.DataFrame(self.mongo_data)
        
        self.update_document_store(news_df)
        
    def unpdate_document_store(self, df):
        document_store = ElasticsearchDocumentStore(host='localhost', username='root', password='1111', index='document')
        document_store.delete_documents()
        
        news_list = []
        for i in range(len(df)):
            data = df.iloc[i]
            temp = {}
            article = data['article'].strip()
            temp['content'] = article
            temp['meta'] = {'title': data['title'], 'subject': data['subject'], 'link': data['link']}
            news_list.append(temp)
            
        document_store.write_documents(news_list)
        print('MongoDB - ElasticSearch 연동이 완료되었습니다.')        
        
    def execute_daily(self):
        try:
            with open('config.json', 'r') as in_file:
                config = json.load(inf_file)
                pages_to_fetch = config['pages_to_fetch']
        except FileNotFoundError:
            with open('config.json', 'w') as out_file:
                pages_to_fetch = 5
                config = {'pages_to_fetch': pages_to_fetch}
                json.dump(config, out_file)
                
        self.update_daily_price(pages_to_fetch)
        self.delete_old_news()
        self.sync_data()
        
        today = datetime.now()
        lastday = calendar.monthrange(today.year, today.month)[1]
        
        if today.month == 12 and today.day == lastday:
            nextday = today.replace(year=today.year+1, month=1, day=1, hour=3, minute=0, second=0)
        elif today.day == lastday:
            nextday = today.replace(month=today.month+1, day=1, hour=3, minute=0, second=0)
        else:
            nextday = today.replace(day=today.day+1, hour=3, minute=0, second=0)
            
        diff = nextday - today
        secs = diff.seconds
        
        t = Timer(secs, self.execute_daily)
        
        print(f"\nWaiting for next update ({nextday.strftime('%Y-%m-%d %H:%M')})\n")
        
        t.start()      

In [4]:
dbu = DBUpdater()
# dbu.execute_daily()

Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'pension')
Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'pension'), 'news')


In [24]:
class QAmodel:  # 질문에 대한 답변만 출력 (1개) 
    def build_QA_model(self):
        document_store = ElasticsearchDocumentStore(host='localhost', username='root', password='1111', index='document')
        retriever = BM25Retriever(document_store=document_store)
        reader = TransformersReader(model_name_or_path='monologg/koelectra-small-v2-distilled-korquad-384', 
                                    tokenizer='monologg/koelectra-small-v2-discriminator', 
                                    context_window_size=500,
                                    max_seq_len=500, 
                                    doc_stride=300,
                                    use_gpu=2)
        
        pipe = ExtractiveQAPipeline(reader, retriever)
        
        return pipe
    
    def input_question(self):
        query = input('질문을 입력하세요: ')
        pipe = self.build_QA_model()
        prediction = pipe.run(query=query,
                              params={"Retriever": {"top_k": 10}, "Reader": {"top_k": 1}})
        
        return prediction
    
    def get_answer(self):
        prediction = self.input_question()
        answer = prediction['answers'][0].answer
        context = prediction['answers'][0].context
        
        start = prediction['answers'][0].offsets_in_context[0].start - 200
        if start < 0:
            start = 0
        end = prediction['answers'][0].offsets_in_context[0].start + 200

        cut = context[start:end]
        
        text = ''
        for line in context.split('. '):
            if line in cut and answer in line:
                text += line+'. '
                
        if len(text) == 0:
            print(answer)
        else:
            print(text)

In [33]:
class NewsSearcher:  # 질문에 대한 답변과 출처 기사 링크 제공 (3개)
    def build_QA_model(self):
        tokenizer = ElectraTokenizer.from_pretrained('monologg/koelectra-small-v3-discriminator')
        document_store = ElasticsearchDocumentStore(host='localhost', username='root', password='1111', index='document')
        retriever = BM25Retriever(document_store=document_store)
        reader = TransformersReader(model_name_or_path='monologg/koelectra-small-v2-distilled-korquad-384', 
                                    tokenizer='monologg/koelectra-small-v2-discriminator', 
                                    context_window_size=500,
                                    max_seq_len=500, 
                                    doc_stride=300)
        
        pipe = ExtractiveQAPipeline(reader, retriever)
        
        return pipe
    
    def input_question(self):
        query = input('질문을 입력하세요: ')
        pipe = self.build_QA_model()
        prediction = pipe.run(query=query,
                              params={"Retriever": {"top_k": 10}, "Reader": {"top_k": 3}})
        
        return prediction
    
    def get_answer(self):
        prediction = self.input_question()
        links = []
        
        for i in range(3):
            answer = prediction['answers'][i].answer
            context = prediction['answers'][i].context
            title = prediction['answers'][i].meta['title']
            link = prediction['answers'][i].meta['link']
            
            if link in links:
                continue
            
            print(f'\n=====추천 뉴스=====')
            
            start = prediction['answers'][i].offsets_in_context[0].start - 200
            if start < 0:
                start = 0
            end = prediction['answers'][i].offsets_in_context[0].start + 200

            cut = context[start:end]
        
            text = ''
            for line in context.split('. '):
                if line in cut and answer in line:
                    text += line+'. '
                    
            if len(text) == 0:
                print(answer + '...[더보기]')
            else:
                print(text[:50] + '...[더보기]')
                
            print(title)
            print(link)
            links.append(link)

In [15]:
qa = QAmodel()

In [64]:
qa.get_answer()

질문을 입력하세요: 20대를 위한 연금상품은?


INFO - haystack.modeling.utils -  Using devices: CPU
INFO - haystack.modeling.utils -  Number of GPUs: 0


20대를 위한 TDF2055도 나왔다. 


In [65]:
qa.get_answer()

질문을 입력하세요: 국민연금 적립금은 언제 소진되나요?


INFO - haystack.modeling.utils -  Using devices: CPU
INFO - haystack.modeling.utils -  Number of GPUs: 0


국회예산정책처에 따르면, 국민연금 재정수지(수입-지출)는 2039년 적자로 전환되고 적립금은 2055년 소진될 전망이다. 


In [69]:
qa.get_answer()

질문을 입력하세요: 개인연금 수령 시기는?


INFO - haystack.modeling.utils -  Using devices: CPU
INFO - haystack.modeling.utils -  Number of GPUs: 0


개인연금의 경우 55세가 되면 수령 방법과 기간을 정해야 한다. 


In [31]:
ns = NewsSearcher()

In [75]:
ns.get_answer()

질문을 입력하세요: 연금저축 세액공제 한도는?


INFO - haystack.modeling.utils -  Using devices: CPU
INFO - haystack.modeling.utils -  Number of GPUs: 0



=====추천 뉴스=====
반면 연금저축은 언제든 원하는 만큼 인출이 가능하지만 세액공제 한도가 400만원에 불과해 손해를 보는 느낌을 지울 수가 없다.노후대비 목적의 적극적인 자산증식의 필요성이 대두되며 IRP, 연금저축 등에 대한 관심도 높아지고 있다. 
20대부터 하는 노후대비… IRP·연금저축 활용법
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=005&aid=0001481252

=====추천 뉴스=====
  김 본부장은 "만 50세 이상이라면 연금계좌 세액공제 한도 900만원에 ISA 세액공제 300만원까지 총 1200만원 한도로 공제 혜택을 극대화할 수 있다"고 귀띔했다. 
"연금저축+IRP에 700만원씩 10년 넣으면 1억 노후통장 생깁니다"
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=014&aid=0004750542

=====추천 뉴스=====
다만, 연금저축의 세액공제 한도는 400만원이다. 
노후자금 쌍끌이 전략, ISA와 IRP 투자 전략
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=004&oid=009&aid=0004848140


In [76]:
ns.get_answer()

질문을 입력하세요: 가입자가 갑자기 사망하면 연금은 어떻게 되나요?


INFO - haystack.modeling.utils -  Using devices: CPU
INFO - haystack.modeling.utils -  Number of GPUs: 0



=====추천 뉴스=====
다만 한 쪽이 사망하면 유족연금이 발생한다. 
[신성식의 레츠 고 9988] 국민연금 부부 44만쌍, 4년 만에 두배로…최고액은 월 382만원
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=110&oid=025&aid=0003106379

=====추천 뉴스=====
갑자기 사망하면 국민연금은 어떻게 되나요?A. 
국민연금, 몰아서 낼 수 있나요? [조은아의 금퇴공부]
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=020&aid=0003387659

=====추천 뉴스=====
남편 사망 시 연금은 부인에게 승계되고, 부인까지 사망하면 주택연금계약이 끝납니다.. 
12억 집 맡기면 월 193만원 받는다...주택연금 가입할까, 말까 [부.전.자.전]
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=469&aid=0000665819


In [77]:
ns.get_answer()

질문을 입력하세요: 개인연금은 중도인출이 가능한가요?


INFO - haystack.modeling.utils -  Using devices: CPU
INFO - haystack.modeling.utils -  Number of GPUs: 0



=====추천 뉴스=====
소득세법상 ‘부득이한 인출’에 해당하는지 확인하고, IRP에 대해서도 ‘근로자퇴직급여보장법’에서 정한 정당한 인출사유가 있다면 절세 가능성을 높일 수 있다.금융감독원은 24일 금융꿀팁으로 ‘IRP과 연금저축의 중도인출시 절세방법’을 발표했다.IRP는 법에서 정한 제한적인 사유인 경우에만 중도인출이 가능한 반면 연금저축은 제약없이 중도인출이 가능하다. 
“연금계좌 중간에 빼야한다면? 저율과세 요건부터 확인하세요”
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=016&aid=0001941775

=====추천 뉴스=====
     최근 주택가격의 급격한 상승에 따라 퇴직연금 중도인출이 구입 자금원으로 활용되고 있는 것이다. 
[더오래] '영끌'에 퇴직연금 증발…중도인출 급증, 붕뜬 노후
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=025&aid=0003128393

=====추천 뉴스=====
이 경우 16.5%의 기타소득세를 적용받는다.연금저출의 경우 언제든 자유롭게 중도인출이 가능하다. 
금감원 “천재지변·장기요양·개인회생에 연금저축 깨면 저율 과세”
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=366&aid=0000789298


In [3]:
# 테스트: csv -> elasticsearch

class NewsSearcher2:  # 질문에 대한 답변과 출처 기사 링크 제공 (3개)
    def __init__(self):
        df = pd.read_csv('../data/naver_news_all2.csv')
        document_store = ElasticsearchDocumentStore(host='localhost', username='root', password='1111', index='test')
        document_store.delete_documents()
        
        news_list = []
        for i in range(len(df)):
            data = df.iloc[i]
            temp = {}
            article = data['article'].strip()
            temp['content'] = article
            temp['meta'] = {'title': data['title'], 'subject': data['subject'], 'link': data['link']}
            news_list.append(temp)
            
        document_store.write_documents(news_list)
        print('MongoDB - ElasticSearch 연동이 완료되었습니다.')       
        
    def build_QA_model(self):
        document_store = ElasticsearchDocumentStore(host='localhost', username='root', password='1111', index='test')
        retriever = BM25Retriever(document_store=document_store)
        reader = TransformersReader(model_name_or_path='monologg/koelectra-small-v2-distilled-korquad-384', 
                                    tokenizer='monologg/koelectra-small-v2-discriminator', 
                                    context_window_size=500,
                                    max_seq_len=500, 
                                    doc_stride=300)
        
        pipe = ExtractiveQAPipeline(reader, retriever)
        
        return pipe
    
    def input_question(self):
        query = input('질문을 입력하세요: ')
        pipe = self.build_QA_model()
        prediction = pipe.run(query=query,
                              params={"Retriever": {"top_k": 10}, "Reader": {"top_k": 3}})
        
        return prediction
    
    def get_answer(self):
        prediction = self.input_question()
        links = []
        
        for i in range(3):
            answer = prediction['answers'][i].answer
            context = prediction['answers'][i].context
            title = prediction['answers'][i].meta['title']
            link = prediction['answers'][i].meta['link']
            
            if link in links:
                continue
            
            print(f'\n=====추천 뉴스=====')
            
            start = prediction['answers'][i].offsets_in_context[0].start - 200
            if start < 0:
                start = 0
            end = prediction['answers'][i].offsets_in_context[0].start + 200

            cut = context[start:end]
        
            text = ''
            for line in context.split('. '):
                if line in cut and answer in line:
                    text += line+'. '
                    
            if len(text) == 0:
#                 print(answer + '...[더보기]')
                print(answer)
            else:
#                 print(text[:50] + '...[더보기]')
                print(text)
                
            print(title)
            print(link)
            links.append(link)

In [9]:
ns2 = NewsSearcher2()

MongoDB - ElasticSearch 연동이 완료되었습니다.


In [10]:
ns2.get_answer()

질문을 입력하세요: 보험과 펀드 중 어느 쪽이 유리해?


INFO - haystack.modeling.utils -  Using devices: CPU
INFO - haystack.modeling.utils -  Number of GPUs: 0



=====추천 뉴스=====
아까 말씀드렸다시피 연금저축은 보험과 펀드 두 가지가 있죠. ...[더보기]
[ET] 연금저축보험 vs 연금저축펀드…노후 대비는?
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=056&aid=0011131798

=====추천 뉴스=====
수익률 극대화를 위해선 원금보장 성격의 연금저축보험을 하기 보다는 연금저축펀드가 유리하며,...[더보기]
[아시아초대석] 존 리 "연금관리 따라 노후 천차만별…방치된 퇴직연금, 주식시장으로"
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=277&aid=0004931993


In [12]:
ns2.get_answer()

질문을 입력하세요: 개인연금은 중도인출이 가능해?


INFO - haystack.modeling.utils -  Using devices: CPU
INFO - haystack.modeling.utils -  Number of GPUs: 0



=====추천 뉴스=====
연금수령 또는 만기 시 종합과세 대상인가? 연 1200만 원 한도적용이 안 되는 건가? 인...[더보기]
<기고>2000년 이전에 가입한 舊개인연금… ‘소득공제’ 활용하라
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=021&aid=0002479071

=====추천 뉴스=====
가장 큰 특징은 연간 1,800만 원까지 납입이 가능하고, 최대 700만 원까지 세액공제 ...[더보기]
믿을 놈 하나 없는데 내 노후는 누가 챙기나? [슬기로운 금융생활]
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=215&aid=0001027371


In [8]:
ns2.get_answer()

질문을 입력하세요: 가입자가 갑자기 사망하면 연금은 어떻게 되나요?


INFO - haystack.modeling.utils -  Using devices: CPU
INFO - haystack.modeling.utils -  Number of GPUs: 0



=====추천 뉴스=====
갑자기 사망하면 국민연금은 어떻게 되나요?A. ...[더보기]
국민연금, 몰아서 낼 수 있나요? [조은아의 금퇴공부]
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=101&oid=020&aid=0003387659
