In [1]:
import requests
from bs4 import BeautifulSoup
from datetime import datetime
from pymongo import MongoClient
import re 

In [2]:
MONGO_URI = "mongodb://{dbuser}:{dbpassword}@ds253918.mlab.com:53918/signature"
MONGO_URI = MONGO_URI.format(dbuser='admin', dbpassword='user123')

conn = MongoClient(MONGO_URI, retryWrites="false")
db = conn.get_default_database()
db.list_collection_names()

['news', 'sample', 'system.indexes']

In [3]:
news_db = db['news'] 

columns = ['url', 'press', 'title', 'date', 'content', 'img_url']
doc = {col: None for col in columns} 
doc

{'url': None,
 'press': None,
 'title': None,
 'date': None,
 'content': None,
 'img_url': None}

### Naver news API Service

In [4]:
CLIENT_ID = "3ASKoK9e70DQQ_upgqfp"
CLIENT_SECRET = "2Ht5jnkPxK"

query = "코로나"
URL = "https://openapi.naver.com/v1/search/news.json" 

headers = { 
    'X-Naver-Client-Id': CLIENT_ID, 
    'X-Naver-Client-Secret': CLIENT_SECRET
}

params = { 
    'query': query, 
    'display': 100, 
    'sort': 'sim'
}

res = requests.get(URL, headers=headers, params=params)
res.status_code

200

In [5]:
res = res.json()['items']
len(res), res[0]

(100,
 {'title': '文대통령 “경찰, 대규모집회 유연 대처…<b>코로나</b> 재확산 방지 노고 치하”',
  'originallink': 'https://www.donga.com/news/article/all/20201021/103548088/1',
  'link': 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=100&oid=020&aid=0003315822',
  'description': '문 대통령은 “<b>코로나</b> 극복이라는 국가적 과제 앞에서 흔들림 없이 사명을 다하며 국민에게 큰 힘이... 또 문 대통령은 “<b>코로나</b>로 인해 빠르게 다가온 비대면 문명에 대응하려면 모든 치안 분야에 걸쳐 ‘디지털 경찰... ',
  'pubDate': 'Wed, 21 Oct 2020 10:39:00 +0900'})

In [6]:
def check_datetime_str(astring): 
    astring = astring.split()[0]
    time_format = '%Y.%m.%d.'
    try: 
        datetime.strptime(astring, time_format) 
        return True 
    except ValueError: return False 
    
def clean_text(text): 
    reporter = re.compile("[가-힣]{2,4}\s*기자")
    email = re.compile("[\w._%+-]+@[\w.-]+\.[a-zA-Z]{2,4}")

    text = re.sub(email, "", text)
    text = re.sub(reporter, "", text)
    
    cleaned_text = re.sub('[\{\}\[\]\/?,;:|\)*~`!^\-_+<>▶▽♡◀━@\#$%&\\\=\(\'\"ⓒ(\n)(\t)]', '', text) 
    cleaned_text = cleaned_text.replace("🇲\u200b🇮\u200b🇱\u200b🇱\u200b🇮\u200b🇪\u200b", '')
    cleaned_text = cleaned_text.replace("flash 오류를 우회하기 위한 함수 추가function flashremoveCallback", '')
    cleaned_text = cleaned_text.replace("동영상 뉴스 오류를 우회하기 위한 함수 추가 ", '')
    cleaned_text = cleaned_text.replace("무단전재 및 재배포 금지", '')
    cleaned_text = cleaned_text.replace("배포", '')
    cleaned_text = cleaned_text.replace("금지", '')
    cleaned_text = cleaned_text.replace("  ", ' ')
    
    return cleaned_text

In [7]:
def crawling_each_news(url, doc): 
    headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36' }
    req = requests.get(url, headers=headers)
    html = req.text
    soup = BeautifulSoup(html, 'html.parser')
    
    try: 
        title = soup.select_one('h3[id=articleTitle]').text
        doc['title'] = title 
        
        press = soup.select_one('div[class=press_logo] > a > img')
        doc['press'] = press['alt']

        date_candidates = soup.select('div[class=sponsor] > span')
        for date_candidate in date_candidates: 
            date_candidate = date_candidate.text
            if check_datetime_str(date_candidate): 
                doc['date'] = date_candidate
                break 

        contents = soup.select_one('div[class=_article_body_contents]')
        contents = clean_text(contents.text)
        contents = contents.strip()
        doc['content'] = contents

        try:
            image_url = soup.select("span.end_photo_org > img")[0].get('src')
        except: image_url = '' #이미지 없는 경우
        doc['img_url'] = image_url
        return doc 
    except: 
        print(URL)
        print("Entertain or Sport news")
        return

In [8]:
doc_list = list() 

for elem in res: 
    URL = elem.get('link', '')
    if not URL: continue 
    doc = {'url': URL} 
    
    crawling_res = crawling_each_news(URL, doc) 
    if crawling_res: doc_list.append(crawling_res)

https://sports.news.naver.com/news.nhn?oid=001&aid=0011959171
Entertain or Sport news
https://sports.news.naver.com/news.nhn?oid=241&aid=0003061589
Entertain or Sport news
https://sports.news.naver.com/news.nhn?oid=079&aid=0003421326
Entertain or Sport news
https://sports.news.naver.com/news.nhn?oid=003&aid=0010138626
Entertain or Sport news
https://sports.news.naver.com/news.nhn?oid=410&aid=0000736743
Entertain or Sport news
https://sports.news.naver.com/news.nhn?oid=025&aid=0003045186
Entertain or Sport news
http://www.kyeonggi.com/news/articleView.html?idxno=2323742
Entertain or Sport news
https://sports.news.naver.com/news.nhn?oid=382&aid=0000863755
Entertain or Sport news


In [9]:
len(doc_list), doc_list[:2]

(92,
 [{'url': 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=100&oid=020&aid=0003315822',
   'title': '文대통령 “경찰, 대규모집회 유연 대처…코로나 재확산 방지 노고 치하”',
   'press': '동아일보',
   'date': '2020.10.21. 오전 10:39',
   'content': '문재인 대통령. 청와대 제공 2018.10.25뉴스1문재인 대통령은 ‘경찰의 날’ 75주년을 맞은 21일 “국가수사의 중추 역할을 담당하게 될 ‘국가수사본부’의 출범을 예정하고 있다”며 “수사경찰을 행정경찰과 분리하여 수사역량과 정치적 중립성을 더 강화하면서 ‘책임 수사’와 ‘민주적 통제’를 조화시킬 수 있을 것”이라고 말했다.문 대통령은 이날 오전 충남 아산시 경찰인재개발원에서 열린 ‘제75주년 경찰의 날 기념식’에서 기념사를 통해 “국민의 눈높이에 맞춰 변화하는 ‘대한민국 경찰’의 도전을 응원한다”면서 이렇게 말했다.문 대통령은 “코로나 극복이라는 국가적 과제 앞에서 흔들림 없이 사명을 다하며 국민에게 큰 힘이 되었다”며 “경찰관이 본연의 업무와 함께 다양한 방역 지원 활동으로 국민의 생명과 건강을 지켰다”고 치하했다.이어 문 대통령은 “강도 높은 자기혁신이 경찰에 대한 국민 신뢰를 높여주고 있다”며 “수사권 조정을 통해 경찰 수사의 독립성과 책임성을 높일 발판도 마련했다”고 말했다.그러면서 “개혁입법으로 경찰의 오랜 숙원이 이뤄지고 있는 만큼 ‘당당한 책임경찰’로서 공정성과 전문성에 기반한 책임수사 체계를 확립해주기 바란다”며 “곧 출범할 국가수사본부의 완결성을 높인다면 국민들은 경찰의 수사역량을 더욱 신뢰하게 될 것”이라고 덧붙였다.또 문 대통령은 “코로나로 인해 빠르게 다가온 비대면 문명에 대응하려면 모든 치안 분야에 걸쳐 ‘디지털 경찰 혁신’을 앞당겨야 할 것”이라며 “인공지능과 빅데이터 같은 첨단기술을 경찰 활동에 접목한다면 예방 112신고와 현

In [10]:
news_db.insert_many(doc_list) 

<pymongo.results.InsertManyResult at 0x199b4952188>

In [11]:
for elem in news_db.find({})[:5]: print(elem)

{'_id': ObjectId('5f8fc19c77d7c6d1675e4535'), 'url': 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=102&oid=001&aid=0011958849', 'title': '코로나19 감염시키고 지켜본다…영국, 논란 속 실험 강행키로', 'press': '연합뉴스', 'date': '2020.10.21. 오전 10:15', 'content': '내년 초 휴먼챌린지 착수해 5월께 결과말라리아 등 선례 있지만 코로나는 위험치료제 없어 비윤리적 vs 신속한 연구가 급선무코로나19 방역규제 강화에 반대하며 시위를 벌이고 있는 영국 접객업계 종사자들. 경제와 보건 사이에서 영국의 고민은 깊어지고 있다.EPA연합뉴스 자료사진  서울연합뉴스  영국에서 건강한 사람을 일부러 신종 코로나바이러스코로나19에 감염시켜 면역 기제를 찾겠다는 실험이 정부 주도로 시작된다.  코로나19가 속수무책으로 퍼지는 상황에서 백신 개발의 실마리라도 잡으려는 취지이지만 아직 확실한 치료제가 나오지도 않았는데 일부러 바이러스에 감염시키는 것은 비윤리적이며 위험한 시도라는 지적이 일고 있다.  20일현지시간 미 일간 월스트리트저널WSJ CNN 방송 등에 따르면 영국 임피리얼 칼리지 런던ICL 연구진은 내년 초 건강한 지원자들을 고의로 코로나 바이러스에 감염시키는 실험을 시작할 계획이다.  이른바 인체 유발반응 시험HCT·휴먼챌린지시험으로 불리는 이번 연구에서는 코로나19 증상이 나타난 적 없고 심장병이나 당뇨 등 위험 요인을 갖지 않은 18∼30살 참가자를 최대 19명 모집한다.  연구진은 이들을 바이러스에 고의로 감염시킨 뒤 어떻게 백신이 증상 및 감염을 막는지 또 이들의 면역 체계가 어떻게 반응하는지 연구한다.코로나19 팬데믹의 최대 피해국 가운데 하나인 영국은 보건뿐만 아니라 방역이 경제에 미치는 영향 때문에 고민이 무척이나 심한 상황이다.AP연합뉴스 자료사진  이번 실험에는 영국 공공의료 체계인

---

### Crawling popular news in naver

In [12]:
from datetime import datetime 

from konlpy.tag import Mecab 

mecab = Mecab(dicpath="C:/mecab/mecab-ko-dic")
MAIN_URL = "https://news.naver.com"
POPULAR_URL = 'https://news.naver.com/main/ranking/popularDay.nhn?rankingType=popular_day&sectionId={section_id}&date={date}'

today = datetime.today()
now = datetime.now()
now_hr = today.hour if len(str(today.hour)) > 1 else '0'+str(today.hour)
now_dt = today.strftime('%Y%m%d')


def crawling_popular(URL):
    sections = ['100', '101', '102', '103', '104', '105']
    doc_list = list() 
    for section_id in sections:
        url = URL.format(section_id=section_id, date=now_dt)
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
        req = requests.get(url, headers = headers)
        html = req.text
        soup = BeautifulSoup(html, 'html.parser')

        ranks = soup.select('ol[class=ranking_list] > li')

        for idx in range(len(ranks)):
            title = ranks[idx].select('a')[0]['title'].strip()
            press = ranks[idx].select('div[class=ranking_office]')[0].text
            sub_detailed_url = ranks[idx].select('a')[0]['href'] 
            sub_detailed_url = MAIN_URL + sub_detailed_url

            doc = {'url': sub_detailed_url}
            crawling_res = crawling_each_news(sub_detailed_url, doc) 
            if crawling_res: 
                words = [word for word, _ in mecab.pos(crawling_res['title'])] 
                words += [word for word, _ in mecab.pos(crawling_res['content'])]
                
                if words.count('코로나') > 1 and not news_db.find_one({'title': crawling_res['title']}): 
                        doc_list.append(crawling_res)
    return doc_list

doc_list = crawling_popular(POPULAR_URL)
doc_list[:2]

[{'url': 'https://news.naver.com/main/ranking/read.nhn?rankingType=popular_day&oid=023&aid=0003570248&date=20201021&type=1&rankingSectionId=100&rankingSeq=4',
  'title': '재인산성 칭찬한 文대통령 “경찰, 엄정대응했다”',
  'press': '조선일보',
  'date': '2020.10.21. 오전 10:47',
  'content': '아산 경찰인재개발원서 75주년 경찰의날 기념사 “국민기본권 침해 최소화” 집회봉쇄·방역지원 칭찬 “자치경찰제 머지않아 실시… 철저준비 당부”문재인 대통령이 21일 충남 아산시 경찰인재개발원에서 열린 제75주년 경찰의 날 기념식을 마친 뒤 공상公傷 경찰관인 김진영 순경을 격려하고 있다.연합뉴스문재인 대통령은 21일 충남 아산 경찰인재개발원에서 열린 제75주년 경찰의 날 기념식에서 “우리 경찰은 사명감과 책임감으로 어려움을 극복하며 ‘가장 안전한 나라’를 만들어 가고 있다”며 “올해는 특히 코로나 극복이라는 국가적 과제 앞에서 흔들림 없이 사명을 다하며 국민에게 큰 힘이 됐다”고 했다.그러면서 특히 “코로나 재확산의 우려가 컸던 공휴일 대규모 집회에도 국민의 기본권 침해를 최소화하면서 위법한 집단행위에 엄정하게 대응했다”며 “현장 상황에 맞게 유연하게 대처하며 코로나 재확산을 방지해 낸 경찰의 노고를 높이 치하한다”고 했다.지난 5일 청와대 수석·보좌관 회의에서 “특히 우려가 컸던 개천절 불법 집회가 코로나 재확산을 유발하지 않도록 철저하게 대비해 빈틈없이 차단했다”고 한 데 이어 거듭 경찰의 도심 집회 봉쇄를 칭찬한 것이다.문 대통령은 “경찰의 방역 활동은 ‘K방역’의 세계화에 크게 기여하고 있다”며 “한국형 대화경찰관 제도를 비롯한 ‘공개와 소통’에 기반한 집회시위 대응은 행정 혁신의 모범사례이자 대표적 ‘치안 한류 콘텐츠’로 자리매김하고 있다”고도 했다.문재인 대통령이 21일 오전 우한 교

In [13]:
news_db.insert_many(doc_list) 

<pymongo.results.InsertManyResult at 0x199b2589248>