In [1]:
import numpy as np
import pandas as pd
import re, json, csv, requests, time, glob, tqdm
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from collections import Counter

In [2]:
def scrape_one_new(html, url):
    soup = BeautifulSoup(html, "html.parser")
    json_data = json.loads(soup.find_all("script", type="application/ld+json")[-1].text)

    # title, date, genre, keyword
    title = json_data.get('headline', soup.find('span', class_='contentTitle').text)
    date = json_data.get('datePublished', re.search(r'datetime:.*?(\d{4}-\d{2}-\d{2}T\d{2}:\d{2})', str(html)).group(1))
    date_m = json_data.get('dateModified', '')
    genre = json_data.get('genre', [])
    if genre == []:
        genre = [k for k in soup.find('meta', attrs={'name':'keywords'}).get('content').split(',') if k not in ['NHK','ニュース', 'NHK NEWS WEB']]
    keywords = json_data.get('keywords', [])
    
    # article: news_textbody > news_textmore > news_add (paragraph titles are h3)
    article = soup.find('div', id="news_textbody").text
    if soup.find_all('div', id="news_textmore") != []:
        for textmore in soup.find_all('div', id="news_textmore"):
            article += ('\n' + textmore.text)
    if soup.find_all('div', class_="news_add") != []:
        for newsadd in soup.find_all('div', class_="news_add"):
            if newsadd.h3 != None:
                newsadd.h3.extract()
            article += ('\n' + newsadd.text)
            
    return {
        'id':url.split('/')[-1].split('.html')[0],
        'title':title.strip(),
        'article':article.strip(),
        'genre':genre,
        'keywords':keywords,
        'url':url,
        'datePublished':date,
        'dateModified':date_m
    }

# for old web normal
def make_datetime_normal_old(hmd, time):
    year, month, day = hmd[:4], hmd[4:6], hmd[6:]
    hour, minute = time.split('時')
    minute = minute.strip('分')
    if len(hour) == 1:
        hour = '0' + hour
    if len(minute) == 1:
        minute = '0' + minute
    return f"{year}-{month}-{day}T{hour}:{minute}"

def scrape_one_old(html, url):
    soup = BeautifulSoup(html, "html.parser")

    # title, date, genre, keyword
    title = soup.find('span', class_="contentTitle").text.strip()
    hmd_ = url.split('/')[-2]
    time_ = soup.find('span', id="news_time").text
    date = make_datetime_normal_old(hmd_, time_)
    genre = [k for k in soup.find('meta', attrs={'name':'keywords'}).get('content').split(',') if k not in ['NHK','ニュース', 'NHK NEWS WEB','ＮＨＫ','ＮＨＫニュース','']]
    
    # article: news_textbody > news_textmore > news_add (paragraph titles are h3)
    article = soup.find(['div','p'], id="news_textbody").text
    if soup.find_all(['div','p'], id="news_textmore") != []:
        for textmore in soup.find_all(['div','p'], id="news_textmore"):
            article += ('\n' + textmore.text)
    if soup.find_all(['div','p'], class_="news_add") != []:
        for newsadd in soup.find_all(['div','p'], class_="news_add"):
            if newsadd.h3 != None:
                newsadd.h3.extract()
            article += ('\n' + newsadd.text)
            
    return {
        'id':url.split('/')[-1].split('.html')[0],
        'title':title.strip(),
        'article':article.strip(),
        'genre':genre,
        'keywords':[],
        'url':url,
        'datePublished':date,
        'dateModified':""
    }

def get_archiveurl(url):
    driver.get(url)
    time.sleep(5)
    html = str(driver.page_source.encode('utf-8'))
    snap = re.search(r'(times between|1 time|times).*?<a href="(.+?)">', html)
    #if snap == None:
        #return None
    archiveurl = 'https://web.archive.org' + snap.group(2)
    return archiveurl

def js(dic, year):
    with open(f'nhkweb{year}.json', 'r', encoding='utf-8') as f:
        data = json.load(f)
    with open(f'nhkweb{year}.json', 'w', encoding='utf-8') as f:
        if dic['id'] not in [x['id'] for x in data]:
            data.append(dic)
        else:
            for i, d in enumerate(data):
                if dic['id'] == d['id']:
                    data[i] = dic
        data = sorted(data, key=lambda x:x['id'])
        json.dump(data, f, indent=4, ensure_ascii=False)

def geturl(year=2019):
    idnormal = pd.read_json(f'nhkweb{year}.json', encoding='utf-8')['id'].tolist()
    existurl = pd.read_csv('linknormal.txt', encoding='utf-8', header=None)[0].tolist()
    nolink = pd.read_csv('nolinknormal.txt', encoding='utf-8', header=None)[0].tolist()
    urls = set(existurl) - set(nolink)
    return sorted([url for url in urls if (url.split('.html')[0].split('/')[-1] not in idnormal) and f'html/{year}' in url])

def checkwrongid(): # check wrong ID in newswebeasy
    df = pd.read_json('nhkwebeasy.json', encoding='utf-8')
    print(len(df))
    df['normalID'] = df['url_normal'].apply(lambda x:x.split('/')[-1].strip('.html'))
    return df[df['id'] != df['normalID']]['id'].tolist()

def wrongscrape():
    wrongids = wrongid()
    existurl = pd.read_csv('linknormal.txt', encoding='utf-8', header=None)[0].tolist()[::-1]
    for ID in wrongids:
        for url in existurl:
            if ID in url:
                print(url.split('/*/')[-1])
                break

# scrape

In [3]:
df = pd.read_json('nhkweb2016.json')
df

Unnamed: 0,id,title,article,genre,keywords,url,datePublished,dateModified
0,k10010357931000,北海道新幹線３月開業 安全運行の真価問われる年に,ことし３月、地元の悲願と言われた北海道新幹線が開業します。開業効果を高めるための官民一体の取...,[社会],[],http://www3.nhk.or.jp/news/html/20160101/k1001...,2016-01-01T00:17,
1,k10010357961000,日本被団協 結成６０年 若い世代に働きかけ強化へ,被爆者の立場から世界に核兵器廃絶を訴え続けている日本被団協＝日本原水爆被害者団体協議会は、こ...,[社会],[],http://www3.nhk.or.jp/news/html/20160101/k1001...,2016-01-01T00:17,
2,k10010357971000,安倍首相 年頭所感 “挑戦する１年 世界へ指導力”,安倍総理大臣は、平成２８年の年頭にあたって「所感」を発表し、少子高齢化に立ち向かい、一億総活...,[政治],[],http://www3.nhk.or.jp/news/html/20160101/k1001...,2016-01-01T00:17,
3,k10010357981000,選挙制度見直し 大島衆院議長が“答申踏まえ結論”,大島衆議院議長は「年頭の辞」で、１票の格差是正に向けた衆議院の選挙制度の見直しについて、今月...,[政治],[],http://www3.nhk.or.jp/news/html/20160101/k1001...,2016-01-01T05:02,
4,k10010357991000,日本の人口９年連続で減少 減少幅は過去最大に,日本の人口は、去年１年間に亡くなった人が１３０万人を超え戦後、最も多くなったことから、９年連...,[社会],[],http://www3.nhk.or.jp/news/html/20160101/k1001...,2016-01-01T05:00,
...,...,...,...,...,...,...,...,...
9903,k10010820771000,ロシアバレエ団訪日１００年で展示会,ロシアのプーチン大統領の訪日をきっかけに、両国の関係が深まることが期待される中、文化面での交...,[国際],[],http://www3.nhk.or.jp/news/html/20161226/k1001...,2016-12-26T20:50,
9904,k10010821101000,サッカーチーム搭乗の旅客機墜落 人為的ミスとの見方,南米コロンビアでブラジルのプロサッカーチームの選手などを乗せた旅客機が墜落した事故について、...,"[国際, スポーツ]",[サッカー],http://www3.nhk.or.jp/news/html/20161227/k1001...,2016-12-27T09:01,
9905,k10010822041000,野鳥から鳥インフル検出 過去最高の年の２倍近くに,今シーズン、死んだ野鳥や野鳥のフンなどから高病原性の鳥インフルエンザウイルスが検出されたケー...,[科学・文化],[],http://www3.nhk.or.jp/news/html/20161227/k1001...,2016-12-27T21:12,
9906,k10010822341000,「スターウォーズ」レイア姫役 フィッシャーさん死去,映画「スターウォーズ」シリーズでヒロインのレイア姫役を演じたアメリカ人俳優、キャリー・フィッ...,"[国際, 科学・文化]",[おくやみ],http://www3.nhk.or.jp/news/html/20161228/k1001...,2016-12-28T05:21,


In [7]:
df[df['datePublished'].str.startswith('2016-05')]

Unnamed: 0,id,title,article,genre,keywords,url,datePublished,dateModified
3432,k10010505261000,北アルプス 蓮華岳 男性が滑落し救助要請,長野県と富山県にまたがる北アルプスの蓮華岳で、スキー場ではない斜面を滑るバックカントリースキ...,[社会],[],http://www3.nhk.or.jp/news/html/20160501/k1001...,2016-05-01T06:44,
3433,k10010505271000,北アルプスの奥穂高岳 滑落事故相次ぎ１人意識不明,先月３０日夜、岐阜県の北アルプスの奥穂高岳の岩場近くで、登山者の１人が滑落したという通報があ...,[社会],[],http://www3.nhk.or.jp/news/html/20160501/k1001...,2016-05-01T07:05,
3434,k10010505281000,Ｇ７エネルギー相会合 きょう北九州で開幕,Ｇ７＝主要７か国のエネルギー相会合が１日、北九州市で開幕します。エネルギーの安定調達に向けて...,"[国際, ビジネス]",[サミット],http://www3.nhk.or.jp/news/html/20160501/k1001...,2016-05-01T05:51,
3435,k10010505291000,水俣病の公式確認から６０年 全面的な解決は見通せず,公害の原点と言われる水俣病が公式に確認されてから、１日でちょうど６０年となります。今も新たに...,[社会],[],http://www3.nhk.or.jp/news/html/20160501/k1001...,2016-05-01T08:35,
3436,k10010505301000,首相 きょうから欧州５か国などを歴訪,安倍総理大臣は１日からヨーロッパ５か国などを歴訪し、各国の首脳らと会談することにしています。...,"[国際, 政治]",[サミット],http://www3.nhk.or.jp/news/html/20160501/k1001...,2016-05-01T04:33,
...,...,...,...,...,...,...,...,...
4583,k10010541101000,「ペッタンコ祭」赤ちゃんの成長願いおでこにはんこ,赤ちゃんの健やかな成長を願っておでこにはんこを押す「初山大祭」が群馬県館林市の神社で行われて...,"[地域, 暮らし]",[],http://www3.nhk.or.jp/news/html/20160531/k1001...,2016-05-31T12:14,
4584,k10010541441000,バター不足解消へ 新たに６０００トンの輸入決定,ここ数年、店頭での品薄が続いているバターについて、農林水産省はこの夏は気温が高く原料の生乳の...,"[ビジネス, 暮らし]",[],http://www3.nhk.or.jp/news/html/20160531/k1001...,2016-05-31T16:55,
4585,k10010541451000,クルーズ船から失踪の中国人相次ぐ 不法入国の新手口か,中国の富裕層などが観光に使うクルーズ船の日本への寄港が急増するなか、入国したあと船に戻らずに...,[社会],[],http://www3.nhk.or.jp/news/html/20160531/k1001...,2016-05-31T17:06,
4586,k10010541521000,受動喫煙で死亡 年間１万５０００人と推計,他人のたばこの煙を吸い込む「受動喫煙」によって肺がんや脳卒中などで死亡する人は、国内で年間お...,[社会],[],http://www3.nhk.or.jp/news/html/20160531/k1001...,2016-05-31T17:56,


In [3]:
options = Options()
#options.headless = True
driver = webdriver.Chrome(options=options)

In [4]:
year = 2016
urls = pd.read_csv(f'linknormal.txt', header=None)
urls = sorted(urls[urls[0].str.contains(f'html/{year}')][0].tolist())
id_exist = set(pd.read_json(f'nhkweb{year}.json')['id'].tolist())

for url in urls:
    # check URL
    ID = url.split('.html')[0].split('/')[-1]
    if ID in id_exist:
        continue

    # get archive URL
    archiveurl = get_archiveurl(url)

    # request
    response = requests.get(archiveurl)
    if response.status_code == 200:
        html = response.text
    elif response.status_code == 504:
        response = requests.get(archiveurl)
        if response.status_code == 504:
            continue
        html = response.text
    time.sleep(4)

    # scrape
    url_true = 'htt' + url.split('/htt')[-1]

    try:
        dic = scrape_one_new(html, url_true)
    except:
        dic = scrape_one_old(html, url_true)
    js(dic, year)
    id_exist.add(ID)

In [9]:
url_true = 'htt' + driver.current_url.split('/htt')[-1]
html = driver.page_source.encode('utf-8')
try:
    dic = scrape_one_new(html, url_true)
except:
    dic = scrape_one_old(html, url_true)
dic

{'id': 'k10010627901000',
 'title': '台風５号 北日本～東北の太平洋側 暴風・高波に警戒',
 'article': '台風５号は日本の東の海上を北上していて、気象庁は北日本から東北にかけての太平洋側を中心に暴風や高波に警戒するよう呼びかけています。\n気象庁の観測によりますと、台風５号は９日午前６時には、仙台市の東２７０キロの海上を１時間に２５キロの速さで北へ進んでいます。中心の気圧は９８０ヘクトパスカル、最大風速は３０メートル、最大瞬間風速は４０メートルで中心の東側２８０キロ以内と西側１７０キロ以内では風速２５メートル以上の暴風が吹いています。台風はこのあとも北上を続け、９日夜には北海道の東の海上に進み、１０日の朝には千島の近海で温帯低気圧に変わる見込みです。東北の太平洋側では、海はうねりを伴って大しけとなっていて、１０日は北海道の太平洋側でも大しけとなる見込みです。また、北海道の太平洋側では９日夜にかけて非常に強い風が吹き、最大風速は２０メートル、最大瞬間風速は３０メートルに達すると予想されています。気象庁は北日本から東北にかけての太平洋側を中心に、暴風や高波に警戒するよう呼びかけています。',
 'genre': ['気象', '災害'],
 'keywords': [],
 'url': 'http://www3.nhk.or.jp/news/html/20160809/k10010627901000.html',
 'datePublished': '2016-08-09T06:29',
 'dateModified': ''}

In [10]:
js(dic, year)

# clean

In [6]:
# check category

year = 2018

with open(f'nhkweb{year}.json','r', encoding='utf-8') as f:
    data = json.load(f)
print('articles: ', len(data))
genre = Counter()
for dic in data:
    for g in dic['genre']:
        genre[g] += 1
genre.most_common()

articles:  12166


[('国際', 3430),
 ('社会', 2933),
 ('スポーツ', 2321),
 ('気象・災害', 1624),
 ('ビジネス', 1445),
 ('政治', 1275),
 ('科学・文化', 688),
 ('地域', 526),
 ('暮らし', 427)]

In [7]:
# genre <> keywords
with open(f'nhkweb{year}.json','r', encoding='utf-8') as f:
    data = json.load(f)

category = ['社会', '国際', 'ビジネス', 'スポーツ', '政治', '科学・文化', '暮らし', '地域', '気象・災害']
for i, dic in enumerate(data):
    newgenre = []
    newkey = []
    for j in dic['genre']:
        if j in category:
            newgenre.append(j)
        elif j == "災害" or j == "気象":
            newgenre.append('気象・災害')
        elif j == "科学・医療" or j == "文化・エンタメ" or j == "科学":
            newgenre.append('科学・文化')
        elif j == "暮らし文化":
            newgenre.append('暮らし')
            newgenre.append('科学・文化')
        elif j == "経済":
            newgenre.append('ビジネス')
        else:
            newkey.append(j)
    for j in dic['keywords']:
        if j in category:
            newgenre.append(j)
        elif j == "科学・医療" or j == "文化・エンタメ" or j == "科学":
            newgenre.append('科学・文化')
        elif j == "暮らし文化":
            newgenre.append('暮らし')
            newgenre.append('科学・文化')
        elif j == "災害" or j == "気象":
            newgenre.append('気象・災害')
        else:
            newkey.append(j)
    data[i]['genre'] = list(set(newgenre))
    data[i]['keywords'] = list(set(newkey))

with open(f'nhkweb{year}.json','w', encoding='utf-8') as f:
    json.dump(data, f, indent=4, ensure_ascii=False)
    

In [15]:
pd.read_json(f'nhkweb{year}.json').id.value_counts()

k10010967691000    1
k10010912981000    1
k10011097851000    1
k10010989411000    1
k10011029051000    1
                  ..
k10011105661000    1
k10011010431000    1
k10010890631000    1
k10011074431000    1
k10011002731000    1
Name: id, Length: 7140, dtype: int64