In [1]:
import numpy as np
import pandas as pd
import re, json, csv, requests, time, glob, tqdm
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from collections import Counter

In [2]:
def scrape_one_new(html, url):
    soup = BeautifulSoup(html, "html.parser")
    json_data = json.loads(soup.find_all("script", type="application/ld+json")[-1].text)

    # title, date, genre, keyword
    title = json_data.get('headline', soup.find('span', class_='contentTitle').text)
    date = json_data.get('datePublished', re.search(r'datetime:.*?(\d{4}-\d{2}-\d{2}T\d{2}:\d{2})', str(html)).group(1))
    date_m = json_data.get('dateModified', '')
    genre = json_data.get('genre', [])
    if genre == []:
        genre = [k for k in soup.find('meta', attrs={'name':'keywords'}).get('content').split(',') if k not in ['NHK','ニュース', 'NHK NEWS WEB']]
    keywords = json_data.get('keywords', [])
    
    # article: news_textbody > news_textmore > news_add (paragraph titles are h3)
    article = soup.find('div', id="news_textbody").text
    if soup.find_all('div', id="news_textmore") != []:
        for textmore in soup.find_all('div', id="news_textmore"):
            article += ('\n' + textmore.text)
    if soup.find_all('div', class_="news_add") != []:
        for newsadd in soup.find_all('div', class_="news_add"):
            if newsadd.h3 != None:
                newsadd.h3.extract()
            article += ('\n' + newsadd.text)
            
    return {
        'id':url.split('/')[-1].split('.html')[0],
        'title':title.strip(),
        'article':article.strip(),
        'genre':genre,
        'keywords':keywords,
        'url':url,
        'datePublished':date,
        'dateModified':date_m
    }

# for old web normal
def make_datetime_normal_old(hmd, time):
    year, month, day = hmd[:4], hmd[4:6], hmd[6:]
    hour, minute = time.split('時')
    minute = minute.strip('分')
    if len(hour) == 1:
        hour = '0' + hour
    if len(minute) == 1:
        minute = '0' + minute
    return f"{year}-{month}-{day}T{hour}:{minute}"

def scrape_one_old(html, url):
    soup = BeautifulSoup(html, "html.parser")

    # title, date, genre, keyword
    title = soup.find('span', class_="contentTitle").text.strip()
    hmd_ = url.split('/')[-2]
    time_ = soup.find('span', id="news_time").text
    date = make_datetime_normal_old(hmd_, time_)
    genre = [k for k in soup.find('meta', attrs={'name':'keywords'}).get('content').split(',') if k not in ['NHK','ニュース', 'NHK NEWS WEB','ＮＨＫ','ＮＨＫニュース','']]
    
    # article: news_textbody > news_textmore > news_add (paragraph titles are h3)
    article = soup.find(['div','p'], id="news_textbody").text
    if soup.find_all(['div','p'], id="news_textmore") != []:
        for textmore in soup.find_all(['div','p'], id="news_textmore"):
            article += ('\n' + textmore.text)
    if soup.find_all(['div','p'], class_="news_add") != []:
        for newsadd in soup.find_all(['div','p'], class_="news_add"):
            if newsadd.h3 != None:
                newsadd.h3.extract()
            article += ('\n' + newsadd.text)
            
    return {
        'id':url.split('/')[-1].split('.html')[0],
        'title':title.strip(),
        'article':article.strip(),
        'genre':genre,
        'keywords':[],
        'url':url,
        'datePublished':date,
        'dateModified':""
    }

def get_archiveurl(url):
    driver.get(url)
    time.sleep(5)
    html = str(driver.page_source.encode('utf-8'))
    snap = re.search(r'(times between|1 time|times).*?<a href="(.+?)">', html)
    #if snap == None:
        #return None
    archiveurl = 'https://web.archive.org' + snap.group(2)
    return archiveurl

def js(dic, year):
    with open(f'nhkweb{year}.json', 'r', encoding='utf-8') as f:
        data = json.load(f)
    with open(f'nhkweb{year}.json', 'w', encoding='utf-8') as f:
        if dic['id'] not in [x['id'] for x in data]:
            data.append(dic)
        else:
            for i, d in enumerate(data):
                if dic['id'] == d['id']:
                    data[i] = dic
        data = sorted(data, key=lambda x:x['id'])
        json.dump(data, f, indent=4, ensure_ascii=False)

def geturl(year=2019):
    idnormal = pd.read_json(f'nhkweb{year}.json', encoding='utf-8')['id'].tolist()
    existurl = pd.read_csv('linknormal.txt', encoding='utf-8', header=None)[0].tolist()
    nolink = pd.read_csv('nolinknormal.txt', encoding='utf-8', header=None)[0].tolist()
    urls = set(existurl) - set(nolink)
    return sorted([url for url in urls if (url.split('.html')[0].split('/')[-1] not in idnormal) and f'html/{year}' in url])

def checkwrongid(): # check wrong ID in newswebeasy
    df = pd.read_json('nhkwebeasy.json', encoding='utf-8')
    print(len(df))
    df['normalID'] = df['url_normal'].apply(lambda x:x.split('/')[-1].strip('.html'))
    return df[df['id'] != df['normalID']]['id'].tolist()

def wrongscrape():
    wrongids = wrongid()
    existurl = pd.read_csv('linknormal.txt', encoding='utf-8', header=None)[0].tolist()[::-1]
    for ID in wrongids:
        for url in existurl:
            if ID in url:
                print(url.split('/*/')[-1])
                break

# scrape

In [3]:
df = pd.read_json('nhkweb2018.json')

In [4]:
df[df['datePublished'].str.startswith('2018-05')]

Unnamed: 0,id,title,article,genre,keywords,url,datePublished,dateModified
4106,k10011423691000,チーズや納豆 小麦粉も 今月以降値上げ相次ぐ,今月から来月にかけても、チーズや小麦粉など暮らしに身近な商品の値上げが相次ぎます。\nこのう...,"[暮らし, ビジネス]",[],http://www3.nhk.or.jp/news/html/20180501/k1001...,2018-05-01T04:25,
4107,k10011423711000,“東京で映画のロケを” カンヌでＰＲへ,海外映画の都内でのロケを誘致しようと、今月開かれる「カンヌ映画祭」の見本市で、映画製作を支援...,[科学・文化],[エンタメ],http://www3.nhk.or.jp/news/html/20180501/k1001...,2018-05-01T07:52,
4108,k10011423741000,北九州６人死亡火災 防犯カメラに不審人物 放火の疑いで捜査,去年５月、北九州市で、日雇いの労働者などが暮らすアパートが全焼して６人が死亡した火事で、火が...,[社会],[],http://www3.nhk.or.jp/news/html/20180501/k1001...,2018-05-01T05:12,
4109,k10011423781000,トランプ大統領 米朝首脳会談の開催地にパンムンジョムも検討,アメリカのトランプ大統領は、史上初となる北朝鮮との首脳会談の開催地をめぐり、東南アジアのシン...,"[社会, 国際]","[米朝首脳会談, トランプ大統領, 国際１]",http://www3.nhk.or.jp/news/html/20180501/k1001...,2018-05-01T04:44,
4110,k10011423801000,住宅１棟が全焼 １人死亡 東京 三鷹,３０日夜、東京 三鷹市の住宅街で住宅１棟が全焼する火事があり、１人が遺体で見つかりました。警...,[社会],[],http://www3.nhk.or.jp/news/html/20180501/k1001...,2018-05-01T01:37,
...,...,...,...,...,...,...,...,...
5119,k10011459731000,“輸入車に高関税” 日本貿易会会長「官民連携で阻止したい」,アメリカのトランプ政権が輸入車に高い関税をかける可能性が出ていることについて、日本貿易会の中...,"[ビジネス, 国際]",[トランプ大統領],http://www3.nhk.or.jp/news/html/20180531/k1001...,2018-05-31T14:49,
5120,k10011459781000,“車いすのまま避難” 最新の防災技術・製品紹介の展示会 東京,防災に関する最新の技術や製品などを紹介する大規模な展示会が、３１日都内で始まりました。\nこ...,"[社会, 気象・災害]",[],http://www3.nhk.or.jp/news/html/20180531/k1001...,2018-05-31T15:08,
5121,k10011459801000,“医療保険 経済力に応じた負担” 抜本改革案提示を首相に提言,６年後には、５０歳以上が人口の５割を超えることを見据え、自民党は医療保険制度の自己負担を、年...,[政治],[医療],http://www3.nhk.or.jp/news/html/20180531/k1001...,2018-05-31T15:16,
5122,k10011459811000,新潟 五頭連峰で発見の２遺体 遭難した親子と確認,２９日に新潟県阿賀野市の五頭連峰で遺体で見つかった２人は、警察が調べたところ、今月５日に五頭...,[社会],[登山の親子不明],http://www3.nhk.or.jp/news/html/20180531/k1001...,2018-05-31T15:26,


In [12]:
options = Options()
#options.headless = True
driver = webdriver.Chrome(options=options)

In [16]:
year = 2016
urls = pd.read_csv(f'linknormal.txt', header=None)
urls = sorted(urls[urls[0].str.contains(f'html/{year}')][0].tolist())
id_exist = set(pd.read_json(f'nhkweb{year}.json')['id'].tolist())

for url in urls:
    # check URL
    ID = url.split('.html')[0].split('/')[-1]
    if ID in id_exist:
        continue

    # get archive URL
    archiveurl = get_archiveurl(url)

    # request
    response = requests.get(archiveurl)
    if response.status_code == 200:
        html = response.text
    elif response.status_code == 504:
        response = requests.get(archiveurl)
        if response.status_code == 504:
            continue
        html = response.text
    time.sleep(2)

    # scrape
    url_true = 'htt' + url.split('/htt')[-1]

    try:
        dic = scrape_one_new(html, url_true)
    except:
        dic = scrape_one_old(html, url_true)
    js(dic, year)
    id_exist.add(ID)

NoSuchWindowException: Message: no such window: window was already closed
  (Session info: chrome=80.0.3987.132)


In [5]:
url_true = 'htt' + driver.current_url.split('/htt')[-1]
html = driver.page_source.encode('utf-8')
try:
    dic = scrape_one_new(html, url_true)
except:
    dic = scrape_one_old(html, url_true)
dic

{'id': 'k10011111971000',
 'title': '中国軍機紀伊半島沖飛行 「断固として守る」 官房長官',
 'article': '菅官房長官は閣議のあとの記者会見で、中国の爆撃機６機が２４日、沖縄本島と宮古島の間の上空を通過して紀伊半島沖まで飛行したことについて、領土、領海、領空は断固として守るという決意のもとで警戒監視活動に万全を期す考えを強調しました。\n防衛省によりますと２４日午前、中国軍のＨ６爆撃機６機が東シナ海から沖縄本島と宮古島の間を抜けて太平洋に出たあと紀伊半島の南の沖合まで飛行し、同じ経路で東シナ海方面に戻ったということです。これについて菅官房長官は閣議のあとの記者会見で「領空侵犯はなかったが、このようなルートで中国機の飛行が確認されたのは今回初めてだという報告を受けている」と述べました。そのうえで菅官房長官は「政府としては今後も、活動を拡大し活発化させている中国の動向を注視しながら、わが国の領土、領海、領空は断固として守るという決意のもとに警戒監視活動に万全を期し、国際法および自衛隊法に基づいて厳正な措置を実施していきたい」と述べました。',
 'genre': ['政治'],
 'keywords': [],
 'url': 'http://www3.nhk.or.jp/news/html/20170825/k10011111971000.html',
 'datePublished': '2017-08-25T12:43',
 'dateModified': ''}

In [23]:
get_archiveurl

'https://web.archive.orgmailto:info@archive.org'

# clean

In [6]:
# check category

year = 2018

with open(f'nhkweb{year}.json','r', encoding='utf-8') as f:
    data = json.load(f)
print('articles: ', len(data))
genre = Counter()
for dic in data:
    for g in dic['genre']:
        genre[g] += 1
genre.most_common()

articles:  12166


[('国際', 3430),
 ('社会', 2933),
 ('スポーツ', 2321),
 ('気象・災害', 1624),
 ('ビジネス', 1445),
 ('政治', 1275),
 ('科学・文化', 688),
 ('地域', 526),
 ('暮らし', 427)]

In [7]:
# genre <> keywords
with open(f'nhkweb{year}.json','r', encoding='utf-8') as f:
    data = json.load(f)

category = ['社会', '国際', 'ビジネス', 'スポーツ', '政治', '科学・文化', '暮らし', '地域', '気象・災害']
for i, dic in enumerate(data):
    newgenre = []
    newkey = []
    for j in dic['genre']:
        if j in category:
            newgenre.append(j)
        elif j == "災害" or j == "気象":
            newgenre.append('気象・災害')
        elif j == "科学・医療" or j == "文化・エンタメ" or j == "科学":
            newgenre.append('科学・文化')
        elif j == "暮らし文化":
            newgenre.append('暮らし')
            newgenre.append('科学・文化')
        elif j == "経済":
            newgenre.append('ビジネス')
        else:
            newkey.append(j)
    for j in dic['keywords']:
        if j in category:
            newgenre.append(j)
        elif j == "科学・医療" or j == "文化・エンタメ" or j == "科学":
            newgenre.append('科学・文化')
        elif j == "暮らし文化":
            newgenre.append('暮らし')
            newgenre.append('科学・文化')
        elif j == "災害" or j == "気象":
            newgenre.append('気象・災害')
        else:
            newkey.append(j)
    data[i]['genre'] = list(set(newgenre))
    data[i]['keywords'] = list(set(newkey))

with open(f'nhkweb{year}.json','w', encoding='utf-8') as f:
    json.dump(data, f, indent=4, ensure_ascii=False)
    

In [15]:
pd.read_json(f'nhkweb{year}.json').id.value_counts()

k10010967691000    1
k10010912981000    1
k10011097851000    1
k10010989411000    1
k10011029051000    1
                  ..
k10011105661000    1
k10011010431000    1
k10010890631000    1
k10011074431000    1
k10011002731000    1
Name: id, Length: 7140, dtype: int64