In [1]:
# anacondaにはデフォルトでインストールされていない
# conda install -c conda -forge newspaper3k でインストールする

## 19. 単一のニュース記事の取得

In [21]:
# モジュールをインポート
from newspaper import Article

In [17]:
URL ="https://www.reuters.com/article/us-health-coronavirus-usa-economy/u-s-deficit-could-quadruple-to-3-7-trillion-in-coronavirus-crisis-cbo-idUSKCN22633M"

In [18]:
# URLを渡す
article= Article(URL)

In [19]:
# 記事をDLする
article.download()

In [20]:
# 記事を解析する
article.parse()

In [22]:
# 記事の発行した日付を表示
article.publish_date

datetime.datetime(2020, 4, 24, 21, 29, 44, tzinfo=tzutc())

In [24]:
# 記事の作成者を確認
article.authors

['Reuters Editorial', 'Min Read']

In [25]:
# 記事の本文を表示
article.text

'WASHINGTON (Reuters) - A nationwide business shutdown and surge in U.S. government spending will nearly quadruple the federal deficit to a record $3.7 trillion this fiscal year as the country combats the coronavirus pandemic, congressional forecasters said on Friday.\n\nFILE PHOTO: A bicyclist rides through Times Square during evening rush hour, during the outbreak of the coronavirus disease (COVID-19) in New York City, New York, U.S., April 15, 2020. REUTERS/Bryan R Smith\n\nU.S. gross domestic product will plunge by nearly 40% on an annualized basis in the second quarter, according to the nonpartisan Congressional Budget Office. But the CBO forecast an economic resurgence in the second half of the year, and said unemployment would crest at 16% but remain in double digits throughout 2021.\n\nThe CBO report illustrated the fiscal pressures lawmakers in Congress face as they prepare to craft new legislation to respond to the pandemic. Congress has already passed $3 trillion in spending

In [26]:
# 記事のタイトルを取得
article.title

'U.S. deficit could quadruple to $3.7 trillion in coronavirus crisis: CBO'

## 20.自然言語処理による要約の取得

In [27]:
# 自然言語処理のライブラリをインポート
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\mikam\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [28]:
# 自然言語処理を実行する
article.nlp()

In [29]:
# キーワードの確認(記事の中でよく使われるキーワード)
article.keywords

['quadruple',
 'deficit',
 '37',
 'fiscal',
 '2020',
 'second',
 'trillion',
 'coronavirus',
 'crisis',
 'economic',
 'spending',
 'cbo',
 'federal']

In [30]:
# 記事の要約が表示される
article.summary

'WASHINGTON (Reuters) - A nationwide business shutdown and surge in U.S. government spending will nearly quadruple the federal deficit to a record $3.7 trillion this fiscal year as the country combats the coronavirus pandemic, congressional forecasters said on Friday.\n“If the laws currently in place governing spending and revenues generally remained unchanged and no significant additional emergency funding was provided, the federal deficit would be roughly $3.7 trillion in fiscal year 2020 and $2.1 trillion next year,” the CBO said.\nIn March, the CBO projected deficits of just over $1 trillion in each of those years.\nThe federal debt would equal 101% of GDP by Sept. 30, when the 2020 federal fiscal year ends, and would grow to 108% by the end of fiscal 2021, CBO said.\nHoagland added that the 2020 budget deficit could exceed $4 trillion when taking into consideration possible additional economic stimulus legislation.'

In [31]:
# 改行文字を置き換える
article.summary.replace("\n","")

'WASHINGTON (Reuters) - A nationwide business shutdown and surge in U.S. government spending will nearly quadruple the federal deficit to a record $3.7 trillion this fiscal year as the country combats the coronavirus pandemic, congressional forecasters said on Friday.“If the laws currently in place governing spending and revenues generally remained unchanged and no significant additional emergency funding was provided, the federal deficit would be roughly $3.7 trillion in fiscal year 2020 and $2.1 trillion next year,” the CBO said.In March, the CBO projected deficits of just over $1 trillion in each of those years.The federal debt would equal 101% of GDP by Sept. 30, when the 2020 federal fiscal year ends, and would grow to 108% by the end of fiscal 2021, CBO said.Hoagland added that the 2020 budget deficit could exceed $4 trillion when taking into consideration possible additional economic stimulus legislation.'

## 21. 複数のニュース記事の取得

In [33]:
# 日本語で自然言語処理するにはtinysegmenterをインストールする
# pip install tinysegmenter==0.3
# Newspaper3Kのバージョンからtinysegmenterもバージョン指定あり

In [34]:
import newspaper

In [35]:
URL="https://www.bloomberg.co.jp/"

In [36]:
# 複数を取得する場合、buildを使う
website = newspaper.build(URL)

In [39]:
# 記事はarticlsにある

i = 0
for article in website.articles:
    article.download()
    article.parse()
    article.nlp()
    print("記事",str(i),':', article.title)
    print(article.url)
    print(article.summary, end='\n\n')
    
    if i > 9:
        break
    i +=1    

記事 0 : ４-６月ＧＤＰは年率27％減見通し､最大の落ち込み-コロナ直撃 (訂正)
https://www.bloomberg.co.jp/news/articles/2020-08-13/QEZ4ELDWX2R701?srnd=cojp-v2
Photographer: Soichiro Koriyama/Bloomberg Photographer: Soichiro Koriyama/Bloomberg４－６月期の日本経済は戦後最悪のマイナス成長が見込まれている。新型コロナウイルス感染拡大に伴い４月に緊急事態宣言が発令され、外出自粛や休業要請の影響で個人消費が急減。国内外の経済活動が停滞し、企業の設備投資や外需も悪化した。内閣府が17日発表する４ー６月期の実質国内総生産（ＧＤＰ）について、ブルームバーグのエコノミスト調査では、全員が３四半期連続のマイナス成長を予想。中央値は前期比7.6％減、年率27.0％減と、ＧＤＰ統計をさかのぼれる1955年以降で最大の落ち込みとなる見通し。個人消費は前期比７％減、設備投資は同4.1％減が見込まれている。戦後最大のマイナス成長へ 新型コロナで社会経済活動が停滞 出所：内閣府、20年４－６月期はブルームバーグ集計のエコノミスト予想中央値国内では５月の消費支出が前年同月比16.2％減と比較可能な2001年１月以降で最大の落ち込みとなったほか、鉱工業生産指数も比較可能な13年１月以降の最低を更新、輸出は同28.3％減とリーマンショック後の09年９月以来の落ち込みとなった。海外でもロックダウン（都市封鎖）を行った英国の４－６月期ＧＤＰが前期比年率59.8％減、米国は同 32.9％減と、いずれも過去最大の落ち込みを記録した。みずほ証券の小林俊介チーフエコノミストは、大幅マイナスの中身は「一つの柱は消費、もう一つ厄介なのは純輸出」と指摘。「４－５月をボトムに経済活動は戻ってきているが、ワクチンや治療薬が出てくるまでコロナ以前に戻ることはなく、７割経済で天井が低い状態が続く」との見方を示した。さらなる下振れ要因として、雇用調整助成金の特例や10万円給付などの政策サポートが途切れることによる財政の崖や、冬場の第３波襲来を懸念する。日本政府は、雇調金特例や資金繰り支援など国内ＧＤＰの４割に相当する経済対策を講じ、失業者数や倒産件数の増加抑

## 22.csvファイルへの保存1(ヘッダデータ)

In [40]:
# python標準モジュールのcsvをインポート
import csv

# 日付を処理するライブラリをインポート
import datetime

In [43]:
# 当日の日時を取得,strfimeで文字に変換
csv_data = datetime.datetime.today().strftime('%Y%m%d')

# csvファイル格納変数を作成
csv_file_name = 'bloomberg_' + csv_data + '.csv'

In [47]:
# csvファイルへの書き込み処理
f = open(csv_file_name, 'w', encoding='cp932', errors='ignore')
writer = csv.writer(f, lineterminator='\n')
csv_header = ['記事番号', 'タイトル', 'URL', 'サマリー']
writer.writerow(csv_header)

19

### 23. csvファイルへの保存2(明細データ)

In [49]:
i = 0
for article in website.articles:
    csvlist=[]
    article.download()
    article.parse()
    article.nlp()
#    print("記事",str(i),':', article.title)
#    print(article.url)
#    print(article.summary, end='\n\n')
    csvlist.append(str(i))
    csvlist.append(article.title)
    csvlist.append(article.url)
    csvlist.append(article.summary)
    writer.writerow(csvlist)
    
    if i > 9:
        break
    i +=1  
    
f.close()    

## 演習問題
### 読売オンラインから記事を読む
https://www.yomiuri.co.jp/

In [4]:
# newspaperからArticleをインポートする
from newspaper import Article

In [5]:
# 記事を解析して記事の発行日を表示
URL ="https://www.yomiuri.co.jp/politics/20200815-OYT1T50129/"

article= Article(URL)
article.download()
article.parse()

# 記事の発行した日付を表示
article.publish_date

datetime.datetime(2020, 8, 15, 0, 0)

In [6]:
# 記事の作成者を確認
article.authors

[]

In [7]:
# 記事の本文を表示
article.text

'小泉環境相は終戦記念日の１５日、東京・九段北の靖国神社を参拝した。小泉氏は例年、終戦記念日に合わせて参拝している。'