#### **課題**
1. ニュースの収集方法について調べて下さい。

・RSSフィード：ニュースサイトが提供するRSSフィードを利用して、新しい記事を自動的に取得します。  
・ウェブスクレイピング：ニュースサイトのHTMLを解析して、記事の内容を抽出します。ただし、各サイトの利用規約やrobots.txtを確認することが重要です。  
・API：ニュースサイトが提供するAPIを利用して、記事の内容を取得します。APIキーが必要な場合もあります。  
・データベース：既に収集されたニュース記事のデータベースを利用します。これは、大量の記事を一度に取得する場合に便利です。

2. ニュースのRSS フィードの簡単なコードを書いて、url を様々に変えて実行して下さい。
   - BBC News: https://feeds.bbci.co.uk/news/rss.xml
   - CNN News: http://rss.cnn.com/rss/cnn_latest.rss

In [3]:
import feedparser

def get_rss_feed(url):
    feed = feedparser.parse(url)
    for entry in feed.entries:
        print(f'Title: {entry.title}')
        print(f'Link: {entry.link}')
        print(f'Description: {entry.description}\n')

# BBC News
print('フィードバックタイトル: BBC News - Home')
get_rss_feed('https://feeds.bbci.co.uk/news/rss.xml')

# CNN News
print('フィードバックタイトル: CNN.com - RSS Channel')
get_rss_feed('http://rss.cnn.com/rss/cnn_latest.rss')


フィードバックタイトル: BBC News - Home
Title: At least 16 feared dead in mass shootings in US city of Lewiston, Maine
Link: https://www.bbc.co.uk/news/world-us-canada-67224544?at_medium=RSS&at_campaign=KARANGA
Description: Residents of Lewiston are being asked to shelter in place amid reports of a gunman at large.

Title: Student maintenance loans almost entirely used up by rent, report warns
Link: https://www.bbc.co.uk/news/education-67206767?at_medium=RSS&at_campaign=KARANGA
Description: The average cost of university accommodation in England is almost level with the average maintenance loan.

Title: NHS pay: Health staff begin legal fight over Covid bonus
Link: https://www.bbc.co.uk/news/health-67220186?at_medium=RSS&at_campaign=KARANGA
Description: The government may face a judicial review after excluding outsourced workers from a one-off bonus.

Title: The chaotic search for Speaker... recapped in 120 seconds
Link: https://www.bbc.co.uk/news/world-us-canada-67210524?at_medium=RSS&at_campaig

3. ニュースのウェブスクレイピングの簡単なコードを書いて、url を様々に変えて実行して下さい。ただし、スクレイピングするページがロボットを禁止しているかどうか確かめる部分もコードに書くこと。
   - 日経新聞: https://www.nikkei.com
   - The Wall Street Journal: https://www.wsj.com
   - The Washington Post: https://www.washingtonpost.com
   - Economist: https://www.economist.com

In [4]:
import requests
from bs4 import BeautifulSoup
import urllib.robotparser

def scrape_news(url):
    rp = urllib.robotparser.RobotFileParser()
    rp.set_url(url + "/robots.txt")
    rp.read()

    if rp.can_fetch("*", url):
        response = requests.get(url)
        soup = BeautifulSoup(response.text, 'html.parser')
        print(soup.title.text)
    else:
        print("This site does not allow web scraping.")

# 日経新聞
scrape_news('https://www.nikkei.com')

# The Wall Street Journal
scrape_news('https://www.wsj.com')

# The Washington Post
scrape_news('https://www.washingtonpost.com')

# Economist
scrape_news('https://www.economist.com')


日本経済新聞 - ニュース・速報 最新情報
This site does not allow web scraping.
The Washington Post - Breaking news and latest headlines, U.S. news, world news, and video - The Washington Post
This site does not allow web scraping.


4. API を使ってニュースを取得する例として News API: https://newsapi.org/ があります。HP を探して調べてみて下さい。興味がある人はアカウントを作って、簡単なコードを書いて実行して下さい。

In [6]:
import requests

def get_news_from_api(api_key):
    url = f'https://newsapi.org/v2/top-headlines?country=us&apiKey={api_key}'
    response = requests.get(url)
    data = response.json()
    for article in data['articles']:
        print(f'Title: {article["title"]}')
        print(f'Description: {article["description"]}\n')

# Replace 'your_api_key' with your actual News API key
get_news_from_api('c994e2066e944fd0b6a635a61d7673ff')


Title: D-backs top Phillies in Game 7, make 1st World Series since '01 - ESPN - ESPN
Description: The Diamondbacks stunned the heavily favored Phillies with a 4-2 victory in Game 7 of the National League Championship Series and are back in the World Series for the first time since 2001.

Title: SAG-AFTRA, Studios to Return to Negotiations on Wednesday - Hollywood Reporter
Description: Talks over a new three-year contract resumed on Tuesday at SAG-AFTRA's national headquarters after a nearly two-week pause.

Title: Why bitcoin is surging again - CNN
Description: Bitcoin is rocketing higher, topping $35,000 for the first time since May 2022. It’s up 20% over the past five days.

Title: 'Dancing With the Stars' Most Memorable Year night recap: Elimination, scores - Entertainment Weekly News
Description: 'Dancing With the Stars' season 32's Most Memorable Year night included several emotional performances and a moving tribute to Len Goodman.

Title: IDF publishes audio of Hamas terrorist c

5. News API 以外に、ニュースを取得できる API としてどのようなものがあるか調べて下さい。無料でニュースを取得できるサイトが見つかった人は、簡単なコードを書いて実行して下さい。

他のニュースAPIについては、GNews APIやContextualWeb News APIなどがあります。これらも同様にAPIキーを使用してニュース記事を取得できます。

6. data/NYT_2023.xlsx は、New York Times の API を使って取得したデータです。pandas の DataFrame で読み込んでください。

In [7]:
import pandas as pd

def read_excel_file(file_path):
    df = pd.read_excel(file_path)
    print(df.head())

read_excel_file('data/NYT_2023.xlsx')


   Unnamed: 0                                           abstract  \
0           0  Underlying the debate in America over abortion...   
1           1  The question is at the heart of the human expe...   
2           2  Texas Christian returned two interceptions for...   
3           3  Hours before Russian troops began withdrawing ...   
4           4  Georgia scored in the final minute of the game...   

                                             web_url  \
0  https://www.nytimes.com/2022/12/31/us/life-per...   
1  https://www.nytimes.com/interactive/2022/12/31...   
2  https://www.nytimes.com/2022/12/31/sports/ncaa...   
3  https://www.nytimes.com/2022/12/31/world/europ...   
4  https://www.nytimes.com/2023/01/01/sports/ncaa...   

                                             snippet  \
0  Underlying the debate in America over abortion...   
1  The question is at the heart of the human expe...   
2  Texas Christian returned two interceptions for...   
3  Hours before Russian troops