In [None]:
# example[1]：データ取得の流れ

# wikipediaの「今日はなんの日」の情報をスクレイピングする
import requests
import bs4

# スクレイピング対象のURL
url = "https://ja.wikipedia.org"

# HTTPリクエストを行い、HTTPレスポンスを取得
response = requests.get(url)

# Beautiful Soupでタグ単位に解析
soup = bs4.BeautifulSoup(response.content, "html.parser")

# devタグのidがon_this_dayである要素（今日は何の日）のtextを取得
today = soup.find("div", attrs={"id": "on_this_day"})

print(today.text)

In [None]:
# example[2]：スクレイピング結果への採番

# wikipediaの「今日はなんの日」の情報をスクレイピングする
# スクレイピング結果に連番を採番する
import requests
import bs4

# スクレイピング対象のURL
url = "https://ja.wikipedia.org"

# HTTPリクエストを行い、HTTPレスポンスを取得
response = requests.get(url)

# Beautiful Soupでタグ単位に解析
soup = bs4.BeautifulSoup(response.content, "html.parser")

# devタグのidがon_this_dayである要素を取得（今日は何の日）
today = soup.find("div", attrs={"id": "on_this_day"})

# todayオブジェクト（今日は何の日）からliタグの要素を1件1リストとして取得
entries = today.find_all("li")

# 1件1リストとして取得した「今日は何の日」をenumerate()を使って、番号付きで取り出す
for i, entry in enumerate(entries):
    # 文字列のフォーマットを指定して出力（書式化演算子）
    # print("%d: %s" % (i + 1, entry.get_text()))

    # 文字列のフォーマットを指定して出力（python3.x以降の構文）
    # print("{}: {}".format(i + 1, entry.get_text()))
    
    # 文字列のフォーマットを指定して出力（python3.6以降の構文）
    print(f"{i + 1}: {entry.get_text()}")

In [8]:
# example[3]：スクレイピング結果の出力

# wikipediaの「今日はなんの日」の情報をスクレイピングする
# スクレイピング結果に連番を採番する
# スクレイピング結果をCSVに保存する
import requests
import bs4
import csv

# スクレイピング対象のURL
url = "https://ja.wikipedia.org"

# HTTPリクエストを行い、HTTPレスポンスを取得
response = requests.get(url)

# Beautiful Soupでタグ単位に解析
soup = bs4.BeautifulSoup(response.content, "html.parser")

# devタグのidがon_this_dayである要素を取得（今日は何の日）
today = soup.find("div", attrs={"id": "on_this_day"})

# csv出力用のリスト
today_list = []

# todayオブジェクト（今日は何の日）からliタグの要素を1件1リストとして取得
entries = today.find_all("li")

# 1件1リストとして取得した「今日は何の日」をenumerate()を使って、番号付きで取り出す
for i, entry in enumerate(entries):
    # 文字列のフォーマットを指定して出力（python3.6以降の構文）
    today_list.append([
        i + 1, 
        entry.get_text()
        ])

# csvファイルへの出力
with open("wiki_exsample3.csv", "w", encoding="Shift_JIS") as file:
    writer = csv.writer(file, lineterminator="\n")
    writer.writerows(today_list)

In [11]:
# example[4]：年号の取得

# wikipediaの「今日はなんの日」の情報をスクレイピングする
# スクレイピング結果に連番を採番する
# スクレイピング結果から、年号を取り出す
# スクレイピング結果をCSVに保存する
import requests
import bs4
import csv
import re

# スクレイピング対象のURL
url = "https://ja.wikipedia.org"

# HTTPリクエストを行い、HTTPレスポンスを取得
response = requests.get(url)

# Beautiful Soupでタグ単位に解析
soup = bs4.BeautifulSoup(response.content, "html.parser")

# devタグのidがon_this_dayである要素を取得（今日は何の日）
top_entry = soup.find("div", attrs={"id": "on_this_day"})

# todayオブジェクト（今日は何の日）からliタグの要素を1件1リストとして取得
entries = top_entry.find_all("li")

# csv出力用のリスト
today_list = []

# 1件1リストとして取得した「今日は何の日」をenumerate()を使って、番号付きで取り出す
for i, entry in enumerate(entries):
    # 括弧の書式を全て半角で合わせる
    today_text = entry.get_text().replace("（", "(").replace("）", ")")

    # reライブラリのsearch()で、(****年)で囲まれるテキストを取得する
    match = re.search("\\(([1-9].*?)年\\)", today_text)
    if match:
        today_list.append([
            i + 1, 
            entry.get_text(), 
            match.group(1)
            ])
    else:
        today_list.append([
            i + 1, 
            entry.get_text()
            ])

# csvファイルへの出力
with open("wiki_exsample4.csv", "w", encoding="Shift_JIS") as file:
    writer = csv.writer(file, lineterminator="\n")
    writer.writerows(today_list)