# Webスクレイピング

## ライブラリのインストール
- requests
- beautifulsoup4
```
pip install requests beautifulsoup4
```

In [5]:
# Wikipediaの「今日は何の日」を取得する
import requests
from bs4 import BeautifulSoup

url = "https://ja.wikipedia.org/"
response = requests.get(url)

soup = BeautifulSoup(response.content, "html.parser")
today = soup.find("div", attrs={"id": "on_this_day"}).text
print(today)


今日は何の日 2月3日

節分
ミラノ勅令発布。ローマ帝国がキリスト教を公認（313年）
バルトロメウ・ディアスがアフリカ大陸南端に到達（1488年）
チューリップ・バブル崩壊（1637年）
福澤諭吉死去（1901年、雪池忌）
通化事件（1946年）
ソビエト連邦の無人宇宙探査機「ルナ9号」が史上初めて月面軟着陸に成功（1966年）
札幌オリンピック開幕（1972年）
Netscapeブラウザのソースコードの公開方法の会議の中で、初めてオープンソースという言葉が使われる（1998年）



In [12]:
# today_list = []
# index = 1

today = soup.find("div", attrs={"id": "on_this_day"})
entries = today.find_all("li")
# for entry in entries:
#     today_list.append([index, entry.get_text()])
#     index += 1

# print(today_list)
#コメントアウトの部分でも同じ結果が得られる

for i, entry in enumerate(entries):
    print("%d: %s" % (i+1, entries[i].get_text())) #フォーマットも変えられる

1: 節分
2: ミラノ勅令発布。ローマ帝国がキリスト教を公認（313年）
3: バルトロメウ・ディアスがアフリカ大陸南端に到達（1488年）
4: チューリップ・バブル崩壊（1637年）
5: 福澤諭吉死去（1901年、雪池忌）
6: 通化事件（1946年）
7: ソビエト連邦の無人宇宙探査機「ルナ9号」が史上初めて月面軟着陸に成功（1966年）
8: 札幌オリンピック開幕（1972年）
9: Netscapeブラウザのソースコードの公開方法の会議の中で、初めてオープンソースという言葉が使われる（1998年）


### csvファイルに出力

In [13]:
import csv

today_list = []
for i, entry in enumerate(entries):
    today_list.append([i+1, entry.get_text()])

with open("output.csv", "w", encoding="shift_JIS") as f:
    writer = csv.writer(f, lineterminator="\n")
    writer.writerows(today_list)

In [22]:
# 正規表現を使う
import re

today_list = []
for i, entry in enumerate(entries):
    today_text = entry.get_text()
    today_text = today_text.replace("（","(").replace("）",")")
    match = re.search("\(([1-9].*?)年", today_text)
    if match:
        today_list.append([i+1, today_text, match.group(1)])
    else:
        today_list.append([i+1, today_text, ""])

with open("output2.csv", "w", encoding="shift_JIS") as f:
    writer = csv.writer(f, lineterminator="\n")
    writer.writerows(today_list)


### はてなブックマーク

In [28]:
import requests
from bs4 import BeautifulSoup

url = "https://b.hatena.ne.jp/"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

top_entry = soup.find("section", attrs={"class": "entrylist-unit"})
entries = top_entry.find_all("h3", attrs={"class": "entrylist-contents-title"})

for entry in entries:
    print(entry.find("a").get_text("title"))


Twitterで凍結祭りが開催中と騒ぎに。外部サービスと連携しているアカウントが永久凍結に？（篠原修司） - 個人 - Yahoo!ニュース
しげる on Twitter: "「回転寿司屋で醤油舐めたりして一体何が面白いのか」と昨日ワイフに聞かれたので、そこまでハードな悪事を働いておらず（←ここが重要）頭の緩い田舎のヤンキーは、身の回りのあらゆる物事にチキンレース性を見出して実行し、それを自慢することで仲間内で「伝説」を作る生き物なのだと説明した"
授業で日本語の「いる」と「ある」の違いを説明したら学生がうっとりした
眼鏡の曇り止めの使い方間違えてた
近親婚に対する反論が同性婚反対派のそれと区別つかないのマジウケるな。 ..
マスクCEO、Twitterの無料API終了は「悪質なbotの排除」と説明　有料APIは月100ドル程度に
「俺の仕事が信用できないんですか？」工場でダブルチェックを嫌がる若い子を納得させた『チェックする理由』の言い方が素敵
卒業式や入学式でのマスク着用 推奨しないことを検討 政府 | NHK
岸田首相、教えて？「なぜ防衛費をあげるのですか」　世田谷の小学6年生たちが質問の手紙：東京新聞 TOKYO Web


In [30]:
top_entry = soup.find("section", attrs={"class": "entrylist-unit"})
entries = top_entry.find_all("div", attrs={"class": "entrylist-contents"})

for entry in entries:
    title_tag = entry.find("h3", attrs={"class": "entrylist-contents-title"})
    title = title_tag.find("a").get("title")
    print(title)

    users_tag = entry.find("span", attrs={"class": "entrylist-contents-users"})
    users = users_tag.get_text().strip()
    print(users)

Twitterで凍結祭りが開催中と騒ぎに。外部サービスと連携しているアカウントが永久凍結に？（篠原修司） - 個人 - Yahoo!ニュース
484 users
しげる on Twitter: "「回転寿司屋で醤油舐めたりして一体何が面白いのか」と昨日ワイフに聞かれたので、そこまでハードな悪事を働いておらず（←ここが重要）頭の緩い田舎のヤンキーは、身の回りのあらゆる物事にチキンレース性を見出して実行し、それを自慢することで仲間内で「伝説」を作る生き物なのだと説明した"
414 users
授業で日本語の「いる」と「ある」の違いを説明したら学生がうっとりした
360 users
眼鏡の曇り止めの使い方間違えてた
371 users
近親婚に対する反論が同性婚反対派のそれと区別つかないのマジウケるな。 ..
329 users
マスクCEO、Twitterの無料API終了は「悪質なbotの排除」と説明　有料APIは月100ドル程度に
227 users
「俺の仕事が信用できないんですか？」工場でダブルチェックを嫌がる若い子を納得させた『チェックする理由』の言い方が素敵
224 users
卒業式や入学式でのマスク着用 推奨しないことを検討 政府 | NHK
328 users
岸田首相、教えて？「なぜ防衛費をあげるのですか」　世田谷の小学6年生たちが質問の手紙：東京新聞 TOKYO Web
280 users


In [36]:
url = "https://b.hatena.ne.jp"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
top_entry = soup.find("section", attrs={"class": "entrylist-unit"})
entries = top_entry.find_all("div", attrs={"class": "entrylist-contents"})

for entry in entries:
    title_tag = entry.find("h3", attrs={"class": "entrylist-contents-title"})
    title = title_tag.find("a").get("title")
    print(title)

    bookmark_tag = entry.find("span", attrs={"class": "entrylist-contents-users"})
    bookmark_link = bookmark_tag.find("a").get("href")
    bookmark_url = url + bookmark_link

    response = requests.get(bookmark_url)
    soup = BeautifulSoup(response.content, "html.parser")
    comments = soup.find_all("span", attrs={"class": "entry-comment-text"})
    for comment in comments:
        print(comment.get_text())

        

Twitterで凍結祭りが開催中と騒ぎに。外部サービスと連携しているアカウントが永久凍結に？（篠原修司） - 個人 - Yahoo!ニュース
明らかに今がTwitterの競合サービスを打ち出す最大のチャンスなので、戦国時代のように世界中で我こそはと名乗りを上げているはず。乗り越えるサービスが出てきてほしい。
なんやかんやこれは分水嶺な気がするなぁ。凍結されたら再度垢作ったり、異議申し立てて解除を待つ魅力はTwitterにはもう無い。
注意喚起(?)で電話番号の登録しときな！って見たけど、Twitterが原因なのにTwitterに個人情報を…！？！？？と思って何もしてない。
はてブ連携で凍結されてる。記録ログ用に鍵垢ではてブ連携しか投稿してない垢が凍結された。通常の連携以外の投稿してないのが良くなかった可能性もあるが、投稿してても変わらなかったろうな／携帯番号は未登録垢
自動投稿されるサービスの利用で凍結、まさかー、と思ったけど、マシュマロ公式が凍結されているのは説得力ある。自衛にいくつか解除しておこうか……本当にTwitterさんどうなってるの……？
サービスをどれくらいの速さで自壊させられるかの実験を見ているような気分になってきたな
今まで何度かこう云うのはあったが、どんなに不満があってもやはりツイッターじゃないとダメだって人が多くて結局は支持されてきたし、それを見透かした上での施策なんじゃないかなあ。
Twitterの先週の発表「凍結基準を、緩和します」https://news.livedoor.com/lite/article_detail/23620571/
「常に最悪のケースを想定しろ。奴は必ずその少し斜め上を行く！」が一晩明けて早くも発動か。はてブの連携も対象なんかなー。連携以外の普通のツイートは減ったので、連携できないならいよいよ自分は辞められそう。
Twitter連携めんどすぎて最近はGoogleの方にしてるが、ゲームのスクショ転送方法がいよいよメールかusbになってきた
ただでさえ少ない俺の貴重なフォロワーが１０人くらい消えていた…
“筆者は『マシュマロ』のほかに、『IFTTT』による自動投稿サービスを利用していました。まだ凍結されていない人は、いまのうちにこれらのサービスとの連携を一時停止した方が良いかもしれません”
Twitterを頼りに生きて

### Python 公式ドキュメント(日本語)

In [42]:
url = "https://docs.python.org/ja/3/whatsnew/3.11.html"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

summary = soup.find("section", attrs={"id": "summary-release-highlights"})
# paragraphs = summary.find_all("p")
for elemment in summary.children:
    print(elemment.get_text())
    





概要 -- リリースハイライト¶



Python 3.11 は Python 3.10 とくらべて 10-60% 高速です。平均的には、標準ベンチマークスイートでは 1.25倍の高速化を計測しました。詳細については Faster CPython を見てください。



新たな文法機能:



PEP 654: Exception Groups and except*



新たな組み込み機能:



PEP 678: Exceptions can be enriched with notes



新しい標準ライブラリのモジュール：



PEP 680: tomllib — TOML のパースを標準ライブラリでサポート



インタプリタの改善:



PEP 657: Fine-grained error locations in tracebacks
New -P command line option and PYTHONSAFEPATH environment
variable to disable automatically prepending potentially unsafe paths to sys.path



新しい型ヒントの機能:



PEP 646: Variadic generics
PEP 655: Marking individual TypedDict items as required or not-required
PEP 673: Self type
PEP 675: Arbitrary literal string type
PEP 681: Data class transforms



重要な非推奨化、削除と制限：



PEP 594: たくさんのレガシーの標準ライブラリのモジュールが非推奨になり Python 3.13 で削除されます。
PEP 624: Py_UNICODE エンコーダー API は削除されました
PEP 670:
Macros converted to static inline functions



