# Webスクレイピング

## ライブラリのインストール
- requests
- beautifulsoup4
```
pip install requests beautifulsoup4
```

In [3]:
# Wikipediaの「今日は何の日」を取得する
import requests
from bs4 import BeautifulSoup

url = "https://ja.wikipedia.org/"
response = requests.get(url)

soup = BeautifulSoup(response.content, "html.parser")
today = soup.find("div", attrs={"id": "on_this_day"}).text
print(today)


今日は何の日 2月10日

バグダードの戦いによりアッバース朝が滅亡（1258年）
英海軍の戦艦ドレッドノートが進水（1906年）
帝国劇場落成（1911年）
パリ平和条約調印（1947年）
ソ連でジダーノフ批判が始まる（1948年）
高エネルギー物理学研究所が日本最初のホームページを開設（1993年）
IBMのコンピューター・ディープ・ブルーがチェスチャンピオンのガリー・カスパロフに初勝利（1996年）
神戸連続児童殺傷事件：第一の事件が発生（1997年）
W3CがXMLを提唱（1998年）
えひめ丸事故（2001年、日本時間）
トリノオリンピック開幕（2006年）



In [2]:
# today_list = []
# index = 1

today = soup.find("div", attrs={"id": "on_this_day"})
entries = today.find_all("li")

# for entry in entries:
#     today_list.append([index, entry.get_text()])
#     index += 1
# print(today_list)

# for i in range(len(entries)):
#     print(i+1, entries[i].get_text())

for i,  entry in enumerate(entries):
    print("%d: %s" % (i+1, entry.get_text()))

1: バグダードの戦いによりアッバース朝が滅亡（1258年）
2: 英海軍の戦艦ドレッドノートが進水（1906年）
3: 帝国劇場落成（1911年）
4: パリ平和条約調印（1947年）
5: ソ連でジダーノフ批判が始まる（1948年）
6: 高エネルギー物理学研究所が日本最初のホームページを開設（1993年）
7: IBMのコンピューター・ディープ・ブルーがチェスチャンピオンのガリー・カスパロフに初勝利（1996年）
8: 神戸連続児童殺傷事件：第一の事件が発生（1997年）
9: W3CがXMLを提唱（1998年）
10: えひめ丸事故（2001年、日本時間）
11: トリノオリンピック開幕（2006年）


In [14]:
# CSVファイルに出力する
import csv

today_list = []
for i, entry in enumerate(entries):
    today_list.append([i+1, entry.get_text()])

with open("output.csv", "w", encoding="Shift_JIS") as f:
    writer = csv.writer(f, lineterminator="\n")
    writer.writerows(today_list)

In [24]:
# 正規表現を使う
import re

today_list = []
for i, entry in enumerate(entries):
    today_text = entry.get_text()
    today_text = today_text.replace("（", "(").replace("）", ")")
    match = re.search("\(([1-9].*?)年\)", today_text)
    if match:
        today_list.append([i+1, today_text, match.group(1)])    
    else:
        today_list.append([i+1, today_text, ""])

with open("output.csv", "w", encoding="Shift_JIS") as f:
    writer = csv.writer(f, lineterminator="\n")
    writer.writerows(today_list)

### はてなブックマーク

In [27]:
url = "https://b.hatena.ne.jp/"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

top_entry = soup.find("section", attrs={"class": "entrylist-unit"})
entries = top_entry.find_all("h3", attrs={"class": "entrylist-contents-title"})

for entry in entries:
    print(entry.find("a").get("title"))

Twitterで凍結祭りが開催中と騒ぎに。外部サービスと連携しているアカウントが永久凍結に？（篠原修司） - 個人 - Yahoo!ニュース
しげる on Twitter: "「回転寿司屋で醤油舐めたりして一体何が面白いのか」と昨日ワイフに聞かれたので、そこまでハードな悪事を働いておらず（←ここが重要）頭の緩い田舎のヤンキーは、身の回りのあらゆる物事にチキンレース性を見出して実行し、それを自慢することで仲間内で「伝説」を作る生き物なのだと説明した"
授業で日本語の「いる」と「ある」の違いを説明したら学生がうっとりした
眼鏡の曇り止めの使い方間違えてた
マスクCEO、Twitterの無料API終了は「悪質なbotの排除」と説明　有料APIは月100ドル程度に
近親婚に対する反論が同性婚反対派のそれと区別つかないのマジウケるな。 ..
「俺の仕事が信用できないんですか？」工場でダブルチェックを嫌がる若い子を納得させた『チェックする理由』の言い方が素敵
卒業式や入学式でのマスク着用 推奨しないことを検討 政府 | NHK
岸田首相、教えて？「なぜ防衛費をあげるのですか」　世田谷の小学6年生たちが質問の手紙：東京新聞 TOKYO Web


In [31]:
top_entry = soup.find("section", attrs={"class": "entrylist-unit"})
entries = top_entry.find_all("div", attrs={"class": "entrylist-contents"})

for entry in entries:
    title_tag = entry.find("h3", attrs={"class": "entrylist-contents-title"})
    title = title_tag.find("a").get("title")
    print(title)

    users_tag = entry.find("span", attrs={"class": "entrylist-contents-users"})
    users = users_tag.get_text().strip()
    print(users)

Twitterで凍結祭りが開催中と騒ぎに。外部サービスと連携しているアカウントが永久凍結に？（篠原修司） - 個人 - Yahoo!ニュース
480 users
しげる on Twitter: "「回転寿司屋で醤油舐めたりして一体何が面白いのか」と昨日ワイフに聞かれたので、そこまでハードな悪事を働いておらず（←ここが重要）頭の緩い田舎のヤンキーは、身の回りのあらゆる物事にチキンレース性を見出して実行し、それを自慢することで仲間内で「伝説」を作る生き物なのだと説明した"
411 users
授業で日本語の「いる」と「ある」の違いを説明したら学生がうっとりした
358 users
眼鏡の曇り止めの使い方間違えてた
370 users
マスクCEO、Twitterの無料API終了は「悪質なbotの排除」と説明　有料APIは月100ドル程度に
226 users
近親婚に対する反論が同性婚反対派のそれと区別つかないのマジウケるな。 ..
327 users
「俺の仕事が信用できないんですか？」工場でダブルチェックを嫌がる若い子を納得させた『チェックする理由』の言い方が素敵
219 users
卒業式や入学式でのマスク着用 推奨しないことを検討 政府 | NHK
326 users
岸田首相、教えて？「なぜ防衛費をあげるのですか」　世田谷の小学6年生たちが質問の手紙：東京新聞 TOKYO Web
279 users


In [39]:
url = "https://b.hatena.ne.jp"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
top_entry = soup.find("section", attrs={"class": "entrylist-unit"})
entries = top_entry.find_all("div", attrs={"class": "entrylist-contents"})

for entry in entries:
    title_tag = entry.find("h3", attrs={"class": "entrylist-contents-title"})
    title = title_tag.find("a").get("title")
    print(title)

    bookmark_tag = entry.find("span", attrs={"class": "entrylist-contents-users"})
    bookmark_link = bookmark_tag.find("a").get("href")
    bookmark_url = url + bookmark_link

    response = requests.get(bookmark_url)
    soup = BeautifulSoup(response.content, "html.parser")
    comments = soup.find_all("span", attrs={"class": "entry-comment-text"})
    for comment in comments:
        print(comment.get_text())

Twitterで凍結祭りが開催中と騒ぎに。外部サービスと連携しているアカウントが永久凍結に？（篠原修司） - 個人 - Yahoo!ニュース
明らかに今がTwitterの競合サービスを打ち出す最大のチャンスなので、戦国時代のように世界中で我こそはと名乗りを上げているはず。乗り越えるサービスが出てきてほしい。
なんやかんやこれは分水嶺な気がするなぁ。凍結されたら再度垢作ったり、異議申し立てて解除を待つ魅力はTwitterにはもう無い。
注意喚起(?)で電話番号の登録しときな！って見たけど、Twitterが原因なのにTwitterに個人情報を…！？！？？と思って何もしてない。
はてブ連携で凍結されてる。記録ログ用に鍵垢ではてブ連携しか投稿してない垢が凍結された。通常の連携以外の投稿してないのが良くなかった可能性もあるが、投稿してても変わらなかったろうな／携帯番号は未登録垢
自動投稿されるサービスの利用で凍結、まさかー、と思ったけど、マシュマロ公式が凍結されているのは説得力ある。自衛にいくつか解除しておこうか……本当にTwitterさんどうなってるの……？
サービスをどれくらいの速さで自壊させられるかの実験を見ているような気分になってきたな
今まで何度かこう云うのはあったが、どんなに不満があってもやはりツイッターじゃないとダメだって人が多くて結局は支持されてきたし、それを見透かした上での施策なんじゃないかなあ。
Twitterの先週の発表「凍結基準を、緩和します」https://news.livedoor.com/lite/article_detail/23620571/
「常に最悪のケースを想定しろ。奴は必ずその少し斜め上を行く！」が一晩明けて早くも発動か。はてブの連携も対象なんかなー。連携以外の普通のツイートは減ったので、連携できないならいよいよ自分は辞められそう。
Twitter連携めんどすぎて最近はGoogleの方にしてるが、ゲームのスクショ転送方法がいよいよメールかusbになってきた
ただでさえ少ない俺の貴重なフォロワーが１０人くらい消えていた…
“筆者は『マシュマロ』のほかに、『IFTTT』による自動投稿サービスを利用していました。まだ凍結されていない人は、いまのうちにこれらのサービスとの連携を一時停止した方が良いかもしれません”
Twitterを頼りに生きて

In [41]:
# Python公式サイト
url = "https://docs.python.org/ja/3/whatsnew/3.11.html"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

summary = soup.find("section", attrs={"id": "summary-release-highlights"})
paragraphs = summary.find_all("p")
for element in summary.children:
    print(element.get_text())





概要 -- リリースハイライト¶



Python 3.11 は Python 3.10 とくらべて 10-60% 高速です。平均的には、標準ベンチマークスイートでは 1.25倍の高速化を計測しました。詳細については Faster CPython を見てください。



新たな文法機能:



PEP 654: Exception Groups and except*



新たな組み込み機能:



PEP 678: Exceptions can be enriched with notes



新しい標準ライブラリのモジュール：



PEP 680: tomllib — TOML のパースを標準ライブラリでサポート



インタプリタの改善:



PEP 657: Fine-grained error locations in tracebacks
New -P command line option and PYTHONSAFEPATH environment
variable to disable automatically prepending potentially unsafe paths to sys.path



新しい型ヒントの機能:



PEP 646: Variadic generics
PEP 655: Marking individual TypedDict items as required or not-required
PEP 673: Self type
PEP 675: Arbitrary literal string type
PEP 681: Data class transforms



重要な非推奨化、削除と制限：



PEP 594: たくさんのレガシーの標準ライブラリのモジュールが非推奨になり Python 3.13 で削除されます。
PEP 624: Py_UNICODE エンコーダー API は削除されました
PEP 670:
Macros converted to static inline functions





In [8]:
import requests
from bs4 import BeautifulSoup

url = "https://qiita.com"
keyword = "スクレイピング"
response = requests.get(url + "/search?q=" + keyword)
soup = BeautifulSoup(response.content, "html.parser")

main = soup.find("div", attrs={"class": "mainWrapper"})
articles = main.find_all("article")
for article in articles:
    title = article.find("h2").get_text()
    link_url = url + article.find("h2").find("a").get("href")
    time = article.find("time").get_text()
    print(title, link_url, time)

[スクレイピング] Pythonスクレイピング https://qiita.com/osorezugoing/items/8706bdb77eb75d09fd76 2020/05/06
スクレイピング1　Pythonによるスクレイピング https://qiita.com/ngayope330/items/e72706d4e2e58773a494 2020/09/28
スクレイピング2　スクレイピングのやり方 https://qiita.com/ngayope330/items/15efc8a4c76ec347fa71 2020/09/29
スクレイピングとか https://qiita.com/aimainn/items/d16dbd9599253d45f30e 2022/03/16
スクレイピングとは https://qiita.com/shinoshishino/items/60b4811ca5a455a0effb 2021/03/02
スクレイピングについて https://qiita.com/takkii/items/8d9c3f9601e265d94bb0 2020/11/23
スクレイピング https://qiita.com/taka22/items/9de281c218e1e0fd32aa 2019/06/24
スクレイピングとは？Webスクレイピングを簡単に解説 https://qiita.com/ScrapeStorm-JP/items/d320fe730b779bec60f5 2020/08/25
現場のスクレイピング https://qiita.com/kawagoe6884/items/889f8f2cf816439c026b 2022/11/29
スクレイピングのメモ https://qiita.com/kujirahand/items/433eca4976bb57799ad1 2022/04/15


In [16]:
# # reponse = requests.get(url)
# # soup = BeautifulSoup(response.content, "html.parser")
# # login_form = soup.find("form", attrs={"name": "inputfrm"})

# session = requests.session()
# login_url = "https://cybermissions.co.jp/cgi-def/dneo/dneor.cgi"
# payload = 
# soup = BeautifulSoup(response.content, "html.parser")
# print(soup)

200
{"status":"ok","rssid":"ACHRNeNMPNPGeL@\\MiLwCG`RLXFTN","STOKEN":"f41ff240a54b4aa7557a32e8dee9dd63","Name":"\u9ed2\u6fa4\u77ad\u4ecb","id":"61","Group":"4","Mail":"r.kurosawa@cybermissions.co.jp","UserID":"r.kurosawa"}


  soup = BeautifulSoup(status.content, "html.parser")


<!DOCTYPE html>
<html lang="ja"><head><meta charset="utf-8"/><title>Search result of “スクレイピング” - Qiita</title><meta content="width=device-width,initial-scale=1,shrink-to-fit=no,viewport-fit=cover" name="viewport"/><meta content="#55c500" name="theme-color"/><meta content="XWpkTG32-_C4joZoJ_UsmDUi-zaH-hcrjF6ZC_FoFbk" name="google-site-verification"/><meta content="telephone=no" name="format-detection"/><link href="https://qiita.com/search?q=%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0" rel="canonical"/><link href="/manifest.json" rel="manifest"/><link href="/opensearch.xml" rel="search" title="Qiita" type="application/opensearchdescription+xml"/><link as="script" href="https://www.googletagservices.com/tag/js/gpt.js" rel="preload"/><link href="https://securepubads.g.doubleclick.net" rel="preconnect"/><script async="" src="https://www.googletagservices.com/tag/js/gpt.js"></script><meta content="authenticity_token" name="csrf-param"/>
<meta content="rAhJZTimeHrYpsJtnZJU