# Python 2年生 スクレイピングのしくみ (How scraping works)

Chapter 2

## Lesson 04 HTMLを解析してみよう (Let's parse HTML)

In [2]:
import requests
from bs4 import BeautifulSoup

# Retrieve and analyze web pages
load_url = "https://www.ymori.com/books/python2nen/test1.html"
html = requests.get(load_url)
soup = BeautifulSoup(html.content, "html.parser")

# Display the entire HTML
print(soup)

<!DOCTYPE html>

<html>
<head>
<meta charset="utf-8"/>
<title>Python2年生</title>
</head>
<body>
<h2>第1章 Pythonでデータをダウンロード</h2>
<ol>
<li>スクレイピングってなに？</li>
<li>Pythonをインストールしてみよう</li>
<li>requestsでアクセスしてみよう</li>
</ol>
</body>
</html>


In [2]:
# Search and display title, h2, li tags
print(soup.find("title"))
print(soup.find("h2"))
print(soup.find("li"))

<title>Python2年生</title>
<h2>第1章 Pythonでデータをダウンロード</h2>
<li>スクレイピングってなに？</li>


In [3]:
# Search for title, h2, li tags and display their strings
print(soup.find("title").text)
print(soup.find("h2").text)
print(soup.find("li").text)

Python2年生
第1章 Pythonでデータをダウンロード
スクレイピングってなに？


In [5]:
# Retrieve and analyze web pages
load_url = "https://www.ymori.com/books/python2nen/test2.html"
html = requests.get(load_url)
soup = BeautifulSoup(html.content, "html.parser")

# Search for all li tags and display their strings
for element in soup.find_all("li"):
    print(element.text)

スクレイピングってなに？
Pythonをインストールしてみよう
requestsでアクセスしてみよう
HTMLを解析してみよう
青空文庫の作品を取得してみよう
リンク一覧をファイルに書き出そう
画像を一括ダウンロードしよう


In [6]:
# Search by ID and display the contents of that tag
chap2 = soup.find(id="chap2")
print(chap2)

<div id="chap2">
<h2>第2章 HTMLを解析しよう</h2>
<ol>
<li>HTMLを解析してみよう</li>
<li>青空文庫の作品を取得してみよう</li>
<li>リンク一覧をファイルに書き出そう</li>
<li>画像を一括ダウンロードしよう</li>
</ol>
</div>


In [7]:
# Search by ID and find and display all li tags in it
for element in chap2.find_all("li"):
    print(element.text)

HTMLを解析してみよう
青空文庫の作品を取得してみよう
リンク一覧をファイルに書き出そう
画像を一括ダウンロードしよう


## Lesson 05 ニュースの最新記事一覧を取得してみよう (Let's get a list of the latest news articles)

In [3]:
# Capture and analyze web pages
load_url = "https://www.nikkei-science.com/"
html = requests.get(load_url)
soup = BeautifulSoup(html.content, "html.parser")

# Search by class and find and display all a tags in it
topic = soup.find(class_="table-whatsnew-area large")
for element in topic.find_all("a"):
    print(element.text)


									The Hunt for Planet Nine / 発見なるか プラネット・ナイン
英語で読む日経サイエンス

									金吸着スポンジ〜日経サイエンス2025年5月号より
SCOPE ＆ ADVANCE

									光合成動物〜日経サイエンス2025年5月号より
SCOPE ＆ ADVANCE

									The Mystery of Matter / 電子の精密実験で迫る 消えた反物質の謎
英語で読む日経サイエンス

									小惑星「ベンヌ」にも生命の材料〜日経サイエンス2025年5月号より
SCOPE ＆ ADVANCE


## Lesson 06 リンク一覧をファイルに書き出そう (Export the list of links to a file)

In [4]:
import urllib
# Capture and analyze web pages
load_url = "https://www.ymori.com/books/python2nen/test2.html"
html = requests.get(load_url)
soup = BeautifulSoup(html.content, "html.parser")

# Search for all a tags and export links as absolute URLs
for element in soup.find_all("a"):
    print(element.text)
    url = element.get("href")
    link_url = urllib.parse.urljoin(load_url, url)
    print(link_url)

リンク1
https://www.ymori.com/books/python2nen/test1.html
リンク2
https://www.ymori.com/books/python2nen/test3.html


In [5]:
# Open a file in write mode
filename = "linklist.txt"
with open(filename, "w") as f:
    # Search for all a tags and export links as absolute URLs
    for element in soup.find_all("a"):
        url = element.get("href")
        link_url = urllib.parse.urljoin(load_url, url)
        f.write(element.text+"\n")
        f.write(link_url+"\n")
        f.write("\n")

## Lesson 07 画像を一括ダウンロードしよう (Let's download images in bulk)

In [9]:
from pathlib import Path

# Create a folder for saving
out_folder = Path("download")
out_folder.mkdir(exist_ok=True)

# Obtain image files
image_url = "https://www.ymori.com/books/python2nen/sample1.png"
imgdata = requests.get(image_url)

# Extract the last file name from the URL and connect it to the name of the folder where the file is saved.
filename = image_url.split("/")[-1]
out_path = out_folder.joinpath(filename)

# Export image data to a file
with open(out_path, mode="wb") as f:
    f.write(imgdata.content)

In [10]:
# Search all img tags and retrieve links
for element in soup.find_all("img"):
    src = element.get("src")

    # Absolute URL and display the file
    image_url = urllib.parse.urljoin(load_url, src)
    filename = image_url.split("/")[-1]
    print(image_url, ">>", filename)

https://www.ymori.com/books/python2nen/sample1.png >> sample1.png
https://www.ymori.com/books/python2nen/sample2.png >> sample2.png
https://www.ymori.com/books/python2nen/sample3.png >> sample3.png


In [12]:
import time
# Create a folder for saving
out_folder = Path("download2")
out_folder.mkdir(exist_ok=True)

# Search all mg tags and retrieve links
for element in soup.find_all("img"):
    src = element.get("src")

    # Create absolute URLs to retrieve image data
    image_url = urllib.parse.urljoin(load_url, src)
    imgdata = requests.get(image_url)

    # Extract the last file name from the URL and connect it to the folder for storage.
    filename = image_url.split("/")[-1]
    out_path = out_folder.joinpath(filename)

    # Export image data to a file
    with open(out_path, mode="wb") as f:
        f.write(imgdata.content)

    # Accessed once, wait one second.
    time.sleep(1)