# CSS Selector

- 開発者ツール→特定の要素を選択→右クリック→Copy selectorでコピー

- セレクタの基本書式

| 書式 | 説明 |
| --- | --- |
| * | 全ての要素 |
| 要素名 | 要素名の要素（例）p div |
| .クラス名 | クラス名iをつけた要素 |
| #id名 | id属性をつけた要素 |

- セレクタ同士の関係を指定する書式
| 書式 | 説明 |
| --- | --- |
| セレクター, セレクター | 列挙された複数のセレクター（例）h1, h2 |
| セレクター セレクター | 下の階層の子孫要素（例）div h1 |
| セレクター > セレクター | 直下の階層の子要素（例）div>h1 |
| セレクター + セレクター | 同じ階層で直後に隣接している要素（例）h1+h2 |
| セレクター1 ~ セレクター2 | セレクター１からセレクター２までの要素（例）p~u|

- セレクターの属性による指定書式
| 書式 | 説明 |
| --- | --- |
| 要素[att] | 特定の属性名を持つ要素 |
| 要素[att="val"] | att属性にvalをいう値を持つ要素 |
| 要素[att~="val"] | att属性の値候補val（ホワイトスペース区切り）に一致した要素 |
| 要素[att | ="val"] | att属性の値がvalで始まる要素（ただしハイフン区切り） |
| 要素[att^="val"] | att属性の値がvalで始まる要素 |
| 要素[att*="val"] | att属性の値にvalを含む要素 |
| 要素[att$="val"] | att属性の値がvalで終わる要素 |
| 要素[att*="val"] | att属性の値にvalを含む要素 |

- 位置や状態を指定する書式
| 書式 | 説明 |
| --- | --- |
| 要素:root | ルートとなる要素 |
| 要素:nth-child(n) | n番目の子となる要素 |
| 要素:nth-last-child(n) | 後ろからn番目となる要素 |
| 要素:nth-of-type(n) | n番目のその種類の要素 |
| 要素:first-child | 子として最初の要素 |
| 要素:last-child | 子として最後の要素 |
| 要素:first-of-type | 最初のその種類の要素 |
| 要素:last-of-type | 最後のその種類の要素 |
| 要素:only-child | 子として唯一の要素 |
| 要素:only-of-type | 子として唯一の種類の要素 |
| 要素:empty | 要素内容が空となる要素 |
| 要素:lang(code) | 特定の言語にcodeを指定された要素 |
| 要素:not(s) | s以外の要素 |
| 要素:enabled | 有効なっているUI要素 |
| 要素:disabled | 無効となっているUI要素 |
| 要素:cheched | チェックされているUI要素 |

## 夏目漱石の作品一覧を取得

In [1]:
from bs4 import BeautifulSoup 
import urllib.request as req

url = "https://www.aozora.gr.jp/index_pages/person148.html"
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

li_list = soup.select("ol > li")
for li in li_list:
    a = li.a
    if a != None:
        name = a.string
        href = a.attrs["href"]
        print(name, ">", href)

イズムの功過 > ../cards/000148/card2314.html
一夜 > ../cards/000148/card1086.html
永日小品 > ../cards/000148/card758.html
岡本一平著並画『探訪画趣』序 > ../cards/000148/card2669.html
おはなし > ../cards/000148/card59017.html
思い出す事など > ../cards/000148/card792.html
カーライル博物館 > ../cards/000148/card1046.html
薤露行 > ../cards/000148/card769.html
学者と名誉 > ../cards/000148/card2383.html
硝子戸の中 > ../cards/000148/card760.html
元日 > ../cards/000148/card2674.html
鬼哭寺の一夜 > ../cards/000148/card58276.html
木下杢太郎『唐草表紙』序 > ../cards/000148/card2670.html
教育と文芸 > ../cards/000148/card778.html
京に着ける夕 > ../cards/000148/card777.html
京に着ける夕 > ../cards/000148/card55936.html
虚子君へ > ../cards/000148/card2373.html
草枕 > ../cards/000148/card776.html
虞美人草 > ../cards/000148/card761.html
ケーベル先生 > ../cards/000148/card770.html
ケーベル先生の告別 > ../cards/000148/card771.html
現代日本の開化 > ../cards/000148/card759.html
行人 > ../cards/000148/card775.html
坑夫 > ../cards/000148/card774.html
こころ > ../cards/000148/card773.html
『心』広告文 > ../cards/000148/card4689.html
『心』自序 > ../ca

## CSSセレクターの練習

In [2]:
from bs4 import BeautifulSoup 
fp = open("books.html", encoding="utf-8")
soup = BeautifulSoup(fp, "html.parser")

# CSSセレクタで検索する方法
sel = lambda q : print(soup.select_one(q).string)
sel("#nu")               # id属性がnuのものを取り出している。
sel("li#nu")             # nu属性にliタグがついたもの。
sel("ul > li#nu")        # 一階層上のulタグから検索。
sel("#bible #nu")        # bible属性の下のnu属性を指定。　
sel("#bible > #nu")      # 直接親子関係になっているもの。
sel("ul#bible > li#nu")  # idがbibleであるulタグ、その直下にあるidがnuであるliタグを取得。
sel("li[id='nu']")       # idがnuであるliタグを取得。
sel("li:nth-of-type(4)") # 4つ目のliを取得。

# その他の方法 
print(soup.select("li")[3].string)   # 4つ目を取得
print(soup.find_all("li")[3].string) # 4つ目を取得

Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers


## CSSセレクターで野菜・フルーツを選択

In [3]:
from bs4 import BeautifulSoup 
fp = open("fruits-vegetables.html", encoding="utf-8")
soup = BeautifulSoup(fp, "html.parser")

# CSSセレクタで選び出す
print(soup.select("li")[7].string) # liタグの8個目の要素を取り出す。
print(soup.select_one("#ve-list > li:nth-of-type(4)").string) # 野菜を表すidがve-listの直下にあるliタグの4個目の要素を取り出す。
print(soup.select("#ve-list > li[data-lo='us']")[1].string) # idがve-listの要素の直下にあるliタグのうち、data-lo属性がusのものを全て取り出し、その中の[1]の要素を取り出す。
print(soup.select("#ve-list > li.black")[1].string) # classがblackのなかの[1]の要素を取り出す。

# findメソッドで選び出す ---- (5)
cond = {"data-lo":"us", "class":"black"}   # data-lo属性がusで、class属性がblackのものを指定している。
print(soup.find("li", cond).string)

# findメソッドを二度組み合わせる --- (6)
print(soup.find(id="ve-list")  # idがve-listの要素を抽出。
          .find("li", cond).string)   # liタグで特定の条件を持つものを抽出。

アボカド
アボカド
アボカド
アボカド
アボカド
アボカド


## 正規表現

In [4]:
from bs4 import BeautifulSoup 
import re # 正規表現を使う時 --- (*1)

html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""
soup = BeautifulSoup(html, "html.parser")
# 正規表現でhrefからhttpsのものを抽出 --- (*2)
li = soup.find_all(href=re.compile(r"^https://"))
for e in li: print(e.attrs['href'])

https://example.com/fuga
https://example.com/foo
