# XPathとは
## XML文書の特定の要素や属性値の場所を指定する言語
### HTMLもXML同様のツリー構造なのでそのまま利用できる

#### XPathだけでも多様な記法や関数が存在するが、学習コストの兼ね合いから簡単ですぐ使えるものに留める
参考 : [クローラ作成に必須！XPATHの記法まとめ](https://qiita.com/rllllho/items/cb1187cec0fb17fc650a "Qiita")

In [44]:
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://scraping-for-beginner.herokuapp.com/ranking')
from selenium.webdriver.common.by import By

### Chromeの検証ツールで特定の要素を右クリック>Copy XPathと選択すると取得可能
#### 欲しい値の外側のIDやクラス名、要素名、属性名等から辿っていくより便利（な場合もある）

In [45]:
xpath = '/html/body/div[2]/div/div[3]/div[4]/dl[1]/dd[1]/span'

In [46]:
browser.find_element(By.XPATH, xpath).text

'4.6'

In [49]:
# classのような要素に紐づく属性は@で表す
# フルパス指定のほか、途中までのパスを省略可能
xpath = '//dd[@class="comment"]' # この場合途中までのパスに関係なく、全ての<dd class="comment">が対象になる

In [52]:
# 該当する要素が複数あればList形式で取得も可能
elems_comment = browser.find_elements(By.XPATH, xpath)

In [54]:
comments = []
for elem_comment in elems_comment:
    comments.append(elem_comment.text)
comments

['楽しくて帰りたくなかった',
 '非常に混んでいた',
 '海が非常に綺麗であった',
 '船で1時間ほどであった',
 'また行きたいと思える場所でした！！',
 '非常に空いていた',
 '信じられないような絶景であった',
 '飛行機で1時間ほどで着きました',
 '一人旅には最適でした',
 '時間帯によって混雑具合は違った',
 '景色に魅了された',
 '船で2時間ほどであった',
 'とてもエンジョイした',
 '空いていた',
 '大自然を感じることができた',
 '船で1時間ほどであった',
 'また行きたいと思える場所でした！！',
 '空いていた',
 '自然の素晴らしさを味わった',
 '渋滞に巻き込まれて3時間以上かかった',
 '１日中飽きることなく遊び続けられた',
 '時間帯によって混雑具合は違った',
 '自然の素晴らしさを味わった',
 '交通の便が悪かった',
 '楽しくて帰りたくなかった',
 '非常に混んでいた',
 '時を忘れるような壮大さであった',
 '市内から車で2時間ほどであった',
 '非常に楽しい場所であった',
 'お昼の時間はかなり混んでいた',
 '時を忘れるような壮大さであった',
 'アクセスはあまり良くなかった',
 '非常に楽しい場所であった',
 'お昼の時間はかなり混んでいた',
 '信じられないような絶景であった',
 'アクセスはあまり良くなかった',
 'THE非日常',
 'まぁまぁ混んでいた',
 '目を疑う超絶景であった',
 '渋滞に巻き込まれて3時間以上かかった']

In [55]:
# 指定する文字列が含まれている要素を一括取得: contains関数
# テキスト中に指定の言葉を含む全てのdd要素を取得する
xpath = "//dd[contains(text(), '自然')]"

In [56]:
elem_texts = browser.find_elements(By.XPATH, xpath)

In [57]:
texts = []

for elem_text in elem_texts:
    texts.append(elem_text.text)
texts

['大自然を感じることができた', '自然の素晴らしさを味わった', '自然の素晴らしさを味わった']

In [63]:
# or, and, notとそれらの組み合わせ条件も使える
# テキストに「自然」「時間」を含まないddタグを全て抽出
xpath = "//dd[not(contains(text(), '自然') or contains(text(), '時間'))]"
elem_texts = browser.find_elements(By.XPATH, xpath)
texts = []

for elem_text in elem_texts:
    texts.append(elem_text.text)
texts

['4.6',
 '楽しくて帰りたくなかった',
 '4.5',
 '非常に混んでいた',
 '4.9',
 '海が非常に綺麗であった',
 '4.2',
 '4.6',
 'また行きたいと思える場所でした！！',
 '4.5',
 '非常に空いていた',
 '4.9',
 '信じられないような絶景であった',
 '4.2',
 '4.5',
 '一人旅には最適でした',
 '4.4',
 '4.8',
 '景色に魅了された',
 '4.1',
 '4.4',
 'とてもエンジョイした',
 '4.4',
 '空いていた',
 '4.8',
 '4.0',
 '4.4',
 'また行きたいと思える場所でした！！',
 '4.3',
 '空いていた',
 '4.7',
 '4.0',
 '4.3',
 '１日中飽きることなく遊び続けられた',
 '4.3',
 '4.7',
 '3.9',
 '交通の便が悪かった',
 '4.2',
 '楽しくて帰りたくなかった',
 '4.2',
 '非常に混んでいた',
 '4.6',
 '時を忘れるような壮大さであった',
 '3.8',
 '4.2',
 '非常に楽しい場所であった',
 '4.2',
 '4.6',
 '時を忘れるような壮大さであった',
 '3.8',
 'アクセスはあまり良くなかった',
 '4.1',
 '非常に楽しい場所であった',
 '4.1',
 '4.5',
 '信じられないような絶景であった',
 '3.7',
 'アクセスはあまり良くなかった',
 '4.0',
 'THE非日常',
 '4.1',
 'まぁまぁ混んでいた',
 '4.4',
 '目を疑う超絶景であった',
 '3.6']

In [64]:
# 上記は同じく<dd>タグであり、「時間」「自然」を含まない「テキスト全て」なのでevaluateNumberの「数字テキスト」も抽出されている。
# 指定の条件を満たす「コメント」だけに絞りたい場合は以下のようにする
xpath = "//dd[@class='comment' and not(contains(text(), '自然') or contains(text(), '時間'))]"
elem_texts = browser.find_elements(By.XPATH, xpath)
texts = []

for elem_text in elem_texts:
    texts.append(elem_text.text)
texts

['楽しくて帰りたくなかった',
 '非常に混んでいた',
 '海が非常に綺麗であった',
 'また行きたいと思える場所でした！！',
 '非常に空いていた',
 '信じられないような絶景であった',
 '一人旅には最適でした',
 '景色に魅了された',
 'とてもエンジョイした',
 '空いていた',
 'また行きたいと思える場所でした！！',
 '空いていた',
 '１日中飽きることなく遊び続けられた',
 '交通の便が悪かった',
 '楽しくて帰りたくなかった',
 '非常に混んでいた',
 '時を忘れるような壮大さであった',
 '非常に楽しい場所であった',
 '時を忘れるような壮大さであった',
 'アクセスはあまり良くなかった',
 '非常に楽しい場所であった',
 '信じられないような絶景であった',
 'アクセスはあまり良くなかった',
 'THE非日常',
 'まぁまぁ混んでいた',
 '目を疑う超絶景であった']

In [70]:
# ちなみに、検証ツールからのCopy XPath時のdiv[3]などは並列要素（同階層）のn番目を表すdiv[position()=n]の省略形
# * は並列して存在する兄弟要素の集合(//に続く起点が<ul id="nav-mobile">なので、その子要素<li>全て)を表す
xpath = '//*[@id="nav-mobile"]/li[1]/a' # 画面上部のnavバーの最初のリンクである「ログイン」の場合(indexは0からでなく1から始まっている)
browser.find_element(By.XPATH, xpath).text

'ログイン'