# selenium
ウェブスクレイピングのライブラリ  
ウェブスクレイピング：Webサイトから特定の情報を抽出する技術  
使うブラウザはchromeがおススメ  
## 仕組み
Webサイトは部品の集まり  
一つ一つの部品（要素）に対し、Link（idのようなもの）が有る  
![image.png](attachment:bd465005-b7fc-44e2-9852-adf81a6ffb60.png)

このLinkに対して、clickや文字入力、テキスト読み取りなどのコマンドを実行する事でweb操作を実行する  

## ライブラリインポート
■コピペでインポート（機能は特に気にする必要なし）  
```python
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome import service as cs
```
■事前に下記ライブラリをpip install必要  
`pip install selenium`  
`pip install webdriver_manager`

In [1]:
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome import service as

## ドライバーインポート
動かすために最新のchromeドライバーを入れておく必要があるが、  
冒頭に下記のコードを入れておけば、毎回最新のドライバーをチェック→自動インストール可能
```python
chrome_service = cs.Service(ChromeDriverManager().install())
```

In [2]:
cs = service.Service(ChromeDriverManager().install())



Could not get version for google-chrome.Is google-chrome installed?
Get LATEST chromedriver version for None google-chrome
Driver [C:\Users\00090404308\.wdm\drivers\chromedriver\win32\101.0.4951.41\chromedriver.exe] found in cache


## chrome起動
■デフォルト起動
```python
driver = webdriver.Chrome(service=cs)
```
■オプション付きで起動
```python
options = webdriver.ChromeOptions()
options.add_argument("********")
driver = webdriver.Chrome(service=cs,options=options)
```

■オプション色々紹介：
[リンク](https://boardtechlog.com/2020/08/programming/seleniumchrome%E3%81%A7%E3%82%88%E3%81%8F%E4%BD%BF%E3%81%86chromeoptions%E3%81%BE%E3%81%A8%E3%82%81/)  
ex) プロキシなし（SUNSHINEなど社内ネットワーク内のサイトの場合）
```python
options.add_argument("--no-proxy-server")
```  

In [3]:
options = webdriver.ChromeOptions()
options.add_argument("--no-proxy-server")
driver = webdriver.Chrome(service=cs, options=options)



Could not get version for google-chrome.Is google-chrome installed?
Get LATEST chromedriver version for None google-chrome
Driver [C:\Users\00090404308\.wdm\drivers\chromedriver\win32\101.0.4951.41\chromedriver.exe] found in cache


```python
"""
★ここで初めてSeleniumを立ち上げた人は「UnicodeDecodeError」が出ると思うので、Jupyterを再起動して最初から実行しなおす

★「接続先のホストまたはネットワークが稼働していない可能性があります」などと出た人は、プロキシ設定がされていないので「32_proxy設定.ipynb」を見て環境変数の設定を行う  
★それでもプロキシを通過できない人は、下記のコードを追加する 
"""
import os
os.environ['HTTP_PROXY'] = "http://社員番号:パスワード@10.1.8.72:8080"
os.environ['HTTPS_PROXY'] = "http://社員番号:パスワード@10.1.8.72:8080"
os.environ['NO_PROXY'] = "localhost"
```

## サイトアクセス
```python
driver.get("http://***********")
```

In [4]:
# 京セラの人事労務HPにアクセス（Sunshine）
driver.get("http://jnjhp.in.kyocera.co.jp/fw/dfw/DMP/jp/top.html")


## 要素取得
```python
x = driver.find_element(by="方法", value="*******")
```
上記で x に要素のLinkが入る  
その後、`x.コマンド`で要素に対するコマンドが実行可能

要素取得_chrome操作：[参考](https://www.buildinsider.net/web/chromedevtools/01)  
要素取得_読み取り：[参考](https://qiita.com/VA_nakatsu/items/0095755dc48ad7e86e2f)  

- id属性で検索　… `by="id"`
- name属性で検索　… `by="name"`
- xpath属性で検索　… `by="xpath"`
- LinkText属性で検索　… `by="link text"`  
  文字列の一部で検索　… `by="partial link text"`

※他にも有り



In [5]:
x = driver.find_element(by="id",value="submit")
print(x.text)


送信


## コマンド実行
上記の要素`x`に対してコマンドを実行する

■ 文字入力
```python
x.send_keys("****")
```

■ 文字削除
```python
x.clear()
```

■クリック
```python
x.click()
```

■テキスト取得（なぜかカッコがないので注意）
```python
x.text
```

■要素取得と合わせて一行で書くことも可能
```python
driver.find_element(by="***", value="****").click()
```

■テーブルを取得してpd.DataFrameとして読み込む  
```python
import pandas as pd
table = driver.find_element(by="***", value="****")  #xpathでも、by="class name", value="datatable" とかでも読み込めたりする
html = table.get_attribute('outerHTML')
df = pd.read_html(html, header=0)
df = df[0]
```

※初回に実行した場合、「ImportError: lxml not found, please install it」が出る場合があります。  
　その場合はpip install lxmlでlxmlをインストールし、カーネルをリスタートしてください。

In [6]:
driver.find_element(by="name",value="ACCOUNTUID").send_keys("*********")
driver.find_element(by="name",value="PASSWORD").send_keys("*********")

## xpathについて
htmlはツリー構造で部品が格納されています。  
xpathは要素を特定するためのアドレスです。  
こちらに詳しく説明してあるので参考にしてください：  
[Xpathを使ったスクレイピングの方法](
https://webnation.co.jp/xpath%E3%82%92%E4%BD%BF%E3%81%A3%E3%81%9F%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%81%AE%E6%96%B9%E6%B3%95/)  
[【図解】XPathとは？基本概念から書き方までわかりやすく解説！](https://www.octoparse.jp/blog/xpath-introduction/)  

xpath → html/cody/h1  
<img src="attachment:f1516e82-217e-4cbb-bc8a-ba4d2b924421.png" width="400" height="300">  

■xpathの取得（コピー）方法  
ハンバーガーメニュー　→その他のツール　→デベロッパーツール  
または、F12キーを押す  
<img src="attachment:62878182-c10f-474c-8e5b-968559c1cab9.png" width="600" height="500">  

「Elements」の左側にある、□にカーソルのボタンを押す（青くなる）  
![image.png](attachment:619192a8-4a31-4f6f-bf90-54dc864283ea.png)

青くなった状態で左側のウィンドウに行くと、カーソルが当たった場所が青くなる  
→要素を取りたいところでクリック  
<img src="attachment:1e33d15a-344d-4906-ad98-ef75e95f9b59.png" width="600" height="500">  

クリックすると開発者ツール側のウィンドウが青く選択される（そこが選択した要素） 
<br>
<img src="attachment:ab63ed1c-8311-4487-ac21-3f87f02d98a7.png" width="600" height="500">  

開発者ウィンドウの青く選択された部分で右クリックし、Copy　→Copy full Xpath  
<img src="attachment:fdb9b699-de6e-4774-9190-efc3d0ab4268.png" width="600" height="500">  

In [7]:
driver.find_element(by="xpath", value="/html/body/div/div/div[2]/div[2]/form/div[3]/div/div/center/button[1]").click()


## 補足
### 要素取得時の注意：  

- 新しいwindowが開かれた場合は、新しいwindowへスイッチで切り替える必要あり
```python
driver.switch_to.window(driver.window_handles[-1])
x = driver.find_element(by="xpath", value="****")
```


- 大分類としてframeが存在する場合は、事前に対象のframeへスイッチで切り替える必要あり
```python
driver.switch_to.frame("frame名")
x = driver.find_element(by="xpath", value="****")
```


driver.switch_to.frame("frame1")  
xpath → html/body/h1  
![image.png](attachment:22bbeed1-e23e-4d0f-9bfb-b278d72be694.png)  

- Seleniumは画面を開いてクリックするのと同じなので、画面を開いて見えない要素は、idなどが取れていてもクリックできません。注意。  
（その場合は画面の最大化で対応する、邪魔なポップアップを消す動作をtryで入れるなど） 例：[seleniumにてButtonがクリックできない時の対処法](https://jpdebug.com/p/1196618)  

```python
# 画面の最大化
driver.maximize_window()
```

- 画面遷移がうまく行かないときなど、少し待つと良いかもです。参考：[Seleniumでのwaitの方法とは？様々な待機方法を紹介します！](https://www.fenet.jp/dotnet/column/language/python/7851/)  

```python
import time
time.sleep(5) # 5秒待つ

driver.implicitly_wait(20) # 要素が見つかるまで最大20秒待つ
```

In [8]:
driver.switch_to.frame("left")
driver.find_element(by="xpath", value="/html/body/table/tbody/tr[3]/td/div[2]/table/tbody/tr[11]/td/a/img").click()


In [9]:
driver.switch_to.window(driver.window_handles[-1])
driver.find_element(by="xpath", value="/html/body/div/div/table/tbody/tr/td[2]/div/form/table[2]/tbody/tr[2]/td/div[1]/ul/li[3]/a").click()
print(driver.current_url)


http://jnjhp.in.kyocera.co.jp/fw/dfw/CWS/cws/cws?@SID=null&@SUB=root.cws.shuro&@SN=root.cws&@FN=-167990413


In [10]:
# ドライバーを閉じる
driver.quit()

### Edgeで開く場合

【参考】  
[EdgeのWebDriver使用時に、自動更新させ、ヘッドレスモードで実行させる設定](https://automated.jp/2021/03/19/edge%E3%81%AEwebdriver%E4%BD%BF%E7%94%A8%E6%99%82%E3%81%AB%E3%80%81%E8%87%AA%E5%8B%95%E6%9B%B4%E6%96%B0%E3%81%95%E3%81%9B%E3%80%81%E3%83%98%E3%83%83%E3%83%89%E3%83%AC%E3%82%B9%E3%83%A2%E3%83%BC/)  

**注意その１**：webdriver-managerのバージョンが3.5.2.だと、Lib\site-packages\webdriver_manager\microsoft.py.に問題があって動かない  
→webdriver-managerをVer.Upしてください（2022/5現在、最新は3.5.4です）。
 ライブラリを修正（手動で書き換え）して3.5.2を使いたい人はこちら↓  
参考：[Initialising MSEdge Browser in python, getting TypeError: Level not an integer or a valid string: None](https://stackoverflow.com/questions/70418721/initialising-msedge-browser-in-python-getting-typeerror-level-not-an-integer-o)  
**注意その2**：上記参考リンク「EdgeのWebDriver使用時に、自動更新させ、ヘッドレスモードで実行させる設定」に従ってmsedge-selenium-toolsをインストールしてしまうと、  
Seleniumが自動的にバージョン3.141にダウングレードされてしまうので注意  
（このテキストのコードでは実行できなくなり、非推奨のコードで書かないといけなくなります）（やらかしました）  
Headlessモードでプロキシをかいくぐって表示する方法は発見できていないので、どなたか開発された方はご連絡ください。

In [1]:
# 社内Web
from selenium import webdriver
from webdriver_manager.microsoft import EdgeChromiumDriverManager
from selenium.webdriver.edge.options import Options

options = Options()
options.add_argument("--no-proxy-server")

driver = webdriver.Edge(EdgeChromiumDriverManager().install())
driver.get("http://jnjhp.in.kyocera.co.jp/fw/dfw/DMP/jp/top.html")
x = driver.find_element(by="id",value="submit")
print(x.text)

[WDM] - Could not get version for edge.Is edge installed?
[WDM] - Get LATEST edgedriver version for 101.0.1210.32 Edge
[WDM] - Driver [C:\Users\00090404308\.wdm\drivers\edgedriver\win64\101.0.1210.39\msedgedriver.exe] found in cache
  driver = webdriver.Edge(EdgeChromiumDriverManager().install())


送信


### 社外のWebサイトに繋ぐ場合
社外のWebサイトの場合は、プロキシ通過するために下記2通りの方法があります。  
両方ともheadlessモードでは動かせないので、実行するたびにSeleniumの画面が立ち上がります。ご了承ください。  
これ以外の良い方法を思いついた方は、ぜひご連絡ください。  

１）pyautoguiを使って出てきたポップアップに文字を入力する  

```python
import pyautogui
your_proxy_id = "*******"
your_proxy_pw = "*******"

pyautogui.typewrite(your_proxy_id)
pyautogui.press('tab')
pyautogui.typewrite(your_proxy_pw)
pyautogui.press('enter')
```

２）上記の方法がうまく行かない場合（pyautoguiで入力できない場合）、プロキシ接続用のZIPファイルを作り、社外Web接続時にZIPから接続情報を読み取る  
　最初に下記1つめのセルに従い、「proxy_auth_plugin.zip」という名前のzipファイルを作成  
　→zipファイルを作成できたら、接続するときに下記のコードを追加  
```python
pluginfile = 'proxy_auth_plugin.zip'
chrome_options.add_extension(pluginfile)
```

※zipファイルは一度生成できたら、次回からは作る必要はありません。  
※zipファイルはpythonコードが置いてあるフォルダと同じフォルダに置く必要があります。

In [7]:
# プロキシ通過プラグイン用zipファイル作成

import zipfile

your_proxy_id = 'あなたのプロキシID' # username
your_proxy_pw = 'あなたのプロキシPW' # password
proxy_host = '10.1.8.72'  
proxy_port = 8080

manifest_json = """
{
    "version": "1.0.0",
    "manifest_version": 2,
    "name": "Chrome Proxy",
    "permissions": [
        "proxy",
        "tabs",
        "unlimitedStorage",
        "storage",
        "<all_urls>",
        "webRequest",
        "webRequestBlocking"
    ],
    "background": {
        "scripts": ["background.js"]
    },
    "minimum_chrome_version":"22.0.0"
}
"""

background_js = """
var config = {
        mode: "fixed_servers",
        rules: {
        singleProxy: {
            scheme: "http",
            host: "%s",
            port: parseInt(%s)
        },
        bypassList: ["localhost"]
        }
    };

chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});

function callbackFn(details) {
    return {
        authCredentials: {
            username: "%s",
            password: "%s"
        }
    };
}

chrome.webRequest.onAuthRequired.addListener(
            callbackFn,
            {urls: ["<all_urls>"]},
            ['blocking']
);
""" % (proxy_host, proxy_port, your_proxy_id, your_proxy_pw)

pluginfile = 'proxy_auth_plugin.zip'
with zipfile.ZipFile(pluginfile, 'w') as zp:
    zp.writestr("manifest.json", manifest_json)
    zp.writestr("background.js", background_js)


In [1]:
# Chromeを使用していますが、Edgeでもoptionsにプラグインファイルを追加するところは一緒だと思います

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome import service as cs

chrome_options = webdriver.ChromeOptions()

# プラグインファイルでプロキシ情報をoptionsに追加
pluginfile = 'proxy_auth_plugin.zip'
chrome_options.add_extension(pluginfile)

chrome_service = cs.Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=chrome_service, chrome_options=chrome_options)

driver.get("https://www.nasa.gov")
print(driver.current_url)



Could not get version for google-chrome.Is google-chrome installed?
Get LATEST chromedriver version for None google-chrome
Driver [C:\Users\00090404308\.wdm\drivers\chromedriver\win32\101.0.4951.41\chromedriver.exe] found in cache
  driver = webdriver.Chrome(service=chrome_service, chrome_options=chrome_options)


https://www.nasa.gov/


# 問題
seleniumを使って、自分の打刻時間を読み取ってprintする  
「SUNSHINE　LOGIN」→「人事WEBService」→「就業管理Web」→「照会」→「打刻履歴」→「検索」→　打刻時間読み取り