# webスクレイビング
* Beautiful soup : HTMLの読み取り、構造解析のためのライブラリ
* selenium : ブラウザ操作を自動化することができるライブラリ

## BeautifulSoupによるスクレイピング

#### ライブラリのインポート
* requestsとbs4。

In [17]:
import requests
from time import sleep
from bs4 import BeautifulSoup

#### requestでページ情報を取得

In [50]:
url = 'https://yahoo.co.jp'
res = requests.get(url)
res.status_code
print(res)

<Response [200]>


#### BeautifulSoupによる構造解析
* #html.parser:HTMLの構造を解析するもの
* 変数soupにhtml_docの構造解析したものを格納
* .prettify()で構造を見やすくした形で出力できる

In [45]:
html_doc = res.text
print(html_doc[7:500])
print('\n' + '-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*' + '\n')
soup = BeautifulSoup(html_doc, 'html.parser') # htmlドキュメントを解析
print(soup.prettify()[:500]) # prettifyでさらに構造をわかりやすく表示

PE html><html lang="ja"><head><meta charSet="utf-8"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><title>Yahoo! JAPAN</title><meta name="description" content="あなたの毎日をアップデートする情報ポータル。検索、ニュース、天気、スポーツ、メール、ショッピング、オークションなど便利なサービスを展開しています。"/><meta name="robots" content="noodp"/><meta name="viewport" content="width=1010"/><link rel="dns-prefetch" href="//s.yimg.jp"/><link rel="dns-prefetch" href="//yads.c.yimg.jp"/><meta name="google-site-verification" content="fsLMOiigp5fIpCDME

-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*

<!DOCTYPE html>
<html lang="ja">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
  <title>
   Yahoo! JAPAN
  </title>
  <meta content="あなたの毎日をアップデートする情報ポータル。検索、ニュース、天気、スポーツ、メール、ショッピング、オークションなど便利なサービスを展開しています。" name="description"/>
  <meta content="noodp" name="robots"/>
  <meta content="width=1010" name="viewport"/>
  <link href="//s.yimg.jp" rel="dns-prefetch"/>
  <link href="//yads.c.yimg.jp" rel="

#### タグによるデータ取得
* p_0 = soup.find_all('p')[0] #1番目のpタグを取得
* find_allメソッドはリストのような形式になっているので、pタグすべて取得し、リスト番号で選択することが可能

#### 

In [28]:
p_0 = soup.find_all('p')[0] #1番目のpタグを取得
print(p_0)
t_all = soup.find_all('title') #find_allでタグの物を全て取得
print(t_all)

<p class="oLvk9L5Yk-9JOuzi-OHW5"><span class="t_jb9bKlgIcajcRS2hZAP">PayPay STEP</span><span class="_2Uq6Pw5lfFfxr_OD36xHp6 _1dr5aVDbNPF63JCS2bJhij _18UPg6R6cxJSC9JHKF8juc" style="width:38px;height:38px"></span></p>
[<title>Yahoo! JAPAN</title>]


#### タグ名指定で情報取得
* タグ名指定でも取得可能
* タグ名＋textで中身だけ抽出

In [30]:
soup.title
soup.title.text

'Yahoo! JAPAN'

#### タグ名取得の範囲を絞る
* 情報を取得する範囲を絞る。タグを指定し、attrs引数で絞る(classを指定して取得)
* .textでテキストを抽出(.get_text()でも可)

In [37]:
# attrsでclass指定
head_news = soup.find_all('h1', attrs={'class' : '_3cl937Zpn1ce8mDKd5kp7u'})
top_topic = soup.find_all('h1', attrs={'class' : '_3cl937Zpn1ce8mDKd5kp7u'})[0]
print(top_topic.text)

# 範囲指定
top_topic_all = soup.find_all('h1', class_= '_3cl937Zpn1ce8mDKd5kp7u')  
print(top_topic_all[0].get_text())

露 西部リビウをミサイル攻撃か
露 西部リビウをミサイル攻撃か


#### 間隔をあけて情報を読み取り
* for loop間にsleepを入れる

In [38]:
for head_new in head_news :
    print(head_new.text)
    sleep(2)

露 西部リビウをミサイル攻撃か
九州-東北は気温上昇 暑さ対策を
海底の船内にカメラ 手がかりなし
教員から性暴力 23年後にPTSD
組関連施設に車が突入 容疑者逮捕
日系初の米閣僚 ミネタ氏が死去
大谷スタメン 股関節張りから復帰
リバプール後半3ゴール CL決勝へ


#### タグの指定
* aタグ : ページ遷移のためのhtmlタグ。
* a href="xxxx" xxxxに遷移先のURLを記載

In [95]:
soup.find_all('a') # aタグ取得
lists = soup.find_all('a')[7:20] # 範囲指定して取得
print(lists[0].string) # 指定した範囲のテキストを取得
print(lists[0].attrs['href']) # attrsを指定してURLを取得

ウェブ
https://search.yahoo.co.jp/


In [108]:
# タイトルとURLのリストを作成
topic = []
url = []

for li in lists :
    topic.append(li.string)
    url.append(li.attrs['href'])

In [121]:
# リストを表にして書き出し
import pandas as pd
df = pd.DataFrame({'topic':topic, 'URL':url})
df = df.dropna(how='any') # 欠損値除外
print(df[:5])

  topic                               URL
0   ウェブ       https://search.yahoo.co.jp/
1    画像  https://search.yahoo.co.jp/image
2    動画  https://search.yahoo.co.jp/video
3   知恵袋   https://chiebukuro.yahoo.co.jp/
4    地図          https://map.yahoo.co.jp/


#### 特定の文字列を含む要素を抽出
* str.contains('xxxx') 特定の文字列を含む場合True
* str.startswith('xxxx') 特定の文字列で始まる, str.endswith('xxxx') 特定の文字列で終わる

In [123]:
df[df['topic'].str.contains('画像')]

Unnamed: 0,topic,URL
1,画像,https://search.yahoo.co.jp/image


## seleniumによるスクレイピング
* ChromeDriverによってブラウザを操作する。Google Chromeのver.に合ったChromeDriverをインストールする。

#### ライブラリのインポート
* Seleniumとtime。timeは処理待ちや、サーバーに負荷をかけないため。

In [125]:
from selenium import webdriver
from time import sleep

In [2]:
# アクセスするためのアカウントとパスワード
USER = 'test_user'
PASS = 'test_pw'

#### ブラウザの起動と終了

In [128]:
chromedriver_path = r'C:\Users\sohda\.vscode\chromedriver\chromedriver.exe'

In [126]:
browser = webdriver.Chrome(executable_path = chromedriver_path)
# ChromeDriverのパスを記述
# brouserはインスタンスとして起動。インスタンスを2つ作りたい場合は変数を変える。
sleep(5)
url = 'https://yahoo.co.jp'
browser.get(url) # get()メソッドで指定したURLへ遷移

browser.quit() 

  browser = webdriver.Chrome(executable_path = chromedriver_path)


In [129]:
browser = webdriver.Chrome(chromedriver_path)
url = 'https://yahoo.co.jp'
browser.get(url)
sleep(3)
print('ページにアクセスしました。')

  browser = webdriver.Chrome(chromedriver_path)


ページにアクセスしました。


#### 要素の指定
* ブラウザから検証を選択、調べたい要素を選択。classやidなどを元にコードに記載
* browser.find_element_by_xxxx() で要素を指定する

In [16]:
elems_class = browser.find_elements_by_class_name('_3cl937Zpn1ce8mDKd5kp7u')
for elem in elems_class :
    news_title = elem.text
    print(news_title)

改憲論に勢い「危機便乗」批判も
ロシア 制裁企業向け輸出など禁止
露側が設置「収容施設」で拷問か
高速道路 上りピーク予想は5日
JRの「廃線」匂わせ 住民ら困惑
ハワイの両替所「円がない」なぜ
まさか 7失点オリ由伸「悔しい」
「おめでた」聞かないで アナ思い


  elems_class = browser.find_elements_by_class_name('_3cl937Zpn1ce8mDKd5kp7u')


#### 要素に入力
* find_element_by_xxxx で要素を指定
* clear()メソッドでいったん空欄を空にする
* send_keys()メソッドで要素に入力

In [None]:
element = browser.find_element_by_id('xxxx')
element.clear()
element.send_keys('xxxx')

#### フォームを送信
* click()メソッドで情報を送信

In [None]:
browser_from = browser.find_element_by_name('xxxx')
time.sleep(3)
browser_from.click()
print('情報を入力, ログインボタンを押しました")

#### HTMLのID、class、nameがわからない場合の要素の指定方法
* HTMLのIDやnameが分からないときに、要素を右クリックし'copy_full_xpath'で要素を取得
* find_element_by_xpath()の引数にパスを指定する

#### ファイルのダウンロード
* ダウンロードの要素を指定し、click()メソッドでダウンロードを行う

## 応用操作編

#### 複数のウインドウハンドルを取得

In [131]:
chromedriver_path = r'C:\Users\sohda\.vscode\chromedriver\chromedriver.exe'
browser_2 = webdriver.Chrome(chromedriver_path)
url = 'https://yahoo.co.jp'
browser_2.get(url)

  browser_2 = webdriver.Chrome(chromedriver_path)


#### 制御ウィンドウの切り替え
* カレントウインドウ(制御対象)のハンドルのみを取得する : current_window_handle
* カレントセッション(指定したインスタンス)全てのハンドルを取得 : window_handles
* window_handlesは複数取得したウインドウハンドルをswitch_to_window(xxx)で指定し制御を切り替え出来る。

In [138]:
w_lists = browser_2.window_handles

for w_list in w_lists : 
    print(w_list)
    browser_2.switch_to.window(w_list)
    sleep(2)

CDwindow-5CED8D7EE6769767D1F8DDC37064E299
CDwindow-DBAB60834DF7AC41EC5DB168742497F3
CDwindow-C22A1796C4E70C3F8718889D64200CAF
CDwindow-B8E8B757BD5D688FC5DFB9FB178F7896


In [140]:
w_lists = browser_2.window_handles
browser_2.switch_to.window(w_lists[0])

In [35]:
print(browser.current_url)
print(browser.current_window_handle)

https://news.yahoo.co.jp/pickup/6414252
CDwindow-EF6B153D56E1C9EFF8F870CFAB581029


#### リンクの取得
* try-except : エラーが起きない場合と、起きた場合の処理を記入

In [None]:
links = []

for i in range(len(get_a_tag)) : 
    try :
        link_ = get_a_tag[i].get('href')
        links.append(link_)
    except :
        pass # エラーを無視

## 取得コード例

#### ページ情報の取得

In [5]:
import requests
from bs4 import BeautifulSoup

# URLを取得
url = 'https://www.furusato-tax.jp/area/prefecture/31?area_prefecture'
html = requests.get(url).text

# BeautifulSoup4で解析
soup = BeautifulSoup(html, 'html.parser')

# CSSセレクタで a タグの class=indextile の要素一覧を取得
a_list = soup.find_all('a', attrs={'class' : 'navigation--local__link--bold is-active'})
b_list = soup.find_all('span', attrs={'class' : 'city-name__text js-city-name'})

# 取得した後、繰り返し a タグの一覧を繰り返す
for a in a_list:
    # リンク先(href属性)を表示
    print(a.attrs['href'])

for b in b_list:
    print(b)

/city/product/31302
/city/product/31203
/city/product/31403
/city/product/31371
/city/product/31204
/city/product/31386
/city/product/31328
/city/product/31000
/city/product/31201
/city/product/31389
/city/product/31401
/city/product/31384
/city/product/31402
/city/product/31390
/city/product/31372
/city/product/31364
/city/product/31329
/city/product/31370
/city/product/31202
/city/product/31325
<span class="city-name__text js-city-name">岩美町</span>
<span class="city-name__text js-city-name">倉吉市</span>
<span class="city-name__text js-city-name">江府町</span>
<span class="city-name__text js-city-name">琴浦町</span>
<span class="city-name__text js-city-name">境港市</span>
<span class="city-name__text js-city-name">大山町</span>
<span class="city-name__text js-city-name">智頭町</span>
<span class="city-name__text js-city-name">鳥取県</span>
<span class="city-name__text js-city-name">鳥取市</span>
<span class="city-name__text js-city-name">南部町</span>
<span class="city-name__text js-city-name">日南町</span>
<span 

#### リンク先の相対URLを絶対URLに変換

In [16]:
import os
url = 'https://www.furusato-tax.jp/area/prefecture/31?area_prefecture'
for a in a_list:
    # リンク先(href属性)を表示
    href = a.attrs['href']
    full = url + r'/' + href
    print("url=", full)

url= https://www.furusato-tax.jp/area/prefecture/31?area_prefecture//city/product/31302
url= https://www.furusato-tax.jp/area/prefecture/31?area_prefecture//city/product/31203
url= https://www.furusato-tax.jp/area/prefecture/31?area_prefecture//city/product/31403
url= https://www.furusato-tax.jp/area/prefecture/31?area_prefecture//city/product/31371
url= https://www.furusato-tax.jp/area/prefecture/31?area_prefecture//city/product/31204
url= https://www.furusato-tax.jp/area/prefecture/31?area_prefecture//city/product/31386
url= https://www.furusato-tax.jp/area/prefecture/31?area_prefecture//city/product/31328
url= https://www.furusato-tax.jp/area/prefecture/31?area_prefecture//city/product/31000
url= https://www.furusato-tax.jp/area/prefecture/31?area_prefecture//city/product/31201
url= https://www.furusato-tax.jp/area/prefecture/31?area_prefecture//city/product/31389
url= https://www.furusato-tax.jp/area/prefecture/31?area_prefecture//city/product/31401
url= https://www.furusato-tax.jp