### 概要
#### Requests によるスクレイピングの限界
request によるスクレイピングは、HTML ソースコードをダウンロードし、正規表現で必要な情報を切り出して利用する。
このやり方はソースコードのパターン次第ではデータ漏れが発生する可能性もある。
ウェブサイトを構造として解析する場合は向いていない。


In [1]:
import requests
from bs4 import BeautifulSoup

ADDRESS = 'https://www.tuyano.com/index2?id=505001'
resp = requests.get(ADDRESS)
data = resp.text

soup = BeautifulSoup(data, 'lxml')    # Instance BeautifulSoup Object
print('タイトル : ' + soup.head.title.string)

タイトル : 初心者のためのPython入門 - libro


BeautifulSoup(対象, [, パーサー])<br>
パーサーを用いて対象を BeautifulSoup オブジェクトにする。<br>
標準パーサー<br>
'html.parser'<br>
高速パーサー<br>
'lxml'<br>
``` Python
BeautifulSoup beautifulsoup
beautifulsoup = BeautifulSoup(data, parser)
beautifulsoup.tag1.tag2.tag3.......
```
BeautifulSoup 型インスタンス beautifulsoup が \<html> タグとなっている。<br>
beautifulsoup のメンバ tag1 が \<html> の中の \<tag1> タグとなっている。<br>
同様に tag1 のメンバ tag2 が \<tag1> の中の \<tag2> タグとなっている。<br>
<br>
tagn.children とすることで tagn.tagn+1 を取り出すことができる。<br>
もちろん tagn の中のタグは一つではないため、全てのタグを取り出すことになる。<br>
tagn.parent とすることで tagn.tagn-1 を取り出すことができる。<br>
もちろん tagn を含む親タグは一つではないため、親タグを全て取り出すことになる。<br>
<br>

In [16]:
import requests
from bs4 import BeautifulSoup

ADDRESS = 'https://www.tuyano.com/index2?id=505001'
resp = requests.get(ADDRESS)
data = resp.text

soup = BeautifulSoup(data, 'lxml')

for obj in soup.body.children:    # body 内の要素をタグごとに一つづつ obj に代入していく。
    if(obj.name != None):    # obj.name はタグの名前をそのまま返す。
        try:
            print(obj.name + " class = " + str(obj['class']))    # obj['class'] は obj タグの class 属性を返す。
        except:
            print(obj.name + " *** no-class ***")    # クラス指定が無い場合は例外処理として

# soup.html.title.parent    # parent を試す場合は有効にする。

div class = ['fixed-top']
div class = ['sitename']
div class = ['sitename2']
div class = ['container']
div class = ['fixed-bottom', 'tranlate_bar']
script *** no-class ***
script *** no-class ***
script *** no-class ***


``` Python
beautifulsoup.tag1.tag2....children    # これは配列
for 変数 in 配列 と併用して処理する。
tag.name にはタグの名前がそのまま入っている。
tag['属性'] はそのタグに付けられている属性が返される。
例えば img['src'] とすれば画像のソースファイルが返される。

BeautifulSoup クラスの中には Tag クラスがあることがわかる。
Tag クラスの中にも Tag クラスがある。
Tag クラスの中には name クラスもある。タグの名前を取得。
Tag クラスの中には children() メソッドもある。子要素を取得。
Tag クラスの中には parent() メソッドもある。親要素を取得。
Tag クラスの中には find_all() メソッドもある。全てから検索して取得。
Tag クラスの中には get_text() メソッドもある。コンテンツを取得。
Tag の属性を取得する場合は tag[] とすることで取得できる。
```

In [5]:
array = ['apple', 'burger', 'chocorate', 'dish', 'egg', 'fish', 'gril']
for value in array:
    print(value)
    """
    apple
    burger
    cchocorate
    dish
    egg
    fish
    gril
    """
    
for value in range(7):
    print(value)
    """
    0
    1
    2
    3
    4
    5
    6
    """

apple
burger
chocorate
dish
egg
fish
gril
0
1
2
3
4
5
6


for 変数 in リスト
とすることでリストのインデックス 0 ~ n までの要素を変数に代入していく。

``` Python
try:
    # 例外が発生する可能性のある処理
except 例外クラス as 変数:
    # 例外発生時の処理
finally:
    # 構文を終える際の処理
```
例外が発生した瞬間に except ラベルに飛ぶ。<br>
例外クラスは、発生する例外の種類ごとにたくさんのものが用意されている。<br>

In [15]:
import requests
from bs4 import BeautifulSoup

ADDRESS = 'https://www.tuyano.com/index2?id=505001'
resp = requests.get(ADDRESS)
data = resp.text

soup = BeautifulSoup(data, 'lxml')

for obj in soup.body.children:    # body 内のタグを一つづつ obj に代入していく。
    print(obj)

# soup.html.title.parent    # parent を試す場合は有効にする。



<div class="fixed-top">
<nav class="navbar navbar-expand-lg navbar-light bg-light">
<a class="navbar-brand" href="https://www.tuyano.com" title="トップに戻る">Top</a>
<button aria-controls="navbarSupportedContent" aria-expanded="false" aria-label="Toggle navigation" class="navbar-toggler" data-target="#navbarSupportedContent" data-toggle="collapse" title="メニューを表示" type="button">
<span class="navbar-toggler-icon"></span>
</button>
<div class="collapse navbar-collapse" id="navbarSupportedContent">
<ul class="navbar-nav mr-auto">
<li class="nav-item active">
<a class="nav-link" href="https://www.tuyano.com/allgroups" title="グループの一覧表示">Groups</a>
</li>
<li class="nav-item dropdown">
<a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="#" id="navbarDropdown1" role="button" title="Java関連のメニュー">
			  Java
			</a>
<div aria-labelledby="navbarDropdown1" class="dropdown-menu">
<a class="dropdown-item" href="https://www.tuyano.com/index2?id=400

In [17]:
# 全てのタグをチェックするプログラム
import requests
from bs4 import BeautifulSoup

ADDRESS = "https://www.tuyano.com/index2?id=505001"
resp = requests.get(ADDRESS)
data = resp.text

soup = BeautifulSoup(data, 'lxml')

def checkChildren(tag, n):
    try:
        for obj in tag.children:
            if obj.name != None:
                try:
                    print(('-' * n) + '<' + obj.name + ' class = ' + str(obj['class']) + '>')
                except:
                    print(('-' * n) + '<' + obj.name + '>')
            checkChildren(obj, n + 1)
    except AttributeError:
        pass

checkChildren(soup.body, 0)

<div class = ['fixed-top']>
-<nav class = ['navbar', 'navbar-expand-lg', 'navbar-light', 'bg-light']>
--<a class = ['navbar-brand']>
--<button class = ['navbar-toggler']>
---<span class = ['navbar-toggler-icon']>
--<div class = ['collapse', 'navbar-collapse']>
---<ul class = ['navbar-nav', 'mr-auto']>
----<li class = ['nav-item', 'active']>
-----<a class = ['nav-link']>
----<li class = ['nav-item', 'dropdown']>
-----<a class = ['nav-link', 'dropdown-toggle']>
-----<div class = ['dropdown-menu']>
------<a class = ['dropdown-item']>
------<a class = ['dropdown-item']>
------<a class = ['dropdown-item']>
------<a class = ['dropdown-item']>
------<a class = ['dropdown-item']>
------<div class = ['dropdown-divider']>
------<a class = ['dropdown-item']>
------<a class = ['dropdown-item']>
------<a class = ['dropdown-item']>
------<a class = ['dropdown-item']>
----<li class = ['nav-item', 'dropdown']>
-----<a class = ['nav-link', 'dropdown-toggle']>
-----<div class = ['dropdown-menu']>
------

``` Python
階層を順番に走査するのは面倒くさい。
そこで全体の中から特定のタグを取り出すメソッドが存在する。
beautifulsoup.find_all(タグ)
HTML の階層構造がわからなくてもこれで一気に取得することができる。
beautifulsoup.find_all(属性 = 値)
とすることで、属性と値で検索が可能。
例えば
dev.find_all(class = "main")
とすれば、クラス名 "main" のものを取り出すことができる。
beautifulsoup.find_all(text = テキスト)
とすることで、コンテンツのテキストで検索が可能。
find_all() メソッドの引数に re モジュールを使用することで正規表現で検索することが可能。
```