In [None]:
# chapter 3-2 webページを簡単に取得する

In [None]:
import requests

In [None]:
r = requests.get('https://gihyo.jp/dp')
# webページを取得

In [None]:
type(r)
# get関数の戻り値はレスポンス型

In [None]:
r.status_code
# HTTPステータスコードを取得

In [None]:
r.headers['content-type']
# HTTPヘッダーの辞書を取得

In [None]:
r.encoding
# HTTPヘッダーから得られたエンコーディングを取得

In [None]:
r.text
# str型にデコードしたレスポンスボディを取得

In [None]:
r.content
# bytes型のレスポンスボディを取得

In [None]:
r = requests.get('http://weather.livedoor.com/forecast/webservice/json/v1?city=130010')
# 東京の天気をjson形式で取得

In [None]:
r.json()

In [None]:
r = requests.post('http://httpbin.org/post', data={'key1': 'value1'})
# POSTメソッドで送信

In [None]:
r = requests.get('http://httpbin.org/get',
                headers={'user-agent': 'my-crawler/1.0 (+foo@example.com)'})
# キーワード引数headersにdictで指定してリクエストにHTTPヘッダーを追加

In [None]:
r = requests.get('https://api.github.com/user',
                auth=('discocactus', '<password>'))
# Basic認証のユーザー名とパスワードの組をキーワード引数authで指定

In [None]:
r = requests.get('http://httpbin.org/get', params={'key1': 'value1'})
# URLのパラメーターは引数paramsで指定することも可能

In [None]:
# 複数のページを連続してクロールする場合は、Sessionオブジェクトを使うのが効果的

In [None]:
s = requests.Session()

In [None]:
s.headers.update({'user-agent': 'my-crawler/1.0 (+foo@example.com)'})
# HTTPヘッダーを複数のリクエストで使い回す

In [None]:
r = s.get('https://gihyo.jp/')
# Sessionオブジェクトでもrequestsの様にget(), post()などのメソッドが使える

In [None]:
r = s.get('https://gihyo.jp/dp')

In [None]:
# chapter 3-3 HTMLのスクレイピング

In [None]:
# lxmlによるスクレイピング

In [None]:
import lxml.html

In [None]:
tree = lxml.html.parse('index.html')
# parse()関数でファイルパスを指定してパース
# URLを指定することも可能だが細かい指定ができない

In [None]:
from urllib.request import urlopen

In [None]:
tree = lxml.html.parse(urlopen('http://example.com/'))
# ファイルオブジェクトを指定してパースすることも可能

In [None]:
type(tree)

In [None]:
html = tree.getroot()

In [None]:
type(html)

In [None]:
# fromstring()関数で文字列(strまたはbytes)をパースできる
# ただし、encodingが指定されたXML宣言を含むstrをパースすると、ValueErrorが発生するので注意

In [None]:
html = lxml.html.fromstring('''
    <html>
    <head><title>八百屋オンライン</title></head>
    <body>
    <h1 id="main">今日のくだもの</h1>
    <ul>
        <li>りんご</li>
        <li class="featured">みかん</li>
        <li>ぶどう</li>
    </ul>
    </body>
    </html>''')

In [None]:
type(html)

In [None]:
html.xpath('//li')
# XPathにマッチする要素のリストを取得

In [None]:
html.cssselect('li')
# CSSセレクターにマッチする要素のリストを取得

In [None]:
h1 = html.xpath('//h1')[0]

In [None]:
h1.tag
# タグの名前

In [None]:
h1.text
# 要素のテキスト

In [None]:
h1.get('id')
# 属性の値

In [None]:
h1.attrib
# 全属性を表すdict-likeなオブジェクト

In [None]:
h1.getparent()
# 親要素

In [None]:
%%writefile scrape_by_lxml.py

import lxml.html

# HTMLファイルを読み込みgetroot()メソッドでHtmlElementオブジェクトを得る
tree = lxml.html.parse('index.html')
html = tree.getroot()

# cssselect()メソッドでa要素のリストを取得して、個々のa要素に対して処理を行う
for a in html.cssselect('a'):
    # href属性とリンクのテキストを取得して表示する
    print(a.get('href'), a.text)

In [None]:
!python scrape_by_lxml.py

In [None]:
# Beautiful Soupによるスクレイピング

In [None]:
from bs4 import BeautifulSoup

In [None]:
with open('index.html') as f:
    soup = BeautifulSoup(f, 'html.parser')
# 第1引数にファイルオブジェクトを指定してBeautifulSoupオブジェクトを生成
# BeautifulSoupにはファイル名やURLを指定することはできない
# 第2引数にパーサーを指定する

In [None]:
# BeautifulSoupのコンストラクターにはHTMLの文字列を渡すことも可能
soup = BeautifulSoup('''
    <html>
    <head><title>八百屋オンライン</title></head>
    <body>
    <h1 id="main">今日のくだもの</h1>
    <ul>
        <li>りんご</li>
        <li class="featured">みかん</li>
        <li>ぶどう</li>
    </ul>
    </body>
    </html>''', 'html.parser')

In [None]:
soup.h1

In [None]:
type(soup.h1)

In [None]:
soup.h1.name

In [None]:
soup.h1.string

In [None]:
type(soup.h1.string)

In [None]:
soup.ul.text

In [None]:
type(soup.h1.text)

In [None]:
soup.h1['id']

In [None]:
soup.h1.get('id')

In [None]:
soup.h1.attrs

In [None]:
soup.h1.parent

In [None]:
soup.li
# 複数の要素がある場合は先頭の要素が取得される

In [None]:
soup.find('li')

In [None]:
soup.find_all('li')
# find_all()メソッドで指定した名前の要素のリストを取得

In [None]:
soup.find_all('li', class_='featured')
# キーワード引数でclassなどの属性を指定できる
# classは予約語なのでclass_を使うことに注意

In [None]:
soup.find_all(id='main')

In [None]:
soup.find_all('li', class_='featured')

In [None]:
soup.find_all(id='main')
# タグ名を省略して属性のみで探すことも可能

In [None]:
soup.select('li')
# select()メソッドでCSSセレクターにマッチする要素を取得

In [None]:
soup.select('li.featured')

In [None]:
soup.select('#main')

In [None]:
%%writefile scrape_by_bs4.py

from bs4 import BeautifulSoup

with open('index.html') as f:
    soup = BeautifulSoup(f, 'html.parser')

for a in soup.find_all('a'):
    print(a.get('href'), a.text)

In [None]:
!python scrape_by_bs4.py

In [None]:
# pyqueryによるスクレイピング

In [None]:
from pyquery import PyQuery as pq

In [None]:
d = pq(filename='index.html')

In [None]:
d = pq(url='http://example.com/')

In [None]:
d = pq('''
    <html>
    <head><title>八百屋オンライン</title></head>
    <body>
    <h1 id="main">今日のくだもの</h1>
    <ul>
        <li>りんご</li>
        <li class="featured">みかん</li>
        <li>ぶどう</li>
    </ul>
    </body>
    </html>''')

In [None]:
d('h1')

In [None]:
type(d('h1'))

In [None]:
d('h1')[0]

In [None]:
d('h1').text()

In [None]:
d('h1').attr('id')

In [None]:
d('h1').attr.id

In [None]:
d('h1').attr['id']

In [None]:
d('h1').parent()

In [None]:
d('li')

In [None]:
d('li.featured')

In [None]:
d('#main')

In [None]:
d('body').find('li')

In [None]:
d('li').filter('.featured')

In [None]:
d('li').eq(1)

In [None]:
# RSSのスクレイピング

In [None]:
import feedparser

In [None]:
d = feedparser.parse('http://b.hatena.ne.jp/hotentry/it.rss')
# parse()関数にURLを指定してパースできる

In [None]:
# d = feedparser.parse('it.rss')
# parse()関数にはファイルパス、ファイルオブジェクト、XMLの文字列も指定できる

In [None]:
type(d)

In [None]:
d.version

In [None]:
d.feed.title

In [None]:
d['feed']['title']
# dictの形式でもアクセスできる

In [None]:
d.feed.link

In [None]:
d.feed.description
# フィードの説明を取得する

In [None]:
len(d.entries)

In [None]:
d.entries[0].title

In [None]:
d.entries[0].link

In [None]:
d.entries[0].description

In [None]:
d.entries[0].updated

In [None]:
d.entries[0].updated_parsed
# 要素の更新日時をパースしてtime.struct_timeを取得する

In [None]:
%%writefile scrape_by_feedparser.py

import feedparser

d = feedparser.parse('http://b.hatena.ne.jp/hotentry/it.rss')

for entry in d.entries:
    print(entry.link, entry.title)

In [None]:
!python scrape_by_feedparser.py

In [None]:
# chapter 3-5 データベースに保存する

In [None]:
# MySQLへのデータの保存

In [None]:
# データベースとユーザーの作成 > ターミナル操作はEvernoteに

In [None]:
%%writefile save_mysql.py

import MySQLdb

conn = MySQLdb.connect(db='scraping', user='scraper', passwd='password', charset='utf8mb4')

c = conn.cursor()
c.execute('DROP TABLE IF EXISTS cities')
c.execute('''
    CREATE TABLE cities (
        rank integer,
        city text,
        population integer
    )
''')

c.execute('INSERT INTO cities VALUES (%s, %s, %s)', (1, '上海', 24150000))

c.execute('INSERT INTO cities VALUES (%(rank)s, %(city)s, %(population)s)',
         {'rank': 2, 'city': 'カラチ', 'population': 23500000})

c.executemany('INSERT INTO cities VALUES (%(rank)s, %(city)s, %(population)s)', [
    {'rank': 3, 'city': '北京', 'population': 21516000},
    {'rank': 4, 'city': '天津', 'population': 14722100},
    {'rank': 5, 'city': 'イスタンブル', 'population': 14160467},
])

conn.commit()

c.execute('SELECT * FROM cities')
for row in c.fetchall():
    print(row)
    
conn.close()

In [None]:
!python save_mysql.py

In [None]:
# MongoDBへのデータの保存

In [None]:
# 本ではデフォルトのデータベースディレクトリは /data/db 、起動は mongod コマンドのみだが、それではなぜかうまく動かない
# ターミナルで mongod --config /usr/local/etc/mongod.conf で起動
# 終了は ctrl + c

In [None]:
%%writefile save_mongo.py

import lxml.html
from pymongo import MongoClient

# HTMLファイルを読み込み、getroot()メソッドでHtmlElementオブジェクトを得る
tree = lxml.html.parse('index.html')
html = tree.getroot()

client = MongoClient('localhost', 27017)
db = client.scraping # scrapingデータベースを取得（作成）する
collection = db.links # linksコレクションを取得（作成）する

# このスクリプトを何回実行しても同じ結果になるよう、コレクションのドキュメントをすべて削除する
collection.delete_many({})

# cssselect()メソッドでa要素のリストを取得して、個々のa要素に対して処理を行う
for a in html.cssselect('a'):
    # href属性とリンクのテキストを取得して保存する
    collection.insert_one({
        'url': a.get('href'),
        'title': a.text,
    })

# コレクションのすべてのドキュメントを_idの順にソートして取得する
for link in collection.find().sort('_id'):
    print(link['_id'], link['url'], link['title'])

In [None]:
!python save_mongo.py

In [None]:
# chapter 3-6 クローラーとURL

In [None]:
# 相対URLから絶対URLへの変換例

In [None]:
from urllib.parse import urljoin

In [None]:
base_url = 'http://example.com/books/top.html'

In [None]:
# // で始まる相対URL
urljoin(base_url, '//cdn.example.com/logo.png')

In [None]:
# / で始まる相対URL
urljoin(base_url, '/articles/')

In [None]:
# ./ 形式の表記
urljoin(base_url, './')

In [None]:
# chapter 3-7 Pythonによるクローラーの作成

In [None]:
%%writefile python_crawler_1.py

# 一覧ページからURLの一覧を抜き出す(1)

import requests
import lxml.html

response = requests.get('https://gihyo.jp/dp')
root = lxml.html.fromstring(response.content)
for a in root.cssselect('a[itemprop="url"]'):
    url = a.get('href')
    print(url)

In [None]:
!python python_crawler_1.py

In [None]:
%%writefile python_crawler_2.py

# 一覧ページからURLの一覧を抜き出す(2)
# 不要なリンクを除外し、相対URLを絶対URLに変換する

import requests
import lxml.html

response = requests.get('https://gihyo.jp/dp')
root = lxml.html.fromstring(response.content)
root.make_links_absolute(response.url) # すべてのリンクを絶対URLに変換する

# id="listBook"である要素の子孫のa要素のみを取得する
for a in root.cssselect('#listBook a[itemprop="url"]'):
    url = a.get('href')
    print(url)

In [None]:
!python python_crawler_2.py

In [None]:
%%writefile python_crawler_3.py

# 一覧ページからURLの一覧を抜き出す(3)
# あとで利用しやすいよう関数をつかってリファクタリングしておく

import requests
import lxml.html

def main():
    """
    クローラーのメインの処理
    """
    response = requests.get('https://gihyo.jp/dp')
    # scrape_list_page()関数を呼び出し、ジェネレーターイテレーターを取得
    urls = scrape_list_page(response)
    for url in urls: # ジェネレーターイテレーターはlistなどと同様に繰り返し可能
        print(url)

def scrape_list_page(response):
    """
    一覧ページのResponseから詳細ページのURLを抜き出すジェネレーター関数
    """
    root = lxml.html.fromstring(response.content)
    root.make_links_absolute(response.url) # すべてのリンクを絶対URLに変換する

    # id="listBook"である要素の子孫のa要素のみを取得する
    for a in root.cssselect('#listBook a[itemprop="url"]'):
        url = a.get('href')
        yield url # yield文でジェネレーターイテレーターの要素を返す
        
if __name__ == '__main__':
    main()

In [None]:
!python python_crawler_3.py

In [None]:
# 詳細ページからスクレイピングする(クロール前のテスト)

In [None]:
%%writefile python_crawler_4.py

# 詳細ページからスクレイピングする(1)

import requests
import lxml.html


def main():
    session = requests.Session() # 複数のページをクロールするのでSessionを使う
    response = session.get('https://gihyo.jp/dp')
    urls = scrape_list_page(response)
    for url in urls:
        response = session.get(url) # Sessionを使って詳細ページを取得
        ebook = scrape_detail_page(response) # 詳細ページからスクレイピングして電子書籍の情報を得る
        print(ebook) # 電子書籍の情報を表示
        break # まず1ページだけで試すためbreak文でループを抜ける
        
        
def scrape_list_page(response):
    root = lxml.html.fromstring(response.content)
    root.make_links_absolute(response.url)
    
    for a in root.cssselect('#listBook a[itemprop="url"]'):
        url = a.get('href')
        yield url
        
        
def scrape_detail_page(response):
    """
    詳細ページのResponseから電子書籍の情報をdictで取得する
    """
    root = lxml.html.fromstring(response.content)
    ebook = {
        'url': response.url, # URL
        'title': root.cssselect('#bookTitle')[0].text_content(), # タイトル
        'price': root.cssselect('.buy')[0].text, # 価格(.textで直接の子である文字列のみを取得)
        'content': [h3.text_content() for h3 in root.cssselect('#content > h3')], # 目次
    }
    return ebook # dictを返す


if __name__ == '__main__':
    main()

In [None]:
!python python_crawler_4.py

In [None]:
%%writefile python_crawler_5.py

# 詳細ページからスクレイピングする(2)
#  不要な空白や改行は削除したい

import re
import requests
import lxml.html


def main():
    session = requests.Session() # 複数のページをクロールするのでSessionを使う
    response = session.get('https://gihyo.jp/dp')
    urls = scrape_list_page(response)
    for url in urls:
        response = session.get(url) # Sessionを使って詳細ページを取得
        ebook = scrape_detail_page(response) # 詳細ページからスクレイピングして電子書籍の情報を得る
        print(ebook) # 電子書籍の情報を表示
        break # まず1ページだけで試すためbreak文でループを抜ける
        
        
def scrape_list_page(response):
    root = lxml.html.fromstring(response.content)
    root.make_links_absolute(response.url)
    
    for a in root.cssselect('#listBook a[itemprop="url"]'):
        url = a.get('href')
        yield url
        
        
def scrape_detail_page(response):
    """
    詳細ページのResponseから電子書籍の情報をdictで取得する
    """
    root = lxml.html.fromstring(response.content)
    ebook = {
        'url': response.url, # URL
        'title': root.cssselect('#bookTitle')[0].text_content(), # タイトル
        'price': root.cssselect('.buy')[0].text.strip(), # 価格(.textで直接の子である文字列のみを取得、strip()で前後の空白を削除)
        'content': [normalize_spaces(h3.text_content()) for h3 in root.cssselect('#content > h3')], # 目次
    }
    return ebook # dictを返す


def normalize_spaces(s):
    """
    連続する空白を1つのスペースに置き換え、前後の空白は削除した新しい文字列を取得する
    """
    return re.sub(r'\s+', ' ', s).strip()


if __name__ == '__main__':
    main()

In [None]:
!python python_crawler_5.py

In [None]:
# 詳細ページをクロールする

In [None]:
%%writefile python_crawler_6.py

# 詳細ページをクロールする
#  不要な空白や改行は削除したい
# 1秒ごとに電子書籍の情報を取得して表示する

import time
import re
import requests
import lxml.html


def main():
    session = requests.Session() # 複数のページをクロールするのでSessionを使う
    response = session.get('https://gihyo.jp/dp')
    urls = scrape_list_page(response)
    for url in urls:
        time.sleep(1) # 1秒のウェイトを入れる
        response = session.get(url) # Sessionを使って詳細ページを取得
        ebook = scrape_detail_page(response) # 詳細ページからスクレイピングして電子書籍の情報を得る
        print(ebook) # 電子書籍の情報を表示
        
        
def scrape_list_page(response):
    root = lxml.html.fromstring(response.content)
    root.make_links_absolute(response.url)
    
    for a in root.cssselect('#listBook a[itemprop="url"]'):
        url = a.get('href')
        yield url
        
        
def scrape_detail_page(response):
    """
    詳細ページのResponseから電子書籍の情報をdictで取得する
    """
    root = lxml.html.fromstring(response.content)
    ebook = {
        'url': response.url, # URL
        'title': root.cssselect('#bookTitle')[0].text_content(), # タイトル
        'price': root.cssselect('.buy')[0].text.strip(), # 価格(.textで直接の子である文字列のみを取得、strip()で前後の空白を削除)
        'content': [normalize_spaces(h3.text_content()) for h3 in root.cssselect('#content > h3')], # 目次
    }
    return ebook # dictを返す


def normalize_spaces(s):
    """
    連続する空白を1つのスペースに置き換え、前後の空白は削除した新しい文字列を取得する
    """
    return re.sub(r'\s+', ' ', s).strip()


if __name__ == '__main__':
    main()

In [None]:
!python python_crawler_6.py

In [None]:
# スクレイピングしたデータを保存する

In [None]:
%%writefile python_crawler_final.py

# 詳細ページをクロールする
#  不要な空白や改行は削除したい
# 1秒ごとに電子書籍の情報を取得して表示する
# 取得したデータをMongoDBに保存する(あらかじめMongoDBを起動しておく)
# mongod --config /usr/local/etc/mongod.conf
# 2回目以降はクロール済みのURLはクロールしないようにする

import time
import re
import requests
import lxml.html
from pymongo import MongoClient


def main():
    """
    クローラーのメインの処理
    """
    
    client = MongoClient('localhost', 27017) # ローカルホストのMongoDBに接続する
    collection = client.scraping.ebooks # scrapingデータベースのebooksコレクションを得る
    # データを一意に識別するキーを格納するkeyフィールドにユニークなインデックスを作成する
    collection.create_index('key', unique=True)
    
    response = requests.get('https://gihyo.jp/dp') # 一覧ページを取得する
    urls = scrape_list_page(response) # 詳細ページのURL一覧を得る
    for url in urls:
        key = extract_key(url) # URLからキーを取得する
        
        ebook = collection.find_one({'key': key}) # MongoDBからkeyに該当するデータを探す
        if not ebook: # MongoDBに存在しない場合だけ、詳細ページをクロールする
            time.sleep(1) # 1秒のウェイトを入れる
            response = requests.get(url) # 詳細ページを取得
            ebook = scrape_detail_page(response) # 詳細ページからスクレイピングして電子書籍の情報を得る
            collection.insert_one(ebook) # 電子書籍の情報をMongoDBに保存する
            
        print(ebook) # 電子書籍の情報を表示
        
        
def scrape_list_page(response):
    """
    一覧ページのResponseから詳細ページのURLを抜き出す
    """
    root = lxml.html.fromstring(response.content)
    root.make_links_absolute(response.url)
    
    for a in root.cssselect('#listBook a[itemprop="url"]'):
        url = a.get('href')
        yield url
        
        
def scrape_detail_page(response):
    """
    詳細ページのResponseから電子書籍の情報をdictで得る
    """
    root = lxml.html.fromstring(response.content)
    ebook = {
        'url': response.url, # URL
        'key': extract_key(response.url), # URLから抜き出したキー
        'title': root.cssselect('#bookTitle')[0].text_content(), # タイトル
        'price': root.cssselect('.buy')[0].text.strip(), # 価格(.textで直接の子である文字列のみを取得、strip()で前後の空白を削除)
        'content': [normalize_spaces(h3.text_content()) for h3 in root.cssselect('#content > h3')], # 目次
    }
    return ebook # dictを返す


def extract_key(url):
    """
    URLからキー(URLの末尾のISBN)を抜き出す
    """
    m = re.search(r'/([^/]+)$', url)
    return m.group(1)


def normalize_spaces(s):
    """
    連続する空白を1つのスペースに置き換え、前後の空白は削除した新しい文字列を取得する
    """
    return re.sub(r'\s+', ' ', s).strip()


if __name__ == '__main__':
    main()

In [None]:
!python python_crawler_final.py