# Chap.05 クローラーの設計・開発（応用編）

## 01 クローラーをもっと進化させるには

### クローリング開発で直面する問題とその解決策とは

- 非要件機能
  - バグや想定外の挙動を発見し、修正していく開発過程
- プログラム開発は継続的なもの
  - より効率的な動作を目指した改良
  - 保守・運用

## 02 print関数でログを出力する

### ログを画面やファイルに出力する方法

- print関数と出力フォーマット
  - `print("label: " + value)`

&nbsp;

- リクエストにかかった時間を表示する

```python
# get_example_domain_pages.py
import time

import requests

PAGE_URL_LIST = [
    "https://example.com/1.page",
    "https://example.com/2.page",
    "https://example.com/3.page",
]

for page_url in PAGE_URL_LIST:
    res = requests.get(page_url, timeout=30)
    print(
        "ページURL: " + page_url + "," + \
        "HTTPステータス: " + str(res.status_code) + "," + \
        "処理時間（秒）: " + str(res.elapsed.total_seconds())
    )
    time.sleep(1)
```

&nbsp;

```python
# get_example_domain_pages.py
import time

import requests

PAGE_URL_LIST = [
    "https://example.com/1.page",
    "https://example.com/2.page",
    "https://example.com/3.page",
]

for page_url in PAGE_URL_LIST:
    res = requests.get(page_url, timeout=30)
    print(
        f{
            ページURL: {page_url}, \
            HTTPステータス: {res.status_code}, \
            処理時間（秒）: {res.elapsed.total_seconds()}
        }
    )
    time.sleep(1)
```

### ログ出力に関するさまざまな改善の必要性

- コンソール画面への出力と同時にファイルにも出力する
  - `python crawler.py | tee -a crawler.log`

## 03 loggingモジュールでログを出力して管理する

### loggingモジュールを使う

In [2]:
!python logging_sample.py

[INFO] 2023-06-16 21:21:53,201 __main__ logging_sample.py:39 クローリングを開始します。
[ERROR] 2023-06-16 21:21:53,201 __main__ logging_sample.py:43 ページが見つかりません。
[ERROR] 2023-06-16 21:21:53,203 __main__ logging_sample.py:48 リクエスト中に例外が起きました。: MissingSchema("Invalid URL '#invalid_url': No scheme supplied. Perhaps you meant https://#invalid_url?")
Traceback (most recent call last):
  File "/Users/takeru/@LEARNING/Python/introduction_to_crawlers_and_scraping_with_python_shoeisha/logging_sample.py", line 46, in logging_example
    r = requests.get("#invalid_url", timeout=1)
  File "/Users/takeru/@LEARNING/Python/introduction_to_crawlers_and_scraping_with_python_shoeisha/venv/lib/python3.10/site-packages/requests/api.py", line 73, in get
    return request("get", url, params=params, **kwargs)
  File "/Users/takeru/@LEARNING/Python/introduction_to_crawlers_and_scraping_with_python_shoeisha/venv/lib/python3.10/site-packages/requests/api.py", line 59, in request
    return session.request(method=method, ur

### 辞書形式で設定を記述する

In [2]:
!python my_logging.py

[1;30m[DEBUG]	2023-06-16 21:23:16	DEBUG レベルです。[0m
[37m[INFO]	2023-06-16 21:23:16	INFO レベルです。[0m
[31m[ERROR]	2023-06-16 21:23:16	ERROR レベルです。[0m
[1;31m[CRITICAL]	2023-06-16 21:23:16	CRITICAL レベルです。[0m


## 04 ログ出力ライブラリでログを管理する

### サードパーティのログ出力ライブラリを使う

- [Eliot](https://github.com/ScatterHQ/eliot)

## 05 並列処理を行う

### 並列処理を行う

- 並行処理（マルチスレッド）
  - 作業を切り替えながら、同時進行させていく
- 並列処理（マルチプロセス）
  - 作業を分担して、同時進行させていく

&nbsp;

- コルーチン
  - 通常の関数・メソッドと異なり、任意の場所で中断・再開できる機能。
  - 中断から再開できるため、内部で状態を保持する。
  - 擬似的に並列処理を実現できる。