## モジュールのインストール

```zsh
% pip install requests
% pip install beautifulsoup4
% pip install lxml
```

## 基本

### HTMLを取得する

```python
import requests
from bs4 import BeautifulSoup

url = 'スクレイピングするURL'
r = requests.get(url)
soup = BeautifulSoup(r.content, 'lxml')
```

### テキストを取得する

```python
texts = [i.get_text() for i in soup.select('CSSセレクタ')]
```

### 属性の値を取得する

```python
attrs = [i.get('属性') for i in soup.select('CSSセレクタ')]
```

## 応用

### 画像を保存する

```python
import requests
from bs4 import BeautifulSoup
from pathlib import Path

url = 'スクレイピングするURL'
r = requests.get(url)
soup = BeautifulSoup(r.content, 'lxml')

# 画像URLのリストを作成
image_urls = [i.get('src') for i in soup.select('CSSセレクタ')]

# 画像を保存するフォルダを作成
Path('images').mkdir(exist_ok=True)

# 画像URLから1つずつ画像を作成
for target in image_urls:
    r = requests.get(target)
    p = Path('images') / target.split('/')[-1]
    with p.open(mode='wb') as f:
        f.write(r.content)
```

### 動的なページのスクレイピング

```zsh
% pip install selenium
```

```python
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup

driver_path = 'Chromeドライバーのパス'

# Chromeドライバーのオプション
options = Options()
options.add_argument('--disable-gpu')
options.add_argument('--disable-extensions')
options.add_argument('--proxy-server="direct://"')
options.add_argument('--proxy-bypass-list=*')
options.add_argument('--start-maximized')
options.add_argument('--headless')

# Chromeドライバーを起動
driver = webdriver.Chrome(executable_path=driver_path, options=options)
driver.get('スクレイピングするURL')

# ソースコードを取得
html = driver.page_source
driver.quit()

# htmlファイルを取得
soup = BeautifulSoup(html, 'lxml')
```

### Ajaxページのスクレイピング

```zsh
% pip install selenium
```

```python
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup

driver_path = 'Chromeドライバーのパス'

# Chromeドライバーのオプション
options = Options()
options.add_argument('--disable-gpu')
options.add_argument('--disable-extensions')
options.add_argument('--proxy-server="direct://"')
options.add_argument('--proxy-bypass-list=*')
options.add_argument('--start-maximized')
options.add_argument('--headless')

# Chromeドライバーを起動
driver = webdriver.Chrome(executable_path=driver_path, options=options)
driver.get('スクレイピングするURL')

# ページの高さを取得
height = driver.execute_script('return document.body.scrollHeight')
    
# ループ処理で少しづつスクロール移動し、Ajaxページの読み込みに対応する    
idx = 1
while idx < height:
    driver.execute_script(f'window.scrollTo(0, {idx});')
    height = driver.execute_script('return document.body.scrollHeight')
    idx += 1
    
# ソースコードを取得
html = driver.page_source
driver.quit()

# htmlファイルを取得
soup = BeautifulSoup(html, 'lxml')
```