# Section 2：ECサイトから書籍の情報を取得してみよう

## ライブラリのインストール

In [None]:
# Windowsの方
%pip install beautifulsoup4

In [None]:
# Macの方
!pip3 install beautifulsoup4

## ライブラリをインポートする

In [None]:
import requests
from bs4 import BeautifulSoup

## RequestsでHTMLを取得しよう

In [None]:
# Webスクレイピングの対象となるページ
url = 'https://imanyu.wixsite.com/demo-books'

In [None]:
res = requests.get(url)

## レスポンスの中身を確認しよう

In [None]:
res

# Section 3：Beautiful SoupでHTMLを解析しよう

## Beautiful SoupでHTMLをパースする

In [None]:
soup = BeautifulSoup(res.text, 'html.parser')

In [None]:
soup

In [None]:
type(soup)

# Section 4：Beautiful Soupでデータを取得しよう

## cssセレクタを参照してデータを取り出す

In [None]:
book_ul = soup.select_one('#TPASection_jbz6b9ka > div > div > div > div > section > div > ul')

In [None]:
books_li = book_ul.select('li')

In [None]:
len(books_li)

In [None]:
book_li = books_li[0]

# Section 5：1冊目の書籍データをHTMLから取り出そう

## 書籍名を取り出す

In [None]:
book_li.select_one('h3')

In [None]:
book_li.select_one('h3').text

In [None]:
name = book_li.select_one('h3').text

## 価格を取り出す

In [None]:
book_li.select_one('span')

In [None]:
book_li.find(
    'span',
    {'data-hook': 'product-item-price-to-pay'}
)

In [None]:
price = book_li.find(
    'span',
    {'data-hook': 'product-item-price-to-pay'}
).text

In [None]:
price

In [None]:
price.replace("¥", "")

In [None]:
price = int(price.replace("¥", ""))

In [None]:
price

In [None]:
type(price)

## 詳細ページへのリンクを取り出す

In [None]:
book_li.find_all('a')

In [None]:
len(book_li.find_all('a'))

In [None]:
book_li.find('a')

In [None]:
book_li.find('a')['href']

In [None]:
link = book_li.find('a')['href']

In [None]:
link

# Section 6：1冊目の書籍の情報を辞書にまとめよう

## バラバラの情報を辞書にまとめる

In [None]:
datum = {
    'name': name,
    'price': price,
    'link': link,
}

In [None]:
datum

## まとめ

In [None]:
import requests
from bs4 import BeautifulSoup

url = 'https://imanyu.wixsite.com/demo-books'
res = requests.get(url)

# HTMLをパース（整形、解析）
soup = BeautifulSoup(res.text, 'html.parser')

# 複数の書籍をまとめる<li>要素を取得
book_ul = soup.select_one('#TPASection_jbz6b9ka > div > div > div > div > section > div > ul')
books_li = book_ul.select('li')

# 1冊目の書籍（<li>要素）を取得
book_li = books_li[0]

# 必要な情報（書籍名、価格、リンク）を取得
name = book_li.select_one('h3').text
price = book_li.find(
    'span',
    {'data-hook': 'product-item-price-to-pay'}
).text
price = int(price.replace('¥', ''))
link = book_li.find('a')['href']

# 必要な情報を辞書型にまとめる
datum = {
    'name': name,
    'price': price,
    'link': link
}

In [None]:
datum

# Section 7：全書籍の情報をfor文で取得しよう

In [None]:
import requests
from bs4 import BeautifulSoup

url = 'https://imanyu.wixsite.com/demo-books'
res = requests.get(url)

soup = BeautifulSoup(res.text, 'html.parser')

book_ul = soup.select_one('#TPASection_jbz6b9ka > div > div > div > div > section > div > ul')
books_li = book_ul.select('li')

# book_li = books_li[0]
# 全ての書籍情報を格納するリストを空で用意
data = []
for book_li in books_li:
    name = book_li.select_one('h3').text
    price = book_li.find(
        'span',
        {'data-hook': 'product-item-price-to-pay'}
    ).text
    price = int(price.replace('¥', ''))
    link = book_li.find('a')['href']

    datum = {
        'name': name,
        'price': price,
        'link': link
    }
    # datumをdataに格納
    data.append(datum)

In [None]:
data

# Section8：取得したデータをcsvで出力しよう

## ライブラリをインストールする

In [None]:
# Windowsの場合
!pip install pandas

In [None]:
# Macの場合
!pip3 install pandas

## pandasでデータフレーム型に変換する

In [None]:
import pandas as pd
df = pd.DataFrame(data)

In [None]:
df.head()

In [None]:
data[0:5]

## わかりやすいカラム名に変更する

In [None]:
df = df.rename(columns={
    'name': '書籍名',
    'price': '価格',
    'link': 'リンク'
})

In [None]:
df.head()

## csvファイルで出力する

In [None]:
df.to_csv('books.csv', index=False)

# Section 9：これまでのコードを1つのセルにまとめよう

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://imanyu.wixsite.com/demo-books'
res = requests.get(url)

soup = BeautifulSoup(res.text, 'html.parser')

book_ul = soup.select_one('#TPASection_jbz6b9ka > div > div > div > div > section > div > ul')
books_li = book_ul.select('li')

# book_li = books_li[0]
# すべての書籍情報を格納するリストを空で用意
data = []
for book_li in books_li:
    name = book_li.select_one('h3').text
    price = book_li.find(
        'span',
        {'data-hook': 'product-item-price-to-pay'}
    ).text
    price = int(price.replace('¥', ''))
    link = book_li.find('a')['href']

    datum = {
        'name': name,
        'price': price,
        'link': link
    }
    # datumをdataに格納
    data.append(datum)

# リストをDataFrame型へ変換
df = pd.DataFrame(data)

# データフレームの列名を変更
df = df.rename(columns={
    'name': '書籍名',
    'price': '価格',
    'link': 'リンク'
})

# データフレームをcsvファイルに出力する　　　　　　　　　　　
df.to_csv("books.csv", index=False)

## time.sleep()で出力後に1秒間待機する

In [None]:
import time #timeモジュールをインポート
for i in ['A', 'B', 'C', 'D']:
    print(i)
    time.sleep(1) #出力後に1秒待機