<a href="https://colab.research.google.com/github/otanet/WebScraping_2023_sub/blob/main/%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E8%AC%9B%E5%BA%A7%E8%B3%87%E6%96%99.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# スクレイピングをやっていこう！


スクレイピングは、以下の流れで行う

１．Webページのハイパーテキストをダウンロードして取得（クローリング）

２．ダウンロードしたハイパーテキストから欲しい情報を抽出（スクレイピング）

それぞれ、Pythonでは以下のモジュールを用いて行う

クローリング　　⇒　Requests

スクレイピング　⇒　Beautiful Soup

**ケーススタディ**

「yahoo!ニュース（http://news.yahoo.co.jp/ ）」トップページにある、

メイントピックの記事タイトルと、記事URLを自動で獲得してみよう！

# Webページを取得（クローリング）

Webページの取得には[**Requests**](https://requests-docs-ja.readthedocs.io/en/latest/)というモジュールが便利

Requestsは以下のコマンドでインストールできる

In [None]:
!pip install requests

Webページをダウンロードするには、Requestsモジュールの**get()関数**を使う

get()関数の引数に、ダウンロードしたいWebページのURLを入力する

In [None]:
import requests
r = requests.get('http://news.yahoo.co.jp/')
print(type(r))

<class 'requests.models.Response'>


get()関数の戻り値は、**Response型オブジェクト**

Response型オブジェクト　→　Requestsでレスポンスを表現するもの

レスポンスには、ハイパーテキスト以外の情報も含まれる

例えば、ステータスコードなどもレスポンスには含まれる

**ステータスコードとは？**

リクエストの結果を表す3桁の数字のこと

２００　→　OK

４０４　→　Not Found

受け取ったレスポンスから、ハイパーテキストの情報を取得したい

→　Response型オブジェクトの属性にアクセスすることで、

　　ステータスコードやハイパーテキストを取得できる

In [None]:
import requests
res = requests.get('http://news.yahoo.co.jp/')

print(res.status_code) #レスポンスのステータスコードを取得
print(res.text)        #レスポンスのハイパーテキストを取得
print(type(res.text))  #ハイパーテキストは文字型

200
<!DOCTYPE html><html lang="ja"><head><title data-reactroot="">Yahoo!ニュース</title><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" data-reactroot=""/><meta http-equiv="Content-Style-Type" content="text/css" data-reactroot=""/><meta http-equiv="Content-Script-Type" content="text/javascript" data-reactroot=""/><meta name="keywords" content="ニュース,ヤフー,新着" data-reactroot=""/><meta name="description" content="Yahoo!ニュースは、新聞・通信社が配信するニュースのほか、映像、雑誌や個人の書き手が執筆する記事など多種多様なニュースを掲載しています。" data-reactroot=""/><meta name="robots" content="noarchive" data-reactroot=""/><meta name="format-detection" content="telephone=no" data-reactroot=""/><meta name="google-site-verification" content="dVyTbsDzUrUAjCE1aCH9hKwZ8sOsCsvi2uhuBvasrp8" data-reactroot=""/><meta property="og:image" content="https://s.yimg.jp/images/jpnews/cre/common/all/images/fbico_ogp_1200x630.png" data-reactroot=""/><meta property="og:description" content="Yahoo!ニュースは、新聞・通信社が配信するニュースのほか、映像、雑誌や個人の書き手が執筆する記事など多種多様なニュースを掲載してい

これでハイパーテキストの全体を、**Pythonが扱える形式で得られた**ことになる

→　あとは欲しい情報をこの中から取り出すだけ！

→　Beautiful Soupモジュールによるスクレイピング

# 欲しい情報を抽出（スクレイピング）


スクレイピングには[Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)というモジュールが便利

以下のように書いてインストールできる

In [None]:
!pip install beautifulsoup4

Beautiful SoupではHTMLを、**BeautifulSoup型オブジェクト**で扱う

BeautifulSoupオブジェクトを生成するには、Beautiful Soupクラスを用いる

BeautifulSoupオブジェクトとして扱いたい文字型のHTMLを引数に渡す

In [None]:
from bs4 import BeautifulSoup #Beautiful SoupモジュールからBeautifulSoupクラスをインポート
import requests

res = requests.get('http://news.yahoo.co.jp/')
soup = BeautifulSoup(res.text)
print(type(soup))

<class 'bs4.BeautifulSoup'>


これでyahooニューストップページのHTMLを、

BeautifulSoup型オブジェクトとして扱えるようになった

HTMLを解析（パース）して、欲しい情報があるタグを取り出すには、

BeautifulSoup型オブジェクトの**select()メソッド**を使う

select()メソッドの引数に、**セレクタを入力する**ことでHTMLをパースできる

select()メソッドの戻り値はリスト型で、リストの中には

Beautiful SoupにおけるHTML要素の表現である**Tag型オブジェクト**が入っている

In [None]:
from bs4 import BeautifulSoup #Beautiful SoupモジュールからBeautifulSoupクラスをインポート
import requests

res = requests.get('http://news.yahoo.co.jp/')
soup = BeautifulSoup(res.text)
all_a = soup.select("a") #yahoo!ニューストップページのすべてのaタグを抽出

print(all_a)
print(type(all_a))     #リスト型
print(all_a[0])        #リストの中には、a要素が入っている
print(type(all_a[0]))  #Tag型オブジェクト

[<a data-ylk="slk:h_ytop;pos:0" href="https://www.yahoo.co.jp/" id="msthdYtop">Yahoo! JAPAN</a>, <a data-ylk="slk:h_hlp;pos:0" href="https://www.yahoo-help.jp/app/home/service/headlines/" id="msthdHelp">ヘルプ</a>, <a data-ylk="slk:h_srvtop;pos:0" href="https://news.yahoo.co.jp" id="msthdLogo"><img alt="Yahoo!ニュース" height="34" src="https://s.yimg.jp/c/logo/f/2.0/news_r_34_2x.png" width="206"/></a>, <a class="b" data-ylk="slk:h_regyid;pos:0" href="https://account.edit.yahoo.co.jp/registration?.intl=jp&amp;.done=https%3a%2f%2fnews.yahoo.co.jp%2f&amp;.src=news" id="msthdReg">新規取得</a>, <a class="b" data-ylk="slk:h_login;pos:0" href="https://login.yahoo.co.jp/config/login?.src=news&amp;lg=jp&amp;.intl=jp&amp;.done=https%3a%2f%2fnews.yahoo.co.jp%2f" id="msthdLogin">ログイン</a>, <a href="https://news.yahoo.co.jp/search/advanced">条件指定</a>, <a data-ylk="rsec:gnavi;slk:profnm;" href="https://news.yahoo.co.jp/profile/login">ユーザーページ</a>, <a data-ylk="rsec:gnavi;slk:pur;" href="https://headlines.yahoo.co

今回は、「yahoo!ニュース（http://news.yahoo.co.jp/ ）」トップページにある、

メイントピックの記事タイトルと、記事URLの情報を獲得したい

select()メソッドの引数に渡すセレクタを考えるために、

まずは**デベロッパーツールを使ってほしい情報がどのタグにあるのか？を判明させる**

**開発者ツールの開き方（Google Chromeの場合）**

*   Windowsの場合　⇒　F12キーを押す

*   Macの場合　⇒　Command + Option + I

記事タイトルと記事URLはそれぞれ、

class属性が「topicsListItem」のli要素の子のa要素の、文章部分とhref属性にあることがわかった

In [None]:
from bs4 import BeautifulSoup
import requests

res = requests.get('http://news.yahoo.co.jp/')
soup = BeautifulSoup(res.text)

news_list = soup.select("li.topicsListItem > a")
print(news_list)

Tag型オブジェクトにおいて属性は、辞書のキーを指定するように指定することで取得できる

また、文章部分はget_text()メソッドで取得できる

In [None]:
from bs4 import BeautifulSoup
import requests

res = requests.get('http://news.yahoo.co.jp/')
soup = BeautifulSoup(res.text)

news_list = soup.select("li.topicsListItem > a")

for a in news_list:
  print(a["href"], a.get_text())

**セレクタはブラウザのデベロッパーツールからも取得することができる**

やり方は以下の手順

1.   WebページのHTMLをデベロッパーツールで開く
2.   デベロッパーツールの左上の矢印をクリック
3.   Webページの取り出したい箇所をクリックして、クリックした箇所がHTMLではどこの部分か判明させる
4.   HTMLでの取り出し箇所を右クリック　⇒　Copy　⇒　Copy selectorで指定箇所のセレクタのコピー完了
5.   BeautifulSoup型オブジェクトのselect()メソッドに入力してみて、取り出したいように取り出せているか確認
6.   取り出せていないならセレクタを修正する

In [None]:
from bs4 import BeautifulSoup
import requests

res = requests.get('http://news.yahoo.co.jp/')
soup = BeautifulSoup(res.text)

news_list = soup.select("#contentsWrap > section.topics > div > div > div > ul > li > a")

for a in news_list:
  print(a["href"], a.get_text())

コピペしただけでは取り出したいように取り出せない場合も多い

その場合はセレクタを書き換える必要がある　⇒　**やはりセレクタの知識は必要**

**自分でやってみよう！**

Qiitaの「クローラー／Webスクレイピング Advent Calendar 2018（ https://qiita.com/advent-calendar/2018/crawler ）」に

登録されている記事のURLとタイトルを取得してみよう！


In [None]:
#解答はこの下に記入


# 参考文献・おすすめ書籍

加藤 耕太 「Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-」技術評論社 2016年

Al Sweigart 「退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング」相川 愛三 翻訳 オライリージャパン 2017年

小林 恭平 ほか「イラスト図解式 この一冊で全部わかるWeb技術の基本」SBクリエイティブ 2017年

# 解答

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://qiita.com/advent-calendar/2018/crawler')
soup = BeautifulSoup(res.text)

article_list = soup.select('.adventCalendarItem_entry > a')

for a in article_list:
    print(a['href'], a.get_text())

https://qiita.com/thr3a/items/b9ffd8c8dc2808f72964 スクレイピングがバレてないか確認できるツールを作った話
https://www.yamamanx.com/selenium-headless-chrome-aws-lambda-scraiping/ Selenium, Headless ChromeとAWS Lambdaで夜な夜なスクレイピング 
https://qiita.com/cc822jp/items/21adc869126640ec4956 フィーチャーフォン(ガラケー)向けWebサイトのスクレイピング
http://yuzutas0.hatenablog.com/entry/2018/12/06/093000 RPA保守に苦しむ話 
http://okatenari.com/2018/12/11/tabelog-scraping/ WebサイトをPythonでスクレイピング 
https://qiita.com/TakeshiNickOsanai/items/cbb1c5d0b59e3a65c476 2018の埼玉西武ライオンズ投手陣の貢献を、小松式ドネーションで検証してみる 
https://qiita.com/ochim/items/9e2ca7a91b409545dcb9 気象庁の台風統計をPythonでスクレイピング
https://qiita.com/taptappun/items/b4bc01f812704642d399 Instagramから大量の画像を集める
