# urllibによるWebページの取得

In [1]:
from urllib.request import urlopen

In [2]:
url = "http://gihyo.jp/dp"

#無念
f = urlopen(url)

HTTPError: HTTP Error 403: Forbidden

In [3]:
#url = "http://gihyo.jp/dp"
url = "http://sample.scraping-book.com/dp"

f = urlopen(url)

In [4]:
type(f)

http.client.HTTPResponse

In [5]:
# read()メソッドでHTTPレスポンスのボディ(bytes型)を取得できる。
# HTTPコネクションは自動的に閉じられるので、明示的にclose()を呼び出す必要はない。

f.read()

b'<!DOCTYPE HTML>\n<html lang="ja" class="pc">\n<head>\n  <meta charset="UTF-8">\n  <title>Python\xe3\x82\xaf\xe3\x83\xad\xe3\x83\xbc\xe3\x83\xaa\xe3\x83\xb3\xe3\x82\xb0\xef\xbc\x86\xe3\x82\xb9\xe3\x82\xaf\xe3\x83\xac\xe3\x82\xa4\xe3\x83\x94\xe3\x83\xb3\xe3\x82\xb0 -\xe3\x83\x87\xe3\x83\xbc\xe3\x82\xbf\xe5\x8f\x8e\xe9\x9b\x86\xe3\x83\xbb\xe8\xa7\xa3\xe6\x9e\x90\xe3\x81\xae\xe3\x81\x9f\xe3\x82\x81\xe3\x81\xae\xe5\xae\x9f\xe8\xb7\xb5\xe9\x96\x8b\xe7\x99\xba\xe3\x82\xac\xe3\x82\xa4\xe3\x83\x89- \xe3\x82\xb5\xe3\x83\xb3\xe3\x83\x97\xe3\x83\xab\xe3\x83\x9a\xe3\x83\xbc\xe3\x82\xb8</title>\n  <meta http-equiv="Content-Style-Type" content="text/css"/>\n  <meta http-equiv="Content-Script-Type" content="application/javascript"/>\n  <meta name="description" content="Python\xe3\x82\xaf\xe3\x83\xad\xe3\x83\xbc\xe3\x83\xaa\xe3\x83\xb3\xe3\x82\xb0\xef\xbc\x86\xe3\x82\xb9\xe3\x82\xaf\xe3\x83\xac\xe3\x82\xa4\xe3\x83\x94\xe3\x83\xb3\xe3\x82\xb0 -\xe3\x83\x87\xe3\x83\xbc\xe3\x82\xbf\xe5\x8f\x8e\xe9\x9b\x

In [6]:
#ステータスコードを取得
f.status

200

In [7]:
#HTTPヘッダーの値を取得
f.getheader("Content-Type")

'text/html; charset=utf-8'

In [8]:
#文字コード
encoding = f.info().get_content_charset()
encoding

'utf-8'

In [9]:
#明示されてない場合はUTF-8
f.info().get_content_charset(failobj="utf-8")

'utf-8'

In [10]:
#設定を変えたのでもう一度取得
f = urlopen(url)

In [11]:
#デコード
html = f.read().decode(encoding)

In [12]:
import sys
print('encoding: ',encoding, file=sys.stderr )

encoding:  utf-8


In [13]:
print (html)

<!DOCTYPE HTML>
<html lang="ja" class="pc">
<head>
  <meta charset="UTF-8">
  <title>Pythonクローリング＆スクレイピング -データ収集・解析のための実践開発ガイド- サンプルページ</title>
  <meta http-equiv="Content-Style-Type" content="text/css"/>
  <meta http-equiv="Content-Script-Type" content="application/javascript"/>
  <meta name="description" content="Pythonクローリング＆スクレイピング -データ収集・解析のための実践開発ガイド- サンプルページ"/>
  <meta http-equiv="X-UA-Compatible" content="IE=Edge,chrome=1"/>
  <meta name="apple-mobile-web-app-capable" content="yes"/>
  <meta name="format-detection" content="telephone=no"/>
  <link rel="shortcut icon" href="/assets/templates/gdp/favicon.ico" type="image/vnd.microsoft.icon"/>
  <meta name="robots" content="noindex,noarchive"/>
  <link rel="stylesheet" href="/dp/assets/style/store1124.css" type="text/css" media="all"/>
</head>
<body itemscope="itemscope" itemtype="http://schema.org/WebPage" class="page-home">
  <header id="header" itemscope="itemscope" itemtype="http://schema.org/WPHeader">
    <h1 class="home-tit

In [14]:
#保存(次回以降で使用する)
with open("dp.html", "w") as dp:
    print (html, file=dp)

In [15]:
!ls

ch1_2.ipynb              dp                       index.html.1
ch1_3.ipynb              dp.1                     [34msample.scraping-book.com[m[m
ch1_4.ipynb              dp.html                  [31myakei_kobe.csv[m[m
ch2_4.ipynb              index.html


In [16]:
#metaタグからエンコーディングを取得する
import re
url = "http://sample.scraping-book.com/dp"
f = urlopen(url)
bytes_content = f.read()

In [17]:
scanned_text = bytes_content[:1024].decode('ascii', errors='replace')
scanned_text

'<!DOCTYPE HTML>\n<html lang="ja" class="pc">\n<head>\n  <meta charset="UTF-8">\n  <title>Python������������������������������������������ -���������������������������������������������������������- ���������������������</title>\n  <meta http-equiv="Content-Style-Type" content="text/css"/>\n  <meta http-equiv="Content-Script-Type" content="application/javascript"/>\n  <meta name="description" content="Python������������������������������������������ -���������������������������������������������������������- ���������������������"/>\n  <meta http-equiv="X-UA-Compatible" content="IE=Edge,chrome=1"/>\n  <meta name="apple-mobile-web-app-capable" content="yes"/>\n  <meta name="format-detection" content="telephone=no"/>\n  <link rel="shortcut icon" href="/assets/templates/gdp/favicon.ico" type="image/vnd.microsoft.icon"/>\n  <meta name="robots" content="noindex,noarchive"/>\n  <link rel="stylesheet" href="/dp/assets/style/store1124.css" type="text/css" media="all"/>\n</head>\n<body itemscop

In [18]:
#デコードした文字列から正規表現でcharsetの値を抜き出す
match = re.search(r'charset=["\']?([\w-]+)',scanned_text)
if match:
    encoding = match.group(1)
else:
    encoding = 'utf-8' #charsetが明示されていない場合はutf-8
    

In [19]:
print('encoding: ',encoding, file=sys.stderr )

encoding:  UTF-8


In [20]:
#得られたエンコーディングで再度デコード
text = bytes_content.decode(encoding)
print(text)

<!DOCTYPE HTML>
<html lang="ja" class="pc">
<head>
  <meta charset="UTF-8">
  <title>Pythonクローリング＆スクレイピング -データ収集・解析のための実践開発ガイド- サンプルページ</title>
  <meta http-equiv="Content-Style-Type" content="text/css"/>
  <meta http-equiv="Content-Script-Type" content="application/javascript"/>
  <meta name="description" content="Pythonクローリング＆スクレイピング -データ収集・解析のための実践開発ガイド- サンプルページ"/>
  <meta http-equiv="X-UA-Compatible" content="IE=Edge,chrome=1"/>
  <meta name="apple-mobile-web-app-capable" content="yes"/>
  <meta name="format-detection" content="telephone=no"/>
  <link rel="shortcut icon" href="/assets/templates/gdp/favicon.ico" type="image/vnd.microsoft.icon"/>
  <meta name="robots" content="noindex,noarchive"/>
  <link rel="stylesheet" href="/dp/assets/style/store1124.css" type="text/css" media="all"/>
</head>
<body itemscope="itemscope" itemtype="http://schema.org/WebPage" class="page-home">
  <header id="header" itemscope="itemscope" itemtype="http://schema.org/WPHeader">
    <h1 class="home-tit