### ①文字コードを変換してwebページを取得する
- urllib.request

In [12]:
# urlを開くためのモジュール
import urllib.request

url = 'https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC'

# with構文を使用するとopen処理とclose処理を自動的に行なってくれる
with urllib.request.urlopen(url) as res:
    # urlの内容を読みbyteに代入（このままだと開けない）
    byte = res.read()
    # 文字コードの変換（utf-8）
    html = byte.decode('utf-8')
    print(html[:200])

<!DOCTYPE html>
<html class="client-nojs" lang="ja" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>日本 - Wikipedia</title>
<script>document.documentElement.className=document.documentElement.classNam


### ②自動で文字コードを判定し変換する
- cchardet

In [15]:
# !pip3 install cchardet

In [16]:
import urllib.request
# 文字コードを自動判定自動変換するライブラリ
import cchardet

# with構文を使用するとopen処理とclose処理を自動的に行なってくれる
with urllib.request.urlopen(url) as res:
    # urlの内容を読みbyteに代入（このままだと開けない）
    byte = res.read()
    # 文字コードの変換（utf-8）
    # ここでcchardetを使用する
    html = byte.decode(cchardet.detect(byte)['encoding'])
    print(html[:200])

<!DOCTYPE html>
<html class="client-nojs" lang="ja" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>日本 - Wikipedia</title>
<script>document.documentElement.className=document.documentElement.classNam


### ③ 「タイトル」と「本文」を抜き出す
- BeautifulSoup

In [26]:
import urllib.request

import cchardet
# htmlファイルをタグ情報から解析し、抽出データを格納したインスタンスを返すライブラリ
from bs4 import BeautifulSoup

url = 'https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC'
res = urllib.request.urlopen(url)
byte = res.read()
html = byte.decode(cchardet.detect(byte)['encoding'])

# BeautifulSoupのインスタンスを作成
soup = BeautifulSoup(html, 'html.parser')

# 下記でタイトルの抽出
title = soup.head.title
print('[title]', title.text, '\n')

# for文でタグを回し抜き出してみる
# soup.find_allで指定したタグの全てを抽出することになる
for block in soup.find_all(['p', 'h1', 'h2', 'h3', 'h4']):
    print(f'[{block}]:', block.text)

[title] 日本 - Wikipedia 

[<h1 class="firstHeading" id="firstHeading" lang="ja">日本</h1>]: 日本
[<p class="mw-empty-elt">
</p>]: 

[<p><b>日本国</b>（にほんこく、にっぽんこく）、または<b>日本</b>（にほん、にっぽん）は、<a href="/wiki/%E6%97%A5%E6%9C%AC%E5%88%97%E5%B3%B6" title="日本列島">日本列島</a>（<a href="/wiki/%E5%8C%97%E6%B5%B7%E9%81%93" title="北海道">北海道</a>・<a href="/wiki/%E6%9C%AC%E5%B7%9E" title="本州">本州</a>・<a href="/wiki/%E5%9B%9B%E5%9B%BD" title="四国">四国</a>・<a href="/wiki/%E4%B9%9D%E5%B7%9E" title="九州">九州</a>の主要四島およびそれに付随する島々）および<a href="/wiki/%E5%8D%97%E8%A5%BF%E8%AB%B8%E5%B3%B6" title="南西諸島">南西諸島</a>・<a href="/wiki/%E4%BC%8A%E8%B1%86%E8%AB%B8%E5%B3%B6" title="伊豆諸島">伊豆諸島</a>・<a href="/wiki/%E5%B0%8F%E7%AC%A0%E5%8E%9F%E8%AB%B8%E5%B3%B6" title="小笠原諸島">小笠原諸島</a>などからなる<a href="/wiki/%E6%9D%B1%E3%82%A2%E3%82%B8%E3%82%A2" title="東アジア">東アジア</a>の<a href="/wiki/%E5%B3%B6%E5%9B%BD" title="島国">島国</a><sup class="reference" id="cite_ref-kojien5_7-0"><a href="#cite_note-kojien5-7">[1]</a></sup><sup class="reference" id="cite_ref-8"><a