(sec:scraping)=
# 正規表現とスクレイピング

本節では、正規表現と、それを用いたHTMLのスクレイピングについて学ぶ。

## 正規表現の基本

In [1]:
import re

In [2]:
text = "Hello, world!"
pat = re.compile("Hello")
match = pat.search(text)
if match is not None:
    print(f"Matched text is \"{match.group(0):s}\"")
else:
    print("Pattern not matched.")

Matched text is "Hello"


正規表現は大文字と小文字を区別するので、`re.compile("hello")`のように`pat`を定義すると、マッチしなくなる。大文字小文字を区別せずに文字列のマッチを検索する方法もあるので後述する。

正規表現のパターン文字列である`pat`には指定した文字列の中に正規表現とマッチする文字列が存在するかを調べる`search`の他にも

- 文字列の先頭から見て正規表現とマッチするかを調べる `match`
- 文字列が正規表現と完全にマッチするかを調べる `fullmatch`
- マッチした文字列を別の文字列で置き換える `sub`

などのメソッドが用意されている。

**matchの使用例**

In [3]:
text = "Hello, world!"
pat = re.compile("ello")
if pat.match(text) is not None:
    print("Pattern found!")
else:
    print("Pattern not found!")

Pattern not found!


In [4]:
text = "Hello, world!"
pat = re.compile("Hello")
if pat.match(text) is not None:
    print("Pattern found!")
else:
    print("Pattern not found!")

Pattern found!


**fullmatch**の使用例

In [15]:
text = "Hello, world!"
pat = re.compile("Hello, world")
if pat.fullmatch(text) is not None:
    print("Pattern matches perfectly!")
else:
    print("Pattern does not match!")

Pattern does not match!


In [16]:
text = "Hello, world!"
pat = re.compile("Hello, world!")
if pat.fullmatch(text) is not None:
    print("Pattern matches perfectly!")
else:
    print("Pattern does not match!")

Pattern matches perfectly!


**subの使用例**

In [10]:
text = "Hello, world!"
pat = re.compile("world")
text2 = pat.sub("Japan", text)
print(text2)

Hello, Japan!


### 正規表現のシンタックス

正規表現は特定の文字列を探すだけでなく、より複雑なパターンを持った文字列を探すことができる。

#### 何らかの1文字

#### 文字の繰り返し

a, b, cの3文字だけからなる単語が存在するかどうかを調べたい場合には、文字の繰り返しを表す`*`あるいは`+`を用いて、以下のようにパターン文字列を記述する。

In [29]:
text = "bake"
pat = re.compile("[abc]+")
if pat.fullmatch(text) is not None:
    print(f"\"{text:s}\" consists of a, b, and c")
else:
    print(f"\"{text:s}\" contains characters other than a, b, and c")

"bake" contains characters other than a, b, and c


In [30]:
text = "cab"
pat = re.compile("[abc]+")
if pat.fullmatch(text) is not None:
    print(f"\"{text:s}\" consists of a, b, and c")
else:
    print(f"\"{text:s}\" contains characters other than a, b, and c")

"cab" consists of a, b, and c


同じ文字の繰り返しを表す`+`と`*`は、その繰り返し回数の見方に違いがある。`+`は直前の文字が**1回以上繰り返す**場合にのみマッチするのに対し、`*`は**0回以上の繰り返し**にもマッチする。従って、`ab+`というパターンは`a`にはマッチせず、`ab`にはマッチする一方で、`ab*`というパターンは`a`にマッチし、なおかつ`ab`にもマッチする。

In [31]:
text1 = "a"
text2 = "ab"

In [32]:
pat = re.compile("ab+")
print(pat)
print(text1, ":", pat.fullmatch(text1) is not None)
print(text2, ":", pat.fullmatch(text2) is not None)

re.compile('ab+')
a : False
ab : True


In [33]:
pat = re.compile("ab*")
print(pat)
print(text1, ":", pat.fullmatch(text1) is not None)
print(text2, ":", pat.fullmatch(text2) is not None)

re.compile('ab*')
a : True
ab : True


#### 文字セット

#### 接頭辞、接尾辞

#### 最短マッチ、最長マッチ

#### 日本語の取り扱い

### サブグループ

上記の例では、マッチした文字列を取り出すために `match.group(0)`のように`group`メソッドに`0`を指定した。この`group`はマッチした文字列内にあるサブグループのことで、`0`はマッチした文章全体を示す。また`match.group(0)`は`match[0]`とも書くことができる。

## urllib

Pythonでウェブページのデータをサーバーから取得するための標準ライブラリに`urllib`がある。

In [7]:
import urllib

try:
    req = urllib.request.urlopen("https://google.co.jp/")
except urllib.error.HTTPError as e:
    print(e)

if req is not None:
    body = req.read()
    print(f"{len(body):d} bytes received!")
else:
    print("HTTP request failed!")

19468 bytes received!


In [8]:
body = body.decode("shift-jis")

In [9]:
pat = re.compile("href=\"(.*?)\"")
match = pat.search(body)
if match is not None:
    print(match.group(1))

https://www.google.co.jp/imghp?hl=ja&tab=wi


#### 練習問題
- Googleのトップページ (https://www.google.co.jp/) から、Googleのロゴ画像のURLを取り出しなさい。