# 正規表現

## 正規表現とは

 文字列を検索、置換する時によく使われる、文字列をパターン化する方法。
 
 ファイル名の指定などで出てくるワイルドカード(*, ?)をより一般的に拡張したもの。

### 正規表現で使われるパターン(抜粋)

|パターン|意味|
|------|----|
|.|任意の1文字|
|\\d|数字|
|\\D|非数字|
|\\w|英数字および下線( _ )|
|\\W|非英数字|
|\\s|空白文字(スペース、改行、タブ)|
|\\S|非空白文字|
|\\\\|\\自身|
|[...]|[ ]内の任意の文字。-を使って範囲指定も可([a-z]はアルファベット小文字全部)|
|[^...]|[^ ]内に含まれない文字|
|(abc\|def)|'abc' か 'def'|
|^ | 文字列の先頭|
|$ | 文字列の終端|
|*|直前の文字パターンの0回以上の繰り返し|
|+|直前の文字パターンの1回以上の繰り返し|
|{n}|直前の文字パターンのn回の繰り返し|
|{n,m}|直前の文字パターンのn回からm回までの繰り返し|
|(...)|後で使えるよう記憶しておく。置換文字列の\1,\2,\3などで使える|

### 例

 .* ⇒ 任意の文字の0回以上の繰り返し

 \d{3}-\d{3}-\d{4} ⇒ 080-123-2534 のような文字列

 ^abc$ ⇒     abc だけの文字列(abcdefなどはマッチしない)
 
 abc\s+def ⇒   abc def のように間に空白文字いくつかを含むもの

## re モジュール

 Python で正規表現を扱うには、re モジュールを使う。
 
 re モジュールは2つの使い方がある。
 
 - re クラスのインスタンスを作成して、メソッドから使う
 - re のスタティックメソッドを使う(関数的に使う)
 
以下では、スタティックメソッドとしての使い方を紹介する。

## re.search()

 re.search(検索したい正規表現, 検索対象文字列) の形で使う。
 
 戻り値は match オブジェクト。match オブジェクトは以下のメソッドを持つ。
 
- .group() マッチした文字列
- .start() マッチした開始位置
- .end() マッチした終了位置
- .span() マッチした開始位置と終了位置のタプル

In [1]:
import re

str1 = 'I have a pen'

match = re.search('ha', str1)

print(match.group())
print(match.start())
print(match.end())
print(match.span())


ha
2
4
(2, 4)


In [2]:
# 正規表現を指定するには、raw 文字列を使うのがよい。
match = re.search(r'\s', str1)

print(match.group())
print(match.start())
print(match.end())
print(match.span())


 
1
2
(1, 2)


## re.findall()

re.findall(検索したい正規表現, 検索対象文字列)の形で使う。search と違って見つかった文字列をすべてリストで返す。

ほぼ同じ機能で、リストではなく、イテレータ(range と同様)を返す re.finditer() もある。



In [3]:
str1 = 'I Have A Pen'
match = re.findall(r'[a-z]+', str1)

print(match)

['ave', 'en']


## re.sub()

re.sub(検索したい正規表現, 置換結果の正規表現, 検索対象文字列) の形で、文字列の置換を行う。

置換後の文字列を返す。元の文字列自体は変化しない。

In [4]:
str1 = 'I have a pen'

new_str = re.sub('I have', 'She has', str1)

print(new_str)

She has a pen


In [5]:
str1 = 'I Have A Pen'

new_str = re.sub(r'[A-Z]', 'X', str1)
print(new_str)

X Xave X Xen


In [6]:
new_str = re.sub(r'([A-Z])', r'\1X', str1)  # \1 が()内の文字列に動的に置き換わる
print(new_str)

IX HXave AX PXen
