## 特殊文字
|パターン|マッチ対象|
|:--|:--|
|\\d|1個の数字|
|\\D|1個の数字以外の文字|
|\\w|1個の英字|
|\\W|1個の英字以外の文字|
|\\s|1個の空白文字|
|\\S|1個の空白文字以外の文字|
|\\b|単語の境界(\\wと\\Wの間。順番はどちらでも良い)|
|\\B|単語の境界以外の文字間|

## メタ文字
- . : とにかく何でもいい一文字("a.c" >> "abc")
- ^ : 行の先頭("^Hello" >> "Hello World")
- \$ : 行の末尾("World$" >> "Hello World")
- \* : 直前の文字が0個以上連続する("hel*o" >> "hello", "heo", "helllllo")
- \+ : 直前の文字が1個以上連続する("hel+o" >> "hello", "helllllo", "helo")
- ? : 直前の文字が0個か1個ある("Windows?" >> "Windows", "Window")
- {n} : 直前の文字がn個連続する("a{3}" >> "aaa")
- {n, m} : 直前の文字がn個以上m個未満連続する("a{1, 3}" >> "a", "aa"
- A | B : AかBいずれかの文字("Windows|Mac" >> "Windows", "Mac")
- []  : 指定した文字のどれか("R[AU]N" >> "RUN", "RAN") ※次のような書き方もある[A-Z], [0-9]
- [^] : 指定した文字以外("R[^B-Z]N" >> "RAN")
- () : グループ化("(Hey!)+" >>  "Hey!", "Hey!Hey!", "Hey!Hey!Hey!")
- prev(?= next) : nextが続いているprev("hello (?= world)" >> "hello")
- prev(?! next) : nextが続いていないprev
- (?<= prev)next : prevが前にあるnext
- (?<! prev)next : prevが前にないnext


In [4]:
#########################################################
# 正規表現基本的なメソッド
#########################################################
import re

In [5]:
# re.search(pattern, string, flags=0)
# 解説 : 指定された文字列が正規表現にマッチするか調べる
# 引数 : pattern=正規表現の文字列を指定, string=確認対象の文字列, flags=正規表現コンパイル時の振る舞いを変更するフラグを指定
# 戻り値 : マッチした場合はマッチオブジェクト、しなかった場合はNoneを返す
print(re.search("a.c", "asdfabc"))
print(re.search("a.c", "add"))

<_sre.SRE_Match object; span=(4, 7), match='abc'>
None


In [6]:
# re.match(pattern, string, flags=0)
# 文字列の先頭にマッチするかどうかを判定
print(re.match("a.c", "abc"))
print(re.match("a.c", "fabc"))
print(re.match("a.c", "abb"))

<_sre.SRE_Match object; span=(0, 3), match='abc'>
None
None


In [7]:
# reモジュールのflag
# A(ASCII)=\wなどのマッチング処理でASCII文字のみを使用する (\w=文字と数字それにアンダースコア のいずれかにマッチ)
print(re.search("\w", "あいうえおABC"))
print(re.search("\w", "あいうえおABC", flags=re.A))

<_sre.SRE_Match object; span=(0, 1), match='あ'>
<_sre.SRE_Match object; span=(5, 6), match='A'>


In [8]:
# I(IGNORECASE)=大文字小文字を区別せずにマッチする
print(re.search("abc", "ABC"))
print(re.search("abc", "ABC", flags=re.I))

None
<_sre.SRE_Match object; span=(0, 3), match='ABC'>


In [9]:
# M(MULTILINE)=^と$が各行の先頭と行末にマッチする
print(re.search("^abc", "dge\nabcwer\ndfg", flags=re.M))

<_sre.SRE_Match object; span=(4, 7), match='abc'>


In [10]:
# S(DOTALL)=.を改行も含めてマッチする
print(re.search("a..c", "ab\ncdefg"))
print(re.search("a..c", "ab\ncdefg", flags=re.S))


None
<_sre.SRE_Match object; span=(0, 4), match='ab\nc'>


In [11]:
#########################################################
# 正規表現オブジェクト(compile)
#########################################################
# 正規表現を使用するには、searchやmatch以外に正規表現オブジェクトを作成し、そのオブジェクトに対して処理を行うことができる。
# 正規表現オブジェクトはre.compileで作成する

In [12]:
# re.compile(pattern, flags=0)
# 解説 : 指定された正規表現パターンをコンパイルして制菌表現オブジェクトを返す
# 引数 : pattern=正規表現の文字列を指定する, flags=正規表現コンパイル時の振る舞いを変更するフラグを指定する
# 戻り値 : 正規表現オブジェクト
regex = re.compile("a..c")
print(regex)
type(regex)

re.compile('a..c')


_sre.SRE_Pattern

In [13]:
################### re.compileのメソッド ###################

In [14]:
# search(string[, pos[, endpos]])
# 解説 : 指定した文字列(string)が正規表現にマッチするかどうかを調べる。pos,endposは検索開始、終了位置
# 戻り値 : マッチオブジェクトまたはNone
print(regex.search("abbcdefg"))
print(regex.search("asdfghj"))
print(regex.search("abbcdefgaffcdefg", 5, 13))

<_sre.SRE_Match object; span=(0, 4), match='abbc'>
None
<_sre.SRE_Match object; span=(8, 12), match='affc'>


In [15]:
# match(string[, pos[, endpos]])
# 解説 : 文字列の先頭にマッチするかどうかを判定
# 戻り値 : マッチオブジェクトまたはNone
print(regex.match("abbcdfg"))
print(regex.match("aaabbcdfg"))
print(regex.match("aaabbcdfg", 2, 10))

<_sre.SRE_Match object; span=(0, 4), match='abbc'>
None
<_sre.SRE_Match object; span=(2, 6), match='abbc'>


In [16]:
# fullmatch(string[, pos[, endpos]])
# 解説 : 指定した文字列全体が正規表現にマッチするかを返す
# 戻り値 : マッチオブジェクトまたはNone
print(regex.fullmatch("abbc"))
print(regex.fullmatch("aabbc"))
print(regex.fullmatch("aabbcc", 1, 5))

<_sre.SRE_Match object; span=(0, 4), match='abbc'>
None
<_sre.SRE_Match object; span=(1, 5), match='abbc'>


In [17]:
# split(string, maxsplit=0)
# 解説 : 指定した文字列を正規表現パターンにマッチした文字列で分割する。maxxplitは分割の最大数
# 文字列のlist
print(regex.split("aabbcbabbccabbcdabbce"))
print(regex.split("aabbcbabbccabbcdabbce", 2))
print(regex.split("abbc"))
print(regex.split("abc"))

['a', 'b', 'c', 'd', 'e']
['a', 'b', 'cabbcdabbce']
['', '']
['abc']


In [18]:
# sub(repl, string, count=0)
# 解説 : 文字列中の正規表現パターンにマッチした文字列をreplに置き換える。countは変換する上限を指定する。
# str
print(regex.sub("@", "aabbcbabbccabbcdabbce"))
print(regex.sub("@", "aabbcbabbccabbcdabbce", 2))
print(regex.sub("@", "abc"))

a@b@c@d@e
a@b@cabbcdabbce
abc


In [19]:
# findall(string[, pos[, endpos]])
# 解説 : 指定した文字列中の正規表現にマッチした文字列をリストで返す
# 文字列のlist
print(regex.findall("aaaacbabbccacccdaddce"))
print(regex.findall("aaaacbabbccacccdaddce", 3, 20))
print(regex.findall("abc"))

['aaac', 'abbc', 'accc', 'addc']
['abbc', 'accc', 'addc']
[]


In [20]:
# finditer(string[, pos[, endpos]])
# 解説 : 指定した文字列中の正規表現にマッチしたマッチオブジェクトをイテレータで返す。
# 戻り値 : マッチオブジェクトもしくはNone
match_iter = regex.finditer("aaaacbabbccacccdaddce")
for i in match_iter:
    print(i)

<_sre.SRE_Match object; span=(1, 5), match='aaac'>
<_sre.SRE_Match object; span=(6, 10), match='abbc'>
<_sre.SRE_Match object; span=(11, 15), match='accc'>
<_sre.SRE_Match object; span=(16, 20), match='addc'>


In [21]:
#########################################################
# マッチオブジェクト
#########################################################
# マッチオブジェクトはre.match()やre.search()などで正規表現にマッチした文字列に関する情報を保持するオブジェクト。

In [22]:
# group([group1, ...])
# 解説 : 指定したサブグループにマッチした文字列を返す。複数のサブグループを指定した場合は文字列をタプルで返す。
# 戻り値 : 文字列または文字列のタプル
regex2 = re.compile("(\d+)-(\d+)-(\d+)")
match = regex2.search("080-6620-7047")
print(match.group())
print(match.group(0))
print(match.group(1, 2, 3))

080-6620-7047
080-6620-7047
('080', '6620', '7047')


In [23]:
# ?P<xxxx>でグループの名前を指定できる
regex3 = re.compile(r"(?P<first>\w+) (?P<last>\w+)")
match2 = regex3.search("keita midorikawa : PyCon JP Chair")
print(match2.group(0))
print(match2.group("first", "last"))

keita midorikawa
('keita', 'midorikawa')


In [24]:
# groups(default=None)
# 解説 : パターンにマッチしたサブグループの文字列をタプルで返す。defaultはマッチする文字列存在しない場合に返す値を指定する。
# 戻り値 : タプル
print(match.groups())

('080', '6620', '7047')


In [25]:
# groupdict(default=None)
# パターンにマッチしたサブグループを辞書形式で返す。
# 戻り値 : dict
print(match2.groupdict())

{'last': 'midorikawa', 'first': 'keita'}


In [26]:
# expand(template)
# テンプレート文字列に対して、\1または\<name>の形式でサブグループを指定すると、マッチした文字列に置き換えられる
# 戻り値 : str
print(match2.expand(r"苗字:\g<last>  名前:\1"))

苗字:midorikawa  名前:keita


In [27]:
import re
regex = re.compile("(.+) (City)")
match = regex.search("Tokyo City")
match2 = regex.search("Kanagawa City")
print(match.group(0, 1, 2))
print(match2.group(0, 1, 2))
print(match.expand(r"\1 \2"))

('Tokyo City', 'Tokyo', 'City')
('Kanagawa City', 'Kanagawa', 'City')
Tokyo City


In [28]:
#################################################
# 特殊文字のマッチング
#################################################
import re
import string

In [63]:
printable = string.printable + "あいうえお一二三"
print(len(printable))
print(printable)

108
0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	
あいうえお一二三


In [72]:
print(re.findall(r"\d", printable))

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']


In [73]:
print(re.findall(r"\D", printable))

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', ':', ';', '<', '=', '>', '?', '@', '[', '\\', ']', '^', '_', '`', '{', '|', '}', '~', ' ', '\t', '\n', '\r', '\x0b', '\x0c', 'あ', 'い', 'う', 'え', 'お', '一', '二', '三']


In [74]:
print(re.findall(r"\w", printable))

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '_', 'あ', 'い', 'う', 'え', 'お', '一', '二', '三']


In [75]:
print(re.findall(r"\W", printable))

['!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', ':', ';', '<', '=', '>', '?', '@', '[', '\\', ']', '^', '`', '{', '|', '}', '~', ' ', '\t', '\n', '\r', '\x0b', '\x0c']


In [76]:
print(re.findall(r"\s", printable))

[' ', '\t', '\n', '\r', '\x0b', '\x0c']


In [77]:
print(re.findall(r"\S", printable))

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', ':', ';', '<', '=', '>', '?', '@', '[', '\\', ']', '^', '_', '`', '{', '|', '}', '~', 'あ', 'い', 'う', 'え', 'お', '一', '二', '三']


In [95]:
# 先頭に単語の区切り文字がある単語を抽出
print(re.findall(r"\bham\d", "spam ham1 egg,ham2.ham3\nham4\tham5_ham6"))
print(re.findall(r"\bam", "spam ham egg"))

['ham1', 'ham2', 'ham3', 'ham4', 'ham5']
[]


In [87]:
# 先頭に単語の区切り文字がない単語を抽出
print(re.findall(r"\Bam", "spam ham egg"))

['am', 'am']
