In [1]:
#########################################################
# 正規表現基本的な関数
#########################################################
"""
正規表現
. とにかく何でもいい一文字("a.c" >> "abc")
^ 行の先頭にのみ存在する文字列を検索("^Hello" >> "Hello World")
$ 行の末尾にのみ存在する文字列を検索("World$" >> "Hello World")
* 直前の文字が0個以上連続する("hel*o" >> "hello", "heo", "helllllo")
+ 直前の文字が1個以上連続する("hel+o" >> "hello", "helllllo", "helo")
? 直前の文字が0個か1個ある("Windows?" >> "Windows", "Window")
| いずれかの文字("Windows|Mac" >> "Windows", "Mac")
[] 指定した文字のどれか("R[AU]N" >> "RUN", "RAN") @[A-Z], [0-9]
() グループ化("(Hey!)+" >>  "Hey!", "Hey!Hey!", "Hey!Hey!Hey!")
\w 英単語を表す("w\" >> "word")
\d 数字を表す("(\d+)-(\d+)-(\d+)" >> "080-7777-6666")
"""
import re

In [2]:
# re.search(pattern, string, flags=0)
# 解説 : 指定された文字列が正規表現にマッチするか調べる
# 引数 : pattern=正規表現の文字列を指定, string=確認対象の文字列, flags=正規表現コンパイル時の振る舞いを変更するフラグを指定
# 戻り値 : マッチした場合はマッチオブジェクト、しなかった場合はNoneを返す
print(re.search("a.c", "adc"))
print(re.search("a.c", "asdfabc"))
print(re.search("a.c", "add"))

<_sre.SRE_Match object; span=(0, 3), match='adc'>
<_sre.SRE_Match object; span=(4, 7), match='abc'>
None


In [3]:
# re.match(pattern, string, flags=0)
# 文字列の先頭にマッチするかどうかを判定
print(re.match("a.c", "abc"))
print(re.match("a.c", "asdfabc"))
print(re.match("a.c", "abb"))

<_sre.SRE_Match object; span=(0, 3), match='abc'>
None
None


In [4]:
# reモジュールのflag
# A(ASCII)=\wなどのマッチング処理でASCII文字のみを使用する **\w=文字と数字それにアンダースコア のいずれかにマッチ
print(re.search("\w", "あいうえおABC"))
print(re.search("\w", "あいうえおABC", flags=re.A))

<_sre.SRE_Match object; span=(0, 1), match='あ'>
<_sre.SRE_Match object; span=(5, 6), match='A'>


In [5]:
# I(IGNORECASE)=大文字小文字を区別せずにマッチする
print(re.search("abc", "ABC"))
print(re.search("abc", "ABC", flags=re.I))

None
<_sre.SRE_Match object; span=(0, 3), match='ABC'>


In [6]:
# M(MULTILINE)=^と$が各行の先頭と行末にマッチする
print(re.search("^abc", "dge\nabcwer\ndfg", flags=re.M))

<_sre.SRE_Match object; span=(4, 7), match='abc'>


In [7]:
# S(DOTALL)=.を改行も含めてマッチする
print(re.search("a..c", "ab\ncdefg"))
print(re.search("a..c", "ab\ncdefg", flags=re.S))


None
<_sre.SRE_Match object; span=(0, 4), match='ab\nc'>


In [8]:
#########################################################
# 正規表現オブジェクト(compile)
#########################################################
# 正規表現を使用するには、searchやmatch以外に正規表現オブジェクトを作成し、そのオブジェクトに対して処理を行うことができる。
# 正規表現オブジェクトはre.compileで作成する

In [9]:
# re.compile(pattern, flags=0)
# 解説 : 指定された正規表現パターンをコンパイルして制菌表現オブジェクトを返す
# 引数 : pattern=正規表現の文字列を指定する, flags=正規表現コンパイル時の振る舞いを変更するフラグを指定する
# 戻り値 : 正規表現オブジェクト
regex = re.compile("a..c")
print(regex)
type(regex)

re.compile('a..c')


_sre.SRE_Pattern

In [10]:
################### re.compileのメソッド ###################

In [11]:
# search(string[, pos[, endpos]])
# 解説 : 指定した文字列(string)が正規表現にマッチするかどうかを調べる。pos,endposは検索開始、終了位置
# 戻り値 : マッチオブジェクトまたはNone
print(regex.search("abbcdefg"))
print(regex.search("asdfghj"))
print(regex.search("abbcdefgaffcdefg", 5, 13))

<_sre.SRE_Match object; span=(0, 4), match='abbc'>
None
<_sre.SRE_Match object; span=(8, 12), match='affc'>


In [13]:
# match(string[, pos[, endpos]])
# 解説 : 文字列の先頭にマッチするかどうかを判定
# 戻り値 : マッチオブジェクトまたはNone
print(regex.match("abbcdfg"))
print(regex.match("aaabbcdfg"))
print(regex.match("aaabbcdfg", 2, 10))

<_sre.SRE_Match object; span=(0, 4), match='abbc'>
None
<_sre.SRE_Match object; span=(2, 6), match='abbc'>


In [18]:
# fullmatch(string[, pos[, endpos]])
# 解説 : 指定した文字列全体が正規表現にマッチするかを返す
# 戻り値 : マッチオブジェクトまたはNone
print(regex.fullmatch("abbc"))
print(regex.fullmatch("aabbc"))
print(regex.fullmatch("aabbcc", 1, 5))

<_sre.SRE_Match object; span=(0, 4), match='abbc'>
None
<_sre.SRE_Match object; span=(1, 5), match='abbc'>


In [26]:
# split(string, maxsplit=0)
# 解説 : 指定した文字列を正規表現パターンにマッチした文字列で分割する。maxxplitは分割の最大数
# 文字列のlist
print(regex.split("aabbcbabbccabbcdabbce"))
print(regex.split("aabbcbabbccabbcdabbce", 2))
print(regex.split("abbc"))
print(regex.split("abc"))

['a', 'b', 'c', 'd', 'e']
['a', 'b', 'cabbcdabbce']
['', '']
['abc']


In [28]:
# sub(repl, string, count=0)
# 解説 : 文字列中の正規表現パターンにマッチした文字列をreplに置き換える。countは変換する上限を指定する。
# str
print(regex.sub("@", "aabbcbabbccabbcdabbce"))
print(regex.sub("@", "aabbcbabbccabbcdabbce", 2))
print(regex.sub("@", "abc"))

a@b@c@d@e
a@b@cabbcdabbce
abc


In [32]:
# findall(string[, pos[, endpos]])
# 解説 : 指定した文字列中の正規表現にマッチした文字列をリストで返す
# 文字列のlist
print(regex.findall("aaaacbabbccacccdaddce"))
print(regex.findall("aaaacbabbccacccdaddce", 3, 20))
print(regex.findall("abc"))

['aaac', 'abbc', 'accc', 'addc']
['abbc', 'accc', 'addc']
[]


In [41]:
# finditer(string[, pos[, endpos]])
# 解説 : 指定した文字列中の正規表現にマッチしたマッチオブジェクトをイテレータで返す。
# 戻り値 : マッチオブジェクトもしくはNone
match_iter = regex.finditer("aaaacbabbccacccdaddce")
for i in match_iter:
    print(i)

<_sre.SRE_Match object; span=(1, 5), match='aaac'>
<_sre.SRE_Match object; span=(6, 10), match='abbc'>
<_sre.SRE_Match object; span=(11, 15), match='accc'>
<_sre.SRE_Match object; span=(16, 20), match='addc'>


In [42]:
#########################################################
# マッチオブジェクト
#########################################################
# マッチオブジェクトはre.match()やre.search()などで正規表現にマッチした文字列に関する情報を保持するオブジェクト。

In [50]:
# group([group1, ...])
# 解説 : 指定したサブグループにマッチした文字列を返す。複数のサブグループを指定した場合は文字列をタプルで返す。
# 戻り値 : 文字列または文字列のタプル
regex2 = re.compile("(\d+)-(\d+)-(\d+)")
match = regex2.search("080-6620-7047")
print(match.group())
print(match.group(0))
print(match.group(1, 2, 3))

080-6620-7047
080-6620-7047
('080', '6620', '7047')


In [66]:
# ?P<xxxx>でグループの名前を指定できる
regex3 = re.compile(r"(?P<first>\w+) (?P<last>\w+)")
match2 = regex3.search("keita midorikawa : PyCon JP Chair")
print(match2.group(0))
print(match2.group("first", "last"))

keita midorikawa
('keita', 'midorikawa')


In [67]:
# groups(default=None)
# 解説 : パターンにマッチしたサブグループの文字列をタプルで返す。defaultはマッチする文字列存在しない場合に返す値を指定する。
# 戻り値 : タプル
print(match.groups())

('080', '6620', '7047')


In [68]:
# groupdict(default=None)
# パターンにマッチしたサブグループを辞書形式で返す。
# 戻り値 : dict
print(match2.groupdict())

{'last': 'midorikawa', 'first': 'keita'}


In [69]:
# expand(template)
# テンプレート文字列に対して、\1または\<name>の形式でサブグループを指定すると、マッチした文字列に置き換えられる
# 戻り値 : str
print(match2.expand(r"苗字:\g<last>  名前:\1"))

苗字:midorikawa  名前:keita


In [2]:
import re
regex = re.compile("(.+) (City)")
match = regex.search("Tokyo City")
match2 = regex.search("Kanagawa City")
print(match.group(0, 1, 2))
print(match2.group(0, 1, 2))
print(match.expand(r"\1 \2"))

('Tokyo City', 'Tokyo', 'City')
('Kanagawa City', 'Kanagawa', 'City')
Tokyo City
