## 60. 正規表現の書き方と使い方

In [1]:
# 正規表現のモジュールをインポート
import re

In [19]:
URL = 'http://www.amazon.co.jp/dp/B07T9TCPZX'

In [20]:
pattern = "https?://[^/]+/"

In [21]:
m = re.match(pattern, URL)

In [22]:
m.group()

'http://www.amazon.co.jp/'

### matchオブジェクトのメソッド
- group() : マッチした文字列を取得する
- span() : マッチした文字列の開始、終了位置を取得する
- start() : マッチした文字列の開始位置を取得する
- end() : マッチした文字列の終了位置を取得する

In [23]:
m.span()

(0, 24)

## 61. 正規表現で使う関数(match, search)

### 正規表現の関数
- match : 先頭の文字列からパターンに一致するものを検索
- search: 先頭に限らずパターンに一致するのがあるか確認。ただし、複数一致しても1つ目を返す
- findall: パターンに一致するのもを全てリストで返す。位置情報は取得不可
- finditer: パターンに一致するものを全てmatchオブジェクトで取得できる。位置情報も取得可
- fullmatch: 文字列全体が一致しているかを確認する
- sub: パターンに一致した文字列を別の文字列に置き換える

#### match関数
- re.match(正規表現のパターン、検索対象の文字列)
- 戻り値
 - matchオブジェクトを返す
 - 何も取得できない場合はNoneを返す

In [24]:
m = re.match('x.z', 'xyz')
print(m)

<re.Match object; span=(0, 3), match='xyz'>


In [25]:
# matchは先頭からの検索なのでNoneになる
m = re.match('x.z', 'vwxyz')
print(m)

None


In [27]:
# searchだと検索できる
m = re.search('x.z', 'vwxyz')
print(m)

<re.Match object; span=(2, 5), match='xyz'>


In [30]:
m = re.search('x.z', 'vwxyz vwxyz')
print(m)

<re.Match object; span=(2, 5), match='xyz'>


## 62. 正規表現で使う関数(findall, finditer, fullmatch, sub)

#### findall関数
- re.findall(正規表現のパターン、検索対象の文字列)
- 戻り値
 - リストを返す
 - 何も取得できない場合は空のリストを返す

In [34]:
m = re.findall('x.z', 'vwxyz vwxyz xcz xgz')
print(m)

['xyz', 'xyz', 'xcz', 'xgz']


#### finditer関数
- re.finditer(正規表現のパターン、検索対象の文字列)
- 戻り値
 - イテレータを返す(要素はmatchオブジェクト)
 - 何も取得できない場合は空のイテレータを返す

In [35]:
m = re.finditer('x.z', 'vwxyz vwxyz xcz xgz')
for s in m:
    print(s)

<re.Match object; span=(2, 5), match='xyz'>
<re.Match object; span=(8, 11), match='xyz'>
<re.Match object; span=(12, 15), match='xcz'>
<re.Match object; span=(16, 19), match='xgz'>


#### fullmatch関数
- re.fullmatch(正規表現のパターン、検索対象の文字列)
- 戻り値
 - matchオブジェクトを返す
 - 何も取得できない場合はNoneを返す

In [36]:
# 完全一致の為Noneになる
m = re.fullmatch('x.z', 'vwxyz')
print(m)

None


In [38]:
m = re.fullmatch('x.z', 'xyz')
print(m)

<re.Match object; span=(0, 3), match='xyz'>


#### sub関数
- re.sub(正規表現のパターン,置換後の文字列,検索対象の文字列)
- 戻り値
 - 置換処理をした後の文字列を返す
 - 一致しない場合、置換せずに文字列を返す 

In [39]:
m = re.sub('x.z','abc','vwxyz')
print(m)

vwabc


## 63. 文字列の先頭・末尾を指定する記号

- ^ : 文字列の先頭からパターンに一致するかを判定
- $ : 文字列の末尾からパターンに一致するかを判定

In [2]:
# ^の確認
m = re.search('^ab', 'abcde')
print(m)

<re.Match object; span=(0, 2), match='ab'>


In [3]:
# 先頭にabがない場合
m = re.search('^ab', 'xyz abcde')
print(m)

None


In [6]:
# $で末尾から検索
m = re.search('de$', 'xyz abcde')
print(m)

<re.Match object; span=(7, 9), match='de'>


In [7]:
# $で末尾から検索
m = re.search('de$', 'abcde　xyz')
print(m)

None


## 64. 繰り返し回数を指定する記号

- ? : 0回もしくは1回
- ＊ : 0回以上
- ＋ : 1回以上
- {m}: m回
- {m,}: m回以上
- {m,n}: m回以上,n回まで 

In [2]:
# ?のケース
m = re.search('xy?', 'x')
print(m)

<re.Match object; span=(0, 1), match='x'>


In [3]:
m = re.search('xy?', 'xyyy')
print(m)

<re.Match object; span=(0, 2), match='xy'>


In [4]:
m = re.search('xy?', 'xlyyy')
print(m)

<re.Match object; span=(0, 1), match='x'>


In [7]:
# *の場合
m = re.search('xy*', 'xyyy')
print(m)

<re.Match object; span=(0, 4), match='xyyy'>


In [8]:
m = re.search('xy*', 'x')
print(m)

<re.Match object; span=(0, 1), match='x'>


In [10]:
# +の場合
m = re.search('xy+', 'x')
print(m)

None


In [11]:
m = re.search('xy+', 'xy')
print(m)

<re.Match object; span=(0, 2), match='xy'>


In [12]:
m = re.search('xy+', 'xyyy')
print(m)

<re.Match object; span=(0, 4), match='xyyy'>


In [13]:
# {}の場合
m = re.search('x{3}', 'xxx')
print(m)

<re.Match object; span=(0, 3), match='xxx'>


In [14]:
m = re.search('x{3}', 'xxxx')
print(m)

<re.Match object; span=(0, 3), match='xxx'>


In [15]:
# {m,}の場合
m = re.search('x{3,}', 'xxxxxx')
print(m)

<re.Match object; span=(0, 6), match='xxxxxx'>


In [16]:
# {m,}の場合
m = re.search('x{3,}', 'xx')
print(m)

None


In [17]:
# {m,n}の場合
m = re.search('x{3,5}', 'xxx')
print(m)

<re.Match object; span=(0, 3), match='xxx'>


In [18]:
# {m,n}の場合
m = re.search('x{3,5}', 'xxxxx')
print(m)

<re.Match object; span=(0, 5), match='xxxxx'>


In [19]:
# {m,n}の場合
m = re.search('x{3,5}', 'xxxxxx')
print(m)

<re.Match object; span=(0, 5), match='xxxxx'>


#### グルーピング
- （ ）: ( )で囲われた文字列をグルーピングし、パターンに一致するかを判定

In [21]:
# xyを3回～5回ｍで繰り返した時にmatch
m = re.search('(xy){3,5}', 'xyxyxy')
print(m)

<re.Match object; span=(0, 6), match='xyxyxy'>


In [22]:
# xyを3回～5回ｍで繰り返した時にmatch
m = re.search('(xy){3,5}', 'xyxy')
print(m)

None


In [23]:
m = re.search('(xy)*', 'xyxy')
print(m)

<re.Match object; span=(0, 4), match='xyxy'>


## 65. 集合（否定を含む）・　ORを指定する記号

#### 集合(否定含む)の記号
- [0-9]: 全ての数字
- [a-zA-Z]:全てのアルファベット
- [a-zA-Z0-9]:全てのアルファベットと数字
- [^a-zA-Z0-9]:全てのアルファベットと数字以外、集合に^を付けると集合の条件否定となる

In [24]:
# [0-9の場合]
m = re.search('[0-9]', 'a')
print(m)

None


In [25]:
m = re.search('[0-9]', '333')
print(m)

<re.Match object; span=(0, 1), match='3'>


In [26]:
# [a-zA-Zの場合]
m = re.search('[a-zA-Z]', '333')
print(m)

None


In [27]:
m = re.search('[a-zA-Z]', 'z')
print(m)

<re.Match object; span=(0, 1), match='z'>


In [28]:
m = re.search('[a-zA-Z]', 'Z')
print(m)

<re.Match object; span=(0, 1), match='Z'>


In [29]:
m = re.search('[a-z]', 'Z')
print(m)

None


In [34]:
m = re.search('[a-z0-9]', '3')
print(m)

<re.Match object; span=(0, 1), match='3'>


In [35]:
# [^の場合]
m = re.search('[^a-z0-9]', '3')
print(m)

None


In [36]:
# [^の場合]
m = re.search('[^a-z0-9]', '/')
print(m)

<re.Match object; span=(0, 1), match='/'>


#### ORを指定する記号

- | : a|bはa or b
- [ ]: [ab]はa or b

In [37]:
# [|の場合]
m = re.search('a|b', 'a')
print(m)

<re.Match object; span=(0, 1), match='a'>


In [38]:
m = re.search('a|b', 'b')
print(m)

<re.Match object; span=(0, 1), match='b'>


In [39]:
m = re.search('a|b', 'c')
print(m)

None


In [40]:
m = re.search('(a|b)c', 'bc')
print(m)

<re.Match object; span=(0, 2), match='bc'>


In [41]:
m = re.search('(a|b)c', 'ac')
print(m)

<re.Match object; span=(0, 2), match='ac'>


In [42]:
m = re.search('[ab]c', 'ac')
print(m)

<re.Match object; span=(0, 2), match='ac'>


## 66. 特殊シーケンス

#### 特殊シーケンス
- \d:全ての数字　[0-9]と同じ
- \D:全ての数字意外　[^0-9]と同じ
- \w:全ての英数字と_　[a-zA-Z0-9_]と同じ
- \W:全ての英数字と_意外　[^a-zA-Z0-9_]と同じ
- \s:空白
- \S:空白以外
- \A:文字列の先頭　^と同じ
- \Z:文字列の末尾　$と同じ


In [44]:
# \dの場合
m = re.search('\d', 'a')
print(m)

None


In [47]:
m = re.search('\d', '5')
print(m)

<re.Match object; span=(0, 1), match='5'>


In [48]:
# \Dの場合
m = re.search('\D', '5')
print(m)

None


In [49]:
m = re.search('\D', 'b')
print(m)

<re.Match object; span=(0, 1), match='b'>


In [50]:
m = re.search('\D', '＠')
print(m)

<re.Match object; span=(0, 1), match='＠'>


In [51]:
# \wの場合
m = re.search('\w', 'a')
print(m)

<re.Match object; span=(0, 1), match='a'>


In [52]:
m = re.search('\w', '@')
print(m)

None


In [55]:
# \Wの場合
m = re.search('\W', '@')
print(m)

<re.Match object; span=(0, 1), match='@'>


In [56]:
m = re.search('\W', 'a')
print(m)

None


In [59]:
# \sの場合
m = re.search('\s','_')
print(m)              

None


In [60]:
m = re.search('\s',' ')
print(m)     

<re.Match object; span=(0, 1), match=' '>


In [62]:
# \Sの場合
m = re.search('\S','_')
print(m)          

<re.Match object; span=(0, 1), match='_'>


In [63]:
m = re.search('\S',' ')
print(m)     

None


In [65]:
# \Aの場合
m = re.search('\Aab','abcde')
print(m)            

<re.Match object; span=(0, 2), match='ab'>


In [66]:
# \Zの場合
m = re.search('de\Z', 'xyz abcde')
print(m)

<re.Match object; span=(7, 9), match='de'>


## 67. コンパイル・特殊文字のエスケープ

### コンパイルにより同じパターンを繰り返し利用できる
- pattern = re.compile(正規表現のパターン）
- m = pattern.match(検索対象の文字列)

In [67]:
pattern = re.compile('xy+')
m = pattern.match('xyyyy')
print(m)

<re.Match object; span=(0, 5), match='xyyyy'>


In [69]:
# 同じpatternをsearch関数で使う
m = pattern.search('abcxyyyy')
print(m)

<re.Match object; span=(3, 8), match='xyyyy'>


### 特殊文字のエスケープ
- *や？のような特殊文字を検索する場合、\をつける必要がある
- 例：?の検索　m = re.match('\?', 'xy?')

In [71]:
m = re.search('\?', 'xy?')
print(m)

<re.Match object; span=(2, 3), match='?'>


## 68. 貪欲マッチ・非貪欲マッチ

In [74]:
# 任意の一文字以上をマッチ
m = re.search('<.*>', '<html><head></head><body></thml>')
print(m)

<re.Match object; span=(0, 32), match='<html><head></head><body></thml>'>


In [76]:
# 正規表現の後ろに?をつけると短くマッチする
m = re.search('<.*?>', '<hhml><head></head><body></thml>')
print(m)

<re.Match object; span=(0, 6), match='<hhml>'>


## 69. フラグ引数

- マッチする条件を詳細にコントロールできる
- m = re.search(正規表現のパターン,検索対象の文字列,flags=フラグ引数)
- pattern = re.compile(正規表現のパターン,flags = フラグ引数)

#### フラグ引数
- re.IGNORECASE:　大文字・小文字を区別しないマッチング
- re.MULTILINE: 各行の先頭・末尾にマッチング
- re.VERBOSE: パターンを視覚的に分割し、コメントを付加できる

In [77]:
m = re.search('[a-z]+', 'xyzXYZ')
print(m)

<re.Match object; span=(0, 3), match='xyz'>


In [78]:
# フラグ引数にre.IGNORECASEを入れる
m = re.search('[a-z]+', 'xyzXYZ', flags=re.IGNORECASE)
print(m)

<re.Match object; span=(0, 6), match='xyzXYZ'>


In [88]:
text = """
abc, 789, RST
def, 434, JDH
hij, 845, HHD
"""

In [89]:
m = re.findall('^[a-z]+', text)
print(m)

[]


In [90]:
# フラグ引数にre.MULTILINEを入れる
m = re.findall('^[a-z]+', text, flags = re.MULTILINE)
print(m)

['abc', 'def', 'hij']


In [91]:
m = re.findall('[A-Z]+$', text, flags = re.MULTILINE)
print(m)

['RST', 'JDH', 'HHD']


In [94]:
# コメントを無視させるのに、VERBOSEを使う
pattern = re.compile("""
[0-9]{4}\/      #年/
[0-9]{1,2}\/    #月/
[0-9]{1,2}        #日/
""", re.VERBOSE)

In [95]:
m = pattern.findall('Today is 2020/8/22')
print(m)

['2020/8/22']


#### パターンをグループ化し名前を付けて参照

- パターンのグルーピングしたい単位に(?P＜name＞...)をつける

In [96]:
pattern = re.compile("""
(?P<year>[0-9]{4})\/      #年/
(?P<month>[0-9]{1,2})\/    #月/
(?P<date>[0-9]{1,2})        #日/
""", re.VERBOSE)

In [97]:
m = pattern.search('Today is 2020/8/22')
print(m)

<re.Match object; span=(9, 18), match='2020/8/22'>


In [98]:
m = pattern.search('Today is 2020/8/22')
print(m.group('year'))

2020


In [99]:
m = pattern.search('Today is 2020/8/22')
print(m.group('month'))

8
