# 第7章 正規表現によるパターンマッチング

## 7.2 正規表現を用いてテキストパターンを検索
regex : regular expression

In [1]:
import re

phone_num_regex=re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') #regexオブジェクトを格納
mo=phone_num_regex.search('私の電話番号は415-555-4242です') #検索結果をmoに格納

print(mo) #matchオブジェクトを返す
print(mo.group()) #matchオブジェクトにはgroupメソッドがあり、実際のテキストを返す

<re.Match object; span=(7, 19), match='415-555-4242'>
415-555-4242


## 7.3 正規表現によるパターンマッチの続き
### 7.3.1 丸カッコを用いたグルーピング

In [2]:
import re

phone_num_regex=re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)') #グルーピングを使用
mo=phone_num_regex.search('私の電話番号は415-555-4242です') 

print(mo)
print(mo.group(1))
print(mo.group(2))
print(mo.group(0))
print(mo.groups()) #すべてのグループを一度に取得したい場合

<re.Match object; span=(7, 19), match='415-555-4242'>
415
555-4242
415-555-4242
('415', '555-4242')


In [3]:
#複数代入法を使って以下のように変数を代入可能
area_code, main_number=mo.groups()
print(area_code)
print(main_number)

415
555-4242


In [4]:
#無い場合を検出したい場合は以下
phone_num_regex=re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)') #グルーピングを使用
mo=phone_num_regex.search('私の電話番号は0415-0555-04242です') 

print(mo)
print(mo==None)

None
True


In [5]:
#丸カッコを検索したい場合は\でエスケープする

phone_num_regex=re.compile(r'(\(\d\d\d\))-(\d\d\d-\d\d\d\d)') #グルーピングを使用
mo=phone_num_regex.search('私の電話番号は(415)-555-4242です') 

print(mo.groups())

('(415)', '555-4242')


### 7.3.2 縦線を使って複数のグループとマッチする
縦線にマッチさせたい場合はエスケープする

In [6]:
bat_regex=re.compile(r'Bat(man|mobile|copter|bat)') #縦線を使用し、複数パターンの内の一つとマッチさせる
mo=bat_regex.search('Batmobile lost a wheel') 

print(mo.group(0))

Batmobile


### 7.3.3 疑問符を用いた任意のマッチ
疑問符にマッチさせたい場合はエスケープする

In [7]:
bat_regex=re.compile(r'Bat(wo)?man') #?を使用し、直前のパターンが0回もしくは1回現れる場合にマッチ
mo=bat_regex.search('The Adventures of Batman') 

print(mo.group(0))

Batman


### 7.3.4 アスタリスクを用いた0回以上のマッチ
アスタリスクにマッチさせたい場合はエスケープする

In [8]:
bat_regex=re.compile(r'Bat(wo)*man') #*を使用し、直前のパターンが0回以上現れる場合にマッチ
mo=bat_regex.search('The Adventures of Batwowowowowoman') 

print(mo.group(0))

Batwowowowowoman


### 7.3.5 プラスを用いた1回以上のマッチ
プラスにマッチさせたい場合はエスケープする

In [9]:
bat_regex=re.compile(r'Bat(wo)+man') #+を使用し、直前のパターンが1回以上現れる場合にマッチ
mo=bat_regex.search('The Adventures of Batwowowowowoman') 

print(mo.group(0))

Batwowowowowoman


### 7.3.6 波カッコを用いて繰り返し回数を指定

In [10]:
bat_regex=re.compile(r'Bat(wo){2,5}man') #{}を使用し、直前のパターンが2-5回現れる場合にマッチ
mo=bat_regex.search('The Adventures of Batwowowowowoman') 

bat_regex2=re.compile(r'Bat(wo){2}man') #{}を使用し、直前のパターンが2回現れる場合にマッチ
mo2=bat_regex2.search('The Adventures of Batwowowowowoman') 

print(mo.group(0))
print(mo2)

Batwowowowowoman
None


## 7.4 貪欲マッチ・非貪欲マッチ

In [11]:
#貪欲マッチ
bat_regex=re.compile(r'(wo){2,5}')
mo=bat_regex.search('The Adventures of Batwowowowowoman') 
print(mo.group(0))

wowowowowo


In [12]:
#非貪欲マッチ
bat_regex=re.compile(r'(wo){2,5}?') #?をつけると最小回数でマッチする
mo=bat_regex.search('The Adventures of Batwowowowowoman') 
print(mo.group(0))

wowo


## 7.5 findall()メソッド

In [13]:
#マッチした文字列のリストを返す
phone_num_regex=re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo=phone_num_regex.findall('Cell:415-555-9999 Work:212-555-0000')
print(mo)

['415-555-9999', '212-555-0000']


In [14]:
#グループ化した場合はタプルのリストを返す
phone_num_regex=re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)')
mo=phone_num_regex.findall('Cell:415-555-9999 Work:212-555-0000')
print(mo)

[('415', '555', '9999'), ('212', '555', '0000')]


## 7.6 文字集合

In [15]:
# \d: 0-9の数字
# \D: 0-9の数字以外
# \w: 文字、数字、下線
# \W: 文字、数字、下線以外
# \s: スペース、タブ、改行
# \S: スペース、タブ、改行以外

## 7.7 文字集合の定義

In [16]:
#[]で文字集合を定義可能。[]内はエスケープ不要。
vowel_regex=re.compile(r'[aiueoAIUEO]')
vowel_regex.findall('Hello. Nice To Meet You.')

['e', 'o', 'i', 'e', 'o', 'e', 'e', 'o', 'u']

In [17]:
#^ をつけると補集合を表す
vowel_regex=re.compile(r'[^aiueoAIUEO]')
vowel_regex.findall('Hello. Nice To Meet You.')

['H', 'l', 'l', '.', ' ', 'N', 'c', ' ', 'T', ' ', 'M', 't', ' ', 'Y', '.']

## 7.8 キャレットとドル記号

In [18]:
#^ は文字列の先頭とマッチすることを指定する時に使用
begins_with_hello=re.compile(r'^Hello')
begins_with_hello.search('Hello World')

<re.Match object; span=(0, 5), match='Hello'>

In [19]:
#$ は文字列の最後とマッチすることを指定する時に使用
begins_with_hello=re.compile(r'World$')
begins_with_hello.search('Hello World')

<re.Match object; span=(6, 11), match='World'>

## 7.9 ワイルドカード文字

In [20]:
#. は改行以外の任意の文字とマッチする
at_regex=re.compile(r'.at')
at_regex.findall('The cat in the hat sat on the flat mat')

['cat', 'hat', 'sat', 'lat', 'mat']

### 7.9.1 ドットとアスタリスクであらゆる文字列とマッチ

In [21]:
name_regex=re.compile(r'First Name: (.*) Last Name: (.*)')
mo=name_regex.search('First Name: AI Last Name: Sweigart')
print(mo.group(1))
print(mo.group(2))

AI
Sweigart


In [22]:
#非貪欲マッチしたい場合は?を使用する
nongreedy_regex=re.compile(r'<.*?>')
mo=nongreedy_regex.search('<To serve man>for dinner.>')
print(mo)

<re.Match object; span=(0, 14), match='<To serve man>'>


### 7.9.2 ドット文字を改行とマッチさせる

In [23]:
no_newline_regex=re.compile('.*') #改行にはマッチしない
no_newline_regex.search('Serve the public trust.\nProtest the innocent.').group()

'Serve the public trust.'

In [24]:
no_newline_regex=re.compile('.*',re.DOTALL) #改行にもマッチする
no_newline_regex.search('Serve the public trust.\nProtest the innocent.').group()

'Serve the public trust.\nProtest the innocent.'

## 7.11 大文字・小文字を無視したマッチ

In [25]:
robocop=re.compile(r'robocop',re.I) #大文字・小文字を無視したマッチ
robocop.search('Robocop')

<re.Match object; span=(0, 7), match='Robocop'>

## 7.12 sub()メソッドを用いた文字列の置換

In [26]:
names_regex=re.compile(r'Agent \w+')
names_regex.sub('CENSORED','Agent Alice gave the secret documents to Agent Bob.')

'CENSORED gave the secret documents to CENSORED.'

In [27]:
# \1とするとグループ1とマッチした文字列に置き換える
names_regex=re.compile(r'Agent (\w)\w*')
names_regex.sub(r'\1***','Agent Alice gave the secret documents to Agent Bob.')

'A*** gave the secret documents to B***.'

## 7.13 複雑な正規表現を管理する

In [28]:
#re.VERBOSEを渡すことで、空白やコメントを無視できる

phone_regex=re.compile(r'''( 
(\d{3}|\(\d{3}\))?             #3桁の市外局番(()がついていてもよい)
(\s|-|\.)?                     #区切り（スペースかハイフンかドット）
\d{3}                          #3桁の市外局番
(\s|-|\.)                      #区切り
\d{4}                          #4桁の番号
(\s*(ext|x|ext.)\s*\d{2,5})?   #2-5桁の内線番号
)''',re.VERBOSE)

## 7.14 複数の第2引数を組み合わせる
大文字と小文字を区別せずに、改行にもマッチさせ、コメントも書きたい場合

In [29]:
some_regex_value=re.compile('正規表現',re.IGNORECASE|re.DOTALL|re.VERBOSE)

## 7.15 プロジェクト：電話番号と電子メールアドレスの抽出

In [30]:
#クリップボードから電話番号とメアドを検索する（日本語版）

import pyperclip, re

# 日本の電話番号パターンにしたもの
phone_regex = re.compile(r'''(
    (0\d{0,3}|\(\d{0,3}\))           # 市外局番
    (\s|-)                           # 区切り
    (\d{1,4})                        # 市内局番
    (\s|-)                           # 区切り
    (\d{3,4})                        # 加入者番号
    (\s*(ext|x|ext.)\s*(\d{2,5}))?   # 内線番号
    )''', re.VERBOSE)

# 電子メールの正規表現を作る。
email_regex = re.compile(r'''(
    [a-zA-Z0-9._%+-]+  # ユーザー名
    @                  # @ 記号
    [a-zA-Z0-9.-]+     # ドメイン名
    (\.[a-zA-Z]{2,4})  # ドットなんとか
    )''', re.VERBOSE)

# クリップボードのテキストを検索する。
text = str(pyperclip.paste())
matches = []

for groups in phone_regex.findall(text): #マッチしたリストをループ
    phone_num = '-'.join([groups[1], groups[3], groups[5]])
    if groups[8] != '':
        phone_num += ' x' + groups[8]
    matches.append(phone_num)

for groups in email_regex.findall(text):
    matches.append(groups[0])

# 検索結果をクリップボードに貼り付ける。
if len(matches) > 0:
    pyperclip.copy('\n'.join(matches))
    print('クリップボードにコピーしました:')
    print('\n'.join(matches))

else:
    print('電話番号やメールアドレスは見つかりませんでした。')

電話番号やメールアドレスは見つかりませんでした。


## 7.18 演習プロジェクト
### 7.18.1 強いパスワードの検出

In [31]:
#強いパスワードかどうかを判定する

import re

# 強いパスワードならTrue、そうでなければFalseを返す
def check_password(password):
    if len(password) < 8:  #8文字以上
        return False
    if not re.search(r'[a-z]', password): #小文字を含む
        return False
    if not re.search(r'[A-Z]', password): #大文字を含む
        return False
    if not re.search(r'[0-9]', password): #数字を含む
        return False
    return True

while True:
    print('パスワードを入力してください（終了するにはEnter）')
    password = input()
    if password=='':
        break
    if check_password(password)==True:
        print('passwordに問題ありません')
    else:
        print('passowrdは脆弱です')
            


パスワードを入力してください（終了するにはEnter）
mhi1234
passowrdは脆弱です
パスワードを入力してください（終了するにはEnter）



### 7.18.2 正規表現を用いたstrip()メソッド

In [32]:
#strip()と同等の働きをする関数を書く
#引数を文字列の先頭と文末から削除する

import re

# 前後にcharsの0回以上の繰り返しを持つ非貪欲マッチをする
def restrip(s, chars=r'\s'):
    return re.sub('^[' + chars + ']*(.*?)[' + chars + ']*$', r'\1', s)

# テスト用
if __name__ == '__main__':
    def dquote(s):
        return '"' + s + '"'

    def print_comp(args, func1, func2):
        max_len = max([len(arg) + 2 for arg in args + [func1, func2]])
        heading = '{:<{len}}  {:<{len}}  {:<{len}}  match'.format(
          'arg', func1, func2, len=max_len)
        print(heading)
        print('-' * len(heading))
        f1 = eval('lambda s: ' + func1)
        f2 = eval('lambda s: ' + func2)
        for arg in args:
            s1 = dquote(f1(arg))
            s2 = dquote(f2(arg))
            print('{:<{len}}  {:<{len}}  {:<{len}}  {}'.format(
              dquote(arg), s1, s2, '==' if s1 == s2 else '!=', len=max_len))

    args = [' spam ', '  spam  ', ' spam', 'spam ', 'spam', ' spam spam ']
    print_comp(args, "restrip(s)", "s.strip()")
    print()

    args = ['EspamG', 'EspamG', 'EGspamEG', ' EspamG ', 'Espam', 'spamE',
            'spam', 'EspamEspamE']
    print_comp(args, "restrip(s, 'EG')", "s.strip('EG')")

arg            restrip(s)     s.strip()      match
--------------------------------------------------
" spam "       "spam"         "spam"         ==
"  spam  "     "spam"         "spam"         ==
" spam"        "spam"         "spam"         ==
"spam "        "spam"         "spam"         ==
"spam"         "spam"         "spam"         ==
" spam spam "  "spam spam"    "spam spam"    ==

arg                 restrip(s, 'EG')    s.strip('EG')       match
-----------------------------------------------------------------
"EspamG"            "spam"              "spam"              ==
"EspamG"            "spam"              "spam"              ==
"EGspamEG"          "spam"              "spam"              ==
" EspamG "          " EspamG "          " EspamG "          ==
"Espam"             "spam"              "spam"              ==
"spamE"             "spam"              "spam"              ==
"spam"              "spam"              "spam"              ==
"EspamEspamE"       "spamEspam"     

In [33]:
#strip()と同等の働きをする関数を書く
#引数を文字列の先頭と文末から削除する

import re

# 前後にcharsの0回以上の繰り返しを持つ非貪欲マッチをする
def restrip(s, chars=r'\s'):
    return re.sub('^[' + chars + ']*(.*?)[' + chars + ']*$', r'\1', s)

s='---Hello world!!---'
restrip(s)

'---Hello world!!---'