In [1]:
# match()メソッドでパターンマッチを行う

import re                      # reモジュールをインポート
line = 'パイソンです'
m = re.match('パイソン', line) # 'パイソン'をパターンマッチさせる
print(m.group())               # マッチした文字列を取り出す

パイソン


In [2]:
# raw文字列のパターンをRegexオブジェクトにしてマッチングさせる

line = 'パイソンです'
reg = re.compile(r'パイソン')
m = re.match(reg, line)
print(m.group())

パイソン


In [3]:
# 文字列だけのパターンマッチング

line = 'そういやパイソンはどうなった？' 
m = re.search(r'いや', line)
print(m.group())

いや


In [4]:
# 複数の候補のパターンマッチング

line = 'こんにちは、パイソン'
m = re.search(r'こんにちは|今日は|こんちは', line)
print(m.group())

こんにちは


In [5]:
# パターンにアンカーを使用する

line = 'これ、いいじゃん'
m = re.search(r'じゃん$', line)
print(m.group())

じゃん


In [6]:
# 'ども'に続く文字として[～ー…！、]のどれか1文字にマッチさせる

line = 'どもーっす'
m = re.search(r'ども[～ー…！、]', line)
print(m.group())

どもー


In [7]:
# 「'うわっ' + 3文字 + ！」のマッチング

line = 'うわっ、それか！'
m = re.search(r'うわっ、...！', line)
print(m.group())

うわっ、それか！


In [8]:
# ！の1回以上の繰り返しにマッチングさせる

line = 'ええーっ！！たったこれだけ？'
m = re.search(r'^ええーっ！+', line)
print(m.group())

ええーっ！！


In [9]:
# ( )でグループ化する

line = 'まじで、ほんとにそう思います'
m = re.search(r'(^まじ|ほんと)', line)
print(m.group())

まじ


In [10]:
# 文字列の中から電話番号を取得する

# Regexオブジェクトを生成
number = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
# 電話番号をマッチング
m = number.search('電話番号は001-111-9292です。')
m.group()    # マッチした文字列全体を取得

'001-111-9292'

In [11]:
m.group(0)   # マッチした文字列全体を取得

'001-111-9292'

In [12]:
m.group(1)   # グループ1にマッチした文字列を取得

'001'

In [13]:
m.group(2)   #グループ2にマッチした文字列を取得

'111-9292'

In [14]:
# すべてのグループにマッチした文字列を取得

number = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
m = number.search('電話番号は001-100-9292です。')
m.groups()

('001', '100-9292')

In [15]:
# グループにマッチした文字列を別々の変数に代入

area_code, main_number = m.groups()
print(area_code)

001


In [16]:
print(main_number)

100-9292


In [17]:
# (市外局番)xxx－xxxxのパターンでマッチングさせる

# Regexオブジェクトを生成
number = re.compile(r'(\(\d\d\d\))(\d\d\d-\d\d\d\d)')
# 電話番号をマッチング
m = number.search('電話番号は(001)100-9292です。')
m.group(1)

'(001)'

In [18]:
m.group(2)

'100-9292'

In [19]:
# 市外局番なしでも電話番号を取得する

# Regexオブジェクトを生成
number = re.compile(r'(\d\d\d-)?(\d\d\d-\d\d\d\d)')
# 電話番号をマッチング
m1 = number.search('電話番号は001-100-9292です。')
m1.group()

'001-100-9292'

In [20]:
# 電話番号をマッチング
m2 = number.search('電話番号は100-9292です。')
m2.group()

'100-9292'

In [22]:
# { }で繰り返しの回数を指定するパターン

# 'は'を3回以上5回以下繰り返すパターン
regex1 = re.compile(r'(は){3,5}')
m1 = regex1.search('わははははは')
m1.group()

'ははははは'

In [23]:
# { }で繰り返しの回数を指定するパターン

# 'は'を3回以上5回以下繰り返すパターン（非貪欲マッチ）
regex2 = re.compile(r'(は){3,5}?')
m2 = regex2.search('わははははは')
m2.group()

'ははは'

In [24]:
# search()メソッドでマッチングを行う

# Regexオブジェクトを生成
num_regex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
# 電話番号をマッチング
m = num_regex.search('携帯：999-555-6666　自宅：001-100-9292')
m.group()

'999-555-6666'

In [25]:
# findall ()メソッドでマッチングを行う

num_regex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
num_regex.findall('携帯：999-555-6666　自宅：001-100-9292')

['999-555-6666', '001-100-9292']

In [26]:
# ( )で囲んだグループのマッチングをfindall ()メソッドで行う

# グループが設定された正規表現のパターン
num_regex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)')
num_regex.findall('携帯：999-555-6666　自宅：001-100-9292')

[('999', '555', '6666'), ('001', '100', '9292')]

In [27]:
# 短縮形を利用したマッチング

regex = re.compile(r'\d+\s+\w+')
month = '1 January, 2 February, 3 March, 4 April, 5 May, 6 June'
regex.findall(month)

['1 January', '2 February', '3 March', '4 April', '5 May', '6 June']

In [28]:
# 短縮形の範囲を指定する

reg = re.compile(r'[0-5]')
num = '1, 2, 3, 4, 5, 6, 7, 8'
reg.findall(num)

['1', '2', '3', '4', '5']

In [29]:
# .*であらゆる文字列とマッチさせる

name_regex = re.compile(r'姓：(.*)　名：(.*)')
m = name_regex.search('姓：秀和　名：太郎')
m = name_regex.search('姓：秀和　名：太郎')
m.group(1)

'秀和'

In [30]:
m.group(2)

'太郎'

In [31]:
# '.*'のみのパターンの場合

reg1 = re.compile('.*')
# 改行を含む文字列にマッチさせる
m1 = reg1.search('第1主成分\n第2主成分\n第3主成分')
m1.group()

'第1主成分'

In [32]:
# re.DOTALLを指定

# compile()メソッドの第2引数としてre.DOTALLを指定
reg2 = re.compile('.*', re.DOTALL)
# 改行を含む文字列にマッチさせる
m2 = reg2.search('第1主成分\n第2主成分\n第3主成分')
m2.group()

'第1主成分\n第2主成分\n第3主成分'

In [34]:
# 大文字と小文字を区別せずにマッチさせる

# re.compile()メソッドの第2引数としてre.Iを指定
regex = re.compile(r'python', re.I)
# 'Python'にマッチさせる
regex. search('Pythonは面白い').group()

'Python'

In [35]:
# 'PYTHON'にマッチさせる
regex. search ('PYTHONってよくわからない') .group()

'PYTHON'

In [36]:
# 'python'にマッチさせる
regex. search ('これがpythonなのか') .group()

'python'

In [38]:
# 文字列の一部を置き換える

str = '第1 四半期 売上高 売上予測'
regex = re.compile(r'第1 \w+')
regex.sub('2020年', str)

'2020年 売上高 売上予測'

In [39]:
# マッチした文字列の先頭文字を使って書き換える

str = 'password Secret1111 password Book555 password AA007'
# 正規表現のグループ1に(\w)を設定
regex = re.compile(r'password (\w)\w*')
# グループ1にマッチした文字列を使って書き換える
regex.sub(r'\1****', str)

'S**** B**** A****'

In [40]:
# 先頭から3文字目にマッチさせて書き換える

regex = re.compile(r'password (\w){3}\w*')
regex.sub(r'\1****', str)

'c**** o**** 0****'

In [41]:
# 正規表現のパターンに改行とコメントを入れる
import re
phone = re.compile(r'''(
    (0\d{0,3}|\(\d{0,3}\))  # 市外局番
    (\s|-)                  # 区切り
    (\d{1,4})               # 市内局番
    (\s|-)                  # 区切り
    (\d{3,4})               # 加入者番号
    )''', re.VERBOSE)

In [42]:
# 電話番号用の正規表現のパターン

import re

# 電話番号の正規表現
phone_regex = re.compile(r'''(
    (0\d{1,4}|\(0\d{1,4}\))                      # 市外局番
    (\s|-)?                                      # 区切り
    (\d{1,4})                                    # 市内局番
    (\s|-)                                       # 区切り
    (\d{4})                                      # 加入者番号
    (\s*(内線|\(内\)|\(内.{1,3}\))\s*(\d{2,5}))? # 内線番号
    )''', re.VERBOSE)

In [43]:
# マッチングの例
str = '氏名:秀和太郎 住所:東京都中央区 電話番号: (001)5555-6767 (内線)365'
pho = phone_regex.search(str)
print(pho.group())

(001)5555-6767 (内線)365


In [44]:
# メールアドレス用の正規表現のパターン

import re

# メールの正規表現
mail_regex = re.compile(r'''(
    [a-zA-Z0-9._%+-]+  # ユーザー名
    @                  # @ 記号
    [a-zA-Z0-9.-]+     # ドメイン名
    (\.[a-zA-Z]{2,4})  # トップレベルドメイン
    )''', re.VERBOSE)

In [45]:
# マッチングの例
str = '氏名:秀和太郎 住所:東京都中央区 メールアドレス:taro@shuwasystem.co.jp'
ml = mail_regex.search(str)
print(ml.group())

taro@shuwasystem.co.jp


クリップボードにコピーしました:
03-6264-3093
03-6264-3094
06-6342-5003
06-6342-5012
s-info@shuwasystem.co.jp
