## 文字列処理に関連するモジュールを見ていきます

### テキスト、文字列を扱う、`string`モジュール
`string`モジュールには、定数、文字列書式、関数が用意されています。

### 定数 ※すでに決まっている値
**`string.ascii_letters`**  
`ascii_lowercase` と `ascii_uppercase` を合わせたもの  
  
**`string.ascii_lowercase`**  
小文字 'abcdefghijklmnopqrstuvwxyz'  
  
**`string.ascii_uppercase`**  
大文字 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'  
  
**`string.digits`**  
文字列 '0123456789'  
  
**`string.hexdigits`**  
文字列 '0123456789abcdefABCDEF'  
  
**`string.octdigits`**  
文字列 '01234567'  
  
**`string.punctuation`**  
記号群  
  
**`string.printable`**  
印字可能な ASCII 文字で構成される文字列  
  
**`string.whitespace`**  
空白 (whitespace) として扱われる ASCII 文字全てを含む文字列

In [1]:
import string

In [2]:
string.ascii_letters

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'

In [3]:
string.ascii_lowercase

'abcdefghijklmnopqrstuvwxyz'

In [4]:
string.ascii_uppercase

'ABCDEFGHIJKLMNOPQRSTUVWXYZ'

In [5]:
string.digits

'0123456789'

In [6]:
string.hexdigits

'0123456789abcdefABCDEF'

In [7]:
string.octdigits

'01234567'

In [8]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [9]:
string.printable

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [10]:
string.whitespace

' \t\n\r\x0b\x0c'

### 文字列書式としての `format` 結構使う
組み込みの文字列 (`string`) クラスには、 PEP 3101 で記述されている `format()` メソッドによって複雑な変数置換と  
値のフォーマットを行う機能があります。 `string` モジュールの `Formatter` クラスでは、  
組み込みの `format()` メソッドと同じ実装を使用して、独自の文字列フォーマットの振る舞いを作成してカスタマイズすることができます。  

#### `Formatter`クラス
**`format`メソッド**

In [12]:
"名前はxxです。年齢はyy歳です。"

'名前はxxです。年齢はyy歳です。'

In [15]:
xx = '猫'

In [19]:
yy = 2

In [20]:
"名前は{:<8s}です。年齢は{:>3f}歳です。".format(xx, yy)

'名前は猫       です。年齢は2.000000歳です。'

**`format`で扱う、整数の型**

|  型  |  内容  |
| :---- | :---- |
| "b" | 2進数。出力される数値は2を基数とします。 |
| "c" | 文字。数値を対応する Unicode 文字に変換します。 |
| "d" | 10進数。出力される数値は10を基数とします。 |
| "o" | 8進数。出力される数値は8を基数とします。 |
| "x" | 16進数。出力される数値は16を基数とします。 10進で9を超える数字には小文字が使われます。 |
| "X" | 16進数。出力される数値は16を基数とします。 10進で9を越える数字には大文字が使われます。 |
| "n" | 数値。現在のロケールに従い、区切り文字を挿入することを除けば、 'd' と同じです。 |
| None | 'd' と同じです。 |

**`format`で扱う、浮動小数点や10進数の型**

|  型  |  内容  |
| :---- | :---- |
| "e" | 指数表記。 'e' を使用 |
| "E" | 指数表記。 'E' を使用 |
| "f" | 固定小数点数表記 |
| "F" | 固定小数点数表記。nan を NAN 、inf を INF に変換 |
| "g" | 指定した精度に合わせて丸めたうえで桁に応じて固定小数点か指数表記で表示 |
| "G" | 数値が大きくなったとき "E" に切り替わることを除き "g" と同じ |
| "n" | ロケールに合わせて、数値分割文字が挿入されることを除き "g" と同じ |
| "%" | 数値を 100 倍し固定小数点数表記("f")でパーセントを付けて表示 |
| None | "g" と同様だが固定小数点表記の時に小数点の後に少なくとも 1 つの数字がある |

#### `fill`と`align`

|  型  |  内容  |
| :---- | :---- |
| "<" | 左詰めで表示 |
| ">" | 右詰めで表示 |
| "^" | 中央揃えで表示 |
| "=" | 符号と値の間を埋める文字で埋めて表示 |

In [25]:
"名前は{:>3s}です。年齢は{:<g}歳です。".format(xx, yy)

'名前は  猫です。年齢は2歳です。'

In [27]:
"名前は{:^5s}です。年齢は{:<f}歳です。".format(xx, yy)

'名前は  猫  です。年齢は2.000000歳です。'

In [30]:
print("{:*<7d}".format(1))

1******


In [31]:
print("{:-^7d}".format(1))

---1---


In [32]:
print(type("数値={:*<7d}".format(1)))

<class 'str'>


In [33]:
'{0}, {1}, {2}'.format('a', 'b', 'c')

'a, b, c'

In [34]:
'{}, {}, {}'.format('a', 'b', 'c')

'a, b, c'

In [35]:
'{2}, {1}, {0}'.format('a', 'b', 'c')

'c, b, a'

In [36]:
'{2}, {1}, {0}'.format(*'abc')

'c, b, a'

In [38]:
'{0} {1} {0}'.format('abra', 'cad')

'abra cad abra'

### `string.Templete`テンプレート文字列は $ に基づいた置換をサポート

In [39]:
from string import Template

In [44]:
CAT_NAME = '猫が大好き猫太郎'

In [45]:
STATE_LOGIN = 'ログインしています...！'

In [46]:
t = Template('メッセージログ: ${first}, ${second}')

In [47]:
print(t.substitute(first=CAT_NAME, second=STATE_LOGIN))

メッセージログ: 猫が大好き猫太郎, ログインしています...！


## 正規表現のための、`re`モジュール
**自然言語処理をはじめとして、様々なところでたくさんお世話になるモジュールです。**  
Perl に見られる正規表現マッチング操作と同様のものを提供らしい。  
  
正規表現では、特殊な形式を表すためや、特殊文字をその特殊な意味を発動させず使うために、バックスラッシュ文字 ('`\`') を使います。  
  
正規表現パターンに Python の `raw` 文字列記法を使います。 '`r`' を前置した文字列リテラル内ではバックスラッシュが特別扱いされません。  
従って "`\n`" が改行一文字からなる文字列であるのに対して、 `r"\n"` は '`\`' と '`n`' の二文字からなる文字列です。  
  
通常、 Python コード中では、パターンをこの `raw` 文字列記法を使って表現します。

**正規表現で扱う、マッチング特殊記号**
さまざまあります...！

|  特殊記号  | 内容  |
| :---- | :---- |
| `.` | デフォルトのモードでは改行以外の任意の文字にマッチ |
| `^` | 文字列の先頭にマッチ |
| `$` | 文字列の末尾、あるいは文字列の末尾の改行の直前にマッチ、条件で、改行の前にもマッチします |
| `*` | 直前の正規表現を 0 回以上、できるだけ多く繰り返したものにマッチさせる結果の正規表現にします  |
| `+` | 直前の正規表現を 1 回以上繰り返したものにマッチさせる結果の正規表現にします |
| `?` | 直前の正規表現を 0 回か 1 回繰り返したものにマッチさせる結果の正規表現にします |
| `*?`, `+?`, `??` | '*' 、 '+' 、および '?' 修飾子は全て 貪欲 (greedy) マッチで、できるだけ多くのテキストにマッチします |
| `{m}` | 直前の正規表現をちょうど m 回繰り返したものにマッチさせるよう指定します |
| `{m,n}` | 直前の正規表現を m 回から n 回、できるだけ多く繰り返したものにマッチさせる結果の正規表現にします |
| `{m,n}?` | 結果の正規表現は、前にある正規表現を、m 回から n 回まで繰り返したものにマッチし、できるだけ 少なく 繰り返したものにマッチするようにします |
| `\` | 特殊文字をエスケープ ( '*' や '?' などの文字にマッチできるようにする) し、または特殊シーケンスを合図します |
| `[]?` | 文字の集合を指定するのに使います |
| `｜` | A と B を任意の正規表現として、 A|B は A と B のいずれかにマッチする正規表現を作成します。 |
| `(...)` | 丸括弧で囲まれた正規表現にマッチするとともに、グループの開始と終了を表します |
| `(?...)` | これは拡張記法で、'?' に続く最初の文字がこの構造の意味と特有の構文を決定します |
| `(?aiLmsux)` | ('a' 、 'i' 、 'L' 、 'm' 、 's' 、 'u' 、 'x' の集合から 1 文字以上。) このグループは空文字列にマッチします |
| `(?:...)` | 丸括弧)()の、キャプチャをしないものになります |
| `(?aiLmsux-imsx:...)` | ('a' 、 'i' 、 'L' 、 'm' 、 's' 、 'u' 、 'x' の集合から 0 文字以上、必要ならさらに '-' に続けて 'i' 、 'm' 、 's' 、 'x' の集合から 1 文字以上。) 文字は表現の一部に、対応するフラグを設定または除去します |
| `(?P<name>...)` | 通常の丸括弧に似ていますが、このグループがマッチした部分文字列はシンボリックグループ名 name でアクセスできます。 |
| `(?P=name)` | 名前付きグループへの後方参照です |
| `(?#...)` | コメントです。括弧の中身は単純に無視されます。 |
| `(?=...)` | ... が次に続くものにマッチする場合、マッチします |
| `(?!...)` | ... が次に続くものにマッチしなければマッチします  |
| `(?<=...)` | ... の文字列における現在位置の前に、現在位置で終わる ... とのマッチがあれば、マッチします |
| `(?<!...)` | その文字列における現在位置の前に ... とのマッチがなければ、マッチします |
| `(?(id/name)yes-pattern|no-pattern)` | 与えられた id や name のグループが存在すれば yes-pattern との、存在しなければ no-pattern とのマッチを試みます |
| `\number` | 同じ番号のグループの中身にマッチします |
| `\A` | 文字列の先頭でのみマッチします |
| `\b` | 空文字列にマッチしますが、単語の先頭か末尾でのみです。 |
| `\B` | 空文字列にマッチしますが、それが単語の先頭か末尾 でない ときのみです |
| `\d` | Unicode (str) パターンでは任意の Unicode 10 進数字 (Unicode 文字カテゴリ [Nd]) にマッチ, 8 ビット (bytes) パターンでは任意の 10 進数字にマッチします |
| `\D` | 10 進数字でない任意の文字にマッチします |
| `\S` | 空白文字ではない任意の文字にマッチします |
| `\W` | 単語文字ではない任意の文字にマッチします |
| `\Z` | 文字列の末尾でのみマッチします |

### `re.compile`メソッド
正規表現パターンを 正規表現オブジェクト にコンパイルし、  
`match()` 、 `search()` その他のメソッドを使ってマッチングに使えるようにします

In [48]:
import re

In [49]:
s = "nekoneko daisuki club"

In [50]:
re_compile = re.compile(r'^neko')

In [51]:
m = re_compile.match(s)

In [52]:
m

<_sre.SRE_Match object; span=(0, 4), match='neko'>

In [55]:
email_list = [
    'neko_a@neko.ne.jp',
    'neko_b@neko.ne.jp',
    'neko_a@neko.com',
    'neko_a@neko.neko',
    'neko_b@neko.jp',
    'neko_d@neko.jp',
    'neko_1@neko.jp'
]

In [56]:
re_compile_domain = re.compile(r'([a-z]+)@([a-z]+)\.jp')

In [58]:
for email in email_list:
    m = re_compile_domain.match(email)
    print(m)

None
None
None
None
None
None
None


In [59]:
re_compile_domain = re.compile(r'(.*?)@([a-z]+)\.jp')

In [60]:
for email in email_list:
    m = re_compile_domain.match(email)
    print(m)

None
None
None
None
<_sre.SRE_Match object; span=(0, 14), match='neko_b@neko.jp'>
<_sre.SRE_Match object; span=(0, 14), match='neko_d@neko.jp'>
<_sre.SRE_Match object; span=(0, 14), match='neko_1@neko.jp'>


In [61]:
re_compile_domain = re.compile(r'(.*?_[0-9])@([a-z]+)\.jp')

In [62]:
for email in email_list:
    m = re_compile_domain.match(email)
    print(m)

None
None
None
None
None
None
<_sre.SRE_Match object; span=(0, 14), match='neko_1@neko.jp'>


In [63]:
email_list = [
    'neko_a@neko.ne.jp',
    'neko_b@neko.ne.jp',
    'neko_a@neko.com',
    'neko_a@neko.neko',
    'neko_b@neko.jp',
    'neko_d@neko.jp',
    'neko_1@neko.jp',
    'neko_1111@neko.jp'
]

In [64]:
for email in email_list:
    m = re_compile_domain.match(email)
    print(m)

None
None
None
None
None
None
<_sre.SRE_Match object; span=(0, 14), match='neko_1@neko.jp'>
None


In [65]:
re_compile_domain = re.compile(r'(.*?_[0-9]+)@([a-z]+)\.jp')

In [66]:
for email in email_list:
    m = re_compile_domain.match(email)
    print(m)

None
None
None
None
None
None
<_sre.SRE_Match object; span=(0, 14), match='neko_1@neko.jp'>
<_sre.SRE_Match object; span=(0, 17), match='neko_1111@neko.jp'>


### `re.search(pattern, string, flags=0)` 
`string` を走査し、正規表現 `pattern` がマッチを生じさせる最初の場所を探して、対応する マッチオブジェクト を返します。

In [68]:
s = 'nekoneko@neko.com'

In [69]:
m = re.search(r'[a-z]+@[a-z]+\.[a-z]+', s)

In [70]:
m

<_sre.SRE_Match object; span=(0, 17), match='nekoneko@neko.com'>

In [71]:
m[0]

'nekoneko@neko.com'

In [72]:
print(m.start())

0


In [73]:
print(m.end())

17


In [74]:
print(m.span())

(0, 17)


In [75]:
print(m.group())

nekoneko@neko.com


### `re.match(pattern, string, flags=0)`
`string` の先頭で 0 個以上の文字が正規表現 `pattern` にマッチすれば、対応する マッチオブジェクト を返します。

In [76]:
s = 'nekoneko@neko.com'

In [77]:
m = re.match(r'[a-z]+@[a-z]+\.[a-z]+', s)

In [78]:
m

<_sre.SRE_Match object; span=(0, 17), match='nekoneko@neko.com'>

In [79]:
print(m.group())

nekoneko@neko.com


In [91]:
# \wはデフォルトで全角の日本語や英数字などにもマッチ
m = re.match(r'\w+', 'あいう漢字ＡＢＣ１２３')

In [92]:
m.group()

'あいう漢字ＡＢＣ１２３'

ASCII文字にのみマッチさせたい場合は...

In [93]:
m = re.match(r'\w+', 'あいう漢字ＡＢＣ１２３', flags=re.ASCII)

In [95]:
print(m)

None


**string 中のどこででもマッチさせたいなら、代わりに search() を使ってください**

### `search()` vs `match()`

In [81]:
# マッチしない
re.match("c", "abcdef")

In [82]:
# マッチする
re.search("c", "abcdef") 

<_sre.SRE_Match object; span=(2, 3), match='c'>

**これは、`search`が文字列の中まで探してくれるから**

In [83]:
# マッチしない
re.search("^c", "abcdef")

In [84]:
# マッチする
re.search("^a", "abcdef")

<_sre.SRE_Match object; span=(0, 1), match='a'>

### `re.fullmatch(pattern, string, flags=0)`
`string` 全体が正規表現 `pattern` にマッチするなら、対応するマッチオブジェクトを返します。  
ある文字列が、指定した正規表現パターンに完全に一致するかどうかをみています。

In [85]:
PATTERN = r'\d{4}/\d{2}/\d{2}'

In [86]:
if re.fullmatch(PATTERN, '2021/05/12'):
    print('マッチしたよ！')

マッチしたよ！


In [87]:
if re.fullmatch(PATTERN, '2020/1/9'):
    print('マッチしたよ！')

### `re.split(pattern, string, maxsplit=0, flags=0)`
`string` を、出現した `pattern` で分割します。 `pattern` 中でキャプチャの丸括弧が使われていれば、  
パターン中の全てのグループのテキストも結果のリストの一部として返されます。

In [88]:
re.split(r'\W+', 'Words, words, words.')

['Words', 'words', 'words', '']

In [89]:
re.split(r'(\W+)', 'Words, words, words.')

['Words', ', ', 'words', ', ', 'words', '.', '']

In [90]:
re.split(r'\W+', 'Words, words, words.', 1)

['Words', 'words, words.']

### `re.findall(pattern, string, flags=0)`
`string` 中の `pattern` による全ての重複しないマッチを、文字列のリストとして返します。

In [103]:
s = 'aaa-xxx \n bbb-yyy \n ccc-zzz'

In [104]:
print(s)

aaa-xxx 
 bbb-yyy 
 ccc-zzz


In [105]:
result = re.findall('[a-z]+', s)

In [106]:
print(result)

['aaa', 'xxx', 'bbb', 'yyy', 'ccc', 'zzz']


In [107]:
result = re.findall('^[a-z]+', s)

In [108]:
print(result)

['aaa']


### `re.finditer(pattern, string, flags=0)`
`string` 中の正規表現 `pattern` の重複しないマッチ全てに渡る マッチオブジェクト を `yield` する イテレータ を返します。

In [125]:
s = """abc
Hello world!
Hello Python!
xyz"""

In [127]:
m = re.search(r'^Hello (.*)$', s, re.MULTILINE)

In [128]:
m.group()

'Hello world!'

In [129]:
for m in re.finditer(r'^Hello (.*)$', s, re.MULTILINE):
    print(m.groups())

('world!',)
('Python!',)


### `re.sub(pattern, repl, string, count=0, flags=0)`
`string` 中に出現する最も左の重複しない `pattern` を置換 `repl` で置換することで得られる文字列を返します。 

In [131]:
text = "猫は可愛いけど、自由奔放でなかなか懐いてくれない。"

In [132]:
re.sub('自由奔放',"フリーダム",text)

'猫は可愛いけど、フリーダムでなかなか懐いてくれない。'

In [133]:
mobile_list = """\
070-1111-1111 CatA
080-2222-2222 CatB
090-3333-3333 CatC
"""

In [134]:
re.sub('^[0-9]{3}-[0-9]{4}-[0-9]{4}',"***-****-****",mobile_list)

'***-****-**** CatA\n080-2222-2222 CatB\n090-3333-3333 CatC\n'

In [135]:
re.sub('^[0-9]{3}-[0-9]{4}-[0-9]{4}',"***-****-****",mobile_list, flags=re.MULTILINE)

'***-****-**** CatA\n***-****-**** CatB\n***-****-**** CatC\n'

### `re.escape(pattern)`
`pattern` 中の特殊文字をエスケープします。これは正規表現メタ文字を含みうる任意のリテラル文字列にマッチしたい時に便利

In [136]:
print(re.escape('http://www.python.org'))

http\:\/\/www\.python\.org


### 大文字小文字を区別しない `re.IGNORECASE`
デフォルトでは大文字小文字が区別されるため、  
両方にマッチさせる際には、大文字と小文字の両方をパターンに入れる必要があります

In [115]:
m = re.match('[a-zA-Z]+', 'abcABC')

In [116]:
print(m.group())

abcABC


In [117]:
m = re.match('[a-z]+', 'abcABC', flags=re.IGNORECASE)

In [118]:
print(m.group())

abcABC


In [119]:
m = re.match('[A-Z]+', 'abcABC', flags=re.IGNORECASE)

In [120]:
print(m.group())

abcABC


### 各行の先頭・末尾にマッチさせる `re.MULTILINE`

In [142]:
s = '''aaa-xxx
bbb-yyy
ccc-zzz'''

In [143]:
print(s)

aaa-xxx
bbb-yyy
ccc-zzz


In [144]:
result = re.findall('^[a-z]+', s)

In [145]:
result = re.findall('^[a-z]+', s, flags=re.MULTILINE)

In [146]:
print(result)

['aaa', 'bbb', 'ccc']


## 次回は、`difflib`を見ていきます...！