# 文字列処理

コンピューターは数値の処理だけでなく、文字のデータを扱うことも得意である。コンピューター内部では文字(character)はある種の整数(文字コード; character code)として扱われている。Webページや電子メールのように、文字のデータをやり取りするときには、あらかじめどの文字がどの整数に対応するかを決めておかなければならない。PythonではUnicode[<sup id="cite_ref-1">[1]</sup>](#cite_note-1)と呼ばれる国際規格に則って文字を表現しており[<sup id="cite_ref-2">[2]</sup>](#cite_note-2)[<sup id="cite_ref-3">[3]</sup>](#cite_note-3)、我々が日常的に使っている日本語の文字から古代エジプトで使われたヒエログリフまで、世界中の文字を表すことができる(ようになるはずである)。

## ASCII

Unicodeであれ、日本語の文字を表現するときに使われることのあるShift-JISであれ、多くの文字コードはASCII(アスキー; American Standard Code for Information Interchange)という文字コードで規定された文字を内包したものになっている。ASCIIは7ビットの整数(0～127)にラテン文字や数字、改行(LF)や削除(DEL)などの制御文字などを割り当てたものである。

Pythonで文字と整数を互いに変換する関数は次のものがある。
- [`ord`関数](https://docs.python.org/ja/3/library/functions.html#ord): `ord(c)`のように一文字[<sup id="cite_ref-4">[4]</sup>](#cite_note-4)の文字列`c`を与えると、それに対応した整数を返す。
- [`chr`関数](https://docs.python.org/ja/3/library/functions.html#chr): `ord`関数の逆で、`chr(i)`のように整数`i`を与えると、それに対応した一文字を文字列として返す。

In [None]:
ord('A')

In [None]:
chr(65)

まずは`chr`を使って、整数`32`から`126`に対応する文字を調べてみよう。これらはASCIIの一部である。

## 練習問題

(1) 反復処理を用いて、`32`から`126`に対応する文字を表示せよ。その際、`65 : "A"`のように、整数と文字が対になるように表示するとよい。

## エスケープシーケンス

文字列の中で、改行や水平タブなどの特殊文字を表すのに使われる文字の並びがエスケープシーケンス(escape sequence)である。Pythonのエスケープシーケンスはバックスラッシュ(`\`; 日本語フォントでは円記号に見える)から始まる。例えば、

|  エスケープシーケンス  |  意味  |
| ---- | ---- |
|  `\n`  |  行送り (改行)  |
|  `\t`  |  水平タブ  |
|  `\\`  |  バックスラッシュ(`\`)  |
|  `\'`  |  一重引用符(`'`)  |
|  `\"`  |  二重引用符(`"`)  |

などがある[<sup id="cite_ref-5">[5]</sup>](#cite_note-5)。

In [None]:
print('1\t2\t3\n\t4\t5\n\t\t6')  # タブと改行を含む文字列

In [None]:
print('"ABC" and \'abc\'')  # 一重引用符と二重引用符を含む文字列

また、Unicodeで表された文字をエスケープシーケンスを使って`\u3042`、`\U0001f602`のように表すこともできる。ここで`\u`の後にあるのはUnicode文字を表す整数(符号位置; code point)の4桁の十六進数表記、`\U`の後にあるのは8桁の十六進数表記である。

In [None]:
'\u3042\u3044\u3046\u3048\u304a'

In [None]:
'\U0001f602'

通常、JupyterはUnicodeをそのまま入力できるので、エスケープシーケンスを使わずにそのまま書いてしまってよい。

In [None]:
'あいうえお'

In [None]:
'😂🍣🍣'

## 文字列の操作

Pythonの文字列型(str)データの操作について、いくつか見ていこう。

In [None]:
mystring = 'ABCDEFG'

文字列に対して、いくつかの演算子がサポートされている。

In [None]:
mystring + '123'  # 文字列の連結

In [None]:
mystring * 3  # 文字列の反復

(いつも使っているような)フォーマット済み文字列リテラル(formatted string literal; 略して f-string):

In [None]:
mynum = 10

f'{mynum}, {mystring}'

添え字(インデックス; index)を付けることによって、文字列の中の文字を(1文字の文字列として)取得することができる。

In [None]:
mystring[0]  # 0番目の文字

In [None]:
mystring[1]  # 1番目の文字

In [None]:
mystring[-1]  # 後ろから1番目の文字

次のようなスライス(slice)表記によって、部分文字列を取得することも可能である。

In [None]:
mystring[1:3]  # 1番目の文字から3番目の文字の前まで (3番目は含まない)

In [None]:
mystring[1:-1]  # 1番目の文字から後ろから1番目の文字の前まで (後ろから1番目は含まない)

In [None]:
mystring[3:]  # 3番目の文字から最後まで

In [None]:
mystring[:3]  # 最初から3番目の文字の前まで (3番目は含まない)

In [None]:
mystring[::2]  # 最初から最後まで、一つおきに

長さを求めるには[`len`関数](https://docs.python.org/ja/3/library/functions.html#len)を使う。

In [None]:
len(mystring)

第4回で学んだように、for文を使って、文字列の各要素についてのループを書くことができる。

In [None]:
for c in mystring:
    print(c)

これは、次のように書いても同じである(が、冗長である)。

In [None]:
for i in range(len(mystring)):
    c = mystring[i]
    print(c)

## 文字列のメソッド

文字列型データもオブジェクトなのでメソッドを持っている。文字列型メソッドのリストは[ここ](https://docs.python.org/ja/3/library/stdtypes.html?highlight=str#string-methods)にある。いくつかのメソッドを見ていこう。

[`split`メソッド](https://docs.python.org/ja/3/library/stdtypes.html?highlight=str#str.split)は与えられた区切り記号によって区切った結果をリストで返す。

In [None]:
'1,2,3'.split(',')  # コンマで区切る。

[`join`メソッド](https://docs.python.org/ja/3/library/stdtypes.html?highlight=str#str.join)はその逆で、リストの中の文字列を結合した結果を文字列として返す。

In [None]:
','.join(['1', '2', '3'])  # コンマを使って結合する。

[`find`メソッド](https://docs.python.org/ja/3/library/stdtypes.html?highlight=str#str.find)は指定された部分文字列を先頭から検索して、初めて現れたインデックスを返す。なければ`-1`を返す。(末尾(right)から先頭に向かって検索する[`rfind`メソッド](https://docs.python.org/ja/3/library/stdtypes.html?highlight=str#str.rfind)もある。)

In [None]:
'abcdefg'.find('ef')  # 'ef'が現れるインデックス

[`replace`メソッド](https://docs.python.org/ja/3/library/stdtypes.html?highlight=str#str.replace)は文字列の置換を行い、その結果を返す。

In [None]:
'The quick brown fox jumps over the lazy dog.'.replace('fox', 'cat')  # foxをcatに置換

もっと複雑な文字列の検索や置換が必要な場合、次で説明する正規表現が使われる。

## 正規表現

正規表現(regular expression)を用いると、文字列の集合を一つの文字列で表現することができる。正規表現は、普通の文字と特別な意味を持つメタキャラクタ(metacharacter)から構成されている。[`re`モジュール](https://docs.python.org/ja/3/library/re.html)の関数を使うと、正規表現によって表現された文字列パターンに対し、与えられた文字列がマッチするか、などの検査や文字列の置換を行うことができる。

簡単な例を挙げよう。正規表現において`.`は任意の一文字を表す。したがって`a.c`という正規表現は、`a`、任意の一文字、`c`の三文字が連なっていることを表現する。このような正規表現を用いて文字列を置換するには[`sub`関数](https://docs.python.org/ja/3/library/re.html#re.sub)を用いる。第1引数は正規表現、第2引数は置換後の文字列、第3引数は置換を行う文字列である。

In [None]:
import re

re.sub('a.c', '(\g<0>)', 'abcd abdc acbd acdb adbc adcb')  # `見つかったパターンをカッコで囲む`

ここで、第2引数の文字列内の`\g<0>`というのはマッチした文字列を表す。よって見つかったパターンをカッコで囲んだ文字列が得られる。正規表現の主なメタキャラクタを次に挙げる。

|  メタキャラクタ  |  意味  |  例  |
| :--- | :--- | :--- |
|  `.`  |  任意の一文字  | 上記の`a.c` |
|  `[]`  |  文字集合  | `[abc]`で`a`か`b`か`c`のいずれか |
|  `*`  |  直前の文字の0回以上の繰り返し  | `a*`で`a`の0回以上の繰り返し |
|  `+`  |  直前の文字の1回以上の繰り返し  | `a+`で`a`の1回以上の繰り返し |
|  `\|`  | いずれか(OR)の条件 | `abc\|def`で`abc`か`def`のいずれか |

## 一次元ぷよぷよ

[ぷよぷよ](http://puyo.sega.jp)というゲームを知っているだろうか？落ち物パズルゲームの一つであり、同色のぷよが四つ以上並んでくっつくと消滅する、NP完全問題であることも証明されている[<sup id="cite_ref-6">[6]</sup>](#cite_note-6)奥の深いゲームである。これを簡単にした次のような「一次元ぷよぷよ」を考えよう。

- 簡単のために、ぷよ(？)の種類は次の三つとする。
  - 🍣 (寿司)
  - 🍜 (ラーメン)
  - 🍰 (ケーキ)
- これらのぷよが、一次元に積み重なったものが、文字列として与えられる。
- 同じぷよが四つ以上並んだとき、それらは消える(文字列の言葉で言うと、空文字(`''`)に置換される)。

正規表現と[`re`モジュール](https://docs.python.org/ja/3/library/re.html)の[`sub`関数](https://docs.python.org/ja/3/library/re.html#re.sub)を使うと、与えられた文字列の中から四つ以上並んだぷよを消してその結果を返す関数`puyopuyo`は、いとも簡単に次のように書ける。

In [None]:
import re

def puyopuyo(s):
    return re.sub('🍣🍣🍣🍣🍣*|🍜🍜🍜🍜🍜*|🍰🍰🍰🍰🍰*', '', s)

puyopuyo('🍣🍣🍣🍣🍣🍣🍣🍰🍜🍜🍜🍜🍰🍰🍰🍰🍰🍣🍜')

## 練習問題

(2) (やや難) 上の`puyoouyo`関数では「連鎖消し」が考慮されていない。つまり、四つ以上の同じぷよが消えた結果、四つ以上同じぷよが並ぶ場合のことが考えられていない。例えば、

In [None]:
puyopuyo('🍰🍣🍰🍣🍣🍣🍣🍣🍣🍣🍰🍜🍜🍜🍜🍜🍰🍣🍣🍜🍜🍜🍜🍣🍣🍰🍜')

に対して連鎖消しが起こらない。連鎖消しが起こるようにせよ。

## シーザー暗号

情報を安全に伝達する技術として欠かせないのが暗号である。ここでは、もっとも簡単な暗号の一つであり、古代ローマのガイウス・ユリウス・カエサル(Gaius Iulius Caesar; カエサルを英語読みするとシーザー)によって使われたとされるシーザー暗号を考えてみよう。

1.&nbsp;大文字アルファベットAからZの26文字からなる文章を考える。それぞれの文字をアルファベットで$n$文字先の文字に置き換えよう。ただし、ZからAにつながっているものとする。例えば、$n=3$であれば、

$$
A \to D, \quad
B \to E, \quad
C \to F, \quad
D \to G, \quad
\dots \quad
X \to A, \quad
Y \to B, \quad
Z \to C,
$$

のように変換する。この$n$をシフト文字数と呼ぶことにする。

2.&nbsp;簡単のため、大文字アルファベット以外の文字(スペースやピリオドなど)は変換せず、そのままとする。

練習問題(1)で見たように、大文字アルファベットAからZは、65から90の整数に対応する。よって、文字を整数に変換し、65以上90以下であれば、シフト文字数$n$を足して、その結果を文字に変換すればよい。ただし、90を超えた場合には、ZからAに戻すために26を引く。これを文書中の文字すべてに対して行えばよい。

以上の考え方に基づいて、与えられた文字列(`text`)をシフト文字数$n$で暗号化し、その結果を返す関数`cipher`は次のように書ける。

In [None]:
def cipher(text, n):
    result = ''  # 結果を初期化
    for s in text:
        # 与えられた文字列中の一文字sについて考える
        c = ord(s)
        if 65 <= c <= 90:
            # 大文字アルファベットであれば、シーザー暗号を適用
            c += n
            if c > 90:
                c -= 26  # ZからAに戻す処理
        # 一文字を結果に追加
        result += chr(c)
    return result

この`cipher`関数を使って、適当な文字列を暗号化してみよう。

In [None]:
cipher('PYTHON IS VERY INTERESTING', 10)

## 演習問題

(1) 上の`cipher`関数によって暗号化された文字列(`text`)を、同じシフト文字数$n$で復号化(元に戻すこと)して返すような関数`decipher`を作れ。`cipher`関数を参考にしてよい。(うまい具合に`cipher`関数を呼び出すようにしてもよい[<sup id="cite_ref-7">[7]</sup>](#cite_note-7)。)

In [None]:
# 課題解答7.1  <-- 提出する際に、この行を必ず含めること。

def decipher(text, n):
    ...  # うまく復号化されるように書き換えてください。


decipher('ZIDRYX SC FOBI SXDOBOCDSXQ', 10)  # 例題: 上で得た暗号文

あらかじめシフト文字数$n$が分かっていれば、(1)の`decipher`関数によって、任意の暗号文を復号化することができる。しかし、敵対組織から秘密裏に暗号化された情報を入手した場合には、その暗号を復号化するための鍵(ここではシフト文字数)が分からないことも多い。ここでは総当たり法を用いて、シーザー暗号のシフト文字数を類推することを考えよう。シーザー暗号ではシフト文字数は0から25の26通りのみであるから、それらをすべて試してやれば、その26通りの結果のどれかは読むことのできる文となるはずである。

(2) 与えられた文字列(`text`)に対して、シフト文字数を0から25まで変えながら(1)の`decipher`関数を呼び出し、シフト文字数と`decipher`の結果を(`print`関数で)表示する関数`auto_decipher`を作れ(何も返さなくてよい)。シフト文字数とその結果は、

`1: YV Y XQLU IUUD VKHJXUH YJ YI RO IJQDTYDW ED JXU IXEKBTUHI EV WYQDJI.`

のように対にして表示するとよい。

In [None]:
# 課題解答7.2  <-- 提出する際に、この行を必ず含めること。

def auto_decipher(text):
    ...  # うまく書き換えてください。



# 例題: 復号化すると、ある偉人の有名な言葉になります。
auto_decipher('ZW Z YRMV JVVE WLIKYVI ZK ZJ SP JKREUZEX FE KYV JYFLCUVIJ FW XZREKJ.')

## 脚注

<span id="cite_note-1">1.</span> [^](#cite_ref-1)
Unicodeでは、どの文字とどの整数を対応させるか(符号化文字集合; coded character set)や、それをどのように1バイトのデータの並びに変換するか(文字符号化方式; character encoding scheme)などが決められている。単に文字コードと言った場合、符号化文字集合の意味であったり、文字符号化方式であったり、さらに文字符号化形式(character encoding form)であったりするので注意が必要である。メモ帳などのアプリケーションでファイル保存時に選択する文字コード(UTF-8とかUTF-16BEとか)は文字符号化方式の意味である。

<span id="cite_note-2">2.</span> [^](#cite_ref-2)
Java、JavaScript、Ruby、C#、Go、Rustなど、現代的なプログラミング言語の多くはUnicodeをサポートしている。将来的にはC++さえもが標準ライブラリでUnicodeをサポートする日が来るのかもしれない。(C++11では`<codecvt>`が大失敗した(C++17で非推奨)。C++20では[これ](https://qiita.com/yumetodo/items/54e1a8230dbf513ea85b)が導入される。)

<span id="cite_note-3">3.</span> [^](#cite_ref-3)
Python 3のUnicodeサポートの詳細については以下を参照。
- [Unicode HOWTO](https://docs.python.org/ja/3/howto/unicode.html)

<span id="cite_note-4">4.</span> [^](#cite_ref-4)
Unicodeにおいては、一文字に見えたとしてもそれが本当に「一文字」とは限らない。
```python
print('👨' + '\u200d' + '👩' + '\u200d' + '👦')
```
のようなことができるからである。詳細については[ここ](https://employment.en-japan.com/engineerhub/entry/2020/04/28/103000)や[ここ](https://qiita.com/_sobataro/items/47989ee4b573e0c2adfc)や[ここ](https://qiita.com/youya66/items/e2272b8da466c4e01c47)などを参照のこと。

<span id="cite_note-5">5.</span> [^](#cite_ref-5)
エスケープシーケンスの完全なリストは[ここ](https://docs.python.org/ja/3/reference/lexical_analysis.html#string-and-bytes-literals)にある。

<span id="cite_note-6">6.</span> [^](#cite_ref-6)
牟田秀俊, ぷよぷよはNP完全, 電子情報通信学会技術研究報告 COMP, コンピュテーション 105(72) (2005) 39-44.
[[CiNii]](https://ci.nii.ac.jp/naid/10021842397)

<span id="cite_note-7">7.</span> [^](#cite_ref-7)
アルファベットAからZを0から25の整数で表したとき、シフト文字数$n$による文字$x$の暗号化は$C(n)\cdot x = (x + n) \text{ mod } 26$と書ける。この変換$C(n)$は(可換)群をなす。復号化は逆元を取ればよいので、$D(n)\cdot x = C(-n) \cdot x = (x - n) \text{ mod } 26 = (x + 26 - n) \text{ mod } 26 = C(26 - n) \cdot x$と書ける。