# 文字列処理

<!-- textlint-disable ja-technical-writing/sentence-length -->

コンピューターは数値の処理だけでなく、文字のデータを扱うことも得意である。コンピューター内部では文字（character）はある種の整数（文字コード；character code）として扱われている。Webページや電子メールのように、文字のデータをやり取りするときには、あらかじめどの文字がどの整数に対応するかを決めておかなければならない。PythonではUnicode<a name="cite_ref-1"></a>[<sup>[1]</sup>](#cite_note-1)と呼ばれる規格に則って文字を表現しており<a name="cite_ref-2"></a>[<sup>[2]</sup>](#cite_note-2)<a name="cite_ref-3"></a>[<sup>[3]</sup>](#cite_note-3)、我々が日常的に使っている日本語の文字から😂🐱🍥のような絵文字、さらには古代エジプトで使われた[ヒエログリフ](https://ja.wikipedia.org/wiki/%E3%83%92%E3%82%A8%E3%83%AD%E3%82%B0%E3%83%AA%E3%83%95)まで、世界中の文字を表すことができる<a name="cite_ref-4"></a>[<sup>[4]</sup>](#cite_note-4)。

<!-- textlint-enable -->

## 今回のねらい

- テキストデータは、内部的には数字の並びであることを理解する。
- 文字列を処理する簡単なプログラムが書けるようになる。

## ASCII

<!-- textlint-disable ja-technical-writing/sentence-length -->

Unicodeであれ、Windowsで日本語の文字を表現するときに使われることのあるShift_JIS（あるいはCP932）であれ、多くの文字コードはASCII（アスキー；American Standard Code for Information Interchange）という文字コードを内包したものになっている。ASCIIは7ビットの整数（0から127）にラテン文字や数字、改行（LF）や削除（DEL）などの制御文字などを割り当てたものである。

<!-- textlint-enable -->

Pythonで文字と整数を互いに変換する関数には次のものがある。
- [`ord`関数](https://docs.python.org/ja/3/library/functions.html#ord)：`ord(c)`のように1文字<a name="cite_ref-5"></a>[<sup>[5]</sup>](#cite_note-5)の文字列`c`を与えると、それに対応した整数（Unicodeコードポイント）を返す。
- [`chr`関数](https://docs.python.org/ja/3/library/functions.html#chr)：`ord`関数の逆で、`chr(i)`のように整数（Unicodeコードポイント）`i`を与えると、それに対応した1文字を文字列として返す。

In [None]:
ord("A")

In [None]:
chr(65)

まずは`chr`を使って、整数`32`から`126`に対応する文字を調べてみよう。これらはASCIIの一部である。

## 練習問題

(1) 反復処理を用いて、`32`から`126`に対応する文字をそれぞれ表示せよ。その際、`65 : "A"`のように、整数と文字が対になるように表示するとよい。

(2) `ord`関数と`chr`関数は、ASCIIだけでなく、任意のUnicodeコードポイントに対して有効である。`あ`から`お`に対応する整数をそれぞれ表示せよ。

## エスケープシーケンス

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

文字列の中で、直接にはキーボードから入力できる文字で表すことのできない、改行や水平タブなどの特殊文字を表すのに使われる文字の並びがエスケープシーケンス（escape sequence）である。Pythonのエスケープシーケンスはバックスラッシュ（`\`；日本語フォントでは円記号に見える）から始まる。たとえば、

<!-- textlint-enable -->

| エスケープシーケンス | 意味                   |
| :------------------- | :--------------------- |
| `\n`                 | 行送り（改行）         |
| `\t`                 | 水平タブ               |
| `\\`                 | バックスラッシュ（`\`）|
| `\'`                 | 一重引用符（`'`）      |
| `\"`                 | 二重引用符（`"`）      |

などがある<a name="cite_ref-6"></a>[<sup>[6]</sup>](#cite_note-6)。

In [None]:
print("1\t2\t3\n\t4\t5\n\t\t6")  # タブと改行を含む文字列

In [None]:
print("\"ABC\" and 'abc'")  # 一重引用符と二重引用符を含む文字列

また、Unicodeで表された文字をエスケープシーケンスを使って`\u3042`、`\U0001f602`のように表すこともできる。ここで`\u`の後にあるのはUnicode文字を表す整数（符号位置；code point）の4桁の16進数表記、`\U`の後にあるのは8桁の16進数表記である。

In [None]:
"\u3042\u3044\u3046\u3048\u304a"

In [None]:
"\U0001f602\U0001f363\U0001f363"

通常、JupyterはUnicodeをそのまま入力できるので、エスケープシーケンスを使わずにそのまま書いてしまってよい。

In [None]:
"あいうえお"

In [None]:
"😂🍣🍣"

## 文字列の操作

Pythonの文字列型（str）データの操作について、いくつか見ていこう。

In [None]:
mystring = "ABCDEFG"

文字列に対して、いくつかの演算子がサポートされている。

In [None]:
mystring + "123"  # 文字列の連結

In [None]:
mystring * 3  # 文字列の反復

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

（いつも使っている）フォーマット済み文字列リテラル（formatted string literal；略してf-string）:

<!-- textlint-enable -->

In [None]:
mynum = 10

f"{mynum}, {mystring}"

添え字（インデックス；index）を付けることによって、文字列の中の文字を（1文字の文字列として）取得できる。

In [None]:
mystring[0]  # 0番目の文字

In [None]:
mystring[1]  # 1番目の文字

In [None]:
mystring[-1]  # 後ろから1番目の文字

次のようなスライス（slice）表記によって、部分文字列を取得できる。

In [None]:
mystring[1:3]  # 1番目の文字から3番目の文字の前まで（3番目は含まない）

In [None]:
mystring[1:-1]  # 1番目の文字から後ろから1番目の文字の前まで（後ろから1番目は含まない）

In [None]:
mystring[3:]  # 3番目の文字から最後まで

In [None]:
mystring[:3]  # 最初から3番目の文字の前まで（3番目は含まない）

In [None]:
mystring[::2]  # 最初から最後まで、一つおきに

長さを求めるには[`len`関数](https://docs.python.org/ja/3/library/functions.html#len)を使う。

In [None]:
len(mystring)

第3回に学んだように、`for`文を使って、文字列中の各文字についてのループを反復処理を書ける。

In [None]:
for c in mystring:
    print(c)

これは、次のように書いても同じである（しかし、冗長である）。

In [None]:
for i in range(len(mystring)):
    c = mystring[i]
    print(c)

## 文字列のメソッド

Pythonでは「すべてはオブジェクトである」。文字列型データもオブジェクトなので、それらを操作するためのメソッドを持っている。文字列に対するメソッドの一覧は[ここ](https://docs.python.org/ja/3/library/stdtypes.html?highlight=str#string-methods)にある。いくつかのメソッドを見ておこう。

[`split`メソッド](https://docs.python.org/ja/3/library/stdtypes.html?highlight=str#str.split)は与えられた区切り記号によって区切った結果をリストで返す。

In [None]:
"1,2,3".split(",")  # コンマで区切る。

[`join`メソッド](https://docs.python.org/ja/3/library/stdtypes.html?highlight=str#str.join)はその逆で、リストの中の文字列を結合した結果を文字列として返す。

In [None]:
",".join(["1", "2", "3"])  # コンマを使って結合する。

[`find`メソッド](https://docs.python.org/ja/3/library/stdtypes.html?highlight=str#str.find)は指定された部分文字列を先頭から検索して、初めて現れたインデックスを返す。なければ`-1`を返す。

In [None]:
"abcdefg".find("ef")  # "ef"が現れるインデックス

末尾（right）から先頭に向かって検索する[`rfind`メソッド](https://docs.python.org/ja/3/library/stdtypes.html?highlight=str#str.rfind)もある。[`replace`メソッド](https://docs.python.org/ja/3/library/stdtypes.html?highlight=str#str.replace)は文字列を置換し、その結果を返す。

In [None]:
"The quick brown fox jumps over the lazy dog.".replace("fox", "cat")  # foxをcatに置換

もっと複雑な文字列の検索や置換が必要な場合、次で説明する正規表現が使われる。

## 正規表現

正規表現（regular expression）を用いると、文字列の集合を1つの文字列で表現できる。正規表現は、普通の文字と特別な意味を持つメタキャラクタ（metacharacter）から構成されている。[`re`モジュール](https://docs.python.org/ja/3/library/re.html)の関数を使うと、正規表現によって表現された文字列パターンに対し、与えられた文字列がマッチするかなどの検査や文字列の置換ができる<a name="cite_ref-7"></a>[<sup>[7]</sup>](#cite_note-7)。

簡単な例を挙げよう。正規表現において`.`は任意の1文字を表す。したがって`a.c`という正規表現は、`a`、任意の1文字、`c`の3文字が連なっていることを表現する。このような正規表現を用いて文字列を置換するには[`sub`関数](https://docs.python.org/ja/3/library/re.html#re.sub)を用いる。第1引数は正規表現、第2引数は置換後の文字列、第3引数は置換の対象となる文字列である。

In [None]:
import re

re.sub("a.c", "(\g<0>)", "abcd abdc acbd acdb adbc adcb")  # 見つかったパターンをカッコで囲む

ここで、第2引数の文字列内の`\g<0>`というのはマッチした文字列を表す。よって見つかったパターンをカッコで囲んだ文字列が得られる。

正規表現の主なメタキャラクタを次にあげる<a name="cite_ref-8"></a>[<sup>[8]</sup>](#cite_note-8)<a name="cite_ref-9"></a>[<sup>[9]</sup>](#cite_note-9)。

|  メタキャラクタ  |  意味  |  例  |
| :--- | :--- | :--- |
|  `.`  |  任意の1文字  | 上記の`a.c` |
|  `[]`  |  文字の集合  | `[abc]`で`a`か`b`か`c`のいずれか、`[a-d]`で`a`から`d`までのいずれか|
|  `[^]`  |  補集合  | `[^abc]`で`a`か`b`か`c`**ではない**いずれかの文字 |
|  `*`  |  直前の文字の0回以上の繰り返し  | `a*`で`a`の0回以上の繰り返し |
|  `\|`  | いずれか（OR）の条件 | `abc\|def`で`abc`か`def`のいずれか |

## 1次元ぷよぷよ

[ぷよぷよ](http://puyo.sega.jp)というゲームを知っているだろうか。落ち物パズルゲームの1つであり、同色のぷよが4つ以上並んでくっつくと消滅する、[NP完全問題](https://ja.wikipedia.org/wiki/NP%E5%AE%8C%E5%85%A8%E5%95%8F%E9%A1%8C)であることも証明されている<a name="cite_ref-10"></a>[<sup>[10]</sup>](#cite_note-10)奥の深いゲームである。これを簡単にした次のような「1次元ぷよぷよ」を考えよう。

<!-- textlint-disable ja-technical-writing/no-exclamation-question-mark,jtf-style/1.1.3.箇条書き -->

- 簡単のために、ぷよ（？）の種類は次の3つとする。
  - 🍣（寿司）
  - 🍜（ラーメン）
  - 🍰（ケーキ）
- これらのぷよが、1次元に積み重なったものが、文字列として与えられる。
- 同じぷよが4つ以上並んだとき、それらは消える。つまり、文字列の言葉で言うと、空文字（`""`）に置換される。

<!-- textlint-enable -->

正規表現と[`re`モジュール](https://docs.python.org/ja/3/library/re.html)の[`sub`関数](https://docs.python.org/ja/3/library/re.html#re.sub)を使うと、与えられた文字列の中から4つ以上並んだぷよを消してその結果を返す関数`puyopuyo`は、いとも簡単に次のように書ける<a name="cite_ref-11"></a>[<sup>[11]</sup>](#cite_note-11)。

In [None]:
import re


def puyopuyo(s):
    return re.sub("🍣🍣🍣🍣🍣*|🍜🍜🍜🍜🍜*|🍰🍰🍰🍰🍰*", "", s)


puyopuyo("🍣🍣🍣🍣🍣🍣🍣🍰🍜🍜🍜🍜🍰🍰🍰🍰🍰🍣🍜")

## 練習問題

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

(3) 上の`puyopuyo`関数では「連鎖消し」が考慮されていない。つまり、4つ以上の同じぷよが消えた結果、4つ以上同じぷよが並ぶ場合のことが考えられていない。たとえば、

<!-- textlint-enable -->

In [None]:
puyopuyo("🍰🍣🍰🍣🍣🍣🍣🍣🍣🍣🍰🍜🍜🍜🍜🍜🍰🍣🍣🍜🍜🍜🍜🍣🍣🍰🍜")

に対して連鎖消しが起こらない。連鎖消しが起こるようにせよ（ヒント：無限ループを使い、ループから抜ける条件を工夫するとよい）。

## シーザー暗号

<!-- textlint-disable ja-technical-writing/sentence-length,ja-engineering-paper/no-synonyms -->

情報を安全に伝達する技術として欠かせないのが暗号である。ここでは、もっとも簡単な暗号の1つであり、古代ローマのガイウス・ユリウス・カエサル（Gaius Julius Caesar；カエサルを英語読みするとシーザー）によって使われたとされるシーザー暗号を考えてみよう。

<!-- textlint-enable -->

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

1.&nbsp;大文字アルファベットAからZの26文字からなる文章を考える。それぞれの文字をアルファベットで$n$文字先の文字に置き換えよう。ただし、ZからAにつながっているものとする。たとえば、$n=3$であれば、

<!-- textlint-enable -->

<!-- textlint-disable ja-technical-writing/sentence-length -->

$$
A \to D, \quad
B \to E, \quad
C \to F, \quad
D \to G, \quad
\dots \quad
X \to A, \quad
Y \to B, \quad
Z \to C,
$$

<!-- textlint-enable -->

のように変換する。この$n$を「シフト文字数」と呼ぶことにする。

2.&nbsp;簡単のため、大文字アルファベット以外の文字（スペースやピリオドなど）は変換せず、そのままとする。

<!-- textlint-disable jtf-style/4.3.1.丸かっこ（） -->

練習問題(1)で見たように、大文字アルファベットAからZは、65から90の整数に対応する。よって文字を整数に変換し、65以上90以下であればシフト文字数$n$を足して、その結果を文字に変換すればよい。ただし、90を超えた場合には、ZからAへと戻すために26を引く。これを与えられた文字列中の文字すべてに対して行えばよい。

<!-- textlint-enable -->

以上の考え方に基づいて、与えられた文字列（`text`）をシフト文字数`n`で暗号化し、その結果を返す関数`cipher`は次のように書ける。

In [None]:
def cipher(text, n):
    result = ""  # 結果を空文字列として初期化
    for s in text:
        # 与えられた文字列中の1文字sについて考える
        c = ord(s)  # sの文字コードを取得
        if 65 <= c <= 90:
            # 大文字アルファベットであれば、シーザー暗号を適用
            c += n
            if c > 90:
                c -= 26  # ZからAに戻す処理
        # 1文字を結果に追加
        result += chr(c)
    return result

この`cipher`関数を使って、適当な文字列を暗号化してみよう。

In [None]:
cipher("PYTHON IS VERY INTERESTING", 10)

## 演習課題

(1) 上の`cipher`関数によって暗号化された文字列（`text`）を、同じシフト文字数$n$で復号化（元に戻すこと）して返すような関数`decipher`を作れ。`cipher`関数を参考にしてよい。また、うまく`chiper`関数を呼び出すようにしてもよい<a name="cite_ref-12"></a>[<sup>[12]</sup>](#cite_note-12)（その場合、まったく上と同じ`chiper`関数を使うのならば下のセルの中にそれをコピーする必要はない）。

In [None]:
# 課題解答6.1  <-- 提出する際に、この行を必ず含めること。


def decipher(text, n):
    ...  # うまく復号化されるように書き換えてください。


# 例題：上で得た暗号文
decipher("ZIDRYX SC FOBI SXDOBOCDSXQ", 10)

あらかじめシフト文字数$n$が分かっていれば、(1)の`decipher`関数によって、任意の暗号文を復号化できる。しかし、敵対組織から秘密裏に暗号化された情報を入手した場合には、その暗号を復号化するための鍵（ここではシフト文字数）が分からないことも多いだろう。ここでは総当たり法を用いて、シーザー暗号のシフト文字数を推察することを考えよう。シーザー暗号ではシフト文字数は0から25の26通りのみであるから、それらをすべて試してやれば、その26通りの結果のどれかは読むことのできる文となるはずである。

<!-- textlint-disable ja-technical-writing/sentence-length,ja-technical-writing/ja-no-mixed-period,jtf-style/4.3.1.丸かっこ（） -->

(2) 与えられた文字列（`text`）に対して、シフト文字数を0から25まで変えながら(1)の`decipher`関数を呼び出し、シフト文字数と`decipher`の結果を（`print`関数で）表示する関数`auto_decipher`を作れ（何も返さなくてよい）。(1)の`decipher`関数をあらためて下のセルの中に書く必要はない。シフト文字数とその結果は、

<!-- textlint-enable -->

`0: ZW Z YRMV JVVE WLIKYVI ZK ZJ SP JKREUZEX FE KYV JYFLCUVIJ FW XZREKJ.`

`1: YV Y XQLU IUUD VKHJXUH YJ YI RO IJQDTYDW ED JXU IXEKBTUHI EV WYQDJI.`

`2: XU X WPKT HTTC UJGIWTG XI XH QN HIPCSXCV DC IWT HWDJASTGH DU VXPCIH.`

のように対にして表示するとよい。

In [None]:
# 課題解答6.2  <-- 提出する際に、この行を必ず含めること。


def auto_decipher(text):
    ...  # うまく書き換えてください。


# 例題: 復号化すると、ある偉人の有名な言葉になります。
auto_decipher("ZW Z YRMV JVVE WLIKYVI ZK ZJ SP JKREUZEX FE KYV JYFLCUVIJ FW XZREKJ.")

## 発展課題

<!-- textlint-disable jtf-style/1.1.1.本文 -->

余裕があればやってみてください。

<!-- textlint-enable -->

[タイポグリセミア（typoglycemia）](https://ja.wikipedia.org/wiki/%E3%82%BF%E3%82%A4%E3%83%9D%E3%82%B0%E3%83%AA%E3%82%BB%E3%83%9F%E3%82%A2)とは、文章を構成するいくつかの単語の文字を入れ替えても、単語の最初と最後の文字が合っていれば人間は読めてしまうという現象のことである。ある種の都市伝説、あるいはインターネットミームに出てくる用語であり、これが科学的に正しいかは**甚だ怪しい**が<a name="cite_ref-13"></a>[<sup>[13]</sup>](#cite_note-13)、ここでは1つの言葉遊びとして、そのような単語の文字を入れ替えた文章を作ってみよう。次のセルには、引数として与えられたテキストを加工したのち返す`typoglycemia`関数が定義されている。`typoglycemia`関数は文章の語句のそれぞれに対し`make_typo`関数を呼び出している。`make_typo`関数を次のように書き換えて、プログラムを完成させよ。

- `make_typo`関数は、文字列`word`を引数として受け取り、以下のような文字列を返す。ただし、`word`の長さを$n$とする。
   - $n \le 3$の場合は、`word`をそのまま返す。つまり、何も変更しない。
   - $n \ge 4$の場合、最初の文字と最後の文字は固定したまま、その間の隣り合う文字を1組ランダムに選んで入れ替えた文字列を返す<a name="cite_ref-14"></a>[<sup>[14]</sup>](#cite_note-14)。入れ替えは必ず起こすものとする。

```python
# 例
print(make_typo("あい"))  #  ==> "あい" （3文字以下なのでそのまま）
print(make_typo("あいう"))  #  ==> "あいう" （3文字以下なのでそのまま）
print(make_typo("あいうえ"))  #  ==> "あういえ" （"い"と"う"を入れ替え）
print(make_typo("あいうえお"))  #  ==> "あういえお" または "あいえうお" （"い"と"う"を入れ替え、または"う"と"え"を入れ替え）
```

In [None]:
# 課題解答6.3  <-- 提出する際に、この行を必ず含めること。

import random


def make_typo(word):
    # このままではwordをそのまま返してしまいます。
    # 書き換えてください。
    return word


def typoglycemia(text):
    # 空白で分割する。
    word_list = text.split()

    # 分割された語句に対し、それぞれ make_typo 関数を適用する。
    new_word_list = []
    for word in word_list:
        new_word_list.append(make_typo(word))

    # できあがった語句を、空白を区切り記号として、連結して返す。
    new_text = " ".join(new_word_list)
    return new_text


# 例題

# 処理するポエム
text = (
    "こんにちは みなさん おげんき ですか ？ "
    "わたしは げんき です 。 "
    "きょうも ぱいそん の べんきょう を して います 。 "
    "この てきすと は もじの じゅんばん が いれかえて あるの だけれど "
    "なぜだか よめて しまうよね 。 "
    "ひとって すごい 。 "
    "ぱいそん も すごい 。"
)

print(typoglycemia(text))

<!-- textlint-disable
ja-technical-writing/no-exclamation-question-mark
-->

できあがった（文字の入れ替わった）文章を、みなさんは読めるだろうか？

<!-- textlint-enable -->

## 脚注

<!-- textlint-disable ja-technical-writing/sentence-length -->

<a name="cite_note-1"></a>1.&nbsp;[^](#cite_ref-1)
[Unicode](https://home.unicode.org/)では、どの文字とどの整数を対応させるか（符号化文字集合；coded character set）や、それをどのように1バイトのデータの並びに変換するか（文字符号化方式；character encoding scheme）などが決められている。単に文字コードと言った場合、符号化文字集合の意味であったり、文字符号化方式であったり、さらに文字符号化形式（character encoding form）であったりするので注意が必要である。メモ帳などのアプリケーションでファイル保存時に選択する文字コード（UTF-8とかUTF-16BEとか）は文字符号化方式の意味である。

<!-- textlint-enable -->

<a name="cite_note-2"></a>2.&nbsp;[^](#cite_ref-2)
Pythonだけでなく、Java、JavaScript、Ruby、C#、Go、Rustなど、現代的なプログラミング言語の多くはUnicodeをサポートしている。なんと2020年にはついにC++にも[UTF-8エンコーディングされた文字の型](https://cpprefjp.github.io/lang/cpp20/char8_t.html)が[導入された](https://qiita.com/yumetodo/items/54e1a8230dbf513ea85b)。

<a name="cite_note-3"></a>3.&nbsp;[^](#cite_ref-3)
Python 3のUnicodeサポートの詳細については以下を参照。
- [Unicode HOWTO](https://docs.python.org/ja/3/howto/unicode.html)

<a name="cite_note-4"></a>4.&nbsp;[^](#cite_ref-4)
古今東西のありとあらゆる文字を表せるようになるはずであるが、今でも絵文字の総数は増加する一方である。しかし、[絵文字の利用が世界的に進んだ](https://languages.oup.com/word-of-the-year/2015/)ことが世界の文字コードのUnicodeへの統一を加速しており、またUnicodeを処理するプログラムのバグを駆逐しているのも事実のようだ（たとえば[これ](https://gigazine.net/news/20201227-emoji-utf-8/)とか[これ](https://note.com/ruiu/n/nc9d93a45c2ec)）。

<!-- textlint-disable ja-technical-writing/ja-no-mixed-period -->

<a name="cite_note-5"></a>5.&nbsp;[^](#cite_ref-5)
ただし、Unicodeにおいては、1文字に見えたとしてもそれが本当に「1文字」とは限らない。たとえば、

<!-- textlint-enable -->

In [None]:
print("👨" + "\u200d" + "👩" + "\u200d" + "👦")

のようなことができるからである。ここで`"\u200d"`はゼロ幅接合子（zero width joiner）を表す制御文字である。詳細については[ここ](https://employment.en-japan.com/engineerhub/entry/2020/04/28/103000)や[ここ](https://qiita.com/_sobataro/items/47989ee4b573e0c2adfc)や[ここ](https://qiita.com/youya66/items/e2272b8da466c4e01c47)などを参照のこと。

<a name="cite_note-6"></a>6.&nbsp;[^](#cite_ref-6)
Pythonで認識されるエスケープシーケンスの完全なリストは[ここ](https://docs.python.org/ja/3/reference/lexical_analysis.html#string-and-bytes-literals)のちょっと下の方にある。

<a name="cite_note-7"></a>7.&nbsp;[^](#cite_ref-7)
GoogleやWordでのワイルドカード検索（あいまい検索）を知っているならば、正規表現はそれのもっとすごいもの、と思ってもらってもよい。コンピューターの「ちょっとできる人」向けのソフトウェアでは、正規表現を用いて検索条件を指定できることがよくある。

<a name="cite_note-8"></a>8.&nbsp;[^](#cite_ref-8)
ここでは、Python以外のどんなソフトウェアであっても、正規表現と銘打っていれば必ず実装されているであろう最低限のものを挙げている。通常は1個以上の繰り返し（`+`）や、$m$個以上$n$個以下の繰り返し（`{m,n}`）なども使えるであろう。

<a name="cite_note-9"></a>9.&nbsp;[^](#cite_ref-9)
Pythonで使える正規表現の詳細は[ここ](https://docs.python.org/ja/3/library/re.html#regular-expression-syntax)にある。正規表現の使い方のチュートリアルは[ここ](https://docs.python.org/ja/3/howto/regex.html)である。オンラインで使える正規表現チェックツールには、たとえば[これ](https://regex101.com/)や[これ](https://www.debuggex.com/)がある。

<!-- textlint-disable ja-engineering-paper/unify-kuten-and-touten,jtf-style/1.2.1.句点(。)と読点(、),jtf-style/3.1.1.全角文字と半角文字の間,ja-spacing/ja-space-between-half-and-full-width -->

<a name="cite_note-10"></a>10.&nbsp;[^](#cite_ref-10)
牟田秀俊, ぷよぷよはNP完全, 電子情報通信学会技術研究報告 COMP, コンピュテーション 105(72) (2005) 39-44.
[[CiNii]](https://ci.nii.ac.jp/naid/10021842397)

<!-- textlint-enable -->

<a name="cite_note-11"></a>11.&nbsp;[^](#cite_ref-11)
なんなら、与える正規表現を`r"(.)\1{3}\1*"`としてもよい。

<!-- textlint-disable ja-technical-writing/sentence-length -->

<a name="cite_note-12"></a>12.&nbsp;[^](#cite_ref-12)
アルファベットAからZを0から25の整数で表したとき、シフト文字数$n$による文字$x$の暗号化を$C(n)\cdot x = (x + n) \text{ mod } 26$と表そう。すると、この変換$C(n)$は明らかに（可換）群をなす。復号化の変換$D(n)$は、$C(n)$の逆元、すなわち$C(-n)$のことだから、$D(n)\cdot x = C(-n) \cdot x = (x - n) \text{ mod } 26 = (x + 26 - n) \text{ mod } 26 = C(26 - n) \cdot x$と書ける。

<!-- textlint-enable -->

<a name="cite_note-13"></a>13.&nbsp;[^](#cite_ref-13)
文字を入れ替えても他の存在する単語にならないような単語のみで文章を構成したり、想像がつくような定型句を用いるのがコツ。また、文法的に重要な単語は短いことが多いが、ここでの変換規則では3文字以下の単語は変更を受けない。

<!-- textlint-disable
ja-technical-writing/sentence-length
-->

<a name="cite_note-14"></a>14.&nbsp;[^](#cite_ref-14)
1から$(n-3)$の範囲で乱数を生成する。その値を$i$（$1 \le i \le n - 3$）としたとき、文字列のスライスや連結をうまく使って、（0から始まるインデックスで）$i$番目の文字と$(i+1)$番目の文字を入れ替えた文字列を作ればよい。

<!-- textlint-enable -->