# 2-1. 文字列 (string)

文書処理などに必要な文字列について説明します。

**文字列**は文字が並んだデータです。
Pythonは標準で多言語に対応しており、
英語アルファベットだけではなく日本語をはじめとする多くの言語を取り扱えます。

文字列はシングルクォート `'...'`、またはダブルクォート `"..."` で囲みます。

以下の例では文字列をそれぞれ、変数 `word1`, `word2` に代入しています。

In [2]:
word1 = 'hello'
word1

'hello'

In [3]:
word2 = 'Hello'
word2

'Hello'

変数の値が文字列かどうかは、組み込み関数 **`type`** で確認します。<br>
`type` は、任意のデータを引数として、そのデータの種類を返します。<br>
データの種類は、**データ型**もしくは**型**と言います。

In [None]:
type(word1)

**`str`** は文字列のデータ型を意味します。

In [None]:
type(word2)

`str` は組み込み関数でもあります。<br>
組み込み関数 **`str`** を使って、引数のデータを文字列に変換します。<br>
一般に、データ型は、そのデータ型への変換を行う関数として用いられることが多いです。<br>

`'str()'`関数に引数として数値を渡すと、数値を文字列に変換します。

In [4]:
word3 = str(123)
word3

'123'

`'123'` という文字列を整数に変換するには、**`int`** 関数に数値を引数として渡します。<br>
なお、`'int'`は`'str'`と同じようにデータの型でもあります。

In [5]:
i = int('123')
i

123

関数 **`float()`** で文字列を実数に変換できます。

In [None]:
f = float('123.4') # シングルクォートで囲まれているので、123.4 は数値ではなく文字列です。
f

In [7]:
len(word1) # word1 は、シングルクォート、またはダブルクォートで囲まれていないので、変数です。

5

トリプルクォート（`'''...'''` もしくは `"""..."""`）で改行を含む文字列を定義できます。
トリプルクォートはコメントとしても用いられます。

In [None]:
line = """Sooner or later
it is
       ideas
not
       vested interests
which is dangerous for good or eveil."""

print(line)
"""コメント"""
print()
"""コメント"""
line

## 文字列とインデックス

文字列は0個以上の文字の連なりです。<br>
文字列の `'hello'` の0から数えて1番目の文字 `'e'` は次のように取得します

In [None]:
'hello'[1]

文字列を値とする変数に対しても同様の記法を用います。多くの場合は変数に対してこの記法を用います。

In [None]:
word1 = 'hello'
word1[1]

この括弧内の数値のことを**インデックス**と呼びます。Pythonではインデックスは `0` から始まります。<br>
ある文字列の `n` 番目の要素はインデックスとして `n-1` を指定します。<br>
また、`文字数−1` より大きい数をインデックスとして指定すると、エラーになります。

インデックスに負数を指定すると、
文字列を後ろから数えた順序に従って文字列を構成する文字を得ます。
たとえば、文字列の最後の文字を取得するには、`-1` を指定します。

In [None]:
word1[-1]

まとめると文字列 `hello` の正負のインデックスは以下の表の関係になります。  

|インデックス|h|e|l|l|o|
|-|--|--|--|--|--|
|0か正|0|1|2|3|4|
|負|-5|-4|-3|-2|-1|

## 文字列とスライス
文字列の中から一部を切り出すことを**スライス**と言います。 `*※差の絶対値が文字数になります*`<br>
スライスするときは、切り出す文字列の最初のインデックスと最後のインデックスに`1` を加えた値を指定します。<br>
たとえば、ある文字列の2番目の文字から4番目までの文字の部分文字列を得るには次のようにします。

In [None]:
digits1='ABCDEFGHIJ'
digits1[1:4]

文字列の先頭（すなわち、インデックスが `0` の文字）から３文字を指定する場合、次のように行えます。

In [None]:
digits1='ABCDEFGHIJ'
digits1[0:3]

最初の `0` は省略しても同じ結果となります。

In [None]:
digits1='ABCDEFGHIJ'
digits1[:3]

同様に、最後尾の文字のインデックスも、値を省略することもできます。

In [None]:
digits1='ABCDEFGHIJ'
digits1[3:10] # digits1[3:10] の指定と同じ

スライスにおいても負数を指定して、
文字列の最後の方から部分文字列を取得できます。

In [None]:
digits1='ABCDEFGHIJ'
digits1[-4:-1]

スライスでは3番目の値を指定することで、とびとびの文字を指定できます。次のように `digits1[3:9:2]` と指定すると、インデックス `3` から2文字おきにインデックス `9` より小さい文字を並べた部分文字列を得ます。

In [None]:
digits1='ABCDEFGHIJ'
digits1[3:9:2]

3番目の値に `-1` を指定することもできます。これを使えば元の文字列の逆向きの文字列を得ることができます。

In [None]:
digits1='ABCDEFGHIJ'
digits1[8:3:-1] # -1 で逆進します。`0123456789` 

## 空文字列
何の文字も囲まないシングルクォートまたはダブルクォートは長さ 0 の文字列（**空文字列**（くうもじれつ）もしくは、**空列**（くうれつ））です。

---
```Python
blank = ''
```
---

スライスしたい文字列のインデックスの範囲に文字列がないと、空文字列となります。

In [None]:
digits1='ABCDEFGHIJ'
type_none = None
print('空文字列 = ', digits1[4:2]) # Noneではりません。
print('未定義文字列 =', type_none)

## 文字列の検索

`文字列A` が `文字列B` を含むかどうかを調べるには、**`in`** 演算子を使います。
具体的には、次のように使用します。

---
```Python
文字列B in 文字列A
```
---

調べたい `文字列B` が含まれていれば `True` が、そうでなければ `False` が返ります。

実際のプログラムでは文字列を値とする変数を用いることが多いでしょう。

In [None]:
word1 =  'hello'
substr1 = 'lo'
substr1 in word1

In [None]:
substr2 = 'z'
substr2 in word1

**`not in`** 演算子は、`in` 演算子の逆を意味します。

In [None]:
word1 =  'hello'
substr2 = 'z'
substr2 not in word1

## バックスラッシュの表示と入力

エスケープシーケンスの先頭にある文字は、バックスラッシュ `\`（Unicode `U+005C`）です。
これはPythonに限った話ではないですが、バックスラッシュは環境（正確にはフォント）によって見え方が異なります。
Windows上のフォントでは、円記号 `¥` として見えることが多いです。
macOS上のフォントでは、そのままバックスラッシュとして見えることが多いです。

JIS配列キーボードでは、バックスラッシュキーがないことがあります。
Windows上では、円記号 `¥` キーでバックスラッシュが入力できます。
macOS上では、`Alt` + `¥` キーでバックスラッシュが入力できます。
ただし、IME設定によっても入力方法は変わるので注意してください。

In [None]:
print('\n') # 改行文字（バックスラッシュ + n）
print('¥n') # 改行文字でない（円記号 + n）
print('⧵n') # 改行文字でない（Unicode U+29F5 のバックスラッシュ演算子 + n）

## 文字列の連結
**`+`** 演算子を用いれば文字列同士を**連結**できます。
この演算では新しい文字列が作られ、元の文字列は変化しません。

In [None]:
word1 = 'hello'
word2 = ' world'
text1 = word1 + word2
text1

**`*`** 演算子で文字列の繰り返し回数を指定できます。

In [None]:
word1 = 'hello'
word1 * 3

## 文字列とメソッド
文字列に対する操作を行うため、様々な**メソッド**（関数のようなもの）が用意されています。

メソッドは必要に応じて `(...)` 内に引数を与え、以下のように使用します。

---
```Python
文字列.メソッド名(式, ...)
# あるいは
文字列変数.メソッド名(式, ...)
```
---

文字列には以下のようなメソッドが用意されています。

### **置換**

**`replace`** メソッドは、指定した `部分文字列A` を、別に指定した `文字列B` で置き換えた文字列を作成します。
この操作では、元の文字列は変化しません。具体的には、次のように使用します。

---
```Python
文字列.replace(部分文字列A, 文字列B)
```
---

In [None]:
word1 = 'hello'
word1.replace('l', '123')

In [None]:
word1

### 練習

英語の文章からなる文字列 `str_engsentences` が引数として与えられたとき、`str_engsentences` 中に含まれる全ての句読点（`.`, `,`, `:`, `;`, `!`, `?`）を削除した文字列を返す関数 `remove_punctuations` を作成してください。

次のセルの `...` のところを書き換えて `remove_punctuations(str_engsentences)` を作成してください。

In [None]:
def remove_punctuations(str_engsentences):
    return str_engsentences.replace('.', '').replace(',', '').replace(':', '').replace(';', '').replace('!', '').replace('?', '')

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認してください。

In [None]:
sentence0 = 'Quiet, uh, donations, you want me to make a donation to the coast guard youth auxiliary?'
sentence1 = 'Quiet uh donations you want me to make a donation to the coast guard youth auxiliary'
print(remove_punctuations(sentence0) == sentence1)

### **分割**

**`split`** メソッドは、指定した `区切り文字列B` で、`文字列A` を分割して、リストというデータ型に分割した文字列を格納して返します。

---
```Python
文字列A.split(区切り文字列B)
```
---

In [None]:
fruits1 = 'apple,banana,cherry'
fruits1.split(',')

### **検索**

**`index`** メソッドにより、指定した `部分文字列B` が `文字列A` のどこに存在するか調べることができます。具体的には、次のように使用します。

---
```Python
文字列A.index(部分文字列B)
```
---

ただし、指定した部分文字列が文字列に複数回含まれる場合、最初のインデックスが返されます。また、指定した部分文字列が文字列に含まれない場合は、エラーとなります。

In [None]:
word1 = 'hello'
word1.index('lo')

In [None]:
word1.index('l')

以下はエラーとなります。

In [None]:
word1.index('a')

**`find`** メソッドも `index` と同様に部分文字列を検索し、最初に出現するインデックスを返します。

`index` との違いは、部分文字列が含まれない場合エラーとはならず `-1` が返されることです。

In [None]:
word1 = 'hello'
word1.find('a')

### 練習

コロン (`:`) を1つだけ含む文字列 `str1` を引数として与えると、コロンの左右に存在する文字列を入れ替えた文字列を返す関数 `swap_colon(str1)` を作成してください。

次のセルの `...` のところを書き換えて `swap_colon(str1)` を作成してください。

In [None]:
def swap_colon(str1):
    end = str1.index(':')                                 # str1 の文字列に含まれている ':' コロンのインデックスを取得
    first_token = str1[:end]                           # インデックス０からコロンのインデックスまでの文字列を切り出して、first_token に代入する
    start = end + 1                                       # ':' コロン以降の部分文字列の最初のインデックスを取得
    second_token = str1[start:]                     # ':' コロン以降から最後までの文字列を切り出して、second_token に代入する 
    result = second_token + ':' + first_token   # ':'コロン以前と以降の部分文字列を入れ替えて、':'コロンで連結する
    print('return result is', result)                   # 入れ替えた文字列を印字する
    return result

# 関数の検証（実行結果が True になることを確認）
print(swap_colon('hello:world') == 'world:hello')

### **数え上げ**

**`count`** メソッドにより、指定した `部分文字列B` が `文字列A` にいくつ存在するか調べることができます。

---
```Python
文字列A.count(部分文字列B)
```
---

In [None]:
word1 = 'hello'
word1.count('l')

In [None]:
'aaaaaaa'.count('aa')

### **大文字**・**小文字**
**`lower`**, **`capitalize`**, **`upper`** メソッドを用いると、文字列の中の英文字を小文字に変換したり、大文字に変換したりすることができます。

これらの操作では、元の文字列は変化しません。

In [None]:
upper_dna = 'DNA'
upper_dna.lower() # 全ての文字を小文字にする

In [None]:
upper_dna

In [None]:
lower_text = 'hello world!'
lower_text.capitalize() # 先頭文字を大文字にする

In [None]:
lower_text

In [None]:
lower_text.upper() #全ての文字を大文字にする

In [None]:
lower_text

## **文字列の比較演算**

比較演算子、`==`, `<`, `>` などを用いて、2つの文字列を比較することもできます。

In [None]:
print('abc' == 'abc')
print('ab' == 'abc')

文字列の大小の比較は、いわゆる辞書式による比較で、文字列の最初の文字から順に比較して大小を決めます。
片方がもう片方を拡張したものであれば、拡張した方を大きいとします。

In [None]:
print('abc' <= 'abc')
print('abc' < 'abc')
print('abc' < 'abd')
print('ab' < 'abc')

## 初心者によくある誤解 --- **変数**と**文字列**の混乱

初心者によくある誤解として、変数と文字列を混乱する例が見られます。たとえば、文字列を引数に取る次のような関数 `func` を考えます（ `func` は引数として与えられた文字列を大文字にして返す関数です）。　

In [57]:
def func(str1):
    return str1.upper()

ここで変数 `str2` を引数として `func` を呼ぶと、`str2` に格納されている文字列が大文字になって返ってきます。

In [None]:
str2 = 'abc'
func(str2)

次のように `func` を呼ぶと上とは結果が異なります。次の例では変数 `str2` （に格納されている文字列 `abc`）ではなく、文字列 `'str2'` を引数として `func` を呼び出しています。

In [None]:
str2 = 'abc'
func('str2')