# Pythonプログラミング入門 第2回
文書処理などに必要な文字列型について説明します

参考

- https://docs.python.org/3/tutorial/introduction.html#strings

# 文字列
Python が扱うデータには様々な種類がありますが、**文字列**はいくつかの文字の並びから構成されるデータです。  
Python は標準で多言語に対応しており、英語アルファベットだけではなく日本語をはじめとする多くの言語をとりあつかえます。

文字列は、文字の並びをシングルクォート（'）もしくはダブルクォート（"）で囲んで作成します。

In [None]:
str1 = 'hello'
str1

In [None]:
str2 = "hello"
str2

ここで作成したデータが確かに文字列（`str`）であることは、組み込み関数 **`type`** によって確認できます。

In [None]:
type(hello)

In [None]:
type(hello2)

組み込み関数　**`str`** を使えば、任意のデータから文字列を作成できます。

1-1 で学んだ数値を文字列に変更したい場合、次のようにおこないます。

In [None]:
str3 = str(123)
str3

文字列の長さは、組み込み関数の **`len`** を用いて次のようにして求めます。

In [None]:
len(str1)

## 文字列とインデックス

文字列はいくつかの文字によって構成されています。文字列 `文字列A` から 3番目の要素を得たい場合は、以下のようにします。

---
```Python
文字列A[2]
```
---

最初の章で定義された変数 `str1` におこなうには:

In [None]:
str1[2]

次のように文字列に対してもおこなえます。

In [None]:
'Thanks'[2]

この括弧内の数値のことを**インデックス**と呼びます。インデックスは0から始まるので、ある文字列の x 番目の要素を得るには、インデックスとして`x-1`を指定する必要があります。

なお、このようにして取得した文字は、Pythonのデータとしては、長さが1の文字列として扱われます。

しかし、インデックスを用いて新しい値を要素として代入することはできません。（次のセルはエラーとなります）

In [None]:
str1[0] = 'H'

文字列の長さ以上のインデックスを指定することはできません。（次はエラーとなります）

In [None]:
str1[100]

インデックスに負数を指定すると、
文字列を後ろから数えた順序に従って文字列を構成する文字を得ます。
例えば、文字列の最後の文字を取得するには、-1を指定します。

In [None]:
str1[-1]

## 文字列とスライス
**スライス**と呼ばれる機能を利用して、文字列の一部（部分文字列）を取得できます。

具体的には、取得したい部分文字列の先頭の文字のインデックスと
最後の文字のインデックスに1加えた値を指定します。
例えば、ある文字列の2番目の文字から4番目までの文字の部分文字列を得るには次のようにします。

In [None]:
str9='0123456789'

In [None]:
str9[1:4]

文字列の先頭（すなわち、インデックスが0の文字）を指定する場合、次のようにおこなえます。

In [None]:
str9[0:3]

しかし、最初の0は省略しても同じ結果となります。

In [None]:
str9[:3]

同様に、最後尾の文字のインデックスも、値を省略することができます。

In [None]:
str9[3:]

In [None]:
str9[3:5]

スライスにおいても負数を指定して、
文字列の最後尾から部分文字列を取得することができます。

In [None]:
str9[-4:-1]

スライスでは3番目の値を指定することで、とびとびの文字を指定することもできます。次のように `str0to9[3:10:2]` と指定すると、3, 5, 7, ... という2おきの10より小さいインデックスをもつ文字からなる部分文字列を得ることができます。

In [None]:
print(str9[3:10:2])
str_atn = "abcdefghijklmn"
print(str9[3:10:2])

そして、3番目の値として1おきを指定する　`str0to9[1:4:1]` は `str0to9[1:4]` と同じです。

In [None]:
print(str9[1:4:1], str9[1:4])

3番目の値に -1 を指定することもできます。これを使えば元の文字列の逆向きの文字列を得ることができます。

In [None]:
print(str9[8:4:-1])

## 空文字列
シングルクォート（もしくはダブルクォート）で、何も囲まない場合、長さ 0 の文字列（**空文字列**（くうもじれつ）もしくは、**空列**（くうれつ））を作成することができます。
具体的には、下記のように使用します。

---
```Python
str_blank = ''
```
---

空文字列は、次のように例えば文字列中からある部分文字列を取り除くのに使用します。
（`replace` は後で説明します。）

In [None]:
str_price = '2,980円'
str_price.replace(',', '')

文字列のスライスにおいて、 指定したインデックスの範囲に文字列が存在しない場合、例えば、最初に指定したインデックス `x` に対して、 x 以下のインデックスの値（ただし、同じ等号をもつとし、3番目の値を用いずに）を指定するとどうなるでしょうか？
このような場合、結果は次のように空文字列となります（エラーが出たり、結果が`None`にはならないことに注意して下さい）。

In [None]:
print("空文字列1 = ", str9[4:2])
print("空文字列2 = ", str9[-1:-4])
print("空文字列3 = ", str9[3:3])
print("空文字列ではない = ", str9[3:-1])

## 文字列の検索
`文字列A`が`文字列B`を含むかどうかを調べるには、**`in`** 演算子を使います。
具体的には、次のように使用します。

---
```Python
文字列B in 文字列A
```
---

調べたい`文字列B`が含まれていれば `True` が、そうでなければ `False` が返ります。

In [None]:
'lo' in hello

In [None]:
'z' in hello

## エスケープシーケンス
文字列を作成するにはシングル `'` あるいはダブルクオート `"` で囲むと説明しました。
これらの文字を含む文字列を作成するには、**エスケープシーケンス**と呼ばれる特殊な文字列を使う必要があります。

例えば、下のように文字列に `'` を含む文字列を `'` で囲むと文字列の範囲がずれてエラーとなります。

In [None]:
str1 = 'This is 'MINE''
str1

エラーを避けるには、エスケープシーケンスで `'` を記述します、具体的には `'` の前に `\` と記述すると、`'` を含む文字列を作成できます。

In [None]:
str1 = 'This is \'MINE\''
str1

実は、シングルクォートで囲むのをやめてダブルクォートを使うことでエスケープシーケンスを使わずに済ますこともできます。

In [None]:
str1 = "This is 'MINE'"
str1

他にも、ダブルクォートを表す `\"`、`\` を表す `\\` 、改行を行う `\n` など、様々なエスケープシーケンスがあります。 

In [None]:
str1 = "時は金なり\n\"Time is money\"\nTime is \\"
print(str1)

この場合も3連のシングルクォート、もしくはダブルクォートを利用して、 `\"` や `\n` を使わずに済ますことができます。

In [None]:
str1 = '''時は金なり
"Time is money"
Time is \\''' 
print(str1)

In [None]:
str1 = """時は金なり
"Time is money"
Time is \\""" 
print(str1)

## 文字列の連結
文字列同士は、**+** 演算子によって連結することができます。
連結した結果、新しい文字列が作られます。
元の文字列は変化しません。

In [None]:
hello = 'hello'
world = ' world'
str3 = hello + world
print("連結元1 =", hello, ", 連結元2 =", world)
print("連結結果 =", str3)

+演算子では複数の文字列を連結できましたが、***** 演算子では文字列の掛け算が可能です。

In [None]:
hello = 'hello'
hello * 3

## 文字列とメソッド
文字列に対する操作をおこなうため、様々な**メソッド**（関数のようなもの）が用意されています。メソッドは、以下のようにして使用します。

---
```Python
文字列.メソッド名(式, ...)
```
---

文字列には以下のようなメソッドが用意されています。

### **置換**
**`replace`** は、指定した`部分文字列A` を、別に指定した`文字列B` で置き換えた文字列を返します。  
この操作では、元の文字列は変化しません。具体的には、次のように使用します。

---
```Python
文字列.replace(部分文字列A, 文字列B)
```
---

In [None]:
hello = 'hello'
hello2 = hello.replace('l', '123')
print('replace前 = \"',hello, '\" \nreplace後 = \"', hello2, '\"')

### **分割**
**`split`** は、指定した`区切り文字列B`で、`文字列A`を分割して、リストと呼ばれるデータに格納します。具体的には、次のように使用します。

---
```Python
文字列A.split(区切り文字列B)
```
---

リストについては 2-2 で扱います。

In [None]:
hello_world = "hello_world_!"
hello_world.split('_')

### **検索**
**`index`** により、指定した`部分文字列B`が`文字列A`のどこに存在するか調べることができます。具体的には、次のように使用します。

---
```Python
文字列A.index(部分文字列B)
```
---

ただし、指定した部分文字列が文字列に複数回含まれる場合、一番最初の出現のインデックスが返されます。また、指定した部分文字列が文字列に含まれない場合は、エラーとなります。

In [None]:
hello = 'hello'
hello.index('lo')

In [None]:
hello.index('l')

以下はエラーとなります。

In [None]:
hello.index('a')

**`find`** メソッドでも指定した`部分文字列B`が`文字列A`のどこに存在するか調べることができます。

---
```Python
文字列A.find(部分文字列B) 
```
---

ただし、指定した部分文字列が文字列に複数回含まれる場合、一番最初の出現のインデックスが返されます。  
指定した部分文字列が文字列内に含まれない場合は、index メソッドと異なり-1が返されます。

In [None]:
hello.find('lo')

In [None]:
hello.find('l')

In [None]:
hello.find('a')

### **数え上げ**
**`count`** により、指定した`部分文字列B`が`文字列A`にいくつ存在するか調べることができます。

---
```Python
文字列A.count(部分文字列B)
```
---

In [None]:
hello.count('l')

In [None]:
"aaaaaaa".count("aa")

### **大文字**・**小文字**
**`lower`**, **`capitalize`**, **`upper`** を用いると、文字列の中の英文字を小文字に変換したり、大文字に変換したりすることができます。

In [None]:
str1 = "DNA"
print(str1)

In [None]:
str2 = str1.lower() # sの全ての文字を小文字にする
print("実行前 = ", str1, "\n実行後 = ",  str2)

In [None]:
str3 = str2.capitalize() # sの先頭の文字を大文字にする
print("capitalize実行元 = ", str2, ", capitalize実行結果=",  str3)

In [None]:
str4 = str3.upper() # sを構成する全ての文字を大文字にする
print("upper実行元 = ", str3, ", upper実行結果=",  str4)

## **文字列の比較演算**
数値などを比較するのに用いた比較演算子を用いて、2つの文字列を比較することもできます。

In [None]:
print('abc' == 'abc')
print('ab' == 'abc')

In [None]:
print('abc' != 'abc')
print('ab' != 'abc')

In [None]:
print('abc' <= 'abc')
print('abc' < 'abc')
print('ab' < 'abc')

## 初心者によくある誤解、**変数**と**文字列**の混乱

初心者によくある誤解として、変数を文字列を混乱する例が見られます。例えば、文字列を引数に取る次のような関数 `func` を考えます（ `func` は引数として与えられた文字列を大文字にして返す関数です）。　

In [None]:
def func(str1):
    return str1.upper()

ここで変数 `str2` を引数として `func` を呼ぶと、`str2` に格納されている文字列が大文字になって返ってきます。

In [None]:
str2 = "abc"
print(func(str2))

次のように `func` を呼ぶと上とは結果が異なります。次の例では変数 `str2` （に格納されている文字列 `abc`）ではなく、文字列 `'str2'` を引数として `func` を呼び出しています。

In [None]:
str2 = "abc"
print(func("str2"))

## 練習

コロン(:)を1つだけ含む文字列 `str1` を引数として与えると、コロンの左右に存在する文字列を入れ替えた文字列を返す関数 `swap_colon(str1)` を作成して下さい。（練習の正解はノートの一番最後にあります。）

次のセルの `...` のところを書き換えて `swap_colon(str1)` を作成して下さい。

In [None]:
def swap_colon(str1):
    ...

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認して下さい。

In [None]:
print(swap_colon("hello:world") == 'world:hello')

## 練習

英語の文章からなる文字列 `str_engsentences` が引数として与えられたとき、`str_engsentences` 中に含まれる全ての句読点（`.`, `,`, `:`, `;`, `!`, `?`）を削除した文字列を返す関数 `remove_punctuations` を作成して下さい。

次のセルの `...` のところを書き換えて `remove_punctuations(str_engsentences)` を作成して下さい。

In [None]:
def remove_punctuations(str_engsentences):
    ...

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認して下さい。

In [None]:
print(remove_punctuations("Quiet, uh, donations, you want me to make a donation to the coast guard youth auxiliary?") == 'Quiet uh donations you want me to make a donation to the coast guard youth auxiliary')

## 練習

ATGCの4種類の文字から成る文字列 `str_atgc` が引数として与えられたとき、文字列 `str_pair` を返す関数 `atgc_bppair` を作成して下さい。ただし、`str_pair` は、`str_atgc` 中の各文字列に対して、 A を T に、 T を A に、 G を C に、 C を G に置き換えたものです。

次のセルの `...` のところを書き換えて `atgc_bppair(str_atgc)` を作成して下さい。

In [None]:
def atgc_bppair(str_atgc):
    ...

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認して下さい。

In [None]:
print(atgc_bppair("AAGCCCCATGGTAA") == 'TTCGGGGTACCATT')

## 練習

ATGCの4種類の文字から成る文字列 `str_atgc` と塩基名（A, T, G, Cのいずれか）を指定する文字列 `str_bpname` が引数として与えられたとき、`str_atgc` 中に含まれる塩基 `str_bpname` の数を返す関数 `atgc_count` を作成して下さい。

次のセルの `...` のところを書き換えて `atgc_count(str_atgc, str_bpname)` を作成して下さい。

In [None]:
def atgc_count(str_atgc, str_bpname):
    ...

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認して下さい。

In [None]:
print(atgc_count("AAGCCCCATGGTAA", "A") == 5)

## 練習

コンマ(`,`)を含む英語の文章からなる文字列 `str_engsentences` が引数として与えられたとき、`str_engsentences` 中の一番最初のコンマより後の文章のみかならなる文字列 `str_res` を返す関数 `remove_clause` を作成して下さい。ただし、 `str_res` の先頭は大文字のアルファベットとして下さい。

次のセルの `...` のところを書き換えて `remove_clause(str_atgc)` を作成して下さい。

In [None]:
def remove_clause(str_atgc):
    ...

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認して下さい。

In [None]:
print(remove_clause("It's being seen, but you aren't observing.") == "But you aren't observing.")

## 練習

英語の文字列 `str_engsentences` が引数として与えられたとき、それが全て小文字である場合、`True` を返し、そうでない場合、 `False` を返す関数 `check_lower` を作成して下さい。

次のセルの `...` のところを書き換えて `check_lower(str_engsentences)` を作成して下さい。

In [None]:
def check_lower(str_engsentences):
    ...

上のセルで解答を作成した後、以下のセルを実行し、実行結果が全て `True` になることを確認して下さい。

In [None]:
print(check_lower("down down down") == True)
print(check_lower("There were doors all round the hall, but they were all locked") == False)

## 練習の解答

In [None]:
def swap_colon(str1):
    #コロンの位置を取得する # findでもOK
    col_index = str1.index(':')
    #コロンの位置を基準に前半と後半の部分文字列を取得する
    str2, str3 = str1[:col_index], str1[col_index+1:]
    #部分文字列の順序を入れ替えて結合する
    str4 = str3 + ":" + str2
    return str4
#swap_colon("hello:world")

In [None]:
def remove_punctuations(str_engsentences):
    str1 = str_engsentences.replace(".", "") # 指定の文字を空文字に置換
    str1 = str1.replace(",", "")
    str1 = str1.replace(":", "")
    str1 = str1.replace(";", "")
    str1 = str1.replace("!", "")
    str1 = str1.replace("?", "")
    return str1
#remove_punctuations("Quiet, uh, donations, you want me to make a donation to the coast guard youth auxiliary?")

In [None]:
def atgc_pair(str_atgc):
    str_pair = str_atgc.replace("A", "t")# 指定の文字に置換。ただし全て小文字
    str_pair = str_pair.replace("T", "a")
    str_pair = str_pair.replace("G", "c")
    str_pair = str_pair.replace("C", "g")
    str_pair = str_pair.upper() # 置換済みの小文字の列を大文字に変換
    return str_pair
#atgc_pair("AAGCCCCATGGTAA") 

In [None]:
def atgc_count(str_atgc, str_bpname):
    return str_atgc.count(str_bpname)
#atgc_count("AAGCCCCATGGTAA", "A") 

In [None]:
def remove_clause(str_engsentences):
    int_index = str_engsentences.find(",")
    str1 = str_engsentences[int_index+2:]
    return str1.capitalize()
#remove_clause("It's being seen, but you aren't observing.")

In [None]:
def check_lower(str_engsentences):
    if str_engsentences == str_engsentences.lower():#元の文字列と小文字に変換した文字列を比較する
        return True
    return False
#check_lower("down down down")
#check_lower("There were doors all round the hall, but they were all locked")