# 文字列
## 文書処理などに必要な文字列の扱いについて。
文字列型のデータとは、いくつかの文字の並びから構成されるデータ型である。  
Pythonでは標準で多言語対応となっており、英語アルファベットだけでなく、日本語を始めとして多くの言語を扱うことが出来る。  

文字列は文字の並びをシングルクォート、あるいはダブルクォートで囲むことで定義出来る。  
組み込み関数`type`で変数に格納されたデータの型を確認出来る。

In [1]:
moji = 'hoge'
type(moji)

str

`str`と出力された。これは文字列型のデータ型を表す。  
また、`str`は組み込み関数としても提供されており、任意のデータ型のデータを引数として受け取り文字列型に変換して返す。  
（一般に、データ型は、そのデータ型への変換を行う関数として使われることが多い。）

In [2]:
moji2 = str(123)
moji2

'123'

In [3]:
# 文字列型から整数型への変換
number = int('123')
type(number)

int

In [4]:
# 文字列型から実数への変換
real = float('123')
type(real)

float

In [5]:
# エラーを起こす変換
e = int('あ')
f = float('あ')

ValueError: invalid literal for int() with base 10: 'あ'

## 文字列とインデックス
文字列はいくつかの文字によって構成されている。  
文字列のなかの特定の文字を取得したい場合は以下のようにする。  

In [6]:
word = 'hello'
word[3]

'l'

In [7]:
'hello'[0]

'h'

カッコ内で指定した数値のことをインデックスと呼ぶ。  
（一文字目をゼロ番目として扱う点に注意する。）
このようにして取得した文字は長さ1の文字列として扱われる。  
  
Pythonにおいて、文字列はイミュータブル（変更不可）なデータ型なのでインデックスを指定して直接書き換えることはできない。  
文字列を加工する際は新た別の文字列を作成する必要がある。  
また、文字列の長さ以上のインデックスを指定することもできない。

In [9]:
word = 'hello'
word[0] = H

NameError: name 'H' is not defined

In [11]:
word[100]

IndexError: string index out of range

インデックスに負の値を指定すると文字列の最後尾を始点 にして文字列を指定する。
負の値で指定するときは`-1`が始点になる。

In [12]:
word[-1]

'o'

## 文字列とインデックス
スライスという機能を使って文字列の一部を取得できる。

In [1]:
numbers = '0123456789'
numbers[1:4]

'123'

In [2]:
numbers[0:3]

'012'

In [3]:
# ゼロは省略できる
numbers[:3]

'012'

In [4]:
# 最後尾のインデックスも省略できる
numbers[3:]

'3456789'

In [5]:
# 負の値でインデックス指定
numbers[-4:-1]

'678'

スライスに3つ目の数値を与えると、取得する文字列に間隔を指定できる。

In [6]:
numbers[::2]

'02468'

In [7]:
# 3つ目の値に負の値を指定する
numbers[::-1]

'9876543210'

## 空文字列
シングル（ダブル）クォートで何も囲まない場合、長さ０の文字列となり、これを`空文字列`と呼ぶ。

In [8]:
blank = ''

`replace`で文字列から特定の文字を除去したいときに活用する。


In [9]:
price = '2,980円'
price.replace(',', '')

'2980円'

文字列のスライスにおいて、指定したインデックスの範囲に文字列が存在しない場合  
たとえば、`[x:y](x > y 且つ xとyは同じ符号を持つ。)`とした場合、エラーではなく空文字列が  
返ってくる。

In [10]:
print('空文字列1 = ', numbers[4:2])
print('空文字列2 = ', numbers[-1:-4])
print('空文字列3 = ', numbers[3:3])
print('空文字列ではない = ', numbers[3:-1])

空文字列1 =  
空文字列2 =  
空文字列3 =  
空文字列ではない =  345678


## 文字列の検索
`文字列A`が`文字列B`を含むかどうかを調べるには、`in`演算子を使う。  
`in`は真偽値を返す。  
`not in`演算子は`in`演算子の逆を返す。

In [11]:
'lo' in 'hello'

True

In [12]:
'a' in 'hello'

False

In [13]:
check = 'aa'
str1 = 'hello'
check in str1

False

In [14]:
check = 'aa'
str1 = 'hello'
check not in str1

True

## エスケープシーケンス
文字列を生成するにはシングルクォートあるいはダブルクォートで文字を囲う。  
しかし…

In [16]:
non_escape = 'This is 'MINE''

SyntaxError: invalid syntax (<ipython-input-16-22edaf9a7d8f>, line 1)

文字列の中でクォートを使うとエラーを起こしてしまう。  
文字列の中で文字としてクォートを扱うために`エスケープ`する。

In [18]:
escaped1 = 'This is \'MINE\''
escaped1

"This is 'MINE'"

ダブルクォートで文字を囲って、文字列内でシングルクォート使うとエスケープシーケンスを使わなくても  
クォートを含んだ文字列を作ることが出来る。  
（逆のパターンもOK）
また。三連のクォートを使えば、エスケープなしで記述出来る。

In [20]:
escaped2 = "This is 'MINE'"
escaped2

"This is 'MINE'"

In [21]:
escaped3 = 'This is "MINE"'
escaped3

'This is "MINE"'

エスケープシーケンス一覧

|エスケープシーケンス|意味|
|:---|:---:|
|\newline|文字列の途中で改行する。|
|\\|バックスラッシュ|
|\'|シングルクォート|
|\"|ダブルクォート|
|\a|ASCII端末ベル|
|\b|ASCIIバックスペース|
|\f|ASCIIフォームフィード|
|\n|ASCII行送り|
|\r|ASCII復帰|
|\t|ASCII水平タブ|
|\v|ASCII垂直タブ|
|\ooo|8進数oooを持つASCII文字|
|\xhh|16進数を持つASCII|
|\N{name}|Unicordデータベース中で名前`name`を持つ文字|
|\uxxxx|16ビットの16進数値xxxxを持つUnicord文字|
|\Uxxxxxxxx|32ビットの16進数値xxxxxxxxを持つUnicord文字|

## 文字列の連結
`+`演算子で文字列同士を連結出来る。  
連結の際、連結の結果は新しい文字列として生成され、もとの文字列を変化させない。  
（文字列はイミュータブル）

In [25]:
str_linking1 = 'hello'
str_linking2 = ' world'
str_linked = str_linking1 + str_linking2
str_linked

'hello world'

## 文字列とメソッド
文字列に対する操作を行うため、様々なメソッド（関数のようなもの）が用意されている。  
メソッドは必要に応じて、（...）に引数を与え、以下のように使用する。  

```
文字列.メソッド名(式, ...)
# or
文字列を格納した変数.メソッド名(式, ...)
```

## 置換
`replace`メソッドは、指定した`部分文字列A`を、別に指定した`文字列B`に置き換えた文字列を作成する。  
もとの文字列には変化を与えない。

In [1]:
rep = 'hello'
rep.replace('l', '123')

'he123123o'

In [2]:
rep 

'hello'

## 練習
英語の文章からなる文字列 str_engsentences が引数として与えられたとき、str_engsentences 中に含まれる全ての句読点（., ,, :, ;, !, ?）を削除した文字列を返す関数 remove_punctuations を作成してください。

In [9]:
# 練習
def remove_punctuations(str_engsentenceds):
    str1 = str_engsentenceds.replace(',', '')
    str1 = str1.replace('.', '')
    str1 = str1.replace(';', '')
    str1 = str1.replace(':', '')
    str1 = str1.replace('!', '')
    str1 = str1.replace('?', '')
    return str1

In [10]:
print(remove_punctuations('Quiet, uh, donations, you want me to make a donation to the coast guard youth auxiliary'))

Quiet uh donations you want me to make a donation to the coast guard youth auxiliary


## 練習
ATGCの4種類の文字から成る文字列 str_atgc が引数として与えられたとき、文字列 str_pair を返す関数 atgc_bppair を作成してください。ただし、str_pair は、str_atgc 中の各文字列に対して、 A を T に、T を A に、G を C に、C を G に置き換えたものです。

In [13]:
# 練習
def atgc_bppair(str_agtc):
    str_pair = str_agtc.replace('A', 't')
    str_pair = str_pair.replace('T', 'a')
    str_pair = str_pair.replace('G', 'c')
    str_pair = str_pair.replace('C', 'g')
    str_pair = str_pair.upper()
    return str_pair

In [14]:
print(atgc_bppair('AAGCCCCATGGTAA') == 'TTCGGGGTACCATT')

True


## 分割
`split`メソッドは、指定した`区切り文字列B`で、`文字列A`を分割して、リストと呼ばれるデータに格納します。  

```
文字列A.split(区切り文字列B)
```

In [1]:
fruits = 'apple,banana,cherry'
fruits.split(',')

['apple', 'banana', 'cherry']

## 検索
`index`メソッドにより、指定した`部分文字列B`が`文字列A`のどこに存在するか調べることができます。具体的には、次のように使用します。  

```
文字列A.index(部分文字列B)
```

ただし、指定した部分文字列が文字列に複数回含まれる場合、最初のインデックスが返されます。また、指定した部分文字列が文字列に含まれない場合は、エラーとなります。

In [2]:
word = 'hello'
word.index('lo')

3

In [3]:
word = 'hello'
word.index('l')

2

In [4]:
# エラー
word.index('a')

ValueError: substring not found

`find`メソッドも`index`と同様に部分文字列を検索し、最初に出現するインデックスを返します。  
`index`との違いは、部分文字列が含まれない場合エラーとはならず`-1`が返されることです。

In [6]:
word = 'hello'
word.find('a')

-1

## 練習
コロン`(:)`を1つだけ含む文字列`str1`を引数として与えると、コロンの左右に存在する文字列を入れ替えた文字列を返す関数`swap_colon(str1)`を作成してください。  
次のセルの`...`のところを書き換えて`swap_colon(str1)`を作成してください。

In [7]:
def swap_colon(str1):
    col_index = str1.index(':')
    str2 = str1[:col_index]
    str3 = str1[col_index + 1:]
    str4 = str3 + ':' + str2
    return str4

In [8]:
print(swap_colon('hello:world') == 'world:hello')

True


In [13]:
def swap_colon2(str1):
    str2 = str1.split(':')
    str3 = str2[0]
    str4 = str2[1]
    str5 = str4 + ':' + str3
    return str5

In [14]:
print(swap_colon2('hello:world') == 'world:hello')

True


## 数え上げ
`count`メソッドにより、指定した`部分文字列B`が`文字列A`にいくつ存在するか調べることができます。  

```
文字列A.count(部分文字列B)
```

In [15]:
word = 'hello'
word.count('l')

2

In [20]:
'aaaaaaaaaaaaa'.count('aa')

6

## 練習 
ATGCの4種類の文字から成る文字列`str_atgc`と塩基名（A, T, G, C のいずれか）を指定する文字列`str_bpname`が引数として与えられたとき、`str_atgc`中に含まれる塩基`str_bpname`の数を返す関数`atgc_count`を作成してください。

In [21]:
def atgc_count(str_atgc, str_bpname):
    atgc_count = str_atgc.count(str_bpname)
    return atgc_count

In [22]:
print(atgc_count('AAGCCCCATGGTAA', 'A') == 5)

True


## 大文字・小文字
`lower`,`capitalize`,`upper`メソッドを用いると、文字列の中の英文字を小文字に変換したり、大文字に変換したりすることができます。  
これらの操作では、元の文字列は変化しません。

In [23]:
upper_dna = 'DNA'
upper_dna.lower()

'dna'

In [24]:
lower_txt = 'hello world'
lower_txt.upper()

'HELLO WORLD'

In [25]:
lower_txt.capitalize()

'Hello world'

 ## 文字列の比較演算
比較演算子`==`, `<`, `> `などを用いて、2つの文字列を比較することもできます。 

In [1]:
print('abc' == 'abc')
print('ab' == 'abc')

True
False


In [2]:
print('abc' != 'abc')
print('ab' != 'abc')

False
True


文字列の大小の比較は、いわゆる辞書式による比較で、文字列の最初の文字から順に比較して大小を決めます。 片方がもう片方を拡張したものであれば、拡張した方を大きいとします。

In [3]:
print('abc' <= 'abc')
print('abc' < 'abc')
print('abc' < 'abd')
print('ab' < 'abc')

True
False
True
True


## 練習
英語の文字列`str_engsentences`が引数として与えられたとき、それが全て小文字である場合、`True`を返し、そうでない場合、`False`を返す関数`check_lower`を作成してください。  
次のセルの`...`のところを書き換えて`check_lower(str_engsentences)`を作成してください。

In [4]:
def check_lower(str_ensentences):
    return str_ensentences == str_ensentences.lower()

In [6]:
print(check_lower('down down down') == True)
print(check_lower('There were doors all round the hall, but they were all locked') == False)

True
True


## 初心者によくある誤解 - 変数と文字列の混乱
初心者によくある誤解として、変数と文字列を混乱する例が見られます。たとえば、文字列を引数に取る次のような関数`func`を考えます（ func は引数として与えられた文字列を大文字にして返す関数です）。

In [1]:
def func(str1):
    return str1.upper()

ここで変数`str2`を引数として`func`を呼ぶと`str2`に格納されている文字列が処理されて戻って来る。

In [2]:
str2 = 'abc'
func(str2)

'ABC'

次のように`func`を呼ぶと結果が変わってくる。

In [3]:
str2 = 'abc'
func('str2')

'STR2'

変数名をクォートで囲ってしまっているので文字列になってしまっている。

## 練習
コンマ`(,)`を含む英語の文章からなる文字列`str_engsentences`が引数として与えられたとき、`str_engsentences`中の一番最初のコンマより後の文章のみかならなる文字列`str_res`を返す関数`remove_clause`を作成してください。ただし、 str_res の先頭は大文字のアルファベットとしてください。  
次のセルの`...`のところを書き換えて`remove_clause(str_engsentences)`を作成してください。

In [22]:
def remove_clause(str_ensentences):
    splitter = str_ensentences.find(',')
    spl2 = str_ensentences[splitter+2:]
    return spl2.capitalize()

In [23]:
print(remove_clause("It's being seen, but you aren't observing.") == "But you aren't observing.")
print(remove_clause("It's being seen, but you aren't observing."))

True
But you aren't observing.
