# Pythonプログラミング入門 第2回
文字列について説明します

# 文字列
Python が扱うデータには様々な種類がありますが、
<b>文字列</b>はいくつかの文字の並びから構成されるデータです。

文字列は、文字の並びをシングルクォート（'）もしくはダブルクォート（"）で囲んで作成します。

In [1]:
s = 'hello'
s

'hello'

In [2]:
s = "hello"
s

'hello'

この様に作成したデータが確かに文字列（str）であることを、次の様なおまじないで確かめることができます。

In [3]:
type(s)

str

Pythonが最初から用意してくれている関数（その様な関数を組み込み関数と言います）<b>str</b> を用いて、任意のデータから文字列を作成することができます。

In [4]:
s2 = str(123)
s2

'123'

文字列の長さは、組み込み関数の <b>len</b> を用いて次の様に求めることができます。

In [5]:
len(s)

5

## 文字列とインデックス
次の様にして、文字列を構成する個々の文字（要素）を取得することができます。
例えば、3番目の要素を取得するには、以下の様にします。

---
```Python
文字列[2]
```
---

In [6]:
s[2]

'l'

In [8]:
'Thanks'[4]

'k'

この括弧内の数値のことを<b>インデックス</b>と呼びます。
インデックスは0から始まるので、
ある文字列のx番目の要素を得るには、インデックスとしてx-1を指定する必要があります。

なお、この様にして取得した文字は、Pythonのデータとしては、長さが1の文字列として扱われます。

しかし、インデックスを用いて新しい値を要素として代入することはできません。

In [10]:
s[0] = 'H'

TypeError: 'str' object does not support item assignment

文字列の長さ以上のインデックスを指定することはできません。

In [11]:
s[10]

IndexError: string index out of range

インデックスに負数を指定すると、
文字列を後ろから数えた順序に従って文字列を構成する文字を取得できます。
例えば、文字列の一番後ろの文字を取得するには、-1を指定します。

In [12]:
s[-1]

'o'

## 文字列とスライス
<b>スライス</b>と呼ばれる機能を利用して、文字列の一部（部分文字列）を取得することができます。

具体的には、取得したい部分文字列の先頭の文字のインデックスと
最後の文字のインデックスに1加えた値を指定します。
例えば、ある文字列の2番目の文字から4番目までの文字の部分文字列を表示したい場合は次の様にします。

In [13]:
s[2:5]

'llo'

文字列の先頭（すなわち、インデックスが0の文字）を指定する場合、
通常次の様に記述します。

In [14]:
s[0:3]

'hel'

しかし、0の値は省略しても同じ結果を得ることができます。

In [15]:
s[:3]

'hel'

それと同様に、最後尾の文字のインデックスを指定する場合も
その値を省略することができます。

In [16]:
s[3:]

'lo'

In [17]:
s[3:5]

'lo'

スライスにおいても負数を指定して、
文字列の最後尾から部分文字列を取得することができます。

In [18]:
s[-4:-1]

'ell'

## 文字列の検索
文字列Aが特定の文字列Bを含むかどうかを調べるには、<b>in</b>演算子を使います。
具体的には、次の様に使用します。

---
```Python
文字列B in 文字列A
```
---

調べたい値が含まれていればTrueが、そうでなければFalseが返ります。

In [19]:
'lo' in s

True

In [20]:
'a' in s

False

## エスケープシーケンス
文字列にシングルクォートを含めるには、
<b>エスケープシーケンス</b>と呼ばれる特殊な文字列を使う必要があります。

In [21]:
s = 'This is 'MINE''
s

SyntaxError: invalid syntax (<ipython-input-21-60ed422ceb01>, line 1)

具体的には、文字列中に \' と記述すると、' が表示されます。

In [22]:
s = 'This is \'MINE\''
s

"This is 'MINE'"

実は、ダブルクォートを使うことでエスケープシーケンスを使わずに済ますこともできます。

In [23]:
s = "This is 'MINE'"
s

"This is 'MINE'"

他にも、ダブルクォートを表す \\"、\を表す \\\\、改行を行う\\nなど、様々なエスケープシーケンスがあります。 

In [24]:
s = "時は金なり\n\"Time is money\"\nTime is \\"
print(s)

時は金なり
"Time is money"
Time is \


この場合も3連のシングルクォート、もしくはダブルクォートを利用して、\"や\nを使わずに済ますことができます。

In [25]:
s = '''時は金なり
"Time is money"
Time is \\''' 
print(s)

時は金なり
"Time is money"
Time is \


In [26]:
s = """時は金なり
"Time is money"
Time is \\""" 
print(s)

時は金なり
"Time is money"
Time is \


## 文字列の連結
文字列同士は、<b>+</b> 演算子によって連結することができます。
連結した結果、新しい文字列が作られます。
元の文字列は変化しません。

In [27]:
s = 'hello'
s2 = ' world'
s3 = s + s2
print(s3)
print(s)
print(s2)

hello world
hello
 world


+演算子では複数の文字列を連結できましたが、<b>*</b> 演算子では文字列の掛け算が可能です。

In [28]:
s = 'hello'
s * 3

'hellohellohello'

## 文字列とメソッド
文字列に対しては、様々なメソッド（関数の様なもの）が用意されています。
メソッドは、以下のようにして使用します。

---
```Python
文字列.メソッド名(式, ...)
```
---

例えば、次の様なメソッドがあります。

### 置換
<b>replace</b> は、指定した部分文字列Aを、別に指定した文字列Bで置き換えます。ただし、元の文字列は変化しません。
具体的には、次の様に使用します。<br>

---
```Python
文字列.replace(部分文字列A, 文字列B)
```
---

In [29]:
s = 'hello'
print(s.replace('l', '123'))
print(s)

he123123o
hello


### 分割
<b>split</b> は、指定した文字列Bで、文字列Aを分割して、リストと呼ばれるデータに格納します。
具体的には、次の様に使用します。<br>

---
```Python
文字列A.split(文字列B)
```
---

リストについてはこの後で勉強します。

In [30]:
s = "hello:world:!"
s.split(':')

['hello', 'world', '!']

### 検索
<b>index</b> により、指定した部分文字列が文字列内のどこに存在するか調べることができます。
具体的には、次の様に使用します。

---
```Python
文字列.index(部分文字列)
```
---

ただし、指定した部分文字列が文字列に複数回含まれる場合、一番最初の出現のインデックスが返されます。
また、指定した部分文字列が文字列に含まれない場合は、エラーが出ます。

In [31]:
s = 'hello'
s.index('lo')

3

In [32]:
s.index('l')

2

In [33]:
s.index('a')

ValueError: substring not found

別のメソッド <b>find</b> でも指定した部分文字列が文字列内のどこに存在するか調べることができます。

---
```Python
文字列.find(部分文字列) 
```
---

ただし、指定した部分文字列が文字列に複数回含まれる場合、一番最初の出現のインデックスが返されます。
また、指定した部分文字列が文字列内に含まれない場合には-1が返されます。

In [34]:
s.find('lo')

3

In [35]:
s.find('l')

2

In [36]:
s.find('a')

-1

### 数え上げ
<b>count</b> により、指定した部分文字列が文字列内にいくつ存在するか調べることができます。<br>

---
```Python
文字列.count(部分文字列)
```
---

In [37]:
s.count('l')

2

In [38]:
"aaaaaaa".count("aa")

3

### 大文字・小文字
メソッド <b>lower</b>, <b>capitalize</b>, <b>upper</b> を用いると、文字列の中の英文字を小文字に変換したり
大文字に変換したりすることができます。

In [39]:
s = "DNA"
s

'DNA'

In [40]:
s = s.lower() # sの全ての文字を小文字にする
s

'dna'

In [41]:
s = s.capitalize() # sの先頭の文字を大文字にする
s

'Dna'

In [42]:
s = s.upper() # sを構成する全ての文字を大文字にする
s

'DNA'

上のセルでは、Pythonのコメントが使われています。
Pythonでは # を書くと、それ以降、行の終わりまでがコメントとなり、何も書かれていないときと同様に扱われます。

## 比較演算
数値などを比較するのに用いた比較演算子を用いて、2つの文字列を比較することもできます。

In [43]:
print('abc' == 'abc')
print('ab' == 'abc')

True
False


In [44]:
print('abc' != 'abc')
print('ab' != 'abc')

False
True


In [45]:
print('abc' <= 'abc')
print('abc' < 'abc')
print('ab' < 'abc')

True
False
True


# 予習課題

1. コロン(:)を1つだけ含む文字列 s を引数として与えると、
コロンの左右に存在する文字列を入れ替えた文字列を返す関数 swap_colon(s) を作成して下さい。
例えば、swap_colon("hello:world") は "world:hello" を返します。

In [56]:
def swap_colon(s):
    w = s.split(':')
    return w[1]+":"+w[0]

In [57]:
swap_colon("tokyo:glp")

'glp:tokyo'