# 文字列

## 長さ

In [1]:
len("リプサム")

4

---
## 文字列の結合

In [2]:
"L" + "ipsum"

'Lipsum'

---
## 文字列の比較

In [3]:
"Lorem" == "Ipsum"

False

In [4]:
"Lorem" != "Ipsum"

True

In [5]:
"Lorem" < "Ipsum" # 辞書順で "Lorem" < "Ipsum"

False

In [6]:
"Lorem" <= "Ipsum" # 辞書順で "Lorem" ≤ "Ipsum"

False

In [7]:
"Lorem" > "Ipsum" # 辞書順で "Lorem" > "Ipsum"

True

In [8]:
"Lorem" >= "Ipsum" # 辞書順で "Lorem" ≥ "Ipsum"

True

---
## 文字列の繰り返し

In [9]:
"Lorem" * 3

'LoremLoremLorem'

---
## 部分文字列

In [10]:
"LOREM IPSUM dolor sit amet"[2]

'R'

In [11]:
"LOREM IPSUM dolor sit amet"[2:5] # 2≦x<5 を取り出し

'REM'

In [12]:
"LOREM IPSUM dolor sit amet"[12:] # 12≦xを取り出し

'dolor sit amet'

In [13]:
"LOREM IPSUM dolor sit amet"[:11] # x<11 を取り出し

'LOREM IPSUM'

In [14]:
"LOREM IPSUM dolor sit amet"[0:17:6] # 1≦x<17 を 6 文字おきに取り出し

'LId'

---
## 検索

### 文字列の検索

In [15]:
"dolor" in "LOREM IPSUM dolor sit amet"

True

In [16]:
"dollar" not in "LOREM IPSUM dolor sit amet"

True

In [17]:
"LOREM IPSUM dolor sit amet".index("M") # "M"が初めて現れる位置

4

In [18]:
"LOREM IPSUM dolor sit amet".count("M")

2

### 正規表現での検索

In [19]:
import re
found=re.search(r"(?i)[a-z]*([a-z]m)","LOREM IPSUM dolor sit amet")
print(found.group(0))
print(found.group(1))

LOREM
EM


---
## 置換

### 正規表現を使わない置換

In [20]:
"LOREM IPSUM dolor sit amet".replace("dolor","$")

'LOREM IPSUM $ sit amet'

### 正規表現を使う置換

In [21]:
import re
re.sub(r"(?i)(\w)(m)",r"\2\1","LOREM IPSUM dolor sit amet") # swapping

'LORME IPSMU dolor sit maet'

---
## 分割と結合

### 正規表現を使わない分割

In [22]:
"LOREM IPSUM dolor sit amet".partition(" ")

('LOREM', ' ', 'IPSUM dolor sit amet')

In [23]:
"LOREM IPSUM dolor sit amet".rpartition(" ")

('LOREM IPSUM dolor sit', ' ', 'amet')

In [24]:
"LOREM IPSUM dolor sit amet".split(" ")

['LOREM', 'IPSUM', 'dolor', 'sit', 'amet']

### 正規表現を使う分割

In [25]:
import re
re.split(r"(?i)\ [\w\ ]+\ ","LOREM IPSUM dolor sit amet")

['LOREM', 'amet']

### 結合

In [26]:
"_".join(["L","I","D","S","A"])

'L_I_D_S_A'

---
## 文字列の反転

In [27]:
"LOREM IPSUM dolor sit amet"[::-1]

'tema tis rolod MUSPI MEROL'

---
## フォーマット

In [28]:
"LOREM {} dolor sit amet".format("IPSUM")

'LOREM IPSUM dolor sit amet'

In [29]:
"LOREM %s dolor sit amet" % "IPSUM"

'LOREM IPSUM dolor sit amet'

詳しくは Format の項で

---
## 大文字/小文字の切替

In [30]:
"LOREM IPSUM dolor sit amet".upper()

'LOREM IPSUM DOLOR SIT AMET'

In [31]:
"LOREM IPSUM dolor sit amet".lower()

'lorem ipsum dolor sit amet'

In [32]:
"LOREM IPSUM dolor sit amet".title()

'Lorem Ipsum Dolor Sit Amet'

In [33]:
"LOREM IPSUM dolor sit amet".capitalize()

'Lorem ipsum dolor sit amet'

In [34]:
"LOREM IPSUM dolor sit amet".swapcase()

'lorem ipsum DOLOR SIT AMET'

In [35]:
"Ich heiße Python".casefold() # 小文字化 + 変換

'ich heisse python'

---
## 文字列を揃える

In [42]:
"align".ljust(11,"-") # -で埋める左端揃え

'align------'

In [43]:
"align".rjust(11,"-") # -で埋める右端揃え

'------align'

In [44]:
"align".center(11,"-") # -で埋める中央揃え

'---align---'

---
## 文字列の削除

### 文字単位の削除

In [39]:
"ええ すごいわ ええ".strip(" え") # 左右を取り除く

'すごいわ'

In [40]:
"ええ すごいわ ええ".lstrip(" え") # 左を取り除く

'すごいわ ええ'

In [41]:
"ええ すごいわ ええ".rstrip(" え") # 右を取り除く

'ええ すごいわ'

### 前後の空白の除去

In [36]:
"   redundant   ".strip()

'redundant'

In [37]:
"   redundant   ".lstrip()

'redundant   '

In [38]:
"   redundant   ".rstrip()

'   redundant'

---
## エスケープ文字を表示

In [45]:
"a	b	c".encode("unicode-escape")

b'a\\tb\\tc'

---
## 文字列 ⇄ バイト

In [46]:
"LOREM IPSUM dolor sit amet".encode()

b'LOREM IPSUM dolor sit amet'

In [47]:
b"LOREM IPSUM dolor sit amet".decode()

'LOREM IPSUM dolor sit amet'

---
## 文字 ⇄ コードポイント

In [48]:
chr(80)

'P'

In [49]:
ord("P")

80

---
## 正規表現について

### `(?: )`  
通常の `( )` は,その箇所を括弧で括るだけでなく,キャプチャして取り出すことができる。`re.split` では,キャプチャした文字列が分割時に入り込んでしまう。  
単に括弧で括り出すだけであればキャプチャしない `(?: )` を利用する。

### コンパイル
正規表現を使う場合,同じパターンを多数回利用する場合は予めコンパイルして利用すると高速化する  
コンパイルして生成したオブジェクトに `search` `replace` `split` などが含まれている。  
上のサンプルの `re` の箇所にコンパイル済みの正規表現オブジェクトを代入すれば良い。

In [50]:
re.compile(r"(?i)\ [\w\ ]+\ ")

re.compile(r'(?i)\ [\w\ ]+\ ', re.IGNORECASE|re.UNICODE)