# 字串處理
## * 取得子字串
## * 字串函數
## * 正規表達式

## 取得子字串

Python 字串編號圖示：

![Alt text](images/substring.png)


幾個子字串常見的寫法： 
* :冒號前的 INDEX 省略代表從 0 開始。
* :冒號後的 INDEX 省略代表直到最後一個字元。
*        str[INDEX] 取得 INDEX 的字元  
*        str[-INDEX] 取得倒數 INDEX 的字元  
*    str[START:END] 從 START 到 END-1 的子字串  
*    str[START:END:STEP] 從 START 到 END-1 每隔 STEP 的子字串  

In [1]:
s = 'Monty Python'
print("s[0]=",s[0],s[-12]) # 字串 s 的第 0 個字元，python 使用 0 based 索引
print("s[6:12]=",s[6:12]) # 6~11 的子字串 6<=index<12

print("s[6:]=",s[6:]) # 6~字串尾端 的子字串
print("s[:6]=",s[:6]) # 0～5 子字串
print("s[:]=", s[:])
print("s[6:-2]=",s[6:-2]) # 6 代表倒數第 2位
print("s[-6:]=",s[-6:]) # 取得最後 6 位

print("s[0:6:2]=",s[0:6:2]) # 0~5 間隔 2 個字元
print("s[::2]=",s[::2]) # 從 0 開始間隔 2 個字元
print("s[::-1]=",s[::-1]) # 獲得一個倒反的字串

s[0]= M M
s[6:12]= Python
s[6:]= Python
s[:6]= Monty 
s[:]= Monty Python
s[6:-2]= Pyth
s[-6:]= Python
s[0:6:2]= Mny
s[::2]= MnyPto
s[::-1]= nohtyP ytnoM


## 字串函數


In [7]:
s = "Hello, " + "Beauty... "*3 # 字串重複
print("s="+s)
print(s.split()) # 字串分割 預設用 " " 分割
print(s.split(',')) # 字串分割 用 "," 分割

print(','.join("1 2 3 4".split()))
print(','.join(s.split())) # List 的每個元素中插入一個 ,
print(s.strip()) # 清除掉頭尾的不可見字元
print("strip: ",s.strip(',.-')) # 清除掉頭尾的字元

print(s.upper()) # 將字母變成大寫
print(s.lower()) # 將字母變成小寫
print(s.find('B')) # 由左邊找起第一個找到的索引
print(s.replace('Beauty', 'Ugly')) # 取代某個字串
print(s.count('Beauty')) # 計算字串出現的次數

i= s.endswith('dog')         #檢查字串尾部的子字串
print(i)
i= s.startswith('fox')      #檢查字串頭部的子字串
print(i)
i= s.index('Bea')     #查詢子字串在字串中出現的索引，若搜尋不到子字串，會拋出 ValueError
print(i)

haiku = """matsushima-ya
aah matsushima-ya
matsushima-ya"""
haiku.splitlines()      #splitlines()對換行符號進行分割


#將姓名中間兩個子替換成相同個數的 O
s = "王大同"
s = s.replace(s[1], "O")
print(s)

s = "村上春樹"
s = s.replace(s[1:-1], "O"*len(s[1:-1]))
print(s)


s=Hello, Beauty... Beauty... Beauty... 
['Hello,', 'Beauty...', 'Beauty...', 'Beauty...']
['Hello', ' Beauty... Beauty... Beauty... ']
1,2,3,4
Hello,,Beauty...,Beauty...,Beauty...
Hello, Beauty... Beauty... Beauty...
strip:  Hello, Beauty... Beauty... Beauty... 
HELLO, BEAUTY... BEAUTY... BEAUTY... 
hello, beauty... beauty... beauty... 
7
Hello, Ugly... Ugly... Ugly... 
3
False
False
7
王O同
村OO樹


## 字元與整數
```
字元與整數互換。透過 ASCII 表。
chr(97) ==》 A
ord("A") ==》 97
```

In [6]:
x = 'A'
print(x, '=', ord(x))

y = 68
print(y, '=', chr(y))

A = 65
68 = D


# 正規表達式

In [3]:
import re

line = 'the quick brown fox jump\ned over a la\tzy dog'

regex = re.compile('\s+')
print(regex.split(line))
#\s是一個特殊的字元，匹配所有空白字元(包含空格、TAB字元、換行符號等)，+指名它在實體出現一次或多次。


for s in [" ", "abc ", " abc"]:
    if regex.match(s):
        print(repr(s), "matches")
    else:
        print(repr(s), "does not match")

        
line = 'the quick brown fox jumped over a lazy dog'
regex = re.compile('fox')
match = regex.search(line)
match.start()


text = "To email Guido, try guido@python.org or the older address "\
         "guido@google.com."
email = re.compile('\w+@\w+\.[a-z]{3}')
email.findall(text)

#我們可以進行進一步的操作，像是把電子郵件地址換成其他的字元串，達到保護個資的作用
email.sub('--@--.--', text)

['the', 'quick', 'brown', 'fox', 'jump', 'ed', 'over', 'a', 'la', 'zy', 'dog']
' ' matches
'abc ' does not match
' abc' matches


'To email Guido, try --@--.-- or the older address --@--.--.'