# String Manipulation

### 字串處理方法
pd內的str instance底下有許多處理文字的function，以下只舉例部分:
1. len()
2. lower() / upper() / capitalize()
3. islower() / isupper() / isnumeric() / isdecimal() / isdigit() / isalpha() 
4. split() / strip() / lstrip() / rstrip()
5. ljust() / rjust() / startswith() / endswith()
...等等

In [None]:
import pandas as pd
import numpy as np

In [None]:
monte = pd.Series(['Graham Chapman' , 'John Cleese' , 'Terry Gilliam' , 'Peter Wang' ,'Michael Pallin'])

In [7]:
monte.str.lower()

0    graham chapman
1       john cleese
2     terry gilliam
3        peter wang
4    michael pallin
dtype: object

In [8]:
monte.str.len()

0    14
1    11
2    13
3    10
4    14
dtype: int64

In [9]:
monte.str.startswith('P')

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [10]:
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3        [Peter, Wang]
4    [Michael, Pallin]
dtype: object

### 正規表達
類似Python的內建re模組，pd內提供許多方法來尋找指定pattern的字串，以下為pd的正規表達方法對應re模組的關係:
> match() : 對每一個元素呼叫re.match()，並回傳單一布林值  
> extract() : 對每一個元素呼叫re.match()，並以字串回傳符合的群組  
> replace() : 用其他字串取代符合的樣式  
> findall() : 對每一個元素呼叫re.findall()  
> contains() : 對每一個元素呼叫re.search()，並傳回單一布林值  
> count() : 計算符合樣式的數目　　
> split() : 相當於str.split()，但接受正規表達  
> rsplit() : 相當於str.rsplit()，但接受正規表達

In [20]:
# 對每一個元素使用match，回傳第一個符合的字串
# 注意回傳型別為d.f.
monte.str.extract('([A-Za-z\s]+)') , type(monte.str.extract('([A-Za-z\s]+)'))

(                0
 0  Graham Chapman
 1     John Cleese
 2   Terry Gilliam
 3      Peter Wang
 4  Michael Pallin,
 pandas.core.frame.DataFrame)

In [18]:
monte.str.extract('([A-Za-z]+)')

Unnamed: 0,0
0,Graham
1,John
2,Terry
3,Peter
4,Michael


In [15]:
# 找到子音開頭與子音節尾的字串
monte.str.findall(r'^[^AEIOU].*[^aeiou]$')

0    [Graham Chapman]
1                  []
2     [Terry Gilliam]
3        [Peter Wang]
4    [Michael Pallin]
dtype: object

### 其他實用的函數 
> get() : 索引每一個元素  
> slice() : 切片每一個元素  
> slice_replace() : 使用input值取代在每一個元素的切片  
> cat() : 串接字串  
> repeat() : 重複字串  
> normalize() : 回傳Unicode格式的字串  
> pad() : 把字串左右或是兩邊都加上空白  
> wrap() : 把長字串分割成多列，每一列不超過固定的寬度  
> join() : 把Series中的每一個元素以傳入的分隔符號串接成新字串  
> get_dummies() : 依照欄位內的特殊符號將欄位切成不同columns，以d.f.格式回傳  

In [26]:
monte.str.split().str.get(-1)

0    Chapman
1     Cleese
2    Gilliam
3       Wang
4     Pallin
dtype: object

In [27]:
monte.str[0:3]

0    Gra
1    Joh
2    Ter
3    Pet
4    Mic
dtype: object

In [30]:
full_monte  = pd.DataFrame({'name':monte , 'info':['B|C|D','B|D','A|C','B|D','A|C|D']})
full_monte

Unnamed: 0,name,info
0,Graham Chapman,B|C|D
1,John Cleese,B|D
2,Terry Gilliam,A|C
3,Peter Wang,B|D
4,Michael Pallin,A|C|D


In [35]:
full_monte['name'].str.get_dummies(' ')

Unnamed: 0,Chapman,Cleese,Gilliam,Graham,John,Michael,Pallin,Peter,Terry,Wang
0,1,0,0,1,0,0,0,0,0,0
1,0,1,0,0,1,0,0,0,0,0
2,0,0,1,0,0,0,0,0,1,0
3,0,0,0,0,0,0,0,1,0,1
4,0,0,0,0,0,1,1,0,0,0


In [36]:
full_monte['info'].str.get_dummies('|')

Unnamed: 0,A,B,C,D
0,0,1,1,1
1,0,1,0,1
2,1,0,1,0
3,0,1,0,1
4,1,0,1,1
