##### 字串操作處理
在 Python 裡如果遇到資料中的文字處理狀況，通常會使用迴圈的方式慢慢處理，然而 NumPy 提供許多處理與操作陣列裡文字的方法，\
能夠很簡單的進行分割、合併、置換...等字串處理，也能夠快速地進行內容判斷並回傳布林值，這篇教學會介紹 NumPy 操作與處理字串的方法。

##### NumPy 字串操作方法 
下方列出 NumPy 的字串操作方法 ( 完整函式可參考 NumPy 官方文件：[String operations](https://numpy.org/doc/stable/reference/routines.char.html) )：

![image.png](attachment:image.png)

##### 建立字串陣列 
透過 NumPy 建立字串陣列的方法，可以建立由字串所組成的新陣列。

![image.png](attachment:image.png)

In [13]:
from numpy import char

a = char.array(['a','b','c. \n', 1])     # 換行符號和空白會被取代，數字轉換成文字
b = char.asarray(['a','b','c. \n',1])    # 換行符號和空白會被取代，數字轉換成文字
#print(a)                                 # ['a' 'b' 'c.' '1']
#print(b)                                 # ['a' 'b' 'c.' '1']
c1 = char.chararray((3,3))               # 產生一個 3x3 的文字陣列，內容放入 string
c2 = char.chararray((3,3), unicode=True) # 產生一個 3x3 的文字陣列，內容放入 unicode 字串
#print(c1)                                # [[b'\xa0' b'\x10' ''] [b'\xe6' b'!' b'V'] ['' '' '']]
#print(c2)                                # [['' '' ''] ['' '' ''] ['' '' '']]
d = char.chararray((3,3), unicode=True)  # 產生一個 3x3 的文字陣列，內容放入 unicode 字串
d[1:2] = 'a'                               # 將內容全換成字母 a
print(d)                                 # [['a' 'a' 'a'] ['a' 'a' 'a'] ['a' 'a' 'a']]

[['' '' '']
 ['a' 'a' 'a']
 ['' '' '']]


##### 組合、重複字串 
透過 NumPy 組合、重複字串的方法，可以組合不同的字串陣列，或重複字串內容，成為新的陣列。

![image.png](attachment:image.png)

In [17]:
from numpy import char
import numpy as np

a = np.array(['a','b','c','d'])      # 1x4 一維陣列
b = np.array(['w','x','y','z'])      # 1x4 一維陣列
print(char.add(a,b))                 # ['aw' 'bx' 'cy' 'dz']
#print(char.multiply(a,3))            # ['aaa' 'bbb' 'ccc' 'ddd']

c = np.array([['a','b'],['c','d']])  # 2x2 二維陣列
d = np.array([['w','x'],['y','z']])  # 2x2 二維陣列
print(char.add(c,d))                 # [['aw' 'bx'] ['cy' 'dz']]
#print(char.multiply(c,3))            # [['aaa' 'bbb'] ['ccc' 'ddd']]

['aw' 'bx' 'cy' 'dz']
[['aw' 'bx']
 ['cy' 'dz']]


##### 對齊、補齊字串 
透過 NumPy 對齊、補齊字串的方法，可以對齊字串內容，或使用特定字元補齊內容，成為新的陣列。

![image.png](attachment:image.png)

In [18]:
from numpy import char

a = np.array(['a','bb','ccc','dddd'])
print(char.center(a, 10, '+'))    # 置中對齊，空白補 +
                                  # ['++++a+++++' '++++bb++++' '+++ccc++++' '+++dddd+++']
print(char.ljust(a, 10, '+'))     # 置左對齊，空白補 +
                                  # ['a+++++++++' 'bb++++++++' 'ccc+++++++' 'dddd++++++']
print(char.rjust(a, 10, '+'))     # 置右對齊，空白補 +
                                  # ['+++++++++a' '++++++++bb' '+++++++ccc' '++++++dddd']
print(char.zfill(a, 10))          # 置右對齊，空白補 0
                                  # ['000000000a' '00000000bb' '0000000ccc' '000000dddd']

['++++a+++++' '++++bb++++' '+++ccc++++' '+++dddd+++']
['a+++++++++' 'bb++++++++' 'ccc+++++++' 'dddd++++++']
['+++++++++a' '++++++++bb' '+++++++ccc' '++++++dddd']
['000000000a' '00000000bb' '0000000ccc' '000000dddd']


##### 移除、分割字串 
透過 NumPy 移除、分割字串的方法，可以移除字串內特定文字，或根據特定字元分割字串，成為新的陣列。

![image.png](attachment:image.png)

In [19]:
from numpy import char

a = np.array(['aaa','aa\nbb','bb\naa','abab'])
print(char.lstrip(a,'a'))     # 移除左側所有 a ( 遇到不是 a 就停止 )
                              # ['' '\nbb' 'bb\naa' 'bab']
print(char.rstrip(a,'a'))     # 移除右側所有 a ( 遇到不是 a 就停止 )
                              # ['' 'aa\nbb' 'bb\n' 'abab']
print(char.strip(a,'a'))      # 移除左右所有 a ( 遇到不是 a 就停止 )
                              # ['' '\nbb' 'bb\n' 'bab']
print(char.partition(a,'a'))  # 以 b 的左側分割元素 ( 分割後會包含 b )
                              # [['' 'a' 'aa'] ['' 'a' 'a\nbb'] ['bb\n' 'a' 'a'] ['' 'a' 'bab']]
print(char.rpartition(a,'a')) # 以 b 的右側分割元素 ( 分割後會包含 b )
                              # [['aa' 'a' ''] ['a' 'a' '\nbb'] ['bb\na' 'a' ''] ['ab' 'a' 'b']]
print(char.split(a,'a'))      # 以 b 的左側分割元素 ( 分割後會不包含 b )
                              # [list(['', '', '', '']) list(['', '', '\nbb']) list(['bb\n', '', '']) list(['', 'b', 'b'])]
print(char.rsplit(a,'a'))     # 以 b 的右側分割元素 ( 分割後會不包含 b )
                              # [list(['', '', '', '']) list(['', '', '\nbb']) list(['bb\n', '', '']) list(['', 'b', 'b'])]
print(char.splitlines(a))     # 根據換行符號分割元素
                              # [list(['aaa']) list(['aa', 'bb']) list(['bb', 'aa']) list(['abab'])]

['' '\nbb' 'bb\naa' 'bab']
['' 'aa\nbb' 'bb\n' 'abab']
['' '\nbb' 'bb\n' 'bab']
[['' 'a' 'aa']
 ['' 'a' 'a\nbb']
 ['bb\n' 'a' 'a']
 ['' 'a' 'bab']]
[['aa' 'a' '']
 ['a' 'a' '\nbb']
 ['bb\na' 'a' '']
 ['ab' 'a' 'b']]
[list(['', '', '', '']) list(['', '', '\nbb']) list(['bb\n', '', ''])
 list(['', 'b', 'b'])]
[list(['', '', '', '']) list(['', '', '\nbb']) list(['bb\n', '', ''])
 list(['', 'b', 'b'])]
[list(['aaa']) list(['aa', 'bb']) list(['bb', 'aa']) list(['abab'])]


##### 替換、轉換字串 
透過 NumPy 替換、轉換字串的方法，可以替換字串內的特定文字，或進行大小寫的轉換，成為新的陣列。

![image.png](attachment:image.png)

In [21]:
from numpy import char

a = np.array(['abc','ABC','abc xyz'])

c = char.encode(a)                  # 換成 unicode
print(c)                            # [b'abc' b'ABC' b'abc xyz']
print(char.decode(c))               # 換成 utf8
                                    # ['abc' 'ABC' 'abc xyz']

[b'abc' b'ABC' b'abc xyz']
['abc' 'ABC' 'abc xyz']


##### 尋找字串、計算字串長度 
透過 NumPy 尋找字串、計算字串長度的方法，可以尋找字串內的特定文字，或計算字串長度，成為新的陣列。

![image.png](attachment:image.png)

In [27]:
from numpy import char

a = np.array(['abab','aabb','bbaa','xyz'])

print(char.count(a,'a',0,3))  # 計算出現幾次字母 a
                              # [1 2 0 0]


[2 2 1 0]


##### 判斷字串 
透過 NumPy 判斷字串的方法，可以判斷字串的內容、大小寫、開頭或結尾，並回傳布林值所組成的新陣列。

![image.png](attachment:image.png)

In [40]:
from numpy import char


a = np.array(['abc','ABC','Abc Cba','abc123','123',''])
b = np.array(['abc','123','xyz','abc123','123',''])


print(char.compare_chararrays(a,b,'>=',True))  # a 陣列和 b 陣列元素 的 unicode 大於等於 True，否則 False
                               # [ True  True False  True  True  True]

[ True  True False  True  True  True]
