# String Operation

---

詞類(POS)：每種語言都由許多詞類組成，例如動詞，名詞，副詞，形容詞等。

詞性標註(Part Of SpeechTagging)，簡單來說就是將文章、句子中，文字的詞類標註出來，為NLP 任務中相當重要的技術之一。

標註原理
POS 標註任務中，信息擴展基於詞本身的內在信息和基於某些的外在信息，換而言之，當我們在決定單詞的詞性前，除了考慮單詞本身，也要考慮前後單詞與整句話。
通常一個單詞會包含多種詞性。

標註意義
詞性標註能在許多 NLP 的任務中提供低層次的語義信息。

In [None]:
POS-tagging 應用
用於模型輸入特徵：提供單詞與鄰近單詞的訊息，以利進一步分析與處理。
提供句法結構的訊息，可用來做相似度判斷等應用。
詞幹提取(stemming)：去除詞綴得到詞根

## String :判別字串是否為特定字元

### isnumeric(), isdigit(), isdecimal()

In [None]:
## 差別主要在於unicode定義的區間不同，isdecimal() ⊆ isdigit() ⊆ isnumeric()

In [None]:
def spam(s):
    for attr in ['isnumeric', 'isdecimal', 'isdigit']:
        print(attr, getattr(s, attr)())

In [None]:
spam('3')

isnumeric True
isdecimal True
isdigit True


In [None]:
spam('½')

isnumeric True
isdecimal False
isdigit False


In [None]:
spam("⑩⑬㊿")

isnumeric True
isdecimal False
isdigit False


In [None]:
spam("🄀⒊⒏")

isnumeric True
isdecimal False
isdigit True


In [None]:
spam('³')

isnumeric True
isdecimal False
isdigit True


In [None]:
## 因為.不屬於numeric定義內字元，所以三者都返回False
spam('2.345')

isnumeric False
isdecimal False
isdigit False


### isalnum()

In [None]:
## 如果string至少有一個字符和所有字符都是字母或數字則返回True，否則返回False
'23'.isalnum()

True

In [None]:
'我要學python'.isalnum()

True

In [None]:
## .不算字母或數字
'我要學python.'.isalnum()

False

In [None]:
## space 不算字母或數字
'我要學python '.isalnum()

False

### isupper() / islower()

In [None]:
'ABC'.isupper()

True

In [None]:
'ABC'.islower()

False

In [None]:
'ABc'.islower()

False

## 常見格式化符號

!['escape'](escape.png)

### %s 格式化為string

In [None]:
'I will like to be a AI %s' % ('engineer')

'I will like to be a AI engineer'

In [None]:
'I will like to be a %s %s' % ('AI','engineer')

'I will like to be a AI engineer'

### %i , %d 格式化為整數

In [None]:
'%i' % (4.356)

'4'

In [None]:
'%d' % (4.356)

'4'

### %e 格式化為科學符號

In [None]:
'%e' % (4.356)

'4.356000e+00'

### %f 格式化為float

In [None]:
'%f' % (4.356)

'4.356000'

In [None]:
## 只呈現到小數點後面兩位
'%.2f' % (4.356)

'4.36'

---

## string.format()  以可讀性更高的語法做到 string formatting 

### 不指定位置，按照順序排列 :基本语法是通过 {} 和 : 来代替以前的 %

In [None]:
'{} {} {}'.format('I','Love','Python')

'I Love Python'

## 給定順序

In [None]:
'{1} {0} {2}'.format('Love','I','Python')

'I Love Python'

## 給定變數名稱

In [None]:
'{name} {verb} {language}'.format(verb = 'Love', name = 'I', language = 'Python')

'I Love Python'

### 輸入字典

In [None]:
dic_ = {'verb' : 'Love', 'name' : 'I', 'language' : 'Python'}

'{name} {verb} {language}'.format(**dic_)

'I Love Python'

## 輸入list

In [None]:
list_ = ['Love', 'I', 'Python']

## 0 代表給入的list
'{0[1]} {0[0]} {0[2]}'.format(list_)

'I Love Python'

### 用format 取代 %

In [None]:
## 不給訂任何escape也可以
'{}'.format(4.356)

'4.356'

In [None]:
##與上方'%.2f'%(4.356)相同
'{:.2f}'.format(4.356)

'4.36'

In [None]:
'{:.2%}'.format(4.356)

'435.60%'

### 補齊數字字串長度

In [None]:
## < 補右邊, 補0到10位數
'{:0<10d}'.format(5)

'5000000000'

In [None]:
## > 補左邊, 補1到10位數
'{:1>10d}'.format(5)

'1111111115'

In [None]:
## > 補左邊, 補空格，可用來對齊
'{:>10d}'.format(5)

'         5'