In [6]:
import pandas as pd
import re

### 綜合題

In [7]:
all_mix = '91.8>92>92.3(by Dr.林)'

# 先去除中英文混合的情況
del_eng_ch = re.sub('[a-zA-Z\u4e00-\u9fff]+', '', all_mix)
print(del_eng_ch)

# output: 91.8>92>92.3( .)

# 去除 () 內的內容
del_bracket = re.sub('\(.*?\)', '', del_eng_ch)
print(del_bracket)

# output: 91.8>92>92.3

# 去除 > 內的內容
print(del_bracket.split('>')[0])

# output: 91.8

91.8>92>92.3( .)
91.8>92>92.3
91.8


### 處理英文

In [8]:
ch_symbol = '透析中止(by Dr.林）'
print('只處理英文')
print(re.sub(r'[a-zA-Z]', '', ch_symbol))

# output : 透析中止( .林）

print('處理()裡的內容')
print(re.sub(r'[a-zA-Z]', '', ch_symbol).strip().split('(')[0])

# output : 透析中止


只處理英文
透析中止( .林）
處理()裡的內容
透析中止


### 處理中文加數字

In [9]:
ch_symbol = '55.5改為55.6'

print('處理中文加數字')
print(ch_symbol)
print('先將中文替換成符號')
print(re.sub(r'[\u4e00-\u9fff]+','>', ch_symbol))

# output: 55.5>55.6

print('再將符號切割')
print(re.sub(r'[\u4e00-\u9fff]+','>', ch_symbol).split('>')[-1])

# output: 55.6

處理中文加數字
55.5改為55.6
先將中文替換成符號
55.5>55.6
再將符號切割
55.6


### 處理中英數混合例子

In [10]:
ch_eng = 'TRY改為54.3'
ch_eng_2 = 'TRY改為54.3kg'

# 全部去掉
print('全部去掉')
print(re.sub(r'[^0-9.]', '', ch_eng)) 

# output: 54.3
 
# 保留數字
print('保留數字和指定英文 kg')
print(re.sub(r'[^0-9kg.]', '', ch_eng_2))

# output: 54.3kg

全部去掉
54.3
保留數字和指定英文 kg
54.3kg


### 去除符號和文字

In [11]:
num_symbol = '3.5>3.3>3>2.8(final)'

# 去掉符號
print('去掉文字和符號')
print(re.sub(r'[^0-9.]', '', num_symbol))
# output: 3.53.332.8

# 去掉符號並以 > 分割
print('先去掉文字')
split_symbol = re.sub(r'[^0-9.>]', '', num_symbol)
print(split_symbol)

# output: 3.5>3.3>3>2.8

print('再以 > 分割')
print(split_symbol.split('>')[-1])

# output: 2.8


去掉文字和符號
3.53.332.8
先去掉文字
3.5>3.3>3>2.8
再以 > 分割
2.8


## 結合 Pandas 和 Series

In [12]:
df = pd.DataFrame({
    'A' : ['1.2>1.3>1.4(by 護理長)', '1.2>1.3>1.5', '1.2>1.3>1.9'],
    'B' : ['1.2>1.3>1.6', '1.2>1.3>1.7', '1.2>1.3>1.8(by 護理長)'],
})

df.head(2)


Unnamed: 0,A,B
0,1.2>1.3>1.4(by 護理長),1.2>1.3>1.6
1,1.2>1.3>1.5,1.2>1.3>1.7


### Pandas Series

In [13]:
strip_split_symbol = lambda x: re.sub(r'[^0-9.>]', '', x).split('>')[-1]

df['A'] = df['A'].apply(strip_split_symbol)

df.A

0    1.4
1    1.5
2    1.9
Name: A, dtype: object

### Pandas DataFrame

In [14]:
# with dataframe
for col in df.columns:
    df[col] = df[col].apply(strip_split_symbol)

In [15]:
df

Unnamed: 0,A,B
0,1.4,1.6
1,1.5,1.7
2,1.9,1.8
