In [1]:
import numpy as np
import pandas as pd

### 1. 字符串对象方法

In [2]:
val = 'a,b, guido'    # 字符串

In [3]:
val.split(',')  #split 拆分多个块

['a', 'b', ' guido']

In [4]:
pieces = [x.strip() for x in val.split(',')]    # []内与下面等价

In [5]:
for x in val.split(','):
    print(x.strip())

a
b
guido


In [6]:
pieces

['a', 'b', 'guido']

In [7]:
'::'.join(pieces)    # join函数将序列中的元素以指定的字符连接生成一个新的字符串。

'a::b::guido'

In [8]:
'guido' in val

True

In [9]:
val.find(':')    # find返回字符串中第一个出现子字符串的第一个字符的位置， -1 表示没有找到

-1

In [10]:
val.count(',')     # 返回的是某个特定的子字符串在字符串出现的次数 

2

In [11]:
val

'a,b, guido'

In [12]:
val.replace(',' , '::')    # 把','替换为'：：'

'a::b:: guido'

### 2. 正则表达式

In [13]:
import re

In [14]:
text = 'foo    bar\t baz   \tqux'

In [15]:
re.split('\s+', text)     # \s+ 表示一个或者多个空白字符

['foo', 'bar', 'baz', 'qux']

注：Python中使用正则表达式时，re模块内部会干两件事：1. 编译正则表达式；2. 编译后的正则表达式去匹配字符。
使用re.compile进行预编译，处理多个字符串时，节约CPU资源

In [16]:
regex = re.compile('\s+')

In [17]:
regex.split(text)

['foo', 'bar', 'baz', 'qux']

In [18]:
regex.findall(text)   # 所有匹配正则表达式的模糊的列表

['    ', '\t ', '   \t']

**findall、search、match的区别**

In [19]:
text = '''Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
'''

In [20]:
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'

In [21]:
regex = re.compile(pattern, flags = re.IGNORECASE)  # 使用正则表达式不区分大小写

In [22]:
regex.findall(text)   # findall 返回字符串中所有匹配的项

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

In [23]:
m = regex.search(text)   # search 返回文本中第一个匹配到的

In [24]:
m

<re.Match object; span=(5, 20), match='dave@google.com'>

In [25]:
text[m.start():m.end()]

'dave@google.com'

In [26]:
print(regex.match(text))  # match只在模式出现字符串起始位置进行匹配

None


match的理解：

In [27]:
print(re.match('www', 'www.runoob.com'))
print(re.match('com', 'www.runoob.com'))

<re.Match object; span=(0, 3), match='www'>
None


In [28]:
print(regex.sub('REDACTED',text))  # sub 会返回新的字符串，原字符串中的模式会被新的字符串替代

Dave REDACTED
Steve REDACTED
Rob REDACTED
Ryan REDACTED



In [29]:
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'

In [30]:
regex = re.compile(pattern, flags = re.IGNORECASE)

In [31]:
m = regex.match('wesm@bright.net')

In [32]:
m.groups()

('wesm', 'bright', 'net')

### 3. Pandas中的向量化字符串函数

In [33]:
data = {'Dave':'dave@google.com','Steve':'steve@gmail.com','Rob':'rob@gmail.com','Wes':np.nan}

In [34]:
data = pd.Series(data)

In [35]:
data

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

In [36]:
data.isnull()

Dave     False
Steve    False
Rob      False
Wes       True
dtype: bool

In [37]:
data.str.contains('gmail')   # 测试是否包含目的字符串

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object