In [1]:
import numpy as np
import pandas as pd
import re

In [2]:
data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com',
        'Rob': 'rob@gmail.com', 'Wes': np.nan}
data = pd.Series(data)
data

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

In [16]:
print(type(data), '\n', data.dtypes)
print(data.str)  # 类型必须为Series,数据数据必须为object(对应np.str_类型)

<class 'pandas.core.series.Series'> 
 object
<pandas.core.strings.accessor.StringMethods object at 0x0000026D380D8430>


In [4]:
data.str.contains('gmail')

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

In [5]:
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'

In [6]:
data.str.findall(pattern,
                 flags=re.I)  # 匹配模式,参加re模块

Dave     [dave@google.com]
Steve    [steve@gmail.com]
Rob        [rob@gmail.com]
Wes                    NaN
dtype: object

In [7]:
matches = data.str.match(pattern, flags=re.I)
matches

Dave     True
Steve    True
Rob      True
Wes       NaN
dtype: object

In [8]:
data.str[0]  # 索引

Dave       d
Steve      s
Rob        r
Wes      NaN
dtype: object

In [9]:
data.str[:5]  # 切片

Dave     dave@
Steve    steve
Rob      rob@g
Wes        NaN
dtype: object

In [10]:
data.str[:5:2]  # 切片(带步长)

Dave     dv@
Steve    see
Rob      rbg
Wes      NaN
dtype: object

In [11]:
data.index.str.upper()

Index(['DAVE', 'STEVE', 'ROB', 'WES'], dtype='object')

In [12]:
data1 = pd.Series(['a,b,c', '1,2,3', 'a,,c', np.nan])
data1

0    a,b,c
1    1,2,3
2     a,,c
3      NaN
dtype: object

In [13]:
data1.str.split(',')

0    [a, b, c]
1    [1, 2, 3]
2     [a, , c]
3          NaN
dtype: object

In [14]:
'''
expand : bool, default False
Expand the splitted strings into separate columns.

    If True, return DataFrame/MultiIndex expanding dimensionality.
    If False, return Series/Index, containing lists of strings.
'''
data1.str.split(',', expand=True)

Unnamed: 0,0,1,2
0,a,b,c
1,1,2,3
2,a,,c
3,,,


In [15]:
"""
部分向量化字符串方法列表
cat          根据可选的分隔符按元素粘合字符串
contains     返回是否含有某个模式/正则表达式的布尔值数组  
count        模式出现的次数
extract      使用正则表达式从字符串Series中扶持抽取一个或多个字符串;
			 返回结果是每个分组形成的一列DataFrame
endwith      等价于对每个元素使用x.endwith
startwith    等价于对每个元素使用x.startwith
findall      找出字符串中的所有模式/正则表达式匹配项,以列表返回
get          对每个元素进行索引(获得第i个元素)
isalnum      等于内建的str.alnum
isalhpa      等于内建的str.isalpha
isdecimal    等于内建的str.decimal
isdigit      等于内建的str.isdigit
islower      等于内建的str.islower
isnumeric    等于内建的str.isnumeric
isupper      等于内建的str.isupper
join         根据传递的分隔符,将Series中的字符串联合
len          计算每个字符串的长度
lower,upper  转换大小写;等价于对每个元素进行x.lower()或x.upper()
mathch       使用re.match将正则表达式应用到每个元素上,将匹配分组以列表形式返回
pad          将空白加到字符串的左边,右边或两边
center       等价于pad(side='both')
repeat       重复值(例如s.str.repeat(3)等于与对每个字符串进行x*3)
replace      以其他字符串替代模式/正则表达式的匹配项
slice        对Series中的字符串进行切片
split        以分隔符或正则表达式对字符串进行拆分
strip        对字符串两侧的空白进行消除,包括换行符
rstrip       消除字符串右边的空白
lstrip       消除字符串左边的空白
"""

"\n部分向量化字符串方法列表\ncat          根据可选的分隔符按元素粘合字符串\ncontains     返回是否含有某个模式/正则表达式的布尔值数组  \ncount        模式出现的次数\nextract      使用正则表达式从字符串Series中扶持抽取一个或多个字符串;\n\t\t\t 返回结果是每个分组形成的一列DataFrame\nendwith      等价于对每个元素使用x.endwith\nstartwith    等价于对每个元素使用x.startwith\nfindall      找出字符串中的所有模式/正则表达式匹配项,以列表返回\nget          对每个元素进行索引(获得第i个元素)\nisalnum      等于内建的str.alnum\nisalhpa      等于内建的str.isalpha\nisdecimal    等于内建的str.decimal\nisdigit      等于内建的str.isdigit\nislower      等于内建的str.islower\nisnumeric    等于内建的str.isnumeric\nisupper      等于内建的str.isupper\njoin         根据传递的分隔符,将Series中的字符串联合\nlen          计算每个字符串的长度\nlower,upper  转换大小写;等价于对每个元素进行x.lower()或x.upper()\nmathch       使用re.match将正则表达式应用到每个元素上,将匹配分组以列表形式返回\npad          将空白加到字符串的左边,右边或两边\ncenter       等价于pad(side='both')\nrepeat       重复值(例如s.str.repeat(3)等于与对每个字符串进行x*3)\nreplace      以其他字符串替代模式/正则表达式的匹配项\nslice        对Series中的字符串进行切片\nsplit        以分隔符或正则表达式对字符串进行拆分\nstrip        对字符串两侧的空白进行消除,包括换行符\nrstrip       消除字符串右边的空白\nlstrip      