In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import re

# pandas中的字符串操作都是通过Series和DataFrame的str属性调用的

In [2]:
data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com', 'Rob': 'rob@gmail.com', 'Wes': np.nan}
data = pd.Series(data)
data

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

In [3]:
data.str.contains('gmail')  # 检查每一项是否包含gmail

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

In [4]:
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'

data.str.findall(pattern, flags=re.IGNORECASE)

Dave     [(dave, google, com)]
Steve    [(steve, gmail, com)]
Rob        [(rob, gmail, com)]
Wes                        NaN
dtype: object

In [5]:
matches = data.str.match(pattern, flags=re.IGNORECASE)
matches

Dave     True
Steve    True
Rob      True
Wes       NaN
dtype: object

In [6]:
# matches.str.get(1)
# matches.str[0]       # 执行报错

In [7]:
data.str[:5]

Dave     dave@
Steve    steve
Rob      rob@g
Wes        NaN
dtype: object

In [8]:
# 一些pandas字符串方法
# 方法           说明
# cat          实现元素级的字符串连接操作，可指定分隔符
# contains     返回是否包含某个模式/正则表达式的bool数组
# count        返回表示个字符串是否含有指定模式的布尔型数组
# extract      使用带分组的正则表达式从字符串Series提取一个或多个字符串，结果是一个DataFrame，每组有一列
# endswith     相当于对每个元素执行x.endswith(pattern)
# startswith   相当于对每个元素执行x.startswith(pattern)
# findall      计算各字符串的模式列表
# get          获取各元素的第i个字符
# isalnum      相当于内置的str.alnum
# isalpha      相当于内置的str.isalpha
# isdecimal    相当于内置的str.isdecimal
# isdigit      相当于内置的str.isdigit
# islower      相当于内置的str.islower
# isnumeric    相当于内置的str.isnumeric
# isupper      相当于内置的str.isupper
# join         根据指定的分隔符将Series中各元素的字符串连接起来
# len          计算各字符串的长度
# lower;upper  转换大小写c相当于对各个元素执行x.lower()或x.upperO
# match        根据指定的正则表达式对各个元素执行re.match,返回匹配的组为列表
# pad          在字符串的左边、右边或两边添加空白符
# center       相当于pad(side='both')
# repeat       重复值。例如，s.str.repeat⑶相当于对各个字符串执行x*3
# replace      用指定字符串替换找到的模式
# slice        对Series中的各个字符串进行子串截取
# split        根据分隔符或正则表达式对字符串进行拆分
# strip        去除两边的空白符，包括新行
# rstrip       去除右边的空白符
# lstrip       去除左边的空白符