In [2]:
import pandas as pd
import numpy as np

In [5]:
var = 'edfg'
str.upper(var) # Python内置str模块

'EDFG'

In [7]:
s=pd.Series(['abcd','efghij','jk'])
s.str.upper()

0      ABCD
1    EFGHIJ
2        JK
dtype: object

In [8]:
s.str[0]

0    a
1    e
2    j
dtype: object

In [6]:
s.str[-1: 0: -2]
#切片操作不包括右边的值

0     db
1    jhf
2      k
dtype: object

In [7]:
s = pd.Series([{1: 'temp_1', 2: 'temp_2'}, ['a', 'b'], 0.5, 'my_string'])
s.str[1]

0    temp_1
1         b
2       NaN
3         y
dtype: object

In [12]:
s.astype('string').str[1]

0    1
1    '
2    .
3    y
dtype: string

## 一般字符的匹配

In [14]:
import re
re.findall('Apple','Apple,Apples,This is an apple')


['Apple', 'Apple']

In [16]:
re.findall('.','abcde')

['a', 'b', 'c', 'd', 'e']

In [19]:
re.findall('[abd]','abcde')

['a', 'b', 'd']

In [20]:
re.findall('[^a]','abcde')

['b', 'c', 'd', 'e']

In [22]:
re.findall('[ae]{2}','aabbccddeeaa')

['aa', 'ee', 'aa']

In [25]:
re.findall('aaa|ccc','aabbcccddeeaa')

['ccc']

In [27]:
#拆分(其中第一个参数为正则表达式,可选参数包括从左到右的最大拆分次数n,是否展开为多个列expand)
s = pd.Series(['上海市黄浦区方浜中路249 号',
               '上海市宝山区密山路5 号'])
s.str.split('[市区路]')

0    [上海, 黄浦, 方浜中, 249 号]
1       [上海, 宝山, 密山, 5 号]
dtype: object

In [30]:
s.str.split('[市区路]',n=2)

0    [上海, 黄浦, 方浜中路249 号]
1       [上海, 宝山, 密山路5 号]
dtype: object

In [29]:
s.str.split('[市区路]',n=3,expand=True)

Unnamed: 0,0,1,2,3
0,上海,黄浦,方浜中,249 号
1,上海,宝山,密山,5 号


关于合并一共有两个函数，分别是str.join 和str.cat 。str.join 表示用某个连接符把Series 中的字符串列表
连接起来，如果列表中出现了字符串元素则返回缺失值：

In [33]:
#合并
s = pd.Series([['a','b'],[1,'c'],[['a','b'],'c'],['Ap','p','le']])
s.str.join('-')

0        a-b
1        NaN
2        NaN
3    Ap-p-le
dtype: object

str.cat用于连接两个序列

In [35]:
s1 = pd.Series(['A','B'])
s2 = pd.Series(['dog','cat'])
s1.str.cat(s2,sep='-')

0    A-dog
1    B-cat
dtype: object

In [36]:
s2.index=[1,2]
s2

1    dog
2    cat
dtype: object

In [38]:
s1.str.cat(s2, sep='-', na_rep='?', join='outer')

0      A-?
1    B-dog
2    ?-cat
dtype: object

In [34]:
import re
re.findall('a\?|a\*', 'aa?a*a')
#a\?表示匹配单个字符 a 后跟一个 ? 符号。? 匹配前面的字符零次或一次。,
#a\*表示匹配单个字符 a 后跟一个 * 符号。* 匹配前面的字符零次或多次。

['a?', 'a*']

In [41]:
#匹配
s = pd.Series(['my cat', 'he is fat', 'railway station'])

s.str.contains('\s\wat')

#匹配所有字母、数字、下划线: [a-zA-Z0-9_]\W
#匹配空格符: [\t\n\f\r\p{Z}]

0     True
1     True
2    False
dtype: bool

In [42]:
s.str.startswith('my')

0     True
1    False
2    False
dtype: bool

In [44]:
s.str.endswith('t')

0     True
1     True
2    False
dtype: bool

In [None]:
#替换
#str.replace 和replace 并不是一个函数，在使用字符串替换时应当使用前者。

In [53]:
#s=pd.Series(['a_1_b','C_?'])
s = pd.Series(['a_1_b','c_?'])
# s.str.replace('a_1_b', 'a_new_b')
s.str.replace('\d|\?','and',regex = True)
#\d 匹配数字: [0-9]，\s 匹配空格符

0    a_and_b
1      c_and
dtype: object

In [82]:
s = pd.Series([1,2,3,4,5,6,7,8,9])
s[-2:]

7    8
8    9
dtype: int64

In [83]:
s = pd.Series(['上海市黄浦区方浜中路249号',
                '上海市宝山区密山路5号',
                '北京市昌平区北农路2号'])
pat = '(\w+市)(\w+区)(\w+路)(\d+号)'
city = {'上海市': 'Shanghai', '北京市': 'Beijing'}

district = {'昌平区': 'CP District',
            '黄浦区': 'HP District',
            '宝山区': 'BS District'}

road = {'方浜中路': 'Mid Fangbin Road',
        '密山路': 'Mishan Road',
        '北农路': 'Beinong Road'}

def my_func(m):
    str_city = city[m.group(1)]
    str_district = district[m.group(2)]
    str_road = road[m.group(3)]
    str_no = 'No. ' + m.group(4)[:-1]
    return ' '.join([str_city,
                     str_district,
                     str_road,
                     str_no])
s.str.replace(pat,my_func,regex=True)

0    Shanghai HP District Mid Fangbin Road No. 249
1           Shanghai BS District Mishan Road No. 5
2           Beijing CP District Beinong Road No. 2
dtype: object

In [72]:
s = pd.Series(['上海市黄浦区方浜中路249号',
               '上海市宝山区密山路5号',
               '北京市昌平区北农路2号'])

pat = '(\w+市)(\w+区)(\w+路)(\d+号)'

city = {'上海市': 'Shanghai', '北京市': 'Beijing'}
district = {'昌平区': 'CP District', '黄浦区': 'HP District', '宝山区': 'BS District'}
road = {'方浜中路': 'Mid Fangbin Road', '密山路': 'Mishan Road', '北农路': 'Beinong Road'}

# 将中文字符逐个替换成字典中的相应内容
s=s.str.replace(pat, lambda x: city[x.group(1)]+' '+district[x.group(2)]+' '+road[x.group(3)]+' '+x.group(4),regex=True)
s

0    Shanghai HP District Mid Fangbin Road 249号
1           Shanghai BS District Mishan Road 5号
2           Beijing CP District Beinong Road 2号
dtype: object

In [81]:
s = pd.Series(['上海市黄浦区方浜中路249号','上海市宝山区密山路5号','北京市昌平区北农路2号'])
pat = '(\w+ 市)(\w+ 区)(\w+ 路)(\d+ 号)'
city = {'上海市': 'Shanghai', '北京市': 'Beijing'}
district = {'昌平区': 'CP District',
'黄浦区': 'HP District',
'宝山区': 'BS District'}
road = {'方浜中路': 'Mid Fangbin Road',
        '密山路': 'Mishan Road',
        '北农路': 'Beinong Road'}
def my_func(m):
    str_city = city[m.group(1)]
    str_district = district[m.group(2)]
    str_road = road[m.group(3)]
    str_no = 'No. ' + m.group(4)[:-1]
    return ' '.join([str_city,
                str_district,
                str_road,
                str_no])

s.str.replace(pat, my_func,regex=True)

0    上海市黄浦区方浜中路249号
1       上海市宝山区密山路5号
2       北京市昌平区北农路2号
dtype: object

In [90]:
#提取extract
s = pd.Series(['上海市黄浦区方浜中路249号',
               '上海市宝山区密山路5号',
               '北京市昌平区北农路2号'])
# pat='(\w+市)(\w+区)(\w+路)(\d+号)'
pat = '(?P<市名>\w+市)(?P<区名>\w+区)(?P<路名>\w+路)(?P<编号>\d+号)?'
s.str.extract(pat)

Unnamed: 0,市名,区名,路名,编号
0,上海市,黄浦区,方浜中路,249号
1,上海市,宝山区,密山路,5号
2,北京市,昌平区,北农路,2号


常用字符串函数

In [88]:
#字母型函数
#upper, lower, title, capitalize, swapcase
s = pd.Series(['lower', 'CAPITALS', 'this is a sentence', 'SwApCaSe'])
s.str.upper()

0                 LOWER
1              CAPITALS
2    THIS IS A SENTENCE
3              SWAPCASE
dtype: object

In [89]:
s.str.title()
#以标题形式命名

0                 Lower
1              Capitals
2    This Is A Sentence
3              Swapcase
dtype: object

In [90]:
s.str.capitalize()
#首字母大写

0                 Lower
1              Capitals
2    This is a sentence
3              Swapcase
dtype: object

In [91]:
s.str.swapcase()
#大小写转换

0                 LOWER
1              capitals
2    THIS IS A SENTENCE
3              sWaPcAsE
dtype: object

In [92]:
#数值型函数
s = pd.Series(['1', '2.2', '2e', '??', '-2.1', '0'])
pd.to_numeric(s, errors='ignore')#保持原来字符串

0       1
1     2.2
2      2e
3      ??
4    -2.1
5       0
dtype: object

In [None]:
pd.to_numeric(s, errors='raise')#直接报错

In [96]:
pd.to_numeric(s, errors='coerce')#设为缺失值

0    1.0
1    2.2
2    NaN
3    NaN
4   -2.1
5    0.0
dtype: float64

In [98]:
#在数据清洗时，可以利用coerce 的设定，快速查看非数值型的行：
s[pd.to_numeric(s, errors='coerce').isna()]

2    2e
3    ??
dtype: object

In [None]:
#统计型函数
count 和len 的作用分别是返回出现正则模式的次数和字符串的长度：


In [3]:
s = pd.Series(['cat rat fat at', 'get feed sheet heat'])
s.str.split().str.len()
#计算单词个数

0    4
1    4
dtype: int64

In [4]:
s.str.len()
#计算字符串长度

0    14
1    19
dtype: int64

In [6]:
pat='[r|f]at|ee'
s.str.count(pat)
#[r|f]at|ee 可以匹配三种不同的模式，即以 'rat' 或 'fat' 开头的字符串，或者包含 'ee' 的字符串

0    2
1    2
dtype: int64

In [None]:
#格式型函数
#这些函数在数据清洗时是有用的，特别是列名含有非法空格的时候。
#第一种是除空型，strip, rstrip, lstrip
my_index = pd.Index([' col1', 'col2 ', ' col3 '])
my_index.str.strip().str.len()#去除两侧空格
my_index.str.rstrip().str.len()#去除右侧空格
my_index.str.lstrip().str.len()#去除左侧空格

In [3]:
import pandas as pd
my_index = pd.Index([' col1',' col2 ','col3 '])

In [4]:
my_index.str.strip()

Index(['col1', 'col2', 'col3'], dtype='object')

In [5]:
my_index.str.rstrip()

Index([' col1', ' col2', 'col3'], dtype='object')

In [6]:
my_index.str.lstrip()

Index(['col1', 'col2 ', 'col3 '], dtype='object')

In [110]:
#pad 是最灵活的，它可以选定字符串长度、填充的方向和填充内容
s = pd.Series(['A','B','C'])
s.str.pad(5,'left','*')
#s.str.rjust(5,'*')

0    ****A
1    ****B
2    ****C
dtype: object

In [111]:
s.str.pad(5,'right','*')
# s.str.ljust(5,'*')

0    A****
1    B****
2    C****
dtype: object

In [112]:
s.str.pad(5,'both','*')
# s.str.center(5,'*')

0    **A**
1    **B**
2    **C**
dtype: object

In [116]:
#数字前补0
s = pd.Series([7, 155, 303000]).astype('string')
#s.str.pad(6,'left','0')
#s.str.rjust(6,'0')
s.str.zfill(6)

0    000007
1    000155
2    303000
dtype: string

In [9]:
s = pd.Series([1222,3,563123]).astype('string')
s.str.zfill(6)

0    001222
1    000003
2    563123
dtype: string