# python中常用的字符串处理方法

## 字符串的切片和相乘

### 切片

str[start:end:step]

第一个字符下标为0,即从左到右，从0开始
最后一个字符下标为-1,即从右到左，是从-1开始

[:end] 省略start,默认start从0开始

[start:] 省略end,默认字符串结尾

[start:end] 从start到end

[start:end:step] 加了step，如果不加默认step=1，step若为负数，表示从右往左倒序以step大小输出,如step=-1即翻转字符串

[:] 省略start和end以及step，即为整个字符串

In [6]:
a = 'string'

print(a[:2])

print(a[3:])

print(a[1:4])

# 相当于perl中的reverse函数
print(a[::-1])

print(a[:])


st
ing
tri
gnirts
string


### 相乘

使用\*可以重复输入某个字符串多少次数

In [8]:
print('ab'*10)

abababababababababab


## 字符串的分割

### 普通的分割

用str.split()方法，但是split只能做非常简单的分割，不支持多个分隔符及正则表达式

In [13]:
phone='400-800-800-1234' 

print(phone.split('-'))

['400', '800-800-1234']


### 复杂的分割

使用re模块中的re.split使用正则表达式进行分割，支持多个分隔符

In [27]:
import re 

line='hello world; python, I ,like, it' 

# 按多个分隔符分割
print(re.split(r'[;,]\s*',line))

# 同样正则表达式也可以使用捕获，默认保留分割符

print(re.split(r'(and)|(or)','you and me or he'))

# 使用非捕获模式，去除分隔符
print(re.split(r'(?:and)|(?:or)','you and me or he'))

['hello world', 'python', 'I ', 'like', 'it']
['you ', 'and', None, ' me ', None, 'or', ' he']
['you ', ' me ', ' he']


## 字符串的连接和合并

### 连接 

使用'+'将两字符串进行连接,若希望将其他类型的数据连接首先需要用str()进行强制转换为str class

注: str()能转换任何类型的数据，包括数字、字典、元组、列表等

In [31]:
a = 'string'

print(a+str(2))

b = [1,2,3]

print(a+str(b))

c = (1,2,3)
print(a+str(c))

string2
string[1, 2, 3]
string(1, 2, 3)


### 合并

使用join()方法，将可迭代数据使用某个分隔符连接成字符串

特例，join只针对str类型，若想将数值型可迭代数据进行合并，则需要用map()函数将每一个元素转为str

In [38]:
s = ['a','b','c']
print('-'.join(s))

# 非str，需要进行转换
b = (1,2,3)
b = list(map(str,b))
print(b)
print('-'.join(b))

a-b-c
['1', '2', '3']
1-2-3


## 判断字符串是否以指定开头、结尾

startswith()

endswith()

返回True/False

In [40]:
filename = 'first.py'

print(filename.endswith('py'))

print(filename.startswith('fi'))

True
True


## 字符串的查找和匹配

### 一般查找

利用find()方法可以很方便的在长字符串中查找子字符串，会返回字符串所在位置的起始索引

若找不到，则返回-1

In [41]:
str1 = 'this is a test'
str2 = 'test'

print(str1.find(str2))

10


### 复杂的匹配

需要用到正则表达式

In [43]:
a = 'AATATGATT'
print(re.findall(r'\w{3}',a))

['AAT', 'ATG', 'ATT']


In [3]:
# 排列组合
def fun(s=''):
    if len(s) <=1:
        return [s]
    li = []
    for i in range(len(s)):
        for j in fun(s[0:i]+s[i+1:]):
            li.append(s[i]+j)
    return li

a = 'abc'

fun(s=a)

['abc', 'acb', 'bac', 'bca', 'cab', 'cba']

In [4]:
mydate='11/27/2016' 

if re.match(r'\d+/\d+/\d+',mydate): 
    print('ok.match') 
else: 
    print('not match')



ok.match


## 统计字符串中某个字符出现的次数

使用re.count()方法

In [6]:
a = 'abdcdssaa'

print(a.count('a'))

# 还提供两个参数，定义计数的范围

print(a.count('a',0,2))

3
1


## 字符串的替换

### 普通的替换

使用str.replace()方法

In [7]:
a = 'i love perl'

print(a.replace('perl','python'))

i love python


### 复杂的替换

使用re模块的re.sub()

In [8]:
a = 'boy 100,girl 105'

print(re.sub(r'\d+','100',a))

boy 100,girl 100


## 去掉字符串中一些特定的字符

### 去空格

使用str.strip()、str.lstrip()、str.rstrip()可以去除字符串首/尾特定的字符(包括特殊的字符，如'\n'等)

In [17]:
a = ' python '
print(a)

# 去首尾空格
print(a.strip())

# 去左侧空格
print(a.lstrip())

# 去右侧空格
print(a.rstrip())

# 去右侧换行符
b = 'hello world\n'
print(b.rstrip('\n'),'a')

 python 
python
python 
 python
hello world a


### 字符映射转换

实现类似perl中的tr///

- 先使用str.maketrans()制作字符映射转换对象

- 然后利用str.translate()结合字符映射转换对象进行映射转换

In [11]:
a = 'atcg'

trans = str.maketrans('atcg','tagc') #类似于perl中的tr/atcg/tagc/
print(trans)

print(a.translate(trans))

{97: 116, 116: 97, 99: 103, 103: 99}
tagc
