# 字符串和文本处理

## 正则表达式剥夺组号分配

(?:exp) : A non-capturing version of regular parentheses. Matches whatever regular expression is inside the parentheses, but the substring matched by the group cannot be retrieved after performing a match or referenced later in the pattern.

匹配exp,不捕获匹配的文本，也不给此分组分配组号

In [1]:
import re

text2 = '''/*this is a
multiline comment*/
'''

re.findall(r'/\*((?:.|\n)*?)\*/',text2)



['this is a\nmultiline comment']

## strip()方法

In [2]:
s = ' hello world \n'

print(s.strip())

print(s.lstrip())

print(s.rstrip())

t = '-----hello====='

print(t.lstrip('-'))

print(t.strip('-='))

hello world
hello world 

 hello world
hello=====
hello


## format函数及方法

对于format()函数，不需要使用' : '来指定填充符，直接使用填充符、对齐、宽度、类型即可。

In [3]:
text = 'Hello World'
print(format(text, '>20s'))
print(format(text, '*^20s'))
print(format(text, '<20s'))

         Hello World
****Hello World*****
Hello World         


对于.format()方法来说，则需要在填充符前使用' : '，之后使用填充符、对齐、宽度、类型。

In [4]:
'{:*^30s}'.format('hello,world!')

'*********hello,world!*********'

In [5]:
'{:_^30f}'.format(3.14)

'___________3.140000___________'

## 字符串连接

对于简单字符串的拼接，只需要将其放在一起，而不必使用'+'号。

In [6]:
a = 'hello'    'world!'
b = 'hello,''world!''sunny!'
print(a)
print(b)

helloworld!
hello,world!sunny!


使用.join()方法可以对各种类型的数据序列进行连接。

In [7]:
a = ['1','2','3','4']                # 列表
b = ('1','2','3','4')                # 元组
c = {'1','2','3','4'}                # 集合
d = {'1':1,'2':2,'3':3,'4':4}        # 字典（只对键进行连接）
e = [i for i in '1234']              # 推导式
print(''.join(a))
print(''.join(b))
print(''.join(c))
print(''.join(d))
print(''.join(e))

1234
1234
1342
1234
1234


注意：当字符串数量很大时，不要用下面的方法进行连接：

```python
s = ''
for p in parts:
    s += p
```

因为每一次执行 += 操作，都会重新生成一个新的字符串对象，将会导致内存占用、垃圾回收操作。

__使用.join()方法速度更快。__

In [8]:
data = ['ACME', 50, 91.1]
','.join(str(d) for d in data)

'ACME,50,91.1'

在执行print()操作时，有如下技巧：

In [9]:
a = 'Is Chicago'
b = 'Not Chicago?'
c = 'No,it isn\'t'
print(a + ':' + b + ':' + c) # Ugly
print(':'.join([a, b, c])) # Still ugly
print(a, b, c, sep=':') # Better

Is Chicago:Not Chicago?:No,it isn't
Is Chicago:Not Chicago?:No,it isn't
Is Chicago:Not Chicago?:No,it isn't


如果准备编写构建大量小字符串的输出代码，考虑使用生成器函数，利用yield语句产生输出片段。提高程序效率。

In [10]:
def sample():
    yield 'Is'
    yield 'Chicago'
    yield 'Not'
    yield 'Chicago?'

print(' '.join(sample()))

Is Chicago Not Chicago?


## 字符串中插入变量

创建一个内嵌变量的字符串，变量被它的值所表示的字符串替换掉。

In [11]:
s = '{name:_^30s} has {n:_^30f} messages.'
s.format(name='Guido', n=37)

'____________Guido_____________ has __________37.000000___________ messages.'

如果要被替换的变量能在变量域中找到，那么可以结合使用 format_map() 和 vars() 。

In [12]:
name = 'Guido'
n = 37
s.format_map(vars())

'____________Guido_____________ has __________37.000000___________ messages.'

## 以指定列宽格式化字符串

使用```textwrap```模块:

In [13]:
s = "Look into my eyes, look into my eyes, the eyes, the eyes, \
the eyes, not around the eyes, don't look around the eyes, \
look into my eyes, you're under."

import textwrap
print(textwrap.fill(s, 70))
print('-----------------------------------------------------------------')
print(textwrap.fill(s, 40, initial_indent='    '))
print('-----------------------------------------------------------------')
print(textwrap.fill(s, 40, subsequent_indent='    '))

Look into my eyes, look into my eyes, the eyes, the eyes, the eyes,
not around the eyes, don't look around the eyes, look into my eyes,
you're under.
-----------------------------------------------------------------
    Look into my eyes, look into my
eyes, the eyes, the eyes, the eyes, not
around the eyes, don't look around the
eyes, look into my eyes, you're under.
-----------------------------------------------------------------
Look into my eyes, look into my eyes,
    the eyes, the eyes, the eyes, not
    around the eyes, don't look around
    the eyes, look into my eyes, you're
    under.


当希望使文本的输出匹配终端的大小时，可以使用os库得到终端的大小，然后是由textwrap的fill()函数进行文本格式化。

In [14]:
import os
os.get_terminal_size()

os.terminal_size(columns=120, lines=30)

## 文本字符串(string)和字节字符串(byte)

Python3中内置类型bytes和str的用法及<class 'byte'>和<class 'string'>之间的各种编码转换。

Python 3最重要的新特性大概要算是对文本和二进制数据作了更为清晰的区分。文本总是Unicode，由str类型表示，二进制数据则由bytes类型表示。Python 3不会以任意隐式的方式混用str和bytes，这使得两者的区分特别清晰。你不能拼接字符串和字节包，也无法在字节包里搜索字符串（反之亦然），也不能将字符串传入参数为字节包的函数（反之亦然）.

大多数情况下，在文本字符串上的操作均可用于字节字符串。但也有一些不同的地方。

In [15]:
b = b'Hello World'

print(b[0])        # 返回数字而不是字符

print(b.decode())

72
Hello World


也不存在任何适用于字节字符串的格式化操作

In [16]:
b'{} {} {}'.format(b'ACME', 100, 490.1)

AttributeError: 'bytes' object has no attribute 'format'

如果想格式化字节字符串，得先使用标准的文本字符串，然后将其编码为字节字符串。

In [17]:
'{:^10s} {:^10d} {:^10.2f}'.format('ACME', 100, 490.1).encode('ascii')

b'   ACME       100       490.10  '

在给os.listdir传递目录参数时，使用字节字符串，也能得到相应的字节子目录名。

In [18]:
import os 
os.listdir(b'D:/PythonWorkSpace/')

[b'Code_Wars',
 b'GitHub_Repository',
 b'GUI_Programing',
 b'Jupyter_Workspace',
 b'Others',
 b'Python_Docx',
 b'Stock_Analysis',
 b'Upgrade_All_Packages',
 b'VBA',
 b'\xe6\xa3\x80\xe6\xb5\x8b\xe6\x8a\xa5\xe5\x91\x8a\xe5\x8d\x8a\xe8\x87\xaa\xe5\x8a\xa8\xe5\x8c\x96\xe7\xa8\x8b\xe5\xba\x8fV0.1']