# 正则表达式详解
[参考](https://www.runoob.com/python/python-reg-expressions.html)

In [20]:
import re

## match 全匹配
从字符串的[起始位置]匹配一个模式，失败返回none

In [26]:
match_obj = re.match(r"(\w+)(\d+)\.(\w+)", 'cat1.png')
for i in range(4):
    print(match_obj.group(i))

cat1.png
cat
1
png


## search 查找
扫描整个字符串并返回第一个成功的匹配

In [29]:
res = re.search(r"\d+", 'cat1.png')
print(res.group(0))

1


## sub 替换

In [31]:
# 删除字符串中的 Python注释
phone = "2004-959-559 # 这是一个国外电话号码"
num = re.sub(r'#.*$', "哈哈", phone)
print(num)

2004-959-559 哈哈


In [32]:
# 将匹配的数字乘以 2
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)

s = 'A23G4HFD567'
print(re.sub('(?P<value>\d+)', double, s))

A46G8HFD1134


## compile
编译正则表达式，生成一个正则表达式(Pattern)）对象，供 match() 和 search() 这两个函数使用

In [35]:
pattern = re.compile(r'\d+')                    # 用于匹配至少一个数字
m = pattern.match('one12twothree34four', 3) # 从'1'的位置开始匹配，正好匹配
m.group(), m.span(), m.start(), m.end()

('12', (3, 5), 3, 5)

## findall
在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果有多个匹配模式，则返回元组列表，如果没有找到匹配的，则返回空列表。
注意： match 和 search 是匹配一次 findall 匹配所有。

In [36]:
pattern = re.compile(r'\d+')   # 查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)
result1, result2

(['123', '456'], ['88', '12'])

## finditer
和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

In [37]:
it = re.finditer(r"\d+","12a32bc43jf3")
for match in it:
    print (match.group() )

12
32
43
3


## split
split 方法按照能够匹配的子串将字符串分割后返回列表

In [43]:
re.split('\W+',' runoob,1  runoob.', 1)

['', 'runoob,1  runoob.']

# 将文件 xxx1.png 改为 xxx001.png
glob.glob读取文件顺序为1 10 100 2这种，显然不正常

In [4]:
import os
import re

def change_name(path, max_length, num_start=True):
    files = os.listdir(path)
    for filename in files:
        oldname = path + "/" + filename
        # 匹配文件名
        if num_start:  # 以数字开头
            res = re.match(r"(\d+)(\w+)", filename)
            prefix = ""
            num = res.group(1)
            suffix = res.group(2)  # 带.
        else:  # 以字符串开头
            res = re.match(r"(\D+)(\d+)(\D+)", filename)
            prefix = res.group(1)
            num = res.group(2)
            suffix = res.group(3)
        # 修改数字1为001
        num = "0"*(max_length-len(num)) + num
        newname = path + "/" + prefix + num + suffix
        # print(newname)
        os.rename(oldname, newname)

if __name__ == '__main__':
    base_path = "../data/Oxford-IIIT Pets Dataset/annotations/xmls"
    max_length = 3  # 序号的最大长度，如3表示999
    change_name(base_path, max_length, num_start=False)

# 图片任意位置切割
可用transforms代替

In [None]:
from PIL import Image
import os
import random

def solve(src, dest):
    """
    首先读取文件夹里的所有图片，然后对这些图片进行任意位置的切割，切割尺寸是128*128，最后把切割好的图片保存在另一个文件夹里。
    :param src: 源文件夹
    :param dest: 目标文件夹
    :return: None
    """
    # 读取文件列表
    files = os.listdir(src)
    for filename in files:
        path = src + "/" + filename
        if not os.path.isdir(path):
            img = Image.open(path)
            # 进行任意位置切割128*128的矩形
            (width, high) = img.size
            left = random.randrange(width - 128)
            top = random.randrange(high - 128)
            box = (left, top, left + 128, top + 128)
            region = img.crop(box)
            # 保存文件
            region.save(dest + "/" + filename)


if __name__ == '__main__':
    src = "D:/图片/A-Z"
    dest = "D:/下载"
    solve(src, dest)