# 技术分享

* [regui](https://jex.im/regulex/)
* [regexpal](https://www.regexpal.com/)

In [None]:
import re

# 正则表达式

## 1.1 边界问题

In [180]:
line = 'The colors of the rainbow have many colors, and the rainbow doonot  have a single colors.'

In [189]:
re.findall(r'\s\w{6}\s',line)

[' colors ', ' doonot ', ' single ']

In [None]:
### 1.1 "\b"

> 一句话总结：简单地说，实现正则表达式引擎的有两种方式：DFA 自动机（Deterministic Final Automata 确定型有穷自动机）和 NFA 自动机（Non deterministic Finite Automaton 不确定型有穷自动机

### 正则表达式的进阶用法
## 2.1 零宽断言
    * 断言：就正则可以指明在指定的内容的前面或后面会出现满足指定规则的内容,断言只是匹配位置,不占字符
    * 零宽：就是没有宽度,也就是说，匹配结果里是不会返回断言本身，而且还能继续下次匹配

In [None]:
string="<div>antzone"

In [None]:
parten = re.compile('^(?=<)<[^>]+>\w+')

In [None]:
re.search(parten,string).group()

In [176]:
string = 'asas323321'

In [177]:
re.sub('(?<=\d)(?=(\d{3})+(?!\d))', ',',string)

'asas323,321'

In [None]:
re.sub('(?=(\d{3}))', ',',string)

## 平衡组/递归匹配

In [191]:
posture = '( 100 * ( 50 + 15 ) )'

# 高效匹配

## fnmatch
> 使用 Unix Shell 中常用的通配符(比如 *.py , Dat[0-9]*.csv 等)去匹配文本字符串
------------------------
[`fnmatch`](https://link.jianshu.com/?t=https%3A%2F%2Fdocs.python.org%2F3.8%2Flibrary%2Ffnmatch.html%23module-fnmatch) — Unix **_filename_** pattern matching

| Pattern | Meaning |
| --- | --- |
| * | matches everything |
| ? | matches any single character |
| [seq] | matches any character in seq |
| [!seq] | matches any character not in seq |

如果要匹配文件名或目录名中的'*'或'?'，可使用'[*]'或'[?]'来匹配。此外，在该模块中，文件名分隔符 (Unix 中的'/') 和以'.'开头的文件名，二者都被当为普通字符正常处理，都可使用通配符'*'或'?'来匹配。


### 1.1 fnmatch.fnmatch(filename, pattern)

判断 filename 是否符合 pattern，返回 True 或 False。  
执行前会使用 os.path.normcase(path) 进行路径规范化处理，之后再比较。这里的 filename 并不必须是文件名或目录名，只要是字符串就可以与 pattern 比较。

> [`os.path.normcase(path)`](https://link.jianshu.com/?t=https%3A%2F%2Fdocs.python.org%2F3.8%2Flibrary%2Fos.path.html%23os.path.normcase)的作用是，对于 Unix 和 Mac 系统，不做任何操作返回 path。对于大小写敏感的系统 (如 Windows，Unix 和 Mac 中的对于路径名是大小写不敏感的)，其会将 path 全部转为小写。对于 Windows 系统，其还会将斜线'/'转为反斜线'\\'。


In [None]:
import fnmatch

In [None]:
fnmatch.fnmatch('foo.txt', '*.txt')

In [None]:
fnmatch.fnmatch('foo5.txt', '?oo[0-9].*')

In [None]:
names = ['Dat1.csv', 'Dat2.csv', 'config.ini', 'foo.py']

In [None]:
[name for name in names if fnmatch.fnmatch(name, 'Dat*.csv')]

In [None]:
import os
for file in os.listdir('.'):
    if fnmatch.fnmatch(file, 'G0[0-1]\d_?\d+.*'):
        print(file)

### 1.2 fnmatch.fnmatchcase(filename, pattern)

与 fnmatch.fnmatch() 大体相同，不过没有使用 os.path.normcase(path) 处理两个参数。所以不论系统类型，都进行的是大小写敏感匹配。

In [None]:
"""
在Mac/Linux下返回的是False，因为os.path.normcase(path)没有改变参数大小写。
而在Windonws下返回的是True，因为os.path.normcase(path)将参数都转为了小写。
"""

fnmatch.fnmatch('ASC', 'a*')

In [None]:
filenames = [
    'G0001.txt',
    'G0002.TXT',
    'G0003.TXT',
    'G0004.txt',
]
[filename for filename in filenames if fnmatch.fnmatchcase(filename, '*.TXT')]

### 1.3 fnmatch.filter(names, pattern)
names 为一字符串列表，其执行的操作类似,
但是效率更高。

In [None]:
fnmatch.filter(filenames, '*.TXT')

### 1.4 fnmatch.translate(pattern)
将 pattern 转为正则表达式的形式。


## glob

[`glob`](https://link.jianshu.com/?t=https%3A%2F%2Fdocs.python.org%2F3.8%2Flibrary%2Fglob.html%23module-glob) — Unix style **_pathname_** pattern expansion 


glob 用于找到所有符合 pattern 的路径名，用的也是 Unix shell 规则，并以任意顺序返回找到的文件、目录名。该模块使用 [`os.scandir()`](https://link.jianshu.com/?t=https%3A%2F%2Fdocs.python.org%2F3.8%2Flibrary%2Fos.html%23os.scandir)和 [`fnmatch.fnmatch()`](https://link.jianshu.com/?t=https%3A%2F%2Fdocs.python.org%2F3.8%2Flibrary%2Ffnmatch.html%23fnmatch.fnmatch)实现。  
与 [`fnmatch.fnmatch()`](https://link.jianshu.com/?t=https%3A%2F%2Fdocs.python.org%2F3.8%2Flibrary%2Ffnmatch.html%23fnmatch.fnmatch)不同，对于以'.'开头的文件名 (也就是隐藏文件)，glob 把其当为一种特殊情况，也就是使用 "\*" 时匹配不到，'.*'才可以匹配到。glob 支持的通配符与 fnmatch 相同，不过 glob 多支持一个" ** "通配符。

### 2.1 glob.glob(pathname, *, recursive=False)

返回符合 pathname 形式的文件、目录名列表。**_pathname_** 可以为绝对路径或相对路径形式，其中可以包括支持的通配符。  
如果 **_recursive_** 为 True，则通配符'**'会匹配子目录下的所有文件、目录、子目录，在大的目录树下是有会很费时间。如果 **_recursive_** 为 False，通配符'**'的功能和'*'的功能相同。

In [None]:
import glob

In [None]:
"""
匹配当前目录下所有的目录名和非隐藏文件名
Signature: glob.glob(pathname, *, recursive=False)
"""
# glob.glob('*')
# glob.glob('./**')
glob.glob('./local/**',recursive=True)  

### 2.2 glob.glob1(dirname, pattern)

In [None]:
"""
匹配指定目录下所有的目录名和非隐藏文件名
Signature: glob.glob1(dirname, pattern)
"""
glob.glob1('local','*')  

### 2.3 glob.escape(pathname)

将 pathname 中的通配符 ('?', '*' 和 '[') 转义。


In [None]:
glob.escape('./**.?.*.[a-z]')

## glom

> PYTHONIC 的方式来处理内嵌的数据

* 对于嵌套数据结构的基于路径式的访问
* 可读，有意义的错误消息
* 声明性数据转换，使用轻量级，Pythonic 规范
* 内置数据探索和调试功能

### 3.1 原始处理嵌套数据

In [129]:
data = {'a': {'b': {'c': 'd'}}}
# data2 = {'a': {'b': None}}

In [126]:
data['a']['b']['c']
# data.get('a').get('b').get('c')
# data.get('a', {}).get('b',{}).get('c')

'd'

### 3.2 使用glom

In [112]:
from glom import glom
# from itertools import chain

In [130]:
glom(data, 'a.b.c') 

'd'

### 3.2.1  Going Beyond Access

`Signature: glom(target, spec, **kwargs)`
* target 目标数据，可以是字典，列表，或其他任意的对象
* spec  我们想要的输出格式 【specifications】， 定义你自己所需要的格式

In [148]:
target = {'something':{'food':{'fruit': [{'name':'apple','count':100},{'name':'banana','count':50}]}}}

In [149]:
glom(target, ('something.food.fruit', ['name']))

['apple', 'banana']

那么现在新需求来了，我们想得到这个数据里面的名字和数量，并储存备用

In [153]:
spec = {'fruit': ('something.food.fruit', ['name']),
        'sum':('something.food.fruit', ['count'])}

glom(target,spec)

{'fruit': ['apple', 'banana'], 'sum': [100, 50]}

### 3.2.2 glom.Path(*path_parts)

In [154]:
from glom import glom, Path

target = {"a": {"b": 1, "c.d": 2, 2: 3}}    


In [155]:
print(glom(target, Path("a", "c.d")))
print(glom(target, Path("a", 2)))

2
3
