### 你需要以忽略大小写的方式搜索与替换文本字符串

In [4]:
import re
text = 'UPPER PYTHON, lower python, Mixed Python'
test=re.findall('python', text, flags=re.IGNORECASE)
print(test)

test1=re.sub('python', 'snake', text, flags=re.IGNORECASE)
print(test1)

def matchcase(word):
    def replace(m):
        text = m.group()
        if text.isupper():
            return word.upper()
        elif text.islower():
            return word.lower()
        elif text[0].isupper():
            return word.capitalize()
        else:
            return word
    return replace

test2=re.sub('python', matchcase('snake'), text, flags=re.IGNORECASE)
print(test2)

['PYTHON', 'python', 'Python']
UPPER snake, lower snake, Mixed snake
UPPER SNAKE, lower snake, Mixed Snake


### 你正在试着用正则表达式匹配某个文本模式，但是它找到的是模式的最长可能匹配。 而你想修改它变成查找最短的可能匹配

In [6]:
str_pat = re.compile(r'"(.*)"')
text1 = 'Computer says "no."'
print(str_pat.findall(text1))
text2 = 'Computer says "no." Phone says "yes."'
print(str_pat.findall(text2))
str_pat1 = re.compile(r'"(.*?)"')
print(str_pat1.findall(text2))

['no.']
['no." Phone says "yes.']
['no.', 'yes.']


### 你正在试着使用正则表达式去匹配一大块的文本，而你需要跨越多行去匹配
re.compile() 函数接受一个标志参数叫 re.DOTALL ，在这里非常有用。 它可以让正则表达式中的点(.)匹配包括换行符在内的任意字符

In [10]:
text1 = '/* this is a comment */'
text2 = '''/* this is a
 multiline comment */
'''

comment1 = re.compile(r'/\*(.*?)\*/')
print(comment1.findall(text1))
print(comment1.findall(text2))

comment = re.compile(r'/\*((?:.|\n)*?)\*/')
print(comment.findall(text2))

comment2 = re.compile(r'/\*(.*?)\*/', re.DOTALL)
print(comment2.findall(text2))

[' this is a comment ']
[]
[' this is a\n multiline comment ']
[' this is a\n multiline comment ']


### 你正在处理Unicode字符串，需要确保所有字符串在底层有相同的表示

In [14]:
s1 = 'Spicy Jalape\u00f1o'
s2 = 'Spicy Jalapen\u0303o'
print(s1+" "+"its length is "+ str(len(s1)))
print(s2+" "+"its length is "+ str(len(s2)))

import unicodedata
t1 = unicodedata.normalize('NFC', s1)
t2 = unicodedata.normalize('NFC', s2)
print(t1 == t2)

t1 = unicodedata.normalize('NFD', s1)
t3=''.join(c for c in t1 if not unicodedata.combining(c))
print(t3)

Spicy Jalapeño its length is 14
Spicy Jalapeño its length is 15
True
Spicy Jalapeno


### 你正在使用正则表达式处理文本，但是关注的是Unicode字符处理
混合使用Unicode和正则表达式通常会让你抓狂。 如果你真的打算这样做的话，最好考虑下安装第三方正则式库， 它们会为Unicode的大小写转换和其他大量有趣特性提供全面的支持，包括模糊匹配

In [15]:
import re
num = re.compile('\d+')
# ASCII digits
num.match('123')

arabic = re.compile('[\u0600-\u06ff\u0750-\u077f\u08a0-\u08ff]+')
pat = re.compile('stra\u00dfe', re.IGNORECASE)
s = 'straße'
pat.match(s.upper())
print(s.upper())

STRASSE


### 你想去掉文本字符串开头，结尾或者中间不想要的字符，比如空白
use case:


In [16]:
# Whitespace stripping
s = ' hello world \n'

print(s.strip())

print(s.lstrip())

print(s.rstrip())

# Character stripping
t = '-----hello====='
print(t.lstrip('-'))

print(t.strip('-='))

hello world
hello world 

 hello world
hello=====
hello
