In [1]:
import re
import pandas as pd

In [2]:
# re.findall(pattern,string,flags)

result = re.findall('工号是(.*?)，','我的名字是张三，工号是110110，职业是法外狂徒；他的名字是李四，工号是120120，职业是医生')
result

['110110', '120120']

In [3]:
# re.search(pattern,string,flags)

result = re.search('工号是(.*?)，','我的名字是张三，工号是110110，职业是法外狂徒；他的名字是李四，工号是120120，职业是医生').group(1)
result

'110110'

In [4]:
# re.sub(pattern,replace,string,count) / re.subn(pattern,replace,string,count)

result1 = re.sub('\d+','119119','我的名字是张三，工号是110110，职业是法外狂徒；他的名字是李四，工号是120120，职业是医生')

result2 = re.subn('\d+','119119','我的名字是张三，工号是110110，职业是法外狂徒；他的名字是李四，工号是120120，职业是医生',1)

print(result1)
print(result2[0])

我的名字是张三，工号是119119，职业是法外狂徒；他的名字是李四，工号是119119，职业是医生
我的名字是张三，工号是119119，职业是法外狂徒；他的名字是李四，工号是120120，职业是医生


In [5]:
# re.finditer(pattern,string,flags)

for item in re.finditer('\d+','我的名字是张三，工号是110110，职业是法外狂徒；他的名字是李四，工号是120120，职业是医生'):
    print(item.group())

110110
120120


In [6]:
# re.split(pattern,string,maxsplit)

result1 = re.split('\d+','我的名字是张三，工号是110110，职业是法外狂徒；他的名字是李四，工号是120120，职业是医生')

result2 = re.split('\d+','我的名字是张三，工号是110110，职业是法外狂徒；他的名字是李四，工号是120120，职业是医生',maxsplit=1)

print(result1)
print(result2)

['我的名字是张三，工号是', '，职业是法外狂徒；他的名字是李四，工号是', '，职业是医生']
['我的名字是张三，工号是', '，职业是法外狂徒；他的名字是李四，工号是120120，职业是医生']


In [7]:
# 构造数据

df = pd.DataFrame(data=['纤美(CICI)','江中猴姑','PENTAL SOFTLY','25°', '卡士(CLASSY·KISS)'], 
                  columns=['品牌全名'])
df

Unnamed: 0,品牌全名
0,纤美(CICI)
1,江中猴姑
2,PENTAL SOFTLY
3,25°
4,卡士(CLASSY·KISS)


In [8]:
# 自定义函数

def chinese_name(x):
    result = re.findall('[一-龟]',x)
    return ''.join(result)

df['中文品牌名_自定义函数'] = df['品牌全名'].apply(chinese_name)
df

Unnamed: 0,品牌全名,中文品牌名_自定义函数
0,纤美(CICI),纤美
1,江中猴姑,江中猴姑
2,PENTAL SOFTLY,
3,25°,
4,卡士(CLASSY·KISS),卡士


In [9]:
# Series.str.findall(pattern, flags)

df['中文品牌名_findall'] = df['品牌全名'].str.findall('[一-龟]').apply(lambda x:''.join(x))
df

Unnamed: 0,品牌全名,中文品牌名_自定义函数,中文品牌名_findall
0,纤美(CICI),纤美,纤美
1,江中猴姑,江中猴姑,江中猴姑
2,PENTAL SOFTLY,,
3,25°,,
4,卡士(CLASSY·KISS),卡士,卡士


In [10]:
# Series.str.contains(pattern,regex=True,flags)

df['英文品牌名_contains'] = df['品牌全名'].str.contains('[a-zA-Z]',regex=True)
df

Unnamed: 0,品牌全名,中文品牌名_自定义函数,中文品牌名_findall,英文品牌名_contains
0,纤美(CICI),纤美,纤美,True
1,江中猴姑,江中猴姑,江中猴姑,False
2,PENTAL SOFTLY,,,True
3,25°,,,False
4,卡士(CLASSY·KISS),卡士,卡士,True


In [11]:
# Series.str.match(pattern, flags).str[0]

df['英文品牌名_match'] = df['品牌全名'].str.match('[a-zA-Z]')
df

Unnamed: 0,品牌全名,中文品牌名_自定义函数,中文品牌名_findall,英文品牌名_contains,英文品牌名_match
0,纤美(CICI),纤美,纤美,True,False
1,江中猴姑,江中猴姑,江中猴姑,False,False
2,PENTAL SOFTLY,,,True,True
3,25°,,,False,False
4,卡士(CLASSY·KISS),卡士,卡士,True,False


In [12]:
# Series.str.replace(pattern,replace)

df['品牌名_replace'] = df['品牌全名'].str.replace('[0-9]','XX')
df

  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,品牌全名,中文品牌名_自定义函数,中文品牌名_findall,英文品牌名_contains,英文品牌名_match,品牌名_replace
0,纤美(CICI),纤美,纤美,True,False,纤美(CICI)
1,江中猴姑,江中猴姑,江中猴姑,False,False,江中猴姑
2,PENTAL SOFTLY,,,True,True,PENTAL SOFTLY
3,25°,,,False,False,XXXX°
4,卡士(CLASSY·KISS),卡士,卡士,True,False,卡士(CLASSY·KISS)


In [13]:
# Series.str.extract(pattern, flags,expand) / Series.str.extractall(pattern, flags)

df['品牌名_extract'] = df['品牌全名'].str.extract(r'([a-zA-Z].*)',expand=True)
df['品牌名_extract'] = df['品牌名_extract'].str.replace('\)','')
df

  after removing the cwd from sys.path.


Unnamed: 0,品牌全名,中文品牌名_自定义函数,中文品牌名_findall,英文品牌名_contains,英文品牌名_match,品牌名_replace,品牌名_extract
0,纤美(CICI),纤美,纤美,True,False,纤美(CICI),CICI
1,江中猴姑,江中猴姑,江中猴姑,False,False,江中猴姑,
2,PENTAL SOFTLY,,,True,True,PENTAL SOFTLY,PENTAL SOFTLY
3,25°,,,False,False,XXXX°,
4,卡士(CLASSY·KISS),卡士,卡士,True,False,卡士(CLASSY·KISS),CLASSY·KISS


In [14]:
# 回溯引用

list_temp = []
for item in re.finditer(r'(?<=<h([1-6])>).*?(?=</h\1>)','<h1>一级标题</h1><h2>二级标题</h2><h3>这里是错误</h4>'):
    list_temp.append(item.group())

list_temp

['一级标题', '二级标题']