In [13]:
# pandas 从文本中提取数字（正则表达式）
# 需要从text特征中提取形如 13.5/10 这样的字符串，再分别提取分子分母。
# 1）可以利用 str.extract() 方法。
# 2）利用正则表达式 \d+.?\d/\d+* 进行匹配
# 3）再利用 .split() 方法提取分子分母

# 代码：

import pandas as pd 

test=pd.read_excel(r"D:\test1\text.xlsx")
test

Unnamed: 0,id,text
0,1,This is Bella. She hopes her smile made you sm...
1,2,"This is Logan, the Chow who lived. He solemnly..."
2,3,This is Sophie. She's a Jubilant Bush Pupper. ...
3,4,Here we have uncovered an entire battalion of ...


In [14]:
test.text.tolist()

['This is Bella. She hopes her smile made you smile. If not, she is also offering you her favorite monkey. 13.5/10 https://t.co/qjrljjt948',
 "This is Logan, the Chow who lived. He solemnly swears he's up to lots of good. H*ckin magical af 9.75/10 https://t.co/yBO5wuqaPS",
 "This is Sophie. She's a Jubilant Bush Pupper. Super h*ckin rare. Appears at random just to smile at the locals. 11.27/10 would smile back https://t.co/QFaUiIHxHq",
 'Here we have uncovered an entire battalion of holiday puppers. Average of 11.26/10 https://t.co/eNm2S6p9BD']

In [15]:
test['rating']=test['text'].str.extract(r'(\d+\.?\d*\/\d+)', expand=False)
test['rating_numerator'] = test.rating.apply(lambda x: eval(x.split('/')[0]))
# 提取分母
test['rating_denominator_fix'] = test.rating.apply(lambda x: eval(x.split('/')[1]))
# 删除中间量
# test.drop(['rating'], axis=1, inplace=True)

In [16]:
test

Unnamed: 0,id,text,rating,rating_numerator,rating_denominator_fix
0,1,This is Bella. She hopes her smile made you sm...,13.5/10,13.5,10
1,2,"This is Logan, the Chow who lived. He solemnly...",9.75/10,9.75,10
2,3,This is Sophie. She's a Jubilant Bush Pupper. ...,11.27/10,11.27,10
3,4,Here we have uncovered an entire battalion of ...,11.26/10,11.26,10


使用正则表达式，用法如下：

## 总结
## ^ 匹配字符串的开始。
## $ 匹配字符串的结尾。
## \b 匹配一个单词的边界。
## \d 匹配任意数字。
## \D 匹配任意非数字字符。
## x? 匹配一个可选的 x 字符 (换言之，它匹配 1 次或者 0 次 x 字符)。
## x* 匹配0次或者多次 x 字符。
## x+ 匹配1次或者多次 x 字符。
## x{n,m} 匹配 x 字符，至少 n 次，至多 m 次。
## (a|b|c) 要么匹配 a，要么匹配 b，要么匹配 c。
## (x) 一般情况下表示一个记忆组 (remembered group)。你可以利用 re.search 函数返回对象的 groups() 函数获取它的值。
## 正则表达式中的点号通常意味着 “匹配任意单字符”
解题思路：

2.1 既然是提取数字，那么数字的形式一般是：整数，小数，整数加小数；

2.2 所以一般是形如：----.-----；

2.3 根据上述正则表达式的含义，可写出如下的表达式："\d+\.?\d*"；

2.4 \d+匹配1次或者多次数字，注意这里不要写成*，因为即便是小数，小数点之前也得有一个数字；\.?这个是匹配小数点的，可能有，也可能没有；\d*这个是匹配小数点之后的数字的，所以是0个或者多个；

代码如下：



In [90]:

# -*- coding: cp936 -*-
import re

string="A1.45，b5，6.45，8.82,56.236"
print(re.findall(r"\d+\.?\d*",string))


['1.45', '5', '6.45', '8.82', '56.236']


0. python库函数

常用的正则表达式包是re，其中使用最多的几个函数为：

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

re.search 扫描整个字符串并返回第一个成功的匹配。

re.findall 在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

本文将使用其中的函数，简单封装成一个便于输出的接口调用

In [20]:
import re#python常用的正则表达式包
def get_res(regex,text):
    res=re.findall(regex,text)
    print('findall res:',res)
    res=re.search(regex,text)
    print('search res:',res)

In [34]:
text="Hello, my name is Van. Please visit my website at https://www.zhihu.com/people/le-yifan-35."
get_res(r'zhihu',text)

findall res: ['zhihu']
search res: <re.Match object; span=(62, 67), match='zhihu'>


In [44]:
text="sales1.xls\
orders3.xls\
sales2.xls\
sales3.xls\
apac1.xls\
europe2.xls"
get_res(r'sales.',text)

findall res: ['sales1', 'sales2', 'sales3']
search res: <re.Match object; span=(0, 6), match='sales1'>


In [45]:
text="sales1.xls\
orders3.xls\
sales2.xls\
sales3.xls\
apac1.xls\
europe2.xls\
na1.xls\
na2.xls\
sa1.xls\
ca1.xls"
get_res(r'[ns]a.\.xls',text)

findall res: ['na1.xls', 'na2.xls', 'sa1.xls']
search res: <re.Match object; span=(61, 68), match='na1.xls'>


In [46]:
text="The phrase “regular expression” is often abbreviated as RegEx or regex."
get_res(r'[Rr]eg[Ee]x',text)

findall res: ['RegEx', 'regex']
search res: <re.Match object; span=(56, 61), match='RegEx'>


In [91]:
text="The URL is http://www.forta.com/, to connect securely use https://www.forta.com/ instead."
get_res(r"https?://[\w./]+",text)

findall res: ['http://www.forta.com/', 'https://www.forta.com/']
search res: <re.Match object; span=(11, 32), match='http://www.forta.com/'>


In [95]:
import re

str = 'user<user@test.com>'
print(re.search('<(.+)>', str).group(1))

user@test.com


In [97]:
# coding: utf8
import re
string = 'user<user@test.com>'
print(re.findall(r'<([^>]+)', string))


['user@test.com']


In [104]:
# 既然只要双引号之间的内容，那就把只给双引号里面的分组。
p= re.compile(r"\(\"([^\"]*)\"\)")
p.findall('xxx("https://www.baidu.com/1.pngxxx")')
# p.findall('jh2kn as.12an sss g2gs.Abc("xxx")asdf;njkasahsda ng2gs.Abc("yyy")')

['https://www.baidu.com/1.pngxxx']

In [107]:
# python怎么用正则表达式提取出小括号里面的内容
# 比如从abc(hello)casdf提取出hello

import re
s = "abc(hello)casdf"
re.findall(r'[^()]+', s)[1]

'hello'

In [108]:
import re

s = "abc(hello)casdf"

m = re.match(".*\((.*)\).*", s)
print(m.group(1))

hello


In [109]:
import re
s = "abc(hello)casdf(world)"
re.findall(r"[(](.*?)[)]",s)

#['hello', 'world']

['hello', 'world']

In [117]:
import re

nums = []
allnums=[]
with open(r'F:\123\python-practise\Pyhon100Cases\1.txt', encoding='gbk') as f:
    for f1 in f:
        num = re.findall(r"\d+\d*", f1)
        nums.append(num)
print(nums)
for i in nums:
    for j in i:
        allnums.append(j)
print(allnums)

[['153', '2313'], ['512313'], ['123']]
['153', '2313', '512313', '123']


In [1]:
# 题主给定的输出是"齐天大圣孙悟空20160917六学家Zhang第1张.jpg"，包含了倒数第4个字符’.’，但是没有包含’2016.09.17’中的’.’。

# 这里我暂且假定正确的输出为：‘齐天大圣孙悟空20160917六学家Zhang第1张jpg’，即’.'作为字符，是需要去掉的。

# 采用正则表达式的方法对字符串进行处理。

str1 = "｛我%$是，《速$@.度\发》中 /国、人" 
str2 = "[齐天大圣/孙悟空] 2016.09.17 六学家Zhang ~ 第1张.jpg"

# 1）提取汉字
# 汉字的范围为”\u4e00-\u9fa5“，这个是用Unicode表示的
import re
res1 = ''.join(re.findall('[\u4e00-\u9fa5]',str1))
print(res1)

我是速度发中国人


In [2]:
# 2）去除所有符号。采用清理数据，仅保留字母、数字、中文的方法

res2 = re.sub("[^a-zA-Z0-9\u4e00-\u9fa5]", '', str2) 
print(res2)

齐天大圣孙悟空20160917六学家Zhang第1张jpg


In [4]:
import re
str1 = "｛我%$是，《速$@.度\发》中 /国、人"
str2 = "[齐天大圣/孙悟空] 2016.09.17 六学家Zhang ~ 第1张.jpg"
res = ''.join(re.findall('[\u4e00-\u9fa5]',str1))
print(res)
res2 = ''.join(re.findall('[\u4e00-\u9fa5]',str2))+ str2[-7:]
print(res2)


我是速度发中国人
齐天大圣孙悟空六学家第张第1张.jpg


In [5]:
# python 提取字符串中的中文字符
# 仅仅提取汉字字符
p1='帮会建了徽信群 没在群里的加下徽信:[30109552300]，晚上群里有活动通知大家，(抢资源)，争地盘，谢谢配合。i love you '
pre = re.compile(u'[\u4e00-\u9fa5]')
res = re.findall(pre, p1)
res1=''.join(res)
print(res1)

帮会建了徽信群没在群里的加下徽信晚上群里有活动通知大家抢资源争地盘谢谢配合


In [6]:
# 提取汉字和标点
p1='帮会建了徽信群 没在群里的加下徽信:[30109552300]，晚上群里有活动通知大家，(抢资源)，争地盘，谢谢配合。i love you '
pre = re.compile(u'[\u4e00-\u9fa5-\，\。]')
res = re.findall(pre, p1)
res1=''.join(res)
print(res1)

帮会建了徽信群没在群里的加下徽信，晚上群里有活动通知大家，抢资源，争地盘，谢谢配合。


In [7]:
#\d 匹配一个数字字符。等价于 [0-9]
#\D 匹配一个非数字字符。等价于 [^0-9]

#提取汉字
import re
string = "hello,world!!%[545]你好234asd完全额。。。"
str = re.sub("[A-Za-z0-9\!\%\[\]\,\。]", "", string)
print(str)

#从字符串中提取数字
totalCount = '100abcdef'
totalCount = re.sub("\D", "", totalCount) 
print(totalCount)

#提取字母字符串
import re
string = "hello,world!!%[545]爱迪生234世界。。。"
result = ''.join(re.findall(r'[A-Za-z]', string)) 
print(result)

你好完全额
100
helloworld


In [8]:
import re
text='今天是：11/28/2018'
print(re.sub(r'(\d+)/(\d+)/(\d+)',r'\3-\1-\2',text))
print(text)

今天是：2018-11-28
今天是：11/28/2018


In [9]:
# sub()的第一个参数是要匹配的模式，第二个参数是要替换的模式。类似的“3”这样的反斜线加数字表示模式中捕获组的编号。

# 如果打算用相同的模式执行重复替换，可以考虑先将模式编译以获得更好的性能。

# 实例：

import re
text='今天是：11/28/2018'
datepat=re.compile(r'(\d+)/(\d+)/(\d+)')
print(datepat.sub(r'\3-\1-\2',text))
print(text)

今天是：2018-11-28
今天是：11/28/2018


In [10]:
# 对于更加复杂的情况，可以指定一个替换回调函数。

# 示例：
import re
from calendar import month_abbr
text='今天是：11/28/2018'
datepat=re.compile(r'(\d+)/(\d+)/(\d+)')

def change_date(m):
  mon_name=month_abbr[int(m.group(1))]
  return '{} {} {}'.format(m.group(3),mon_name,m.group(2))
print(datepat.sub(change_date,text))
print(text)

今天是：2018 Nov 28
今天是：11/28/2018


In [11]:
address = '湖南省长沙市岳麓区麓山南路麓山门'

address1 = address.split('省')  # 用“省”字划分字符串，返回一个列表
address2 = address1[1].split('市')  # 用“市”字划分address1列表的第二个元素，返回一个列表

print(address1)  # 输出 ['湖南', '长沙市岳麓区麓山南路麓山门'] 
print(address2)  # 输出 ['长沙', '岳麓区麓山南路麓山门']

data = {  
    '省份': address1[0],
    '城市': address2[0]
}

print(data) # 输出 {'省份': '湖南', '城市': '长沙'}

['湖南', '长沙市岳麓区麓山南路麓山门']
['长沙', '岳麓区麓山南路麓山门']
{'省份': '湖南', '城市': '长沙'}


### python正则表达式替换字符串

In [17]:
# 1、[&]转为[&amp;](但是不能把[&nbsp;]转了);
# 2、把代码中的["=""]去掉;
# 3、把[svg]和[path]标签都改为[svg:svg]和[svg:path];
# 4、关闭[img]标签;
# 5、将url()中的["]转为[']

import re
str_url = 'test,&nbsp;url("http://www.baidu.com")&,dddddd "="" <svg></svg><path></path><img src="http://www.baidu.com">ininnnin<img src="http://www.dd.com">'
#2、把代码中的["=""]去掉;
#3、把[svg]和[path]标签都改为[svg:svg]和[svg:path];
str_url = str_url.replace('"=""','')
str_url = str_url.replace('svg','svg:svg')
str_url = str_url.replace('path', 'svg:path')

#1、[&]转为[&amp;](但是不能把[&nbsp;]转了);
url_re = re.compile('&(?!\w{4};)')
str_result = url_re.sub('&amp;', str_url)

#4、关闭[img]标签;
img_list = re.findall('<img.*?>',str_result)

for img_r in img_list:
    str_result = str_result.replace(img_r,img_r + '</img>')

#5、将url()中的["]转为[']
url_list = re.findall('url\(".*?"\)',str_result)
print(url_list)
for url_r in url_list:
    url_new = url_r.replace('"','\'')
    str_result = str_result.replace(url_r,url_new)
print(str_result)

['url("http://www.baidu.com")']
test,&nbsp;url('http://www.baidu.com')&amp;,dddddd  <svg:svg></svg:svg><svg:path></svg:path><img src="http://www.baidu.com"></img>ininnnin<img src="http://www.dd.com"></img>


In [None]:
# python从字符串中提取数字
# 使用正则表达式，用法如下：

## 总结
## ^ 匹配字符串的开始。
## $ 匹配字符串的结尾。
## \b 匹配一个单词的边界。
## \d 匹配任意数字。
## \D 匹配任意非数字字符。
## x? 匹配一个可选的 x 字符 (换言之，它匹配 1 次或者 0 次 x 字符)。
## x* 匹配0次或者多次 x 字符。
## x+ 匹配1次或者多次 x 字符。
## x{n,m} 匹配 x 字符，至少 n 次，至多 m 次。
## (a|b|c) 要么匹配 a，要么匹配 b，要么匹配 c。
## (x) 一般情况下表示一个记忆组 (remembered group)。你可以利用 re.search 函数返回对象的 groups() 函数获取它的值。
## 正则表达式中的点号通常意味着 “匹配任意单字符”


In [None]:
# 解题思路：

# 1.既然是提取数字，那么数字的形式一般是：整数，小数，整数加小数；

# 2.所以一般是形如：----.-----；

# 3.根据上述正则表达式的含义，可写出如下的表达式："\d+\.?\d*"；

# 4.\d+匹配1次或者多次数字，注意这里不要写成*，因为即便是小数，小数点之前也得有一个数字；

# \.?这个是匹配小数点的，可能有，也可能没有；\d*这个是匹配小数点之后的数字的，所以是0个或者多个；

# 代码如下：

In [None]:
import re

string="A1.45，b5，6.45，8.82"
print re.findall(r"\d+\.?\d*",string)

# ['1.45', '5', '6.45', '8.82']


In [24]:
# 匹配指定字符串开头的数字
# 例如下面的string：

string='tensorflow:Final best valid 0 loss=0.20478513836860657 norm_loss=0.767241849151384c=0.8262403011322021 pr=0.39401692152023315 calibration=0.9863265752792358 rate=0.0'

# 提取 calibration=0.9863265752792358 .

In [25]:
# 匹配“calibration=”后面的数字
pattern = re.compile(r'(?<=calibration=)\d+\.?\d*')
pattern.findall(string)

# ['0.9863265752792358']


['0.9863265752792358']

In [26]:
# 匹配包含指定字符串开头的数字
pattern = re.compile(r'(?:loss=)\d+\.?\d*')
pattern.findall(string)

# ['loss=0.20478513836860657', 'loss=0.767241849151384']

['loss=0.20478513836860657', 'loss=0.767241849151384']

In [27]:
# 匹配时间，17:35:24
string = "WARNING:tensorflow: 20181011 15:28:39 Initialize training"
pattern = re.compile(r'\d{2}:\d{2}:\d{2}')
pattern.findall(string)

# ['15:28:39']


['15:28:39']

In [28]:
# 匹配时间，20181011 15:28:39
string = "WARNING:tensorflow: 20181011 15:28:39 Initialize training"
pattern = re.compile(r'\d{4}\d{2}\d{2}\s\d{2}:\d{2}:\d{2}')
pattern.findall(string)

# ['20181011 15:28:39']

['20181011 15:28:39']

In [40]:
# 综合修改版本

import re

nums = []
allnums=[]
with open(r"F:\p\12.txt", encoding='gbk') as f,open(r'F:p\122.txt','w+') as f2:
    for f1 in f:
        res2 = ''.join(re.findall('[\u4e00-\u9fa5]',f1))+ f1[-8:] # 因txt文件每一行的最后有一个换行符（\n），所以又多加一个数字即-8
#         num = re.findall(r"\d+\d*", f1)
        nums.append(res2 )
        f2.write(res2)
        
# print(nums)
# for i in nums:
#     allnums.append(i)
# print(allnums)



##  字符串的基本操

In [6]:
##反转操作有两种方式
s='python'
r=''.join(reversed(s))
r1=s[::-1]
r1

'nohtyp'

In [7]:
# 字符串的切片操作   
# 在指定的索引处生成字符串
# FizzBuzz是一个简单的小游戏。游戏规则如下：从1开始往上数数，
# 当遇到3的倍数的时候，说fizz，当遇到5的倍数，说buzz，当遇到15的倍数，就说fizzbuzz，其他情况下则正常数数。

java, python = 'fizz', 'buzz'

jl, pl = len(java), len(python)

[str(java[i%3*jl:]+python[i%5*pl:] or i) for i in range(1, 20)]    # 这个写法牛逼

['1',
 '2',
 'fizz',
 '4',
 'buzz',
 'fizz',
 '7',
 '8',
 'fizz',
 'buzz',
 '11',
 'fizz',
 '13',
 '14',
 'fizzbuzz',
 '16',
 '17',
 'fizz',
 '19']

In [8]:
# 字符串的串联与分割， join和split可以看做一对互逆操作。
mystr=['I','love','python']
res='_'.join(mystr)
res

'I_love_python'

In [9]:
rs=res.split('_')
rs

['I', 'love', 'python']

In [10]:
s='i love python'.replace('o','O')
s

'i lOve pythOn'

In [4]:
import re

s='一共20行代码运行时间13.59s'

pat=r'\d+\.?\d+'

r=re.findall(pat,s)
r

['13.59']

In [6]:
import re

s='一共2行代码运行09时间13.59s'

pat=r'\d+\.?\d*'

r=re.findall(pat,s)
r

['2', '09', '13.59']

In [7]:
s = [-16, 1.5, 11.43, 10, 5]
pat = r'^[1-9]\d*$'
[i for i in s if re.match(pat, str(i))]   # [10, 5]

[10, 5]

In [8]:
s = 'id\tname\taddress'

# 根据字符串\t分割
s.split('\t')      # ['id', 'name', 'address']


['id', 'name', 'address']

In [13]:
content='hello    1234,hello    1234'
pat=re.compile(r'[\d+\s+]')
m=pat.sub('',content)
m

'hello,hello'

In [16]:
from functools import reduce

l1 = [str(i) for i in range(10)]
l2 = [x for x in range(10)]
DIGITS = {key: value for key, value in zip(l1, l2)}

def char2num(s):
    return DIGITS[s]

def str2int(s):
    return reduce(lambda x,y:x*10+y, map(char2num, s))

str2int("12345")     # 12345



def str2float(s):
    i = s.find('.')
    L1 = reduce(lambda x, y: x*10+y, map(char2num, s[:i]))
    L2 = reduce(lambda x, y: x/10+y, map(char2num, s[:i:-1])) / 10
    return L1 + L2

str2float('123.456')

def str2float1(s):
    return eval(s)

str2float1('123.456')


123.456