使用正则表达式做字符串模式验证。如：银行只允许对信用卡使用6位数字做密码，若使用含有非数字或超过或不足6位数字做密码，则显示密码无效。

In [None]:
import re
pwd=input('请输入密码(6位数字）：')
result = re.match("^\d{6}$",pwd)
print('密码无效！') if result==None else print('密码合法！')

In [None]:
import re
s='''
Select the exam:
(A)GRE  (B)TOEFL (C) IELTS (D)PETS
'''
re.findall('\s?\([A-D]\)\s*(\w*)\s?',s)

In [None]:
import re
s='''
Select the exam:
(A)GRE  (B)TOEFL (C) IELTS (D)PETS
'''
re.split('\s?\([A-D]\)\s*',s)[1:]

从字符串中提取特定的信息。如：从某地区天气预报信息中查找降水量数据。
解题思路：首先，确定查找降水量的正则表达式'\d+～\d+毫米'；然后，使用re模块处理表达式，即可实现特定字符串的查找。

In [None]:
import re
s='预计，7月22日08时至23日08时，陕西南部、河南中东部、山东中南部、安徽北部、江苏北部、湖北西部、重庆北部等地部分地区有大到暴雨（60～90毫米），' \
  '其中，山东中部等地局地有大暴雨（100～140毫米）。'
p=re.compile(r'\d+～\d+毫米')
print(f'{p.search(s)=}')
print(f'{p.findall(s)}')
for i in p.finditer(s):
    print('\t',i)

演示使用正则表达实现分割字符串。如：同时使用空格、冒号、逗号、顿号正则表达式字符串（('[\s:,、]'），来分割字符串。

In [None]:
content='''原始数据 来源:单位,公交集团,数据描述:线路名称、方向、站点序号、站点名称'''
import re
p=re.compile('[\s:,、]')
d=p.split(content)
print(d,len(d))

有一个字符串内容为小明的各门课考试成绩，总分部分有待填充。
已知：字符串'小明的考试成绩，语文：65.5 数学：72 英语：83.5 总分：{}'。
请使用正则表达式求出小明的总分，并填写总分。
解决此问题，需要2个正则表达式，一个是提取各门课成绩，另一个是提取总分的占位符“{}”，然后用数据替换总分的“{}”占位符。

In [None]:
content='小明的考试成绩，语文：65.5 数学：72 英语：83.5 总分：{}'
import re
p=re.compile(r'\d+\.?\d')
marks=map(float,p.findall(content))
total=sum(marks)
pp=re.compile(r'\{\}')
pp.sub(str(total),content)


标志位的使用例子如下，比如查找一个字符，可以选择忽略大小写匹配。

In [None]:
import re
result = re.findall("c","ICCC")
print(result)

In [None]:
import re
result = re.findall("c","ICCC",re.I)
print(result)


区分与不区分Unicode案例：

In [None]:
import re
#匹配任意字符含Unicode字符
target_str = "中国 China 世界 are friends"
# 不使用re.A or re.ASCII
result = re.findall(r"\b\w{2,}\b", target_str)
print(result)
# 只匹配 re.A or re.ASCII
result = re.findall(r"\b\w{2,}\b", target_str, re.A)
print(result)

演示正则表达式Match对象对检索结果的处理。

In [None]:
import re
string = "Shnu is guilin road.100, and postcode is 200234"
p=re.compile(r"(\d+).+ (\d+)")
match = p.search( string)
print(match.expand(r"shnu 在桂林路: \1 and 邮编 : \2"))

在正则表达式后面加上“？”作用是减少贪婪搜索。

In [None]:
import re
re.findall('a{2,3}','a aa aaa aaaa')

In [None]:
import re
re.findall('a{2,3}?','a aa aaa aaaa')

过滤字符串中的标点符号。

In [None]:
import re
s = "str中333_国。人们、\ing，、. With. Pun～ctuation?"
# 如果空白符也需要过滤，使用 r'[^\w]'
s = re.sub(r'[^\w\s]','',s)
print(s)

使用Pattern对象，需要先对正则表达式编译，然后使用编译得到的对象去进一步完成字符串的匹配、查找、分割、替换等操作。如：

In [None]:
import re
string = "Shnu is guilin road.100, and postcode is 200234"
p=re.compile(r"(\d+).+ (\d+)")
match = p.search( string)
print(match.expand(r"shnu 在桂林路: \1 and 邮编 : \2"))

而使用re模块的函数，则无需编译正则表达，直接把上述2个步骤合二为一，按照函数参数形式，把正则表达以及相关参数传给函数即可。如：上述代码可以改写为：

In [None]:
import re
string = "Shnu is guilin road.100, and postcode is 200234"
match = re.search(r"(\d+).+ (\d+)", string)
print(match.expand(r"shnu 在桂林路: \1 and 邮编 : \2"))

Re相关函数完成如下操作。已知：字符串'小明的考试成绩，语文：65.5 数学：72 英语：83.5 总分：{}'，“总分”部分有待填充。请使用正则表达式，求出小明的总分，并填写上总分。
解决此问题，需要2个正则表达式，一个是'\d+\.?\d'用以提取各门课成绩，另一个是'\{\}'用以提取总分填写的位置{}。


In [None]:
content='小明的考试成绩，语文：65.5 数学：72 英语：83.5 总分：{}'
import re
marks=map(float,re.findall(r'\d+\.?\d',content))
total=sum(marks)
re.sub(r'\{\}',str(total),content)

从复杂文本中提取特定信息。以下是某小区微信群接龙投票信息，请使用正则表达式提取“投票序号”、“业主房号”、“投票”信息。信息如下（由于信息较长，只显示少了数据）：

In [None]:
votes= '''
#接龙
投票接龙
1. 房号+姓名+反对/赞成/弃权
2. 100 神仆  赞成
3. 184朱良 赞成
4. 118号 反对
5. 97号 弃权
6. 62号(不能退钱就赞成，可以退钱就算了，不想烦)
7. 174号 赞成
8. 86-海鱼 反对（1来历尴尬；2过于破旧，维修维护成本未知，建议及时止损。如果无法退款，已花的费用众筹算我一份）
9. 223 九凤 赞同
10. 126一郑桂华 赞同
11. 247   大卫林  赞同
12. 128号孙伟 弃权（照顾个别业主，可以放到不显眼处）
13. 禾亮188 赞同
14. 168茅 赞同
15. 229   亚梅   赞同
16. 109－21赞同
17. 233林 赞同 （为了照顾少数人位置重新协商）
18. 129号 赞同
19. 136号 赞成
20. Xing 31号 赞同 希望小区越来越好，支持所有正能量的行为！
21. 120号 赞成（位置为照顾个别人想法，可以协商）
22. 42号ringing 反对，和小区建筑风格不符
23. 245号 赞成
24. 83小宝 反对
25. 3号 反对
26. 242 赞成、英雄不问出处，正能压邪！
27. 瑞华1号 赞成
28. 108-301 赞同
29. 227赞成
30. 224严，赞同！墓区边的房子都买了，还怕这个！就算从风水讲，墓区的东西面还是好风水。原先比当今小区还要乱的时候，就有热心的业主捐了五六块镜子，放在转角处，改善小区道路行车安全，经过几届业委会和全体正常交物业管理费业主的共同努力，小区面貌已有较大的改善，愿意为小区建设奉献的行为理应得到鼓励和支持！
31. 青青翠竹 赞同
32. 青青翠竹 赞同88号   南赞同
33. 南88 赞同
34. 78-安妮 弃权（既然已经来了后续协商更新外观或者位置就行）
35. 139-常 赞同
36. 143徐  赞同
37. 157号 赞同
38. 19-rongying 反对，和小区风格不搭
39. 106- 赞同 喜欢马车 无论来自哪里都喜欢
40. 62号叶师傅 赞同
41. 241～赵永 弃权（出发点是好的，但随意性强，没有遵循小区基本的议事规则，没有事先征询大多数业主意见。）
42. 127-凌耀初 赞同！（由于马儿和马车锈烂严重，希望好好修补。另，来历也确实是有点尴尬，建议修复时颜色重新考虑）。通过这件事情如能形成小区的议事规则，如能形成网络投票的新机制，那将大大提高业主大会和业委会的决策效率，那是一件大好事！我们小区急需做的大事还有不少～
43. 108-402陈 弃权（不论结果怎么样，至少体现了办事透明度和业主参与度，是好事。）
44. 110-401可可 赞成（本来就是业委会牵头做的事情，也是为了改善小区环境，如果每样小事都需要全体业主投票，业主们就太累了）
45. 72号 赞同
46. 76号 赞同
47. 华爷140 弃权
48. 74号陆 赞同
49. 185-麻辣面 弃权
50. 202号王焱 赞成
51. 61-芊茉 赞同
52. 151田 赞同
53. 21-夏 赞同
54. 117 赞同
55. 9号 弃权  虽然参加了众筹，但是的确不知道还有那么多邻居没有进新群，不知道众筹这个事；虽然初心是为了美丽家园做出贡献，但的确不知道青博馆大门开在海湾园内；虽然放在海湾园里的东西肯定不会全是祭品（比如园区办公室的办公用品、摆设等等），但他的确是海湾园里出来的；虽然我不信邪，但的确有人会觉得这个晦气。
56. 115-402 赞同 心中为阳处处阳，心中为阴处处阴，心灵纯洁一点就不会有那么多的事情了
57. 静80 反对放在大门口，可以改个地方放吗？听说是海湾园里出来的的确会让人觉得晦气。
58. 艺嘉 赞同
59. 114-402 赞同
60. 219号戴  赞同。
61. 8-陈 赞同（既来之则安之）
62. 172杰 赞同（是饰品非祭品）
63. 148号艺嘉 赞成
64. 152CQ 赞成
65. 211号 赞成
66. 10-嘟嘟爸 赞成
67. 135 反对。这种材质注定了保养翻新不会只有一次，这一次大家众筹了那么下次呢？如果不翻新，那么一到小区门口就会感到这个小区的破败，如果翻新，那么钱从哪里出？因为不赞同，所以后续费用也不愿意承担。桃花岛上的亭子想要翻新我看大家都想选一劳永逸的材质，为什么在小区门口要放一个需要反复翻新的？
68. 178-冰姐 赞成，小区要做成一件事太难了
69. 217  赞同
70. 15洪虹 弃权
71. 55号 赞成
认知的差异性产生了多样性的思想碰撞现象，我思故我在
72. 105号301  赞成
73. 84-wang 弃权
'''
import  re
import pandas as pd
from pet.data import generator
votes=generator.votes
votes=re.sub('赞同', '赞成', votes)
results=re.findall('(\d+)\.\s\D{,6}\s*(\d+[-－号]?\d*).*(反对|赞成|弃权|赞同)+', votes, re.MULTILINE)
print(results)
print(len(results))


In [None]:
df = pd.DataFrame(results, columns=['序号','门牌号', '投票'])

with pd.ExcelWriter('小区投票与统计.xlsx') as writer:
    df.to_excel(writer, sheet_name='投票结果')
    df['投票'].value_counts().to_excel(writer,sheet_name='统计结果')

jieba的三种中文分词模式演示。

In [None]:
import jieba
content="老王在阳光海岸小区写信用卡消费记录。"
seg_list = jieba.cut(content, cut_all=False)
print(f"精准模式（默认）: " + "/".join(seg_list))
seg_list = jieba.cut(content, cut_all=True)
print("全模式: " + "/ ".join(seg_list))
seg_list = jieba.cut_for_search(content)
print("搜索引擎模式: " + "/ ".join(seg_list))

使用用户字典，只需要在jieba分词之前加载字典jieba.load_userdict("userdict1.txt") ，或者动态加载词语jieba.add_word('阳光海岸') 。如果想动态删除词语，可以使用del_word(word) 可动态删除用户定义的词语。

In [None]:
import jieba
content="老王在阳光海岸小区写信用卡消费记录。"
jieba.add_word('阳光海岸')
seg_list = jieba.cut(content, cut_all=False)
print(f"精准模式（默认）: " + "/".join(seg_list))
seg_list = jieba.cut(content, cut_all=True)
print("全模式: " + "/ ".join(seg_list))
seg_list = jieba.cut_for_search(content)
print("搜索引擎模式: " + "/ ".join(seg_list))

In [None]:
t='''
教育部关于2020年春季学期延期开学的通知
　　经研究决定，2020年春季学期延期开学，具体通知如下。
　　一、部属各高等学校适当推迟2020年春季学期开学时间，具体开学时间与当地高校开学时间保持一致，并报教育部备案。春节返乡学生未经学校批准不要提前返校。其他中央部门所属高校可参照执行。
　　二、地方所属院校、中小学校、幼儿园等学校春季学期开学时间，由当地教育行政部门按照地方党委和政府统一部署确定。
　　三、各类学校要加强寒假期间对学生学习、生活的指导，要求在家不外出、不聚会、不举办和参加集中性活动。对寒假在校和自行返校的学生，要切实做好疫情防控工作。要做好开学后疫情防控工作预案，建立师生流动台账，明确防控工作要求，加大环境卫生整治力度，全面做好疫情防控工作。'''
import jieba.analyse
jieba.analyse.extract_tags(t, topK=5, withWeight=True, allowPOS=())

In [15]:
content='''
荷塘月色
这几天心里颇不宁静。今晚在院子里坐着乘凉，忽然想起日日走过的荷塘，在这满月的光里，总该另有一番样子吧。月亮渐渐地升高了，墙外马路上孩子们的欢笑，已经听不见了；妻在屋里拍着闰儿⑴，迷迷糊糊地哼着眠歌。我悄悄地披了大衫，带上门出去。
沿着荷塘，是一条曲折的小煤屑路。这是一条幽僻的路；白天也少人走，夜晚更加寂寞。荷塘四面，长着许多树，蓊蓊郁郁的。路的一旁，是些杨柳，和一些不知道名字的树。没有月光的晚上，这路上阴森森的，有些怕人。今晚却很好，虽然月光也还是淡淡的。
路上只我一个人，背着手踱着。这一片天地好像是我的；我也像超出了平常的自己，到了另一个世界里。我爱热闹，也爱冷静；爱群居，也爱独处。像今晚上，一个人在这苍茫的月下，什么都可以想，什么都可以不想，便觉是个自由的人。白天里一定要做的事，一定要说的话，现在都可不理。这是独处的妙处，我且受用这无边的荷香月色好了。
曲曲折折的荷塘上面，弥望的是田田的叶子。叶子出水很高，像亭亭的舞女的裙。层层的叶子中间，零星地点缀着些白花，有袅娜⑹地开着的，有羞涩地打着朵儿的；正如一粒粒的明珠，又如碧天里的星星，又如刚出浴的美人。微风过处，送来缕缕清香，仿佛远处高楼上渺茫的歌声似的。这时候叶子与花也有一丝的颤动，像闪电般，霎时传过荷塘的那边去了。叶子本是肩并肩密密地挨着，这便宛然有了一道凝碧的波痕。叶子底下是脉脉的流水，遮住了，不能见一些颜色；而叶子却更见风致了。
月光如流水一般，静静地泻在这一片叶子和花上。薄薄的青雾浮起在荷塘里。叶子和花仿佛在牛乳中洗过一样；又像笼着轻纱的梦。虽然是满月，天上却有一层淡淡的云，所以不能朗照；但我以为这恰是到了好处——酣眠固不可少，小睡也别有风味的。月光是隔了树照过来的，高处丛生的灌木，落下参差的斑驳的黑影，峭楞楞如鬼一般；弯弯的杨柳的稀疏的倩影，却又像是画在荷叶上。塘中的月色并不均匀；但光与影有着和谐的旋律，如梵婀玲上奏着的名曲。
荷塘的四面，远远近近，高高低低都是树，而杨柳最多。这些树将一片荷塘重重围住；只在小路一旁，漏着几段空隙，像是特为月光留下的。树色一例是阴阴的，乍看像一团烟雾；但杨柳的丰姿⑽，便在烟雾里也辨得出。树梢上隐隐约约的是一带远山，只有些大意罢了。树缝里也漏着一两点路灯光，没精打采的，是渴睡⑾人的眼。这时候最热闹的，要数树上的蝉声与水里的蛙声；但热闹是它们的，我什么也没有。
忽然想起采莲的事情来了。采莲是江南的旧俗，似乎很早就有，而六朝时为盛；从诗歌里可以约略知道。采莲的是少年的女子，她们是荡着小船，唱着艳歌去的。采莲人不用说很多，还有看采莲的人。那是一个热闹的季节，也是一个风流的季节。梁元帝《采莲赋》里说得好：
于是妖童媛女⑿，荡舟心许；鷁首徐回，兼传羽杯⒁；棹⒂将移而藻挂，船欲动而萍开。尔其纤腰束素，迁延顾步；夏始春余，叶嫩花初，恐沾裳而浅笑，畏倾船而敛裾⒅。
可见当时嬉游的光景了。这真是有趣的事，可惜我们现在早已无福消受了。
于是又记起，《西洲曲》里的句子：
采莲南塘秋，莲花过人头；低头弄莲子，莲子清如水。
今晚若有采莲人，这儿的莲花也算得“过人头”了；只不见一些流水的影子，是不行的。这令我到底惦着江南了。——这样想着，猛一抬头，不觉已是自己的门前；轻轻地推门进去，什么声息也没有，妻已睡熟好久了。
一九二七年七月，北京清华园。



'''
import jieba.analyse
jieba.analyse.extract_tags(content, topK=5, withWeight=True, allowPOS=())

[('荷塘', 0.2337147115163728),
 ('叶子', 0.16475121654483627),
 ('采莲', 0.1448713145994962),
 ('月光', 0.09771587212078087),
 ('杨柳', 0.09541421514488664)]

根据原始字符串内容生成词云图。

In [None]:
import wordcloud
w=wordcloud.WordCloud(width=800,
height=600,
background_color='white',
font_path='msyh.ttc')
content="""
新冠肺炎疫情正在美国各州蔓延，美国总统特朗普期望美国经济能够在复活节到来前得到“重启”。这一言论受到了民主党总统候选人、前副总统拜登的批评，拜登在接受采访时对特朗普的言论评价道：“如果你想长期破坏经济，那就让这（疫情）再度暴发吧。我们现在甚至还没有减缓疫情增长的趋势，听到总统这样说真是令人失望。他还是不要再说话了，多听专家的意见吧。”拜登还调侃道：“如果可能的话，我还想明天就进政府当上总统呢。”
拜登指出，目前美国疫情形势加重是因为“在应该响应的时候没有做出行动”，并呼吁特朗普把民众的健康作为工作重心。同时，拜登还建议特朗普政府多遵循国家过敏症与传染病研究所主任福西等医疗专家的建议，让民众保持社交距离，并且为控制疫情做好充分工作。
据美国约翰斯·霍普金斯大学数据显示，截至北京时间2020年3月25日12时30分左右，美国累计确诊新冠肺炎病例55222例，累计死亡797例。。
"""
w.generate(content)
w.to_file('result.jpg')

In [None]:
content='''
荷塘月色
这几天心里颇不宁静。今晚在院子里坐着乘凉，忽然想起日日走过的荷塘，在这满月的光里，总该另有一番样子吧。月亮渐渐地升高了，墙外马路上孩子们的欢笑，已经听不见了；妻在屋里拍着闰儿⑴，迷迷糊糊地哼着眠歌。我悄悄地披了大衫，带上门出去。
沿着荷塘，是一条曲折的小煤屑路。这是一条幽僻的路；白天也少人走，夜晚更加寂寞。荷塘四面，长着许多树，蓊蓊郁郁的。路的一旁，是些杨柳，和一些不知道名字的树。没有月光的晚上，这路上阴森森的，有些怕人。今晚却很好，虽然月光也还是淡淡的。
路上只我一个人，背着手踱着。这一片天地好像是我的；我也像超出了平常的自己，到了另一个世界里。我爱热闹，也爱冷静；爱群居，也爱独处。像今晚上，一个人在这苍茫的月下，什么都可以想，什么都可以不想，便觉是个自由的人。白天里一定要做的事，一定要说的话，现在都可不理。这是独处的妙处，我且受用这无边的荷香月色好了。
曲曲折折的荷塘上面，弥望的是田田的叶子。叶子出水很高，像亭亭的舞女的裙。层层的叶子中间，零星地点缀着些白花，有袅娜⑹地开着的，有羞涩地打着朵儿的；正如一粒粒的明珠，又如碧天里的星星，又如刚出浴的美人。微风过处，送来缕缕清香，仿佛远处高楼上渺茫的歌声似的。这时候叶子与花也有一丝的颤动，像闪电般，霎时传过荷塘的那边去了。叶子本是肩并肩密密地挨着，这便宛然有了一道凝碧的波痕。叶子底下是脉脉的流水，遮住了，不能见一些颜色；而叶子却更见风致了。
月光如流水一般，静静地泻在这一片叶子和花上。薄薄的青雾浮起在荷塘里。叶子和花仿佛在牛乳中洗过一样；又像笼着轻纱的梦。虽然是满月，天上却有一层淡淡的云，所以不能朗照；但我以为这恰是到了好处——酣眠固不可少，小睡也别有风味的。月光是隔了树照过来的，高处丛生的灌木，落下参差的斑驳的黑影，峭楞楞如鬼一般；弯弯的杨柳的稀疏的倩影，却又像是画在荷叶上。塘中的月色并不均匀；但光与影有着和谐的旋律，如梵婀玲上奏着的名曲。
荷塘的四面，远远近近，高高低低都是树，而杨柳最多。这些树将一片荷塘重重围住；只在小路一旁，漏着几段空隙，像是特为月光留下的。树色一例是阴阴的，乍看像一团烟雾；但杨柳的丰姿⑽，便在烟雾里也辨得出。树梢上隐隐约约的是一带远山，只有些大意罢了。树缝里也漏着一两点路灯光，没精打采的，是渴睡⑾人的眼。这时候最热闹的，要数树上的蝉声与水里的蛙声；但热闹是它们的，我什么也没有。
忽然想起采莲的事情来了。采莲是江南的旧俗，似乎很早就有，而六朝时为盛；从诗歌里可以约略知道。采莲的是少年的女子，她们是荡着小船，唱着艳歌去的。采莲人不用说很多，还有看采莲的人。那是一个热闹的季节，也是一个风流的季节。梁元帝《采莲赋》里说得好：
于是妖童媛女⑿，荡舟心许；鷁首徐回，兼传羽杯⒁；棹⒂将移而藻挂，船欲动而萍开。尔其纤腰束素，迁延顾步；夏始春余，叶嫩花初，恐沾裳而浅笑，畏倾船而敛裾⒅。
可见当时嬉游的光景了。这真是有趣的事，可惜我们现在早已无福消受了。
于是又记起，《西洲曲》里的句子：
采莲南塘秋，莲花过人头；低头弄莲子，莲子清如水。
今晚若有采莲人，这儿的莲花也算得“过人头”了；只不见一些流水的影子，是不行的。这令我到底惦着江南了。——这样想着，猛一抬头，不觉已是自己的门前；轻轻地推门进去，什么声息也没有，妻已睡熟好久了。
一九二七年七月，北京清华园。



'''

In [None]:
import wordcloud
w=wordcloud.WordCloud(width=800,
height=600,
background_color='white',
font_path='msyh.ttc')
w.generate(content)
w.to_file('result.jpg')

![结果](result.jpg)

将中文字符串进行分词后，然后生成词云图。

In [None]:
import jieba
txtlist = jieba.lcut(content)
string = " ".join(txtlist)
w.generate(string)
# 将词云图片导出到当前文件夹
w.to_file('result-jieba.jpg')

In [None]:
import jieba
txtlist = jieba.lcut(content)
txtlist=[i for i in txtlist if txtlist.count(i)>2 ]
string = " ".join(txtlist)
w.generate(string)
# 将词云图片导出到当前文件夹
w.to_file('result-jieba.jpg')

![结果](result-jieba.jpg)

In [None]:
import imageio
mk = imageio.imread("usa.jpg")
w= wordcloud.WordCloud(width=600,height=300,
background_color='white',font_path='msyh.ttc',
contour_width=1,contour_color='steelblue',mask=mk)
w.generate(string)
w.to_file('result-jieba-usa.jpg')


In [None]:
import imageio
mk = imageio.imread("hh.png")
w= wordcloud.WordCloud(width=600,height=300,
background_color='white',font_path='msyh.ttc',
contour_width=1,contour_color='steelblue',mask=mk)
w.generate(string)
w.to_file('result-jieba-hh.jpg')

![结果](result-jieba-usa.jpg)

将中文字符串使用SnowNLP进行文本关键词和摘要的提取。

In [None]:
t='''
教育部关于2020年春季学期延期开学的通知
　　经研究决定，2020年春季学期延期开学，具体通知如下。
　　一、部属各高等学校适当推迟2020年春季学期开学时间，具体开学时间与当地高校开学时间保持一致，并报教育部备案。春节返乡学生未经学校批准不要提前返校。其他中央部门所属高校可参照执行。
　　二、地方所属院校、中小学校、幼儿园等学校春季学期开学时间，由当地教育行政部门按照地方党委和政府统一部署确定。
　　三、各类学校要加强寒假期间对学生学习、生活的指导，要求在家不外出、不聚会、不举办和参加集中性活动。对寒假在校和自行返校的学生，要切实做好疫情防控工作。要做好开学后疫情防控工作预案，建立师生流动台账，明确防控工作要求，加大环境卫生整治力度，全面做好疫情防控工作。'''
import snownlp
s = snownlp.SnowNLP(t)
print('关键词',s.keywords(limit=5))
print('摘要',s.summary(limit=2))


将中文字符串使用SnowNLP进行情感分析

In [None]:
import snownlp
word = snownlp.SnowNLP('为中华崛起而读书！！')
print(word.tf)
print(word.pinyin)
print(word.keywords())
feeling = word.sentiments
print(feeling)

取得无线设备的wifi密码

In [None]:
import subprocess
import re
import locale
lcode = locale.getpreferredencoding()

def get_wifi_password_by_profile():
    s = subprocess.check_output(['netsh', 'wlan', 'show', 'profile']).decode(lcode)
    wifi_ssid=re.findall(':\s(.+)\r',s)
    print(wifi_ssid)
    info = {}
    for i in wifi_ssid:
        profile_info = subprocess.check_output(
              ['netsh', 'wlan', 'show', 'profile', i, 'key=clear']).decode(lcode)
        pwd=re.findall(r'[关键内容|Content]\s+:\s(\w+)',profile_info )
        info[i] = pwd
    return info

if __name__ == '__main__':
    print(lcode)
    d = get_wifi_password_by_profile()
print(d)


In [23]:
class Chinese_analysis:
    
    def __init__(self,content):
        self.content=content
    
    def gen_wordcloud(self,jb=True,width=800,height=600,output='result.jpg'):
        import wordcloud
        w=wordcloud.WordCloud(width=width,
        height=height,
        background_color='white',
        font_path='msyh.ttc')

        if jb:
            import jieba
            txtlist = jieba.lcut(self.content)
            txtlist=[i for i in txtlist if txtlist.count(i)>2 ]
            self.content1 = " ".join(txtlist)
        w.generate(self.content1)
        w.to_file('result.jpg')
        
    def get_key_words(self):
        import jieba.analyse
        return jieba.analyse.extract_tags(content, topK=5, withWeight=True, allowPOS=())
    
    def get_key_words_abstract_feeling(self):
        
        import snownlp
        s = snownlp.SnowNLP(self.content) #t为上述案例中通知文本信息
        print('关键词',s.keywords(limit=5))
        print('摘要',s.summary(limit=2))
        print('心情',s.sentiments)

        return s.keywords(limit=5),s.summary(limit=2)
    
if __name__=='__main__':
    
    from pet.datasets import factory
    content=factory.load_data('荷塘月色')
    an=Chinese_analysis(content)
    an.gen_wordcloud()
    print(an.get_key_words())
    an.get_key_words_abstract_feeling()                                         
                                            

可选数据集: dict_keys(['ip地址分类', '研究生初试成绩', '上海地铁线路', '北京公交车', '通识课', '优秀毕业论文', '太乙金华宗旨', '微信接龙投票', 'cookie样例', '道德经', '双色球', '2022转专业', 'Python二级考试大纲', '荷塘月色'])
[('荷塘', 0.2337147115163728), ('叶子', 0.16475121654483627), ('采莲', 0.1448713145994962), ('月光', 0.09771587212078087), ('杨柳', 0.09541421514488664)]
关键词 ['里', '上', '叶子', '荷塘', '人']
摘要 ['今晚若有采莲人', '静静地泻在这一片叶子和花上']
心情 1.0


In [24]:
import re
s='他的基础工资123.45元，加班234.56元，奖金56.77元，补贴33元！！'
d=re.findall('(\d+\.?\d*)',s)
print(s)

for i in d:
    s=s.replace(i,str(round(float(i)*1.1,2)))

print('涨工资后',s)


他的基础工资123.45元，加班234.56元，奖金56.77元，补贴33元！！
涨工资后 他的基础工资135.8元，加班258.02元，奖金62.45元，补贴36.3元！！
