可以爬取重庆大学计算机学院所有公示的硕士生导师信息,包括:
- 姓名
- 职称
- 研究方向
- 联系方式
- 导师主页链接
- 爬取与解析页面:
requests
、bs4
、re
- 结果存储:
pandas
我当时选择导师的时候,觉得页面中的导师信息卡片太占位置了。每个页面只有几个导师,这样看起来就得来回翻页反复进行对比。
如果能将我需要的信息存到一个excel表格里,并且对感兴趣的导师点击他的主页地址进一步观看详细信息,就方便许多。
页面链接:http://www.cs.cqu.edu.cn/xbwz/szdw/sssds.htm
页面是分页的,共9页,每个页面包含10个导师信息卡片,卡片中包含导师的部分简单信息。点击卡片后,包含导师更加详细的信息,包括教育经历、研究经历等等。
所有导师加起来不到90个,可以用简单的循环页面爬取的方式实现。
首先确定导师信息卡片的css元素,然后提取出其中所有的信息,最后存入excel表格。
直接运行main.py
就能完成爬取。