Skip to content

zadarmo/cqu-cs-teacher-crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

重庆大学计算机导师信息爬虫程序

可以爬取重庆大学计算机学院所有公示的硕士生导师信息,包括:

  • 姓名
  • 职称
  • 研究方向
  • 联系方式
  • 导师主页链接

技术栈

  • 爬取与解析页面:requestsbs4re
  • 结果存储:pandas

为什么会有这个程序?

我当时选择导师的时候,觉得页面中的导师信息卡片太占位置了。每个页面只有几个导师,这样看起来就得来回翻页反复进行对比。

如果能将我需要的信息存到一个excel表格里,并且对感兴趣的导师点击他的主页地址进一步观看详细信息,就方便许多。

页面结构

页面链接:http://www.cs.cqu.edu.cn/xbwz/szdw/sssds.htm

页面是分页的,共9页,每个页面包含10个导师信息卡片,卡片中包含导师的部分简单信息。点击卡片后,包含导师更加详细的信息,包括教育经历、研究经历等等。

爬取思路

所有导师加起来不到90个,可以用简单的循环页面爬取的方式实现。

首先确定导师信息卡片的css元素,然后提取出其中所有的信息,最后存入excel表格。

获取结果

直接运行main.py就能完成爬取。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages