2023-Web-lab 小组成员 王润泽 马彬 卢昶宇 项目进度 实验一 豆瓣数据爬取 爬取电影、书籍数据。电影数据包括基本信息、剧情简介、演职员表,书籍数据包括基本信息、内容简介、作者简介。 记录使用的爬虫工具。 记录平台反爬手段 使用不同的内容解析方法,提交获取数据。 豆瓣数据检索 实验分工 卢昶宇:豆瓣书籍爬取、索引压缩 王润泽:豆瓣电影爬取、建立跳表指针和查询 马彬:爬取数据分词、构建倒排表