本项目是一个练习项目,可以从任何贴吧上面下载帖子链接,并根据这些链接下载贴吧的回复。
利用下载的回复信息数据,可以进行数据分析,贴吧标题和内容的词云分析,词频排序统计,各种相关分析。
第一步,建立数据库,数据保存在mysql数据库中,数据结构在文件Creat_table.py中。
第二步,爬取贴吧标题,爬虫文件名为spider.py(首先运行)。
第三步,爬取贴吧内容,Contents_tieba_List.py,在运行本文件前,可以运行代理daili_ip.py,建立代理池,建议每次大量运行前,新建代理池。
第四步,词云分析,编写了2种,分别是(DA_PLA_fenci_title和DA_PLA_fenci_contents),可以生成词云和词汇排序。
第五步,各种数据分析,DA_tieba_shuju,词云和图片都保存在savegif文件夹。