Skip to content

yanzhp/Tieba_spider_dataanalysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Tieba

本项目是一个练习项目,可以从任何贴吧上面下载帖子链接,并根据这些链接下载贴吧的回复。

利用下载的回复信息数据,可以进行数据分析,贴吧标题和内容的词云分析,词频排序统计,各种相关分析。

第一步,建立数据库,数据保存在mysql数据库中,数据结构在文件Creat_table.py中。

第二步,爬取贴吧标题,爬虫文件名为spider.py(首先运行)。

第三步,爬取贴吧内容,Contents_tieba_List.py,在运行本文件前,可以运行代理daili_ip.py,建立代理池,建议每次大量运行前,新建代理池。

第四步,词云分析,编写了2种,分别是(DA_PLA_fenci_title和DA_PLA_fenci_contents),可以生成词云和词汇排序。

第五步,各种数据分析,DA_tieba_shuju,词云和图片都保存在savegif文件夹。

About

No description or website provided.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages