Tieba

本项目是一个练习项目，可以从任何贴吧上面下载帖子链接，并根据这些链接下载贴吧的回复。

利用下载的回复信息数据，可以进行数据分析，贴吧标题和内容的词云分析，词频排序统计，各种相关分析。

第一步，建立数据库，数据保存在mysql数据库中，数据结构在文件Creat_table.py中。

第二步，爬取贴吧标题，爬虫文件名为spider.py（首先运行）。

第三步，爬取贴吧内容，Contents_tieba_List.py，在运行本文件前，可以运行代理daili_ip.py，建立代理池，建议每次大量运行前，新建代理池。

第四步，词云分析，编写了2种，分别是（DA_PLA_fenci_title和DA_PLA_fenci_contents），可以生成词云和词汇排序。

第五步，各种数据分析，DA_tieba_shuju，词云和图片都保存在savegif文件夹。

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
.idea		.idea
savegif		savegif
123.png		123.png
234.jpg		234.jpg
CNENstopwords.txt		CNENstopwords.txt
CNstopwords.txt		CNstopwords.txt
Contents_tieba.py		Contents_tieba.py
Contents_tieba_List.py		Contents_tieba_List.py
Creat_table.py		Creat_table.py
DA_PLA_fenci.py		DA_PLA_fenci.py
DA_PLA_fenci_contents.py		DA_PLA_fenci_contents.py
DA_PLA_fenci_title.py		DA_PLA_fenci_title.py
DA_tieba_ciyun.py		DA_tieba_ciyun.py
DA_tieba_shuju.py		DA_tieba_shuju.py
README.md		README.md
Spider.py		Spider.py
chGBK.ttf		chGBK.ttf
chineseStopWords.txt		chineseStopWords.txt
content.txt		content.txt
daili_ip.py		daili_ip.py
ip.txt		ip.txt
shufazi.ttf		shufazi.ttf
分词结果(去停用词)_内容.txt		分词结果(去停用词)_内容.txt
分词结果(去停用词)_标题.txt		分词结果(去停用词)_标题.txt
分词结果_内容.txt		分词结果_内容.txt
分词结果_标题.txt		分词结果_标题.txt
词频统计(去停用词)_内容.txt		词频统计(去停用词)_内容.txt
词频统计(去停用词)_标题.txt		词频统计(去停用词)_标题.txt

Provide feedback