GitHub

贴吧爬虫

背景：小白放假在家没事，想爬取南京信息职业技术学院贴吧用户关注的贴吧因此写来的项目
不足：贴吧有防爬虫机制(应该是发现ip大量的刷新页面需要验证)，因为是小白入门所以没有解决这个问题
      我当时用无线网来爬取信息的,无法使用的时候换了手机的热点(百度安全验证无法识别手机的网)
优点：本项目的几个python文件是互相独立的，降低零基础学习爬虫的门栏。test文件夹是为了实现思路而写的测试文件
      使用了多线程来加速爬虫(爬个几万条数据还是挺快的)

实现的思路大致如下:

1.保存南京信息职业技术学院吧的网址

2.根据排名第二精品贴分析，获取层主的全部url

3.根据个人主页来获取关注的贴吧

4.楼中楼通过xhr分析

运行环境

    网络:手机热点(百度安全验证无法识别的网络)
    数据库mysql 5 +

运行方式：

   1.安装python环境并配置环境变量
   2.pip3 install beautifulsoup4
   3.pip3 install lxml
   ...
   注意:先运行tiezi.py 再 user.py 再 user_bar.py(测试只用了一千条左右的数据,方便看结果)

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
comment_test.py		comment_test.py
demo_test.py		demo_test.py
readme.md		readme.md
tieba.sql		tieba.sql
tiezi.py		tiezi.py
user.py		user.py
user_bar.py		user_bar.py
user_bar_test.py		user_bar_test.py
user_test.py		user_test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

comment_test.py

comment_test.py

demo_test.py

demo_test.py

readme.md

readme.md

tieba.sql

tieba.sql

tiezi.py

tiezi.py

user.py

user.py

user_bar.py

user_bar.py

user_bar_test.py

user_bar_test.py

user_test.py

user_test.py

Repository files navigation

贴吧爬虫

实现的思路大致如下:

运行环境

运行方式：

About

Releases

Packages

Languages

diskcat/tiebaSpider

Folders and files

Latest commit

History

Repository files navigation

贴吧爬虫

实现的思路大致如下:

运行环境

运行方式：

About

Resources

Stars

Watchers

Forks

Languages