GitHub

写在最前面：

学习scrapy也有一段时间了，准备写一个项目巩固巩固；也快要毕业了，毕业设计题目还没想好；索性先拿这个项目练练手。

废话不多说，直接上任务

爬取网站：房天下
爬取内容：各个省市所有的新房、二手房的信息
爬取策略：分布式爬取（会先从单机开始，之后再改成分布式）
存储位置：存储在 MongoDB上（有时间，会考虑使用集群）
数据分析：对爬取下的数据进行分析，如哪个省、市平均房价等等（有时间可以做做）
数据可视化：使用pyecharts或者自带的matplotlib（有时间做做） . 待定...

ps: 这一套下来，我觉得做一个毕设应该没问题。

有关于项目具体分析请移步我的博客我的博客

下载源码

git clone git@github.com:chendayin/FangTianXiaProject.git

或者直接下载 rar文件

配置文件

1. 修改 proxy_pool/Config/setting.py文件

修改成自己的
DB_HOST = '192.168.43.115'
DB_PORT = '6379'
DB_PASSWORD = 'chendayin'

2. 修改 WebAPI/GetProxyFromRedis.py文件
	
修改成自己的

启动

1. 双击启动 proxy_pool/cli/start.sh

最好让它运行一会儿，因为，此时它将会从原生的代理池中清洗出，可被我们代理的IP。可以去redis中数据库查看

2. 接着启动 WebAPI/start.sh 

一切都准备就绪后，便可以运行scrapy项目了。

待完善

第一，重定向中间件编写。

第二，MongoDB集群

第三，数据分析

第四，数据可视化

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
FangTianXiaDistributed		FangTianXiaDistributed
FangTianXiaSingle		FangTianXiaSingle
WebAPI		WebAPI
proxy_pool		proxy_pool
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FangTianXiaDistributed

FangTianXiaDistributed

FangTianXiaSingle

FangTianXiaSingle

WebAPI

WebAPI

proxy_pool

proxy_pool

.gitignore

.gitignore

README.md

README.md

Repository files navigation

写在最前面：

学习scrapy也有一段时间了，准备写一个项目巩固巩固；也快要毕业了，毕业设计题目还没想好；索性先拿这个项目练练手。

废话不多说，直接上任务

ps: 这一套下来，我觉得做一个毕设应该没问题。

有关于项目具体分析请移步我的博客我的博客

下载源码

配置文件

启动

待完善

只能等到有空的时候回来完善了....

About

Releases

Packages

Languages

chendayin/FangTianXiaProject

Folders and files

Latest commit

History

Repository files navigation

写在最前面：

学习scrapy也有一段时间了，准备写一个项目巩固巩固；也快要毕业了，毕业设计题目还没想好；索性先拿这个项目练练手。

废话不多说，直接上任务

ps: 这一套下来，我觉得做一个毕设应该没问题。

有关于项目具体分析请移步我的博客 我的博客

下载源码

配置文件

启动

待完善

只能等到有空的时候回来完善了....

About

Resources

Stars

Watchers

Forks

Languages

有关于项目具体分析请移步我的博客我的博客