scrappy

scrapy best practice

requirements

pip install requirements.txt

structrue

|____bin    #bash scripts
|____requirements.txt
|____scrappy
| |____dbs    #storge dao
| |____extensions    #scrapy extensions
| |____items
| |____middlewares
| |____resources    #static resources
| |____scripts    #py scripts
| |____services    #py services
| |____spiders    #spiders definition
| |____utils    #python utils
|____scrapy.cfg

usage

code some spider in spiders

extends CrawlSpider
define name
define start_urls or start_requests function
define parse function to parse the response
define models in items
define pipeline in pipelines

notice

items

handleInsert.

parse the item before insert
handleUpdate.

parse the item before update

spiders

extends BaseSpider

CrawlSpider.

normal spider

the spider will distributly if set ENABLE_REDIS value to True in settings
scrappy.extensions.scrapy_redis.spiders.RedisSpider.

spider will not shutdown , always pop request form redis

resource

ResourceHelper.

reading, wirting and creating files

middlewares

RemoveCookieMiddleware.

remove cookie before request
RandomProxyMiddleware.

random switch proxy before request
UserAgentMiddleware.

random switch UserAgent before request

setting

it will automatic switch configuration file (Linux as product platform)

ENABLE_REDIS.

Enable redis distribution , redis stat

have a nice day :)

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
bin		bin
scrappy		scrappy
.gitignore		.gitignore
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

bin

bin

scrappy

scrappy

.gitignore

.gitignore

README.md

README.md

main.py

main.py

requirements.txt

requirements.txt

scrapy.cfg

scrapy.cfg

Repository files navigation

scrappy

requirements

structrue

usage

notice

items

spiders

resource

middlewares

setting

About

Releases

Packages

Languages

DormyMo/scrappy

Folders and files

Latest commit

History

Repository files navigation

scrappy

requirements

structrue

usage

notice

items

spiders

resource

middlewares

setting

About

Resources

Stars

Watchers

Forks

Languages