install prerequisites

make sure selenium driver path is in PATH environment variable

install mongodb

https://docs.mongodb.com/v4.0/installation/

usage

scrapy.cfg

in this file, you can select setting you want to use. Defautl value is scrapy01.settings_dev_with_proxy, because I'm in China mainland. Don't forget enabling your own proxy and configure the right server and port.

command

You can use "scrapy runspider <spider_file.py>." for a single spider. for example: scrapy runspider scrapy01/spiders/douxing/yifymovies.py

result sample

data in MongoDB:

downloaded files structure:

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.vscode		.vscode
readme-files		readme-files
scrapy01		scrapy01
.gitignore		.gitignore
Note.md		Note.md
README.md		README.md
scrapy.cfg		scrapy.cfg
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

install prerequisites

install python

install scrapy

install itemloads

install pymongo

install selenium and drivers

install mongodb

usage

scrapy.cfg

command

result sample

About

Releases

Packages

Languages

zc2tech/scrapy01

Folders and files

Latest commit

History

Repository files navigation

install prerequisites

install python

install scrapy

install itemloads

install pymongo

install selenium and drivers

install mongodb

usage

scrapy.cfg

command

result sample

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages