Scrapy crawlers for jobs.pymi.vn
Switch branches/tags
Nothing to show
Clone or download
Pull request Compare This branch is 43 commits ahead, 2 commits behind fmlvn:master.
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
vnw
.gitignore
.travis.yml
Makefile Add test May 12, 2017
README.md
circle.yml
requirements.txt
runner
setup.cfg

README.md

Jobs.pymi.vn Crawlers

Build Status

Run all spiders by

./runner

Or run single spider

./runner careerbuilder

Test / lint

Để test style/lint chạy:

make lint

Chú ý, máy bạn cần cài sẵn make.

Để test các spider, chạy:

make test

Đóng góp

Các tiêu chí về spider

  • Mỗi job phải có tối thiểu 5 thông tin:
    ['name', 'province', 'url', 'work', 'specialize']
    
  • Code chuẩn Pep8, độ dài mỗi dòng giới hạn là 100 ký tự.
  • Python 2 (project được tạo trước khi Scrapy hỗ trợ Python3)

Spiders

Cài đặT

python-dev, libffi-dev

Chạy lệnh sau để cài trên Ubuntu (các hệ điều hành khác sẽ có gói tương tự).

sudo apt-get install -y python-dev libffi-dev

để khỏi gặp lỗi

    c/_cffi_backend.c:2:20: fatal error: Python.h: No such file or directory

libssl-dev

sudo apt-get install -y libssl-dev

để khỏi gặp lỗi

    build/temp.linux-x86_64-2.7/_openssl.c:423:25: fatal error: openssl/aes.h: No such file or directory
    compilation terminated.
    error: command 'x86_64-linux-gnu-gcc' failed with exit status 1

TODO

  • Thêm status của các crawler vào web