Crawl-Reuters

A simple Scrapy script for crawling Reuters news articles (Python 3)

Usage

Install Scrapy: pip install Scrapy
Modify the code in ./crawler/crawler/spiders/reuters_spider.py to suit your needs
Run the script: scrapy crawl reuters

For more detailed information on running Scrapy scripts, visit: Scrapy Tutorial

Output

The crawled articles for each day are saved as a JSON file at ./crawler/crawled/*year*/*month*/*date*.json

JSON Format

{
    "text": ["This is the first sentence of the article.", "The second sentence is here"],
    "section": "Politics",
    "title": "Reuters News Articles Crawled",
    "date": "20161113"
}

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
crawler		crawler
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Crawl-Reuters

Usage

Output

JSON Format

About

Releases

Packages

Contributors 2

Languages

zaemyung/crawl-reuters

Folders and files

Latest commit

History

Repository files navigation

Crawl-Reuters

Usage

Output

JSON Format

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages