GitHub - har777/bloomberg_scraping: Scraping bloomberg.com to extract article text and save it to a mongodb collection.

Uses Scrapy to crawl bloomberg.com recursively for article text. The data is stored realtime to your local mongodb instance(currently configured to localhost, db:data, collection:items). Cd into the directory and do "scrapy crawl bloomberg_spider" to run the crawler.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.idea		.idea
bloomberg2		bloomberg2
README.md		README.md
items.json		items.json
items.py		items.py
scrapy.cfg		scrapy.cfg
test.json		test.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

har777/bloomberg_scraping

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages