Craigslist Crawler Python

A Python-based web crawler for extracting real estate listings from Craigslist across multiple cities.

Features

Crawl Craigslist housing listings from multiple cities
Extract advertisement data including titles, prices, and details
Support for multiple storage backends (MongoDB, file storage)
Image downloading capabilities
Functional and object-oriented crawler implementations

Installation

Clone the repository:

git clone https://github.com/rezamobaraki/craigslist-crawler-python.git
cd craigslist-crawler-python

Install dependencies:

pip install -r requirements.txt

Usage

The crawler supports three main operations:

1. Find Links

Extract advertisement links from city pages:

python main.py find_links

2. Extract Page Data

Extract detailed data from advertisement pages:

python main.py extract_pages

3. Download Images

Download images from advertisements:

python main.py download_images

Configuration

Modify config.py to adjust:

Base URL patterns
Storage type (MongoDB or file storage)
Other crawler settings

Storage Options

MongoDB: Requires a running MongoDB instance
File Storage: Saves data to local JSON files

Author

Reza Mobaraki

GitHub: @rezamobaraki
LinkedIn: reza-mobaraki

License

This project is licensed under the MIT License - see the LICENCE.txt file for details.

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
data		data
.gitignore		.gitignore
LICENCE.txt		LICENCE.txt
README.md		README.md
config.py		config.py
crawl.py		crawl.py
functional_crawler.py		functional_crawler.py
main.py		main.py
mongo.py		mongo.py
parser.py		parser.py
requirements.txt		requirements.txt
storage.py		storage.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Craigslist Crawler Python

Features

Installation

Usage

1. Find Links

2. Extract Page Data

3. Download Images

Configuration

Storage Options

Author

License

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

License

rezamobaraki/craigslist-crawler-python

Folders and files

Latest commit

History

Repository files navigation

Craigslist Crawler Python

Features

Installation

Usage

1. Find Links

2. Extract Page Data

3. Download Images

Configuration

Storage Options

Author

License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages