Web Scraping Toolkit

Ett robust och skalbart verktyg för web scraping med fokus på etik, prestanda och underhållbarhet.

🎯 Funktioner

Asynkron scraping för hög prestanda
Automatisk retry-logik med exponential backoff
Rate limiting för att respektera servrar
Flexibel konfiguration via YAML/JSON
Strukturerad loggning för debugging
Data-validering och export
Proxy-stöd för IP-rotation
JavaScript-rendering med Playwright/Selenium

🚀 Snabbstart

Installation

# Klona repository
git clone <repository-url>
cd scraping

# Installera dependencies
pip install -r requirements.txt

# Installera Playwright browsers
playwright install

Grundläggande användning

from scraper import WebScraper

# Skapa scraper-instans
scraper = WebScraper(config_path="config.yaml")

# Skrapa en sida
data = await scraper.scrape_url("https://example.com")

# Exportera data
scraper.export_data(data, format="json")

📁 Projektstruktur

scraping/
├── src/
│   ├── scraper/
│   │   ├── __init__.py
│   │   ├── core.py          # Huvudscraper-klass
│   │   ├── parsers.py       # HTML-parsers
│   │   ├── validators.py    # Data-validering
│   │   └── exporters.py     # Data-export
│   ├── utils/
│   │   ├── __init__.py
│   │   ├── config.py        # Konfigurationshantering
│   │   ├── logging.py       # Loggning
│   │   └── helpers.py       # Hjälpfunktioner
│   └── tests/
│       ├── __init__.py
│       ├── test_scraper.py
│       └── test_parsers.py
├── config/
│   ├── default.yaml         # Standardkonfiguration
│   └── examples/
├── data/                    # Skrapad data
├── logs/                    # Loggfiler
├── requirements.txt
└── README.md

⚙️ Konfiguration

Skapa en config.yaml-fil:

scraper:
  user_agent: "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
  timeout: 30
  max_retries: 3
  delay_between_requests: 1.0
  
rate_limiting:
  requests_per_minute: 60
  burst_size: 10
  
logging:
  level: "INFO"
  format: "json"
  
export:
  default_format: "json"
  output_dir: "./data"

🧪 Testning

# Kör alla tester
pytest

# Kör med coverage
pytest --cov=src

# Kör specifika tester
pytest tests/test_scraper.py

📊 Övervakning

Verktyget inkluderar inbyggd övervakning:

Request/response-tider
Success/failure rates
Data-volym per session
Minnesanvändning

🔒 Säkerhet och Etik

Respekterar robots.txt
Implementerar rate limiting
Roterar User-Agent headers
Stöd för proxy-användning
Loggar alla aktiviteter för granskning

🤝 Bidrag

Fork repository
Skapa feature branch
Commit ändringar
Push till branch
Skapa Pull Request

📄 Licens

MIT License - se LICENSE-fil för detaljer.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.github/workflows		.github/workflows
config		config
scraping_env		scraping_env
scraping_mcp		scraping_mcp
src		src
tests		tests
.flake8		.flake8
.gitignore		.gitignore
ADVANCED_FEATURES.md		ADVANCED_FEATURES.md
PROJECT_SUMMARY.md		PROJECT_SUMMARY.md
QUICKSTART.md		QUICKSTART.md
README.md		README.md
README_MCP.md		README_MCP.md
README_REVOLUTIONARY.md		README_REVOLUTIONARY.md
REVOLUTIONARY_FEATURES.md		REVOLUTIONARY_FEATURES.md
ULTIMATE_MAGNIFICENT_SCRAPER.py		ULTIMATE_MAGNIFICENT_SCRAPER.py
ULTIMATE_SCRAPER.py		ULTIMATE_SCRAPER.py
VENV_SETUP.md		VENV_SETUP.md
advanced_dashboard.html		advanced_dashboard.html
advanced_example.py		advanced_example.py
ai_dashboard.html		ai_dashboard.html
ai_dashboard.py		ai_dashboard.py
cli.py		cli.py
control_dashboard.html		control_dashboard.html
control_dashboard.py		control_dashboard.py
dashboard_demo.py		dashboard_demo.py
dashboard_manager.py		dashboard_manager.py
enhanced_dashboard.py		enhanced_dashboard.py
example_usage.py		example_usage.py
fixed_dashboard_test.py		fixed_dashboard_test.py
magni.json		magni.json
magnificent_scraper.db		magnificent_scraper.db
mobile_dashboard.html		mobile_dashboard.html
mobile_dashboard.py		mobile_dashboard.py
pyproject.toml		pyproject.toml
real_dashboard_test.py		real_dashboard_test.py
requirements.txt		requirements.txt
revolutionary_demo.py		revolutionary_demo.py
scraper_data.db		scraper_data.db
security_dashboard.html		security_dashboard.html
security_dashboard.py		security_dashboard.py
simple_dashboard.py		simple_dashboard.py
simple_real_dashboard_test.py		simple_real_dashboard_test.py
test_dashboard_fix.py		test_dashboard_fix.py
ultimate_scraper.db		ultimate_scraper.db

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Web Scraping Toolkit

🎯 Funktioner

🚀 Snabbstart

Installation

Grundläggande användning

📁 Projektstruktur

⚙️ Konfiguration

🧪 Testning

📊 Övervakning

🔒 Säkerhet och Etik

🤝 Bidrag

📄 Licens

About

Uh oh!

Releases

Packages

Uh oh!

Languages

JohnCCarter/Scraping

Folders and files

Latest commit

History

Repository files navigation

Web Scraping Toolkit

🎯 Funktioner

🚀 Snabbstart

Installation

Grundläggande användning

📁 Projektstruktur

⚙️ Konfiguration

🧪 Testning

📊 Övervakning

🔒 Säkerhet och Etik

🤝 Bidrag

📄 Licens

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages