Webページのスクレイピングを行うMCPサーバーです。通常のHTMLページとJavaScript/SPA/Reactサイトの両方に対応しています。
通常のHTMLページからコンテンツを取得します。高速で軽量です。
特徴:
- シンプルなHTTPリクエスト
- BeautifulSoupによるHTML解析
- ヘッダー、フッター、ナビゲーションを自動除外
- メインコンテンツの自動検出
使用例:
「https://example.com/article のページ内容を取得して」
JavaScript/SPA/Reactサイトからコンテンツを取得します。動的にレンダリングされるページに対応しています。
特徴:
- Playwrightによる実ブラウザレンダリング
- JavaScript実行後のコンテンツ取得
- Shadow DOM対応
- プライバシー同意ダイアログの自動処理
- メール・電話番号の自動抽出
使用例:
「https://example.com/spa-page のページ内容をPlaywrightで取得して」
公式サイトからheader/footer/navのリンクを抽出し、仮想サイトマップを作成します。
特徴:
- ヘッダー、フッター、ナビゲーションからリンク抽出
- 重複パターンの自動除去
- 各ページの見出し(h2/h3)を自動取得
- 同一ドメイン内のリンクのみ対象
使用例:
「https://example.com のサイト構造を教えて」
JavaScript/SPA/Reactサイトから動的にリンクを抽出します。
使用例:
「https://example.com のサイトマップをPlaywrightで取得して」
curl -fsSL https://raw.githubusercontent.com/Readify-App/scraping-mcp-server/main/install.sh | bashirm https://raw.githubusercontent.com/Readify-App/scraping-mcp-server/main/install.ps1 | iexインストール後、Claude Desktopを再起動してください。
手動インストール手順を表示
git clone https://github.com/Readify-App/scraping-mcp-server.git
cd scraping-mcp-serveruv syncuv run playwright install chromiummacOS:
nano ~/Library/Application\ Support/Claude/claude_desktop_config.jsonLinux:
nano ~/.config/claude-desktop/claude_desktop_config.jsonWindows:
notepad %APPDATA%\Claude\claude_desktop_config.json以下の内容を追加(/path/to/scraping-mcp-serverは実際のパスに置き換え):
{
"mcpServers": {
"scraping-mcp-server": {
"command": "uv",
"args": [
"--directory",
"/path/to/scraping-mcp-server",
"run",
"scraping-mcp-server"
]
}
}
}Claude Desktopで以下のように質問してください:
「https://example.com/article のページ内容を取得して」
「https://example.com/spa-page のページ内容をPlaywrightで取得して」
「https://example.com のサイト構造を教えて」
| ツール | 用途 | 例 |
|---|---|---|
| fetch_page_content | 静的なHTMLページ | ブログ記事、ニュースサイト、Wikipediaなど |
| fetch_page_content_with_playwright | 動的なページ | React/Vue/Angular製のSPA、認証ダイアログがあるページ |
| extract_site_links | 静的サイトの構造分析 | 企業サイト、公式サイトのナビゲーション |
| extract_site_links_with_playwright | 動的サイトの構造分析 | SPAのナビゲーション、動的メニュー |
# ブラウザを再インストール
uv run playwright install --force chromium
# システムの依存関係を確認(Linux)
uv run playwright install-deps# インストールディレクトリで
tail -f debug.logもう一度インストールスクリプトを実行してください:
macOS / Linux:
curl -fsSL https://raw.githubusercontent.com/Readify-App/scraping-mcp-server/main/install.sh | bashWindows:
irm https://raw.githubusercontent.com/Readify-App/scraping-mcp-server/main/install.ps1 | iex⚠️ PDFファイルには対応していません⚠️ ログインが必要なページには対応していません⚠️ 複数ページの同時スクレイピングには制限があります(最大5ブラウザ)
MIT
scraping-mcp-server/
├── .gitignore # 固定(ログファイル除外)
├── pyproject.toml # 固定(パッケージ設定)
├── server.py # ツール定義(メインロジック)
├── main.py # 固定(エントリーポイント)
├── install.sh # macOS/Linux自動インストーラー
├── install.ps1 # Windows自動インストーラー
└── uv.lock # 自動生成
# 依存関係のインストール
uv sync
# サーバーをテスト実行
uv run scraping-mcp-server
# Playwrightブラウザのインストール
uv run playwright install chromium