# Firecrawl を試す

## 概要
Firecrawlは、Webサイトのスクレイピングを行うためのAPIサービスである。本ノートブックでは、Firecrawlを利用して、Webサイトのスクレイピングおよびクローリングを行う方法を紹介する。

## 事前準備
1. 以下公式よりサインアップしてAPIキーを取得する。もしくは、Githubからソースコードをダウンロードしてローカルで実行する。
- [Firecrawl](https://www.firecrawl.dev/)
    - [Firecrawl 公式](https://www.firecrawl.dev/api)
    - [Firecrawl GitHub](https://github.com/mendableai/firecrawl)
2. .envファイルを作成し、APIキーを記述する。

    ```
    cp .devcontainer/.env.example .devcontainer/.env
    ```

3. .envファイルにAPIキーを記述する。

    ```
    FIRECRAWL_API_KEY=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
    ```
    ※ローカルでFirecrawlを実行する場合は、実行環境に合わせてFIRECRAWL_API_BASEも設定する。

4. Devcontainerを起動する。

## Install

In [1]:
%pip install firecrawl-py

Collecting firecrawl-py
  Downloading firecrawl_py-0.0.20-py3-none-any.whl.metadata (6.3 kB)
Collecting requests (from firecrawl-py)
  Downloading requests-2.32.3-py3-none-any.whl.metadata (4.6 kB)
Collecting charset-normalizer<4,>=2 (from requests->firecrawl-py)
  Downloading charset_normalizer-3.3.2-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (33 kB)
Collecting idna<4,>=2.5 (from requests->firecrawl-py)
  Downloading idna-3.7-py3-none-any.whl.metadata (9.9 kB)
Collecting urllib3<3,>=1.21.1 (from requests->firecrawl-py)
  Downloading urllib3-2.2.2-py3-none-any.whl.metadata (6.4 kB)
Collecting certifi>=2017.4.17 (from requests->firecrawl-py)
  Downloading certifi-2024.7.4-py3-none-any.whl.metadata (2.2 kB)
Downloading firecrawl_py-0.0.20-py3-none-any.whl (9.5 kB)
Downloading requests-2.32.3-py3-none-any.whl (64 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m64.9/64.9 kB[0m [31m7.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading certifi-2024.

## Environment

In [5]:
import os

API_KEY = os.environ.get('FIRECRAWL_API_KEY')
API_BASE = os.environ.get('FIRECRAWL_API_BASE')

## Scraping

Firecrawlを利用して、Webサイトのスクレイピングを行う方法を紹介する。  
Firecrawl公式のサイトを対象に実施：https://www.firecrawl.dev/

In [15]:
from firecrawl import FirecrawlApp

app = FirecrawlApp(
    api_key=API_KEY, 
    api_url=API_BASE   # Firecrawl をローカルで実行する場合は指定する
)

params = {
    "pageOptions": {
        "onlyMainContent": True,                    # メインコンテンツのみ取得(default: False)
        "includeHtml": True,                        # HTMLを取得(default: False)
        "includeRawHtml": False,                    # 生のHTMLを取得(default: False)
        "screenshot": False,                        # スクレイピングするページの上部のスクリーンショットを取得(default: False)
        "waitFor": 500,                             # ページの読み込みを待つ時間、単位ミリ秒(default: 0)
        "removeTags": [],                           # 除外するタグ(default: [])
        "onlyIncludeTags": [],                      # 取得するタグ(default: [])
        "headers": {},                              # リクエストと共に送信するヘッダー(default: {})
        "replaceAllPathsWithAbsolutePaths": True,   # 相対パスを絶対パスに置換(default: False)
        "parsePDF": True                            # PDFをパース(default: True)
    }
}

content = app.scrape_url(
    url="https://www.firecrawl.dev/",
    params=params
)

content

 'metadata': {'title': 'Home - Firecrawl',
  'description': 'Firecrawl crawls and converts any website into clean markdown.',
  'keywords': 'Firecrawl,Markdown,Data,Mendable,Langchain',
  'robots': 'follow, index',
  'ogTitle': 'Firecrawl',
  'ogDescription': 'Turn any website into LLM-ready data.',
  'ogUrl': 'https://www.firecrawl.dev/',
  'ogImage': 'https://www.firecrawl.dev/og.png?123',
  'ogLocaleAlternate': [],
  'ogSiteName': 'Firecrawl',
  'sourceURL': 'https://www.firecrawl.dev/',
  'pageStatusCode': 200,
  'sitemap': {'changefreq': 'weekly',
   'priority': 0.5,
   'lastmod': '2024-07-13T17:55:40.414Z'}}}

In [16]:
print(content['html'])

<!DOCTYPE html><html lang="en" class="light" style="color-scheme: light;"><body class="__variable_aaf875 __variable_d7dc5d font-inter antialiased bg-white text-zinc-900 tracking-tight"><div><div class="bg-orange-500 text-sm text-white py-2 px-3 text-center"><p><span class="font-semibold">Introducing <a class="underline" href="https://www.firecrawl.dev/smart-crawl">Smart Crawl!</a></span> <span>Join the waitlist to turn any website into an API with AI</span> </p></div><link href="https://fonts.googleapis.com/css2?family=Lato:wght@400;700&amp;display=swap" rel="stylesheet"><main id="skip" class="min-h-[calc(100dvh-4rem)] md:min-h[calc(100dvh-5rem)]"><section class="relative before:absolute before:inset-0 before:h-80 before:pointer-events-none bg-white  before:-z-10"><div class="pt-10 pb-4 md:pt-20"><div class="px-4 sm:px-6"><div class="max-w-3xl mx-auto"><div class="text-center pb-12 md:pb-16"><a class="mb-4 md:mb-5  group-hover:-translate-y-0.5 btn-sm py-0.5 bg-zinc-100/50 !border !bord

In [17]:
print(content['markdown'])

Introducing [Smart Crawl!](https://www.firecrawl.dev/smart-crawl)
 Join the waitlist to turn any website into an API with AI

[⭐️ Celebrating 7000+ stars](https://github.com/mendableai/firecrawl)

Turn websites into  
_LLM-ready_ data

Crawl and convert any website into clean markdown or structured data. It's also open-source.

Start for free (500 credits)[Talk to us](https://calendly.com/d/cj83-ngq-knk/meet-firecrawl)

A product by

[![Mendable Logo](https://www.firecrawl.dev/images/mendable_logo_transparent.png)Mendable](https://mendable.ai)

![Example Webpage](https://www.firecrawl.dev/blank-webpage.png)

Crawl, Capture, Clean
---------------------

We crawl all accessible subpages and give you clean markdown for each. No sitemap required.

    
      [\
        {\
          "url": "https://www.firecrawl.dev/",\
          "markdown": "## Welcome to Firecrawl\
            Firecrawl is a web scraper that allows you to extract the content of a webpage."\
        },\
        {\
        

## Crawling

Firecrawlを利用して、Webサイトのクローリングを行う方法を紹介する。  
Firecrawl公式のサイトを対象に実施：https://www.firecrawl.dev/

In [20]:
from firecrawl import FirecrawlApp

app = FirecrawlApp(
    api_key=API_KEY, 
    api_url=API_BASE   # Firecrawl をローカルで実行する場合は指定する
)

params = {
    'crawlerOptions': {
        'excludes': [],                             # 除外する URL パターン
        'includes': [],                             # 含める URL パターン (leave empty for all pages)
        "generateImgAltText": False,                # 画像の alt テキストを生成するか (default: False)
        "returnOnlyUrls": False,                    # URL のみを返すか (default: False)
        'maxDepth': 1,                              # クロールする最大深さ maxDepth を 0 にすると、入力された URL のみがスクレイピングされます。
        'mode': 'default',                          # 使用するクロール モード。高速モードは、サイトマップなしで 4 倍高速に Web サイトをクロールしますが、精度が劣る可能性があるため、JS でレンダリングされる重い Web サイトでは使用しないでください。利用可能なオプション: default, fast
        'ignoreSitemap': False,                     # サイトマップを無視するかどうか (default: False)
        'limit': 10,                                # クロールする最大ページ数
        'allowBackwardCrawling': False,             # 後方クロールを許可するかどうか (default: False)
    },
    "pageOptions": {
        "onlyMainContent": True,                    # メインコンテンツのみ取得(default: False)
        "includeHtml": True,                        # HTMLを取得(default: False)
        "includeRawHtml": False,                    # 生のHTMLを取得(default: False)
        "screenshot": False,                        # スクレイピングするページの上部のスクリーンショットを取得(default: False)
        "removeTags": [],                           # 除外するタグ(default: [])
        "headers": {},                              # リクエストと共に送信するヘッダー(default: {})
        "replaceAllPathsWithAbsolutePaths": True,   # 相対パスを絶対パスに置換(default: False)
        "parsePDF": True                            # PDFをパース(default: True)
    }
}

contents = app.crawl_url(
    url="https://www.firecrawl.dev/",
    params=params
)

contents

  'metadata': {'title': 'Home - Firecrawl',
   'description': 'Firecrawl crawls and converts any website into clean markdown.',
   'keywords': 'Firecrawl,Markdown,Data,Mendable,Langchain',
   'robots': 'follow, index',
   'ogTitle': 'Firecrawl',
   'ogDescription': 'Turn any website into LLM-ready data.',
   'ogUrl': 'https://www.firecrawl.dev/',
   'ogImage': 'https://www.firecrawl.dev/og.png?123',
   'ogLocaleAlternate': [],
   'ogSiteName': 'Firecrawl',
   'sourceURL': 'https://www.firecrawl.dev/',
   'pageStatusCode': 200,
   'sitemap': {'changefreq': 'weekly',
    'priority': 0.5,
    'lastmod': '2024-07-13T17:55:40.414Z'}}},
 {'content': "Introducing [Smart Crawl!](https://www.firecrawl.dev/smart-crawl)\n Join the waitlist to turn any website into an API with AI\n\nFlexible Pricing\n----------------\n\nStart for free, then scale as you grow\n\nYearly (2 months free)Monthly\n\nFree Plan\n---------\n\n500 credits\n\n$0/month\n\n*   Scrape 500 pages\n*   5 /scrape per min\n*   1 /cr

In [24]:
# Get the links
for content in contents:
    if 'ogTitle' in content['metadata']:
        print(f"{content['metadata']['ogTitle']} : {content['metadata']['sourceURL']}")
    else:
        print(f"nonTitle : {content['metadata']['sourceURL']}")

Firecrawl : https://www.firecrawl.dev/
Firecrawl : https://www.firecrawl.dev/pricing
Firecrawl : https://www.firecrawl.dev/blog


In [25]:
for content in contents:
    if 'https://www.firecrawl.dev/pricing' in content['metadata']['sourceURL']:
        print(f"{content['markdown']}")

Introducing [Smart Crawl!](https://www.firecrawl.dev/smart-crawl)
 Join the waitlist to turn any website into an API with AI

Flexible Pricing
----------------

Start for free, then scale as you grow

Yearly (2 months free)Monthly

Free Plan
---------

500 credits

$0/month

*   Scrape 500 pages
*   5 /scrape per min
*   1 /crawl per min

Get Started

Hobby
-----

3,000 credits

$16/month

*   Scrape 3,000 pages
*   10 /scrape per min
*   3 /crawl per min

Subscribe

StandardMost Popular
--------------------

100,000 credits

$83/month

*   Scrape 100,000 pages
*   50 /scrape per min
*   10 /crawl per min

Subscribe

Growth
------

500,000 credits

$333/month

*   Scrape 500,000 pages
*   500 /scrape per min
*   50 /crawl per min
*   Priority Support

Subscribe

Enterprise Plan
---------------

Unlimited credits. Custom RPMs.

Talk to us

*   Top priority support
*   Feature Acceleration
*   SLAs
*   Account Manager
*   Custom rate limits volume
*   Custom concurrency limits
*   Beta f