# Firecrawl を試す

## 概要
Firecrawlは、Webサイトのスクレイピングを行うためのAPIサービスである。本ノートブックでは、Firecrawlを利用して、Webサイトのスクレイピングおよびクローリングを行う方法を紹介する。

## 事前準備
1. 以下公式よりサインアップしてAPIキーを取得する。もしくは、Githubからソースコードをダウンロードしてローカルで実行する。
- [Firecrawl](https://www.firecrawl.dev/)
    - [Firecrawl 公式](https://www.firecrawl.dev/api)
    - [Firecrawl GitHub](https://github.com/mendableai/firecrawl)
2. .envファイルを作成し、APIキーを記述する。

    ```
    cp .devcontainer/.env.example .devcontainer/.env
    ```

3. .envファイルにAPIキーを記述する。

    ```
    FIRECRAWL_API_KEY=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
    ```
    ※ローカルでFirecrawlを実行する場合は、実行環境に合わせてFIRECRAWL_API_BASEも設定する。

4. Devcontainerを起動する。

## Install

In [1]:
%pip install firecrawl-py

[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.2[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


## Environment

In [2]:
import os

API_KEY = os.environ.get('FIRECRAWL_API_KEY')
API_BASE = os.environ.get('FIRECRAWL_API_BASE')

## Scraping

Firecrawlを利用して、Webサイトのスクレイピングを行う方法を紹介する。  
Firecrawl公式のサイトを対象に実施：https://www.firecrawl.dev/

In [5]:
from firecrawl import FirecrawlApp

app = FirecrawlApp(
    api_key=API_KEY, 
    api_url=API_BASE   # Firecrawl をローカルで実行する場合は指定する
)

params = {
    "pageOptions": {
        "onlyMainContent": True,                    # メインコンテンツのみ取得(default: False)
        "includeHtml": True,                        # HTMLを取得(default: False)
        "includeRawHtml": False,                    # 生のHTMLを取得(default: False)
        "screenshot": False,                        # スクレイピングするページの上部のスクリーンショットを取得(default: False)
        "waitFor": 500,                             # ページの読み込みを待つ時間、単位ミリ秒(default: 0)
        "removeTags": [],                           # 除外するタグ(default: [])
        "onlyIncludeTags": [],                      # 取得するタグ(default: [])
        "headers": {},                              # リクエストと共に送信するヘッダー(default: {})
        "replaceAllPathsWithAbsolutePaths": True,   # 相対パスを絶対パスに置換(default: False)
        "parsePDF": True                            # PDFをパース(default: True)
    }
}

content = app.scrape_url(
    url="https://www.firecrawl.dev/",
    params=params
)

content

 'metadata': {'title': 'Home - Firecrawl',
  'description': 'Firecrawl crawls and converts any website into clean markdown.',
  'keywords': 'Firecrawl,Markdown,Data,Mendable,Langchain',
  'robots': 'follow, index',
  'ogTitle': 'Firecrawl',
  'ogDescription': 'Turn any website into LLM-ready data.',
  'ogUrl': 'https://www.firecrawl.dev/',
  'ogImage': 'https://www.firecrawl.dev/og.png?123',
  'ogLocaleAlternate': [],
  'ogSiteName': 'Firecrawl',
  'sourceURL': 'https://www.firecrawl.dev/',
  'pageStatusCode': 500,
  'pageError': 'Internal Server Error',
  'sitemap': {'changefreq': 'weekly',
   'priority': 0.5,
   'lastmod': '2024-07-30T01:26:05.813Z'}}}

In [6]:
print(content['html'])

<!DOCTYPE html><html lang="en" class="light" style="color-scheme: light;"><body class="__variable_aaf875 __variable_d7dc5d font-inter antialiased bg-white text-zinc-900 tracking-tight"><div><div class="bg-orange-500 text-sm text-white py-2 px-3 text-center"><p><span class="font-semibold">Introducing <a class="underline" href="https://www.firecrawl.dev/smart-crawl">Smart Crawl!</a></span> <span>Join the waitlist to turn any website into an API with AI</span> </p></div><link href="https://fonts.googleapis.com/css2?family=Lato:wght@400;700&amp;display=swap" rel="stylesheet"><main id="skip" class="min-h-[calc(100dvh-4rem)] md:min-h[calc(100dvh-5rem)]"><section class="relative before:absolute before:inset-0 before:h-80 before:pointer-events-none bg-white  before:-z-10"><div class="pt-10 pb-4 md:pt-20"><div class="px-4 sm:px-6"><div class="max-w-3xl mx-auto"><div class="text-center pb-12 md:pb-16"><a class="mb-4 md:mb-5  group-hover:-translate-y-0.5 btn-sm py-0.5 bg-zinc-100/50 !border !bord

In [7]:
print(content['markdown'])

Introducing [Smart Crawl!](https://www.firecrawl.dev/smart-crawl)
 Join the waitlist to turn any website into an API with AI

[💥 Get 2 months free with yearly plan](https://www.firecrawl.dev/pricing)

Turn websites into  
_LLM-ready_ data

Power your AI apps with clean data crawled from any website. It's also open-source.

Start for free (500 credits)Start for free[Talk to us](https://calendly.com/d/cj83-ngq-knk/meet-firecrawl)

A product by

[![Mendable Logo](https://www.firecrawl.dev/images/mendable_logo_transparent.png)Mendable](https://mendable.ai)

![Example Webpage](https://www.firecrawl.dev/multiple-websites.png)

Crawl, Scrape, Clean
--------------------

We crawl all accessible subpages and give you clean markdown for each. No sitemap required.

    
      [\
        {\
          "url": "https://www.firecrawl.dev/",\
          "markdown": "## Welcome to Firecrawl\
            Firecrawl is a web scraper that allows you to extract the content of a webpage."\
        },\
        

## Crawling

Firecrawlを利用して、Webサイトのクローリングを行う方法を紹介する。  
Firecrawl公式のサイトを対象に実施：https://www.firecrawl.dev/

In [8]:
from firecrawl import FirecrawlApp

app = FirecrawlApp(
    api_key=API_KEY, 
    api_url=API_BASE   # Firecrawl をローカルで実行する場合は指定する
)

params = {
    'crawlerOptions': {
        'excludes': [],                             # 除外する URL パターン
        'includes': [],                             # 含める URL パターン (leave empty for all pages)
        "generateImgAltText": False,                # 画像の alt テキストを生成するか (default: False)
        "returnOnlyUrls": False,                    # URL のみを返すか (default: False)
        'maxDepth': 1,                              # クロールする最大深さ maxDepth を 0 にすると、入力された URL のみがスクレイピングされます。
        'mode': 'default',                          # 使用するクロール モード。高速モードは、サイトマップなしで 4 倍高速に Web サイトをクロールしますが、精度が劣る可能性があるため、JS でレンダリングされる重い Web サイトでは使用しないでください。利用可能なオプション: default, fast
        'ignoreSitemap': False,                     # サイトマップを無視するかどうか (default: False)
        'limit': 10,                                # クロールする最大ページ数
        'allowBackwardCrawling': False,             # 後方クロールを許可するかどうか (default: False)
    },
    "pageOptions": {
        "onlyMainContent": True,                    # メインコンテンツのみ取得(default: False)
        "includeHtml": True,                        # HTMLを取得(default: False)
        "includeRawHtml": False,                    # 生のHTMLを取得(default: False)
        "screenshot": False,                        # スクレイピングするページの上部のスクリーンショットを取得(default: False)
        "removeTags": [],                           # 除外するタグ(default: [])
        "headers": {},                              # リクエストと共に送信するヘッダー(default: {})
        "replaceAllPathsWithAbsolutePaths": True,   # 相対パスを絶対パスに置換(default: False)
        "parsePDF": True                            # PDFをパース(default: True)
    }
}

contents = app.crawl_url(
    url="https://www.firecrawl.dev/",
    params=params
)

contents

  'metadata': {'title': 'Home - Firecrawl',
   'description': 'Firecrawl crawls and converts any website into clean markdown.',
   'keywords': 'Firecrawl,Markdown,Data,Mendable,Langchain',
   'robots': 'follow, index',
   'ogTitle': 'Firecrawl',
   'ogDescription': 'Turn any website into LLM-ready data.',
   'ogUrl': 'https://www.firecrawl.dev/',
   'ogImage': 'https://www.firecrawl.dev/og.png?123',
   'ogLocaleAlternate': [],
   'ogSiteName': 'Firecrawl',
   'sourceURL': 'https://www.firecrawl.dev/',
   'pageStatusCode': 500,
   'pageError': 'Internal Server Error',
   'sitemap': {'changefreq': 'weekly',
    'priority': 0.5,
    'lastmod': '2024-07-30T01:26:05.813Z'}}},
 {'content': "Introducing [Smart Crawl!](https://www.firecrawl.dev/smart-crawl)\n Join the waitlist to turn any website into an API with AI\n\nFlexible Pricing\n----------------\n\nStart for free, then scale as you grow\n\nYearly (17% off)Yearly (2 months free)Monthly\n\nFree Plan\n---------\n\n500 credits\n\n$0/month\

In [9]:
# Get the links
for content in contents:
    if 'ogTitle' in content['metadata']:
        print(f"{content['metadata']['ogTitle']} : {content['metadata']['sourceURL']}")
    else:
        print(f"nonTitle : {content['metadata']['sourceURL']}")

Firecrawl : https://www.firecrawl.dev/
Firecrawl : https://www.firecrawl.dev/pricing
Firecrawl : https://www.firecrawl.dev/blog


In [10]:
for content in contents:
    if 'https://www.firecrawl.dev/pricing' in content['metadata']['sourceURL']:
        print(f"{content['markdown']}")

Introducing [Smart Crawl!](https://www.firecrawl.dev/smart-crawl)
 Join the waitlist to turn any website into an API with AI

Flexible Pricing
----------------

Start for free, then scale as you grow

Yearly (17% off)Yearly (2 months free)Monthly

Free Plan
---------

500 credits

$0/month

*   Scrape 500 pages
*   5 /scrape per min
*   1 /crawl per min

Get Started

Hobby
-----

3,000 credits

$16/month

*   Scrape 3,000 pages
*   10 /scrape per min
*   3 /crawl per min

Subscribe

StandardMost Popular
--------------------

100,000 credits

$83/month

*   Scrape 100,000 pages
*   50 /scrape per min
*   10 /crawl per min

Subscribe

Growth
------

500,000 credits

$333/month

*   Scrape 500,000 pages
*   500 /scrape per min
*   50 /crawl per min
*   Priority Support

Subscribe

Enterprise Plan
---------------

Unlimited credits. Custom RPMs.

Talk to us

*   Top priority support
*   Feature Acceleration
*   SLAs
*   Account Manager
*   Custom rate limits volume
*   Custom concurrency l

## Appendix

実際に試してみた結果を記載する。

### キングダム 登場人物Wiki

https://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%B3%E3%82%B0%E3%83%80%E3%83%A0%E3%81%AE%E7%99%BB%E5%A0%B4%E4%BA%BA%E7%89%A9%E4%B8%80%E8%A6%A7

In [6]:
from firecrawl import FirecrawlApp

app = FirecrawlApp(
    api_key=API_KEY, 
    api_url=API_BASE   # Firecrawl をローカルで実行する場合は指定する
)

params = {
    'crawlerOptions': {
        'excludes': [],                             # 除外する URL パターン
        'includes': [],                             # 含める URL パターン (leave empty for all pages)
        "returnOnlyUrls": False,                    # URL のみを返すか (default: False)
        'maxDepth': 1,                              # クロールする最大深さ maxDepth を 0 にすると、入力された URL のみがスクレイピングされます。
        'limit': 10,                                # クロールする最大ページ数
    },
    "pageOptions": {
        "onlyMainContent": True,                    # メインコンテンツのみ取得(default: False)
    }
}

contents = app.crawl_url(
    url="https://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%B3%E3%82%B0%E3%83%80%E3%83%A0%E3%81%AE%E7%99%BB%E5%A0%B4%E4%BA%BA%E7%89%A9%E4%B8%80%E8%A6%A7",
    params=params
)

contents

  'metadata': {'title': 'キングダムの登場人物一覧 - Wikipedia',
   'robots': 'max-image-preview:standard',
   'ogTitle': 'キングダムの登場人物一覧 - Wikipedia',
   'ogLocaleAlternate': [],
   'sourceURL': 'https://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%B3%E3%82%B0%E3%83%80%E3%83%A0%E3%81%AE%E7%99%BB%E5%A0%B4%E4%BA%BA%E7%89%A9%E4%B8%80%E8%A6%A7',
   'pageStatusCode': 200}}]

In [9]:
content_markdown = contents[0]['markdown']
print(content_markdown)

[コンテンツにスキップ](#bodyContent)

出典: フリー百科事典『ウィキペディア（Wikipedia）』

[キングダム (漫画)](/wiki/%E3%82%AD%E3%83%B3%E3%82%B0%E3%83%80%E3%83%A0_(%E6%BC%AB%E7%94%BB) "キングダム (漫画)")
 > **キングダムの登場人物一覧**

|     |     |
| --- | --- |

|     |     |
| --- | --- |
| ![](https://ja.wikipedia.org/upload.wikimedia.org/wikipedia/commons/thumb/1/12/Achtung-orange.svg/40px-Achtung-orange.svg.png) | この記事には**複数の問題があります**。[改善](https://ja.wikipedia.org/w/index.php?title=%E3%82%AD%E3%83%B3%E3%82%B0%E3%83%80%E3%83%A0%E3%81%AE%E7%99%BB%E5%A0%B4%E4%BA%BA%E7%89%A9%E4%B8%80%E8%A6%A7&action=edit)<br>や[ノートページ](/wiki/%E3%83%8E%E3%83%BC%E3%83%88:%E3%82%AD%E3%83%B3%E3%82%B0%E3%83%80%E3%83%A0%E3%81%AE%E7%99%BB%E5%A0%B4%E4%BA%BA%E7%89%A9%E4%B8%80%E8%A6%A7 "ノート:キングダムの登場人物一覧")<br>での議論にご協力ください。<br><br>*   **[出典](/wiki/Wikipedia:%E5%87%BA%E5%85%B8%E3%82%92%E6%98%8E%E8%A8%98%E3%81%99%E3%82%8B "Wikipedia:出典を明記する")<br>    **がまったく示されていないか不十分です。内容に関する[文献や情報源](/wiki/Wikipedia:%E4%BF%A1%E9%A0%BC%E3%81%A7%E3%81%8D%E3%82%8B%E6%83%85%E5%A0%B1%E6%B

#### token 数

In [10]:
import tiktoken

tiktoken_encoding = tiktoken.encoding_for_model("gpt-4")
encoded = tiktoken_encoding.encode(content_markdown)
print(len(encoded))

145635


In [11]:
content_markdown_split = content_markdown.split("### 注釈")
content_markdown_split

 '\\[[編集](/w/index.php?title=%E3%82%AD%E3%83%B3%E3%82%B0%E3%83%80%E3%83%A0%E3%81%AE%E7%99%BB%E5%A0%B4%E4%BA%BA%E7%89%A9%E4%B8%80%E8%A6%A7&action=edit&section=87 "節を編集: 注釈")\\\n\\]\n\n1.  **[^](#cite_ref-1)\n    ** 史実では秦の君主が王を名乗るのは26代君主の恵文王（昭王の父）からで、それまでは周王の臣下という立場であるため公を名乗っている。なので原作漫画内にも回想で登場する穆公などは秦国王としてはカウントせず、政も本来なら秦王としては6代目にあたるが、ここでは原作漫画での表記に準じる。\n2.  **[^](#cite_ref-2)\n    ** 嫌悪ではなく、麃公に気に入られていた嫉妬によるものである。\n3.  **[^](#cite_ref-5)\n    ** 昌文君の偽物の首を用意したり、褒美で昌文君の領地を要求して彼の妻子らを庇護するなど。\n4.  **[^](#cite_ref-6)\n    ** このことが原因で趙国が秦国を一際憎悪を増し、万極を歪ませ、幼少期に人質として趙にいた政が虐げられた。\n5.  **[^](#cite_ref-8)\n    ** 単行本56巻裏表紙に糸凌がカラーで描かれており、肩にかかった茶色の髪の毛と同じように左目も茶色の髪の毛で隠れていることがわかる（兜頭頂部の兜飾りの色は兜や鎧と同じ色であり茶色とは異なる）。\n6.  **[^](#cite_ref-12)\n    ** アニメ公式サイトでの表記。原作本来の表記は、偏が「亻」、旁が「厘」。ただし、アニメのエンドクレジットは原作と同じ表記。\n7.  **[^](#cite_ref-19)\n    ** アニメ版での表記。「郭」の原作本来の表記は、偏が「享」、旁が「乚」。\n8.  **[^](#cite_ref-21)\n    ** クレジットでは「じい」と表記されている。\n9.  **[^](#cite_ref-25)\n    ** なお、会談の内容次第では、廉頗を殺すように媧燐から命じられていた。\n10.  **[^](#cite_

In [14]:
print(content_markdown_split[0])
tiktoken_encoding = tiktoken.encoding_for_model("gpt-4")
encoded = tiktoken_encoding.encode(content_markdown_split[0])
print(len(encoded))

[コンテンツにスキップ](#bodyContent)

出典: フリー百科事典『ウィキペディア（Wikipedia）』

[キングダム (漫画)](/wiki/%E3%82%AD%E3%83%B3%E3%82%B0%E3%83%80%E3%83%A0_(%E6%BC%AB%E7%94%BB) "キングダム (漫画)")
 > **キングダムの登場人物一覧**

|     |     |
| --- | --- |

|     |     |
| --- | --- |
| ![](https://ja.wikipedia.org/upload.wikimedia.org/wikipedia/commons/thumb/1/12/Achtung-orange.svg/40px-Achtung-orange.svg.png) | この記事には**複数の問題があります**。[改善](https://ja.wikipedia.org/w/index.php?title=%E3%82%AD%E3%83%B3%E3%82%B0%E3%83%80%E3%83%A0%E3%81%AE%E7%99%BB%E5%A0%B4%E4%BA%BA%E7%89%A9%E4%B8%80%E8%A6%A7&action=edit)<br>や[ノートページ](/wiki/%E3%83%8E%E3%83%BC%E3%83%88:%E3%82%AD%E3%83%B3%E3%82%B0%E3%83%80%E3%83%A0%E3%81%AE%E7%99%BB%E5%A0%B4%E4%BA%BA%E7%89%A9%E4%B8%80%E8%A6%A7 "ノート:キングダムの登場人物一覧")<br>での議論にご協力ください。<br><br>*   **[出典](/wiki/Wikipedia:%E5%87%BA%E5%85%B8%E3%82%92%E6%98%8E%E8%A8%98%E3%81%99%E3%82%8B "Wikipedia:出典を明記する")<br>    **がまったく示されていないか不十分です。内容に関する[文献や情報源](/wiki/Wikipedia:%E4%BF%A1%E9%A0%BC%E3%81%A7%E3%81%8D%E3%82%8B%E6%83%85%E5%A0%B1%E6%B