## Jina Reader API 

https://jina.ai/reader

In [1]:
import os
import requests
from dotenv import load_dotenv, find_dotenv

# Load environment variables from .env file
_ = load_dotenv(find_dotenv())

def get_jina_reader(target: str):
    # Get the JINA_API_KEY from the environment
    api_key = os.getenv("JINA_API_KEY")
    if not api_key:
        raise ValueError("JINA_API_KEY is not set in the environment.")

    # Define the URL and headers
    base_url = 'https://r.jina.ai/'
    # Ensure the target URL is appended without the protocol
    # if target.startswith("https://"):
    #     target = target.replace("https://", "", 1)
    full_url = f"{base_url}{target}"

    headers = {
        'Authorization': f'Bearer {api_key}'
    }

    try:
        # Make a GET request to the specified target
        response = requests.get(full_url, headers=headers)
        
        # Check if the request was successful and print the result
        if response.status_code == 200:
            print("Request successful.")
            print(response.text)  # or use response.json() if the response returns JSON
        else:
            print(f"Request failed with status code: {response.status_code}")
 
    except Exception as e:
        print(f"An error occurred: {e}")

    # Return the response object if it has been defined; alternatively, return None
    return locals().get('response')


In [3]:
target = "https://www.gov.cn/zhengce/zhengceku/2023-03/02/content_5744106.htm"

response = get_jina_reader(target)

Request successful.
Title: 工业和信息化部关于进一步提升移动互联网应用服务能力的通知_国务院部门文件_中国政府网

URL Source: https://www.gov.cn/zhengce/zhengceku/2023-03/02/content_5744106.htm

Markdown Content:
工业和信息化部关于进一步提升移动互联网应用服务能力的通知  
工信部信管函〔2023〕26号

各省、自治区、直辖市通信管理局，中国信息通信研究院、中国互联网协会，各相关企业：

近年来，工业和信息化部大力推动提升移动互联网应用服务质量，切实维护用户合法权益，取得积极社会成效，但部分企业服务行为不规范、相关环节责任落实不到位等问题仍时有发生。为优化服务供给，改善用户体验，维护良好的信息消费环境，促进行业高质量发展，依据《个人信息保护法》《电信条例》《规范互联网信息服务市场秩序若干规定》《电信和互联网用户个人信息保护规定》等相关法律法规规章，现就有关事项通知如下：

一、提升全流程服务感知，保护用户合法权益

(一)规范安装卸载行为

1.确保知情同意安装。向用户推荐下载APP应遵循公开、透明原则，真实、准确、完整地明示开发运营者、产品功能、隐私政策、权限列表等必要信息，并同步提供明显的取消选项，经用户确认同意后方可下载安装，切实保障用户知情权、选择权。不得通过“偷梁换柱”“强制捆绑”“静默下载”等方式欺骗误导用户下载安装。

2.规范网页推荐下载行为。在用户浏览页面内容时，未经用户同意或主动选择，不得自动或强制下载APP，或以折叠显示、主动弹窗、频繁提示等方式强迫用户下载、打开APP，影响用户正常浏览信息。无正当理由，不得将下载APP与阅读网页内容相绑定。

3.实现便捷卸载。除基本功能软件外，APP应当可便捷卸载，不得以空白名称、透明图标、后台隐藏等方式恶意阻挠用户卸载。

(二)优化服务体验

4.窗口关闭用户可选。开屏和弹窗信息窗口提供清晰有效的关闭按钮，保证用户可以便捷关闭；不得频繁弹窗干扰用户正常使用，或利用“全屏热力图”、高灵敏度“摇一摇”等易造成误触发的方式诱导用户操作。

5.服务事项提前告知。清晰明示产品功能权益及资费等内容，存在开通会员、收费等附加条件的，应当显著提示。未经明示，不得在提供产品服务过程中擅自添加限

## FireCrawl 

https://www.firecrawl.dev/

开源，支持本地部署
也有 API 可以直接使用

可以爬取单个页面，也可以爬虫整个页面的内容

和 Langchian, LLamaIndex, Dify 的支持比较好



In [4]:

# pip install firecrawl-py
from firecrawl.firecrawl import FirecrawlApp

from dotenv import load_dotenv, find_dotenv
import os 


app = FirecrawlApp(
    api_key = os.getenv("FIRECRAW_API_KEY")
)


target = "https://www.gov.cn/zhengce/zhengceku/2023-03/02/content_5744106.htm"
scrape_result = app.scrape_url(target)

In [5]:
scrape_result['metadata']

{'title': '工业和信息化部关于进一步提升移动互联网应用服务能力的通知_国务院部门文件_中国政府网',
 'description': '近年来，工业和信息化部大力推动提升移动互联网应用服务质量，切实维护用户合法权益，取得积极社会成效，但部分企业服务行为不规范、相关环节责任落实不到位等问题仍时有发生。为优化服务供给，改善用户体验，维护良好的信息消费环境，促进行业高质量发展，依据《个人信息保护法》《电信条例》《规范互联网信息服务市场秩序若干规定》《电信和互联网用户个人信息保护规定》等相关法律法规规章，现就有关事项通知如下。',
 'keywords': 'APP,信息,功能,服务,用户,',
 'ogImage': 'https://www.gov.cn/images/150.jpg',
 'ogLocaleAlternate': [],
 'sourceURL': 'https://www.gov.cn/zhengce/zhengceku/2023-03/02/content_5744106.htm',
 'pageStatusCode': 200}

In [6]:
print(scrape_result['markdown'])

[](javascript:void(0))
 

[![](https://www.gov.cn/images/gtrs_logo_lt.png)![](https://www.gov.cn/images/gtrs_logo_rt.png)](https://www.gov.cn/)

 

*   [首页](https://www.gov.cn/)
    
*   |
*   [简](https://www.gov.cn)
    
*   |
*   [繁](http://big5.www.gov.cn/gate/big5/www.gov.cn/)
    
*   |
*   [EN](http://english.www.gov.cn/)
    
*   |
*   [登录](javascript:void(0);)
    
*   [](javascript:void(0);)
    *   [个人中心](javascript:void(0);)
        
    *   [退出](javascript:void(0);)
        
*   |
*   [邮箱](https://mail.gov.cn/nsmail/index.php)
    
*   |
*   [无障碍](javascript:;)
    

[![](https://www.gov.cn/images/newlogo19ysp_lt.png)![](https://www.gov.cn/images/newlogo19ysp_rt.png)](https://www.gov.cn/)
 [EN](https://english.www.gov.cn/)
 [![](https://www.gov.cn/images/gtrs_newsearch.png) ![](https://www.gov.cn/images/gtrs_newshouqi.png)](javascript:;)

 

https://www.gov.cn/

[首页](https://www.gov.cn/ "首页")
 > [政策](https://www.gov.cn/zc/ "政策")
 > [国务院政策文件库](https://www.gov.cn/zhengce/zhen