In [1]:
# 已有的代码
import os

from dotenv import load_dotenv

load_dotenv()

# 加载其他环境变量
config_openai_api_key = os.environ.get('OPENAI_API_KEY')
config_openai_api_base = os.environ.get('OPENAI_API_BASE')
config_openai_proxy = os.environ.get('OPENAI_PROXY')
config_openai_model_name = os.environ.get('OPENAI_MODEL_NAME')
config_openai_temperature = os.environ.get('OPENAI_TEMPERATURE')
config_openai_max_tokens = os.environ.get('OPENAI_MAX_TOKENS')
config_openai_top_p = os.environ.get('OPENAI_TOP_P')

config_embed_batch_size = os.environ.get('EMBED_BATCH_SIZE')
config_embed_model_name = os.environ.get('EMBED_MODEL_NAME')
config_embed_mode = os.environ.get('EMBED_MODE')

config_node_parser_chunk_size = os.environ.get('NODE_PARSER_CHUNK_SIZE')
config_node_parser_chunk_overlap = os.environ.get('NODE_PARSER_CHUNK_OVERLAP')

config_service_context_num_output = os.environ.get('SERVICE_CONTEXT_NUM_OUTPUT')
config_service_context_context_window = os.environ.get('SERVICE_CONTEXT_CONTEXT_WINDOW')

config_graphsignal_name_test = os.environ.get('GRAPHSIGNAL_NAME_TEST')
config_graphsignal_name_prod = os.environ.get('GRAPHSIGNAL_NAME_PROD')
config_graphsignal_api_key = os.environ.get('GRAPHSIGNAL_API_KEY')

config_promptlayer_api_key = os.environ.get('PROMPTLAYER_API_KEY')

config_zep_api_url = os.environ.get('ZEP_API_URL')
config_zep_api_key = os.environ.get('ZEP_API_KEY')

config_milvus_collection_name = os.environ.get('MILVUS_COLLECTION_NAME')
config_milvus_host = os.environ.get('MILVUS_HOST')
config_milvus_port = os.environ.get('MILVUS_PORT')
config_milvus_user = os.environ.get('MILVUS_USER')
config_milvus_password = os.environ.get('MILVUS_PASSWORD')
config_milvus_db_name = os.environ.get('MILVUS_DB_NAME')

config_miniflux_base_url = os.environ.get('MINIFLUX_BASE_URL')
config_miniflux_api_key = os.environ.get('MINIFLUX_API_KEY')

In [2]:
import graphsignal

graphsignal.configure(
    api_key=config_graphsignal_api_key,
    deployment=config_graphsignal_name_test
)

In [3]:
from langchain.chat_models import ChatOpenAI
from langchain.llms import openai

# 配置llm模型
_temperature = float(os.environ.get('OPENAI_TEMPERATURE'))
_model_name = os.environ.get('OPENAI_MODEL_NAME')
_openai_api_key = os.environ.get('OPENAI_API_KEY')
_openai_proxy = os.environ.get('OPENAI_PROXY')
_openai_api_base = os.environ.get('OPENAI_API_BASE')
_max_tokens = int(os.environ.get('OPENAI_MAX_TOKENS'))

openai.api_key = os.environ["OPENAI_API_KEY"]


def load_llm(temperature, model_name, openai_api_key, openai_proxy, openai_api_base, max_tokens):
    openai.api_key = os.environ["OPENAI_API_KEY"]

    return ChatOpenAI(
        temperature=float(temperature),
        model_name=model_name,
        streaming=True,
        openai_api_key=openai_api_key,
        openai_proxy=openai_proxy,
        openai_api_base=openai_api_base,
        max_tokens=int(max_tokens),
    )


llm = load_llm(
    _temperature,
    _model_name,
    _openai_api_key,
    _openai_proxy,
    _openai_api_base,
    _max_tokens
)

In [4]:
from src.core.RSS import MinifluxAPI

miniflux_api = MinifluxAPI(
    base_url=config_miniflux_base_url,
    api_key=config_miniflux_api_key,
)
print(miniflux_api.is_ready())

Miniflux API is ready
True


In [5]:
resp_entries = miniflux_api.client.get_feed_entries(
    feed_id=2,
    order="published_at",
    direction="desc",
    limit=100,
)
entries = resp_entries['entries']


# 清楚掉entries中所有元素中value为空的键值对
def remove_empty_values(d):
    cleaned_dict = {}
    for key, value in d.items():
        if isinstance(value, dict):  # 如果值是字典，则递归处理
            value = remove_empty_values(value)
        if value:  # 只有非空值才会被添加到 cleaned_dict 中
            cleaned_dict[key] = value
    return cleaned_dict


# 清除每个 entry 中 value 为空的键值对
cleaned_entries = [remove_empty_values(entry) for entry in entries]

# 现在 cleaned_entries 包含没有空值的 entries
print(cleaned_entries)



In [6]:

from langchain.prompts.chat import ChatPromptTemplate
from typing import Dict, Any, List

from langchain.schema import BaseOutputParser, OutputParserException
import json


class JsonOutputParser(BaseOutputParser[Dict[str, Any]]):
    """OutputParser that parses LLMResult into a JSON object."""

    def parse(self, text: str) -> Dict[str, Any]:
        """Parse the LLM output as a JSON string and convert it into a dictionary."""
        try:
            # Check if { and } are not in the start/end position of the text
            if text[0] != "{" or text[-1] != "}":
                # Find the position of the first { and the last }
                first_brace = text.find('{')
                last_brace = text.rfind('}')

                # If both braces are found, extract the substring between them
                if first_brace != -1 and last_brace != -1:
                    text = text[first_brace:last_brace + 1]
            # Try to parse the JSON
            return json.loads(text)
        except json.JSONDecodeError as e:
            print("text:", text)
            raise OutputParserException(
                error=str(e),
                observation="The model output was not valid JSON.",
                llm_output=text,
                send_to_llm=True
            )

    @property
    def _type(self) -> str:
        """Return the output parser type for serialization."""
        return "json_parser"


template = """
<::Background::>
互联网上信息文章繁杂，我寻求一种高效的信息提取方式，想通过精炼的信息摘要来得到一篇长文想传递的价值观和知识点，需要你理解「Definition」后按照「OutputFormat」指定的 JSON 格式来输出对「Input」目标文本的信息提取和分享反馈，回复的内容风格遵循「ReplyStyle」，请在「OutputJSON」模块后面使用 **JSON** 格式进行输出。

<::Definition::>
<定义广告文章的标准>
1. 找出文章中是否存在「产品广告」，类似于：腾讯智影视。
2. 类似于 ChatGPT，Midjourney，DALL-E，NewBing，Google，Bard，Claude，Llama 等基座模型产品和 LangChain、LlamaIndex 工具则不为广告产品，你需要找除了他们之外的产品是否为广告产品。
产品推广性质明显：文章主要内容围绕一个具体的产品——腾讯智影进行展开，详细介绍了其功能和使用方法。通常来说，一篇纯粹分享技术或工具的文章不会这么详尽地描述一个特定产品的使用过程和优势。
链接引导：在文章中嵌入了产品的官方网站链接和其他相关链接，意图引导读者点击，这通常是广告或推销文章的常见做法。
优势展示：文章大量展示了产品的优势和亮点，如“AI技术”、“功能强大”、“基于云端处理”等，并未对产品的缺点或局限性进行真实的展示，这种单方面强调优点的写作风格倾向于广告文。
图文并茂的展示：使用了大量的图像来展示软件的功能和使用界面，增强了描述的可信度和吸引力。常规的内容创作可能不会如此精细地展示产品界面和操作过程。
指导性强：文章内容具有明显的指导性，详细介绍了如何使用该工具进行视频创作，步骤明确，这与一些教程类广告内容相符。
过于正面的评价：对于软件的评价过于正面，强调了许多优势，而在劣势部分却只字未提或者带过。真实的产品评测或分享通常会更加客观，会指出产品的不足之处或改进空间。
广告词汇使用：使用了一些广告常用的词汇和表达方式，如“强大的AI智能工具”、“功能强大”、“极大提升创作效率”等，这些都是广告中常用的表达方式。

对于类似的文章，我们可以从以下几个依据来判断其是否为广告文：

是否过分强调产品或服务的优点和优势。
是否包含引导读者采取特定行动（如点击链接、购买产品等）的内容或提示。
是否存在过于正面的、缺乏客观性的评价。
文章内容是否过分集中在某一产品或服务的展示和介绍上。
</>
<什么是金句？>
1. 金句是指文章中的一句话，它能够准确地表达出文章的主旨，或者是文章中的一个非共识的重要观点。
2. 金句是一个完整的句子，而不是一个短语或者一个词，它能够独立成为一个句子。需要以句号结尾，如果没有，请你在合适的地方结束句子并添加句号。
</>

<::ReplyStyle::>
1. 直言不讳，一针见血，不拖泥带水，信息粒度高，信息效率高，使用大白话讲清楚明白。
2. 只「Output」JSON文本，不要做其他超出JSON格式外的解释。
3. 请使用地道的中文来设置「positiveReply」。
4. 对所有字段内容中存在一些重要的信息或者概念时，使用markdown的加粗语法「**+目标文本+**」将目标修饰。
5. **不要在JSON中使用/t和/n等字符，压缩JSON为无美化格式。**

<::OutputFormat::>
{
	"title": "<根据文章整体内容重新设置一个客观的标题（客观用于减少那种标题党的噱头），区别于原来的标题，产品名——标题>",
	"keySentences": [
		"1. <提取出目标文章中的第一个金句>",
		"2. <提取出目标文章中的第二个金句>",
		"3. <提取出目标文章中的第三个金句>"
	],
	"summary": "<提取出整个目标文章中的信息摘要，不同/区别于「keySentences」>",
	"theme": "<提取出整个目标文章中的所围绕的一个主题是什么>",
	"usefulInformation": "<我作为大部分人，阅读这篇文章后，可以得到哪些认知层面的提升或者有价值的信息。>",
	"isAdvertisement": {
	    "BasisForThinkingCOT": "<如果「Input」中的「content」文章疑似为广告，请列出你认为它是广告的几个点，如果证据不足，那它就不算是广告。最后给出结论，该文章是否为广告文章？>",
	    "result": "<bool(true/false): 根据「BasisForThinkingCOT」判断结果，是否为广告文章，是则为true，否则为false>"
	}
}

<::Input::>
{{InputText}}

<::OutputJSON::>
"""


def parse_article(article: Dict[str, Any], prompt_template: str, model) -> Dict[str, Any]:
    prompt = ChatPromptTemplate.from_template(prompt_template, template_format="jinja2")
    chain = prompt | model | JsonOutputParser()
    _json = json.dumps(article)
    _resp = chain.invoke({"InputText": _json})
    return _resp


def print_parsed_article(original_article: Dict[str, Any], parsed_article: Dict[str, Any]):
    print("=========================================")
    print("「原标题」：" + original_article['title'])
    print("「客观标题」：" + parsed_article['title'])
    print("=========================================")
    print("「关键句」：")
    for key_sentence in parsed_article['keySentences']:
        print(key_sentence)
    print("「摘要」：" + parsed_article['summary'])
    print("「主题」：" + parsed_article['theme'])
    print("「有用信息」：" + parsed_article['usefulInformation'])
    print("「思考依据」：" + parsed_article['isAdvertisement']['BasisForThinkingCOT'])
    print("「是否广告」：" + str(parsed_article['isAdvertisement']['result']))


def batch_process_articles(articles: List[Dict[str, Any]], prompt_template: str, model):
    for article in articles:
        try:
            parsed_article = parse_article(article, prompt_template, model)
            print_parsed_article(article, parsed_article)
        except Exception as e:
            print("=========================================")
            print("「出错信息」：" + str(e))


model = ChatOpenAI(
    openai_api_base=config_openai_api_base,
    openai_api_key=config_openai_api_key,
    model_name=config_openai_model_name,
    openai_proxy=config_openai_proxy,
    temperature=float(config_openai_temperature),
)
batch_process_articles(cleaned_entries[30:], template, model)

「出错信息」：relay error (request id: 20231008160819564284778UPsLPZrn)
「原标题」：44.83%！ChatGPT的艺术风格识别是这个水平
「客观标题」：ChatGPT的艺术风格识别是这个水平
「关键句」：
1. ChatGPT的艺术风格识别：“一半一半”。具体来讲：对于风格强烈的绘画（比如立体主义、现实主义等）识别率高；对于风格不那么强烈或者比较细分的流派（比如风俗画、被误认为是洛可可）识别率低。
2. 有读者留言表示对这部分比较感兴趣，希望能更多信息；我自己对ChatGPT的艺术风格识别挺好奇，它到底能多大程度上理解不同风格的识别率。
3. ChatGPT的艺术风格识别的准确性只有26种，接近开头所说的“一半一半”的样子。
「摘要」：ChatGPT的艺术风格识别的准确性只有26种，接近开头所说的“一半一半”的样子。
「主题」：ChatGPT的艺术风格识别
「有用信息」：ChatGPT的艺术风格识别的准确性只有26种，接近开头所说的“一半一半”的样子。
「思考依据」：文章中没有明显的产品广告，没有提到具体的产品或服务。
「是否广告」：False
「原标题」：了解基于 Elasticsearch 的站内搜索，及其替代方案
「客观标题」：了解基于 Elasticsearch 的站内搜索，及其替代方案
「关键句」：
1. 对于一家公司而言，数据越来越多，如何快速去查找这些信息是一个很难的问题，在计算领域有一个专门的领域IR（Information Retrival）研究如何获取信息，做信息检索。在国内的如百度这样的搜索引擎也属于这个领域，要自己实现一个搜索引擎是非常难的，不过通过ElasticSearch就可以构建自己的站内搜索引擎。
2. 使用Elasticsearch进行站内搜索的好处之一是其能够提供高度准确和相关的搜索结果。它采用高级排序算法，以考虑到关键字相关性，文档受欢迎程度和用户行为等因素，以确保提供准确的搜索结果。
3. Elasticsearch的替代方案是有很多的。HelpLook可以说是Elasticsearch的很优秀的替代品之一。它为网站所有者提供了简化的设置和配置过程，使实施强大的站内搜索功能比以往更容易。
「摘要」：对于一家公司而言，数据越来越多，如何快速去查找这些信息是一个很难的问题，

KeyboardInterrupt: 