##  加载外部数据

In [75]:


# 将数据切分成
from dataclasses import dataclass, field
from math import ceil, floor
from enum import Enum
from typing import List, Literal, TypedDict, Optional
import tiktoken
import openai
import os
from dotenv import load_dotenv

class MessageRole(Enum):
    # chat role
    User = "user"
    System = "system"
    Asisstant = "asisstant"
    # inner role
    You = "you"
    YourComputer = "your computer"
class MessageType(Enum):
    AIResponse = "ai_response"
    ActionResults = "action_results"


# MessageRole = Literal["system", "user", "assistant"]
# MessageType = Literal["ai_response", "action_results"]


class MessageDict(TypedDict):
    role: MessageRole
    content: str
@dataclass
class Message:
    role: MessageRole
    content: str
    # TODO msg_type 的意义是什么？
    msg_type: Optional[MessageType] = None

    def raw(self) -> MessageDict:
        return {"role": self.role, "content": self.content}


def count_message_tokens(messages: List[Message], model: str = "gpt-3.5-turbo") -> int:
    encoding = tiktoken.encoding_for_model(model)
    tokens_per_message = 3
    tokens_per_name = 1
    if model.startswith("gpt-3.5"):
        tokens_per_message = 4
        tokens_per_name = -1
    num_tokens = 0
    for message in messages:
        num_tokens += tokens_per_message
        for key, value in message.raw().items():
            num_tokens += len(encoding.encode(value))
            if key == "name":
                num_tokens += tokens_per_name
    num_tokens += 3  # every reply is primed with <|start|> assistant<|message>
    return num_tokens


def count_string_tokens(string: str, model_name: str = "gpt-3.5-turbo") -> int:
    encoding = tiktoken.encoding_for_model(model_name)
    return len(encoding.encode(string))  


def get_completion_from_messages(messages, model='gpt-3.5-turbo', temperature=0, max_tokens=2000):
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=temperature,
        max_tokens=max_tokens,
    )
    return response.choices[0].message["content"]

def create_msg(msg:str):
    
    messages = [
   
        {"role": "user", "content": msg},
    ]
    return messages

load_dotenv("../etc/dev/.env_new")
openai_api_key: str = os.getenv("OPENAI_API_KEY")
openai_api_key = "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"
openai_api_key = "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"
print(openai_api_key)
openai.api_key = openai_api_key

msg = "北京是哪个国家的首都"
print(get_completion_from_messages(messages=create_msg(msg)))

print(f'count({msg}) ={count_string_tokens(msg)} ')


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
北京是中华人民共和国的首都。
count(北京是哪个国家的首都) =10 


## 加载KG

In [76]:
#############################行业分析 重点都有了DONE #########################
# item
kg_template_file ='./kg_un_formal/kg_industry_ana.txt'
kg_input_for_ai_file = 'output/600271.kg_industry_ana_in_{}.txt'
openai_out = 'output/600271.kg_industry_ana.openaiout.jsonl'
openai_raw_out = 'output/600271.kg_industry_ana.openaiout.raw'
# merge
kg_merge_template_file = "./kg_un_formal/kg_industry_ana_merge.txt"
kg_merge_input_for_ai_file = 'output/600271.kg_industry_ana_in_merge.txt'
openai_merge_out = 'output/600271.kg_industry_ana.openaiout.merge.jsonl'
openai_merge_raw_out = 'output/600271.kg_industry_ana.openaiout.merge.raw'

# [
#     {"公司所处的行业是什么,公司从事哪些主要的什么业务": "公司所处的行业是数字政府、企业数字化产业，主要从事数字政府、企业财税服务、智慧业务和网信业务等主要业务。"},
#     {"行业基本情况、周期性特点": "行业基本情况良好，数字经济发展大潮，国家支持度高，市场需求旺盛。"},
#     {"公司所处的行业地位怎样？": "公司在所处行业具有一定的影响力和竞争力，拥有清晰的战略定位和明确的发展目标，具备完善的技术与产品体系，拥有国家和行业的完备顶级资质。"},
#     {"最近是否有新的和公司所处行业相关的的法律、行政法规、部门规章、行业政策？这些内容对行业有什么影响": "最近没有提及新的与公司所处行业相关的法律、行政法规、部门规章、行业政策。"},
#     {"管理层对行业格局和趋势的分析和展望是什么，公司在这种情况下的优势和劣势是什么": "内容中未提及管理层对行业格局和趋势的分析和展望，以及公司在这种情况下的优势和劣势。"}
# ]

#############################公司竞争力分析 分片分析还行，汇总能力还是不行 DONE#####################
kg_template_file ='./kg_un_formal/kg_company_core.txt'
kg_input_for_ai_file = 'output/600271.kg_company_core_in_{}.txt'
openai_out = 'output/600271.kg_company_core.openaiout.jsonl'
openai_raw_out = 'output/600271.kg_company_core.openaiout.raw'
# merge
kg_merge_template_file = "./kg_un_formal/kg_company_core_merge.txt"
kg_merge_input_for_ai_file = 'output/600271.kg_company_core_in_merge.txt'
openai_merge_out = 'output/600271.kg_company_core.merge.jsonl'
openai_merge_raw_out = 'output/600271.kg_company_core.openaiout.merge.raw'

# ############################ 经营总结 要点似乎都在，都说的过去 ##########################
kg_template_file ='./kg_un_formal/kg_operation.txt'
kg_input_for_ai_file = 'output/600271.kg_company_core_in_{}.txt'
openai_out = 'output/600271.kg_company_core.openaiout.jsonl'
openai_raw_out = 'output/600271.kg_company_core.openaiout.raw'
# merge
kg_merge_template_file = "./kg_un_formal/kg_operation_merge.txt"
kg_merge_input_for_ai_file = 'output/600271.kg_company_core_in_merge.txt'
openai_merge_out = 'output/600271.kg_operation.merge.jsonl'
openai_merge_raw_out = 'output/600271.kg_operation.openaiout.merge.raw'



########################## 上下游风险 还行 ##########################
kg_template_file ='./kg_un_formal/kg_key_danger.txt'
kg_merge_template_file = "./kg_un_formal/kg_key_danger_merge.txt"
openai_merge_out = 'output/600271.kg_key_danger.merge.jsonl'
openai_merge_raw_out = 'output/600271.kg_key_danger.openaiout.merge.raw'

########################  其他风险 比较简洁 ############################
kg_template_file ='./kg_un_formal/kg_danger.txt'
kg_merge_template_file = "./kg_un_formal/kg_danger_merge.txt"
openai_merge_out = 'output/600271.kg_danger.merge.jsonl'
openai_merge_raw_out = 'output/600271.kg_danger.openaiout.merge.raw'

In [77]:
import json
import time
import traceback
# kg_template_file = "./kg/kg_industry_ana.txt"
template_str = open(kg_template_file).read()
print(template_str)
import jinja2
environment = jinja2.Environment()
template = environment.from_string(template_str)

content = open('data.txt').read()
# print(content) 
template_count = count_string_tokens(template_str)
OPENAI_MAX_TOKEN = 10396 - 300
content_token_count = OPENAI_MAX_TOKEN - template_count - 700
# print(f"template count is {template_count}, conent_count is {content_token_count}")

from langchain.text_splitter import CharacterTextSplitter
text_spliter = CharacterTextSplitter(
        separator="\n", chunk_size=content_token_count, chunk_overlap=100, length_function=len
    )
# print(para)
tmp_para_list = text_spliter.split_text(content)
# print(len(tmp_para_list))
tmp_title_list = []
tmp_meta_list = []
index = 0
num_para = len(tmp_para_list)
max_count = -1
max_item = ''
# kg_input_for_ai_file = 'output/600271.kg_industry_ana_in_{}.txt'
# openai_out = 'output/600271.kg_industry_ana.openaiout.jsonl'
# openai_raw_out = 'output/600271.kg_industry_ana.openaiout.raw'
writer = open(openai_out, "w")
raw_writer = open(openai_raw_out, "w")

for para_item in tmp_para_list:
    item = template.render(content_fragment=para_item)
 
    
    
    token_count = count_string_tokens(item)
    #if token_count > 0 and token_count < OPENAI_MAX_TOKEN:
    if token_count > 0 :
        open(kg_input_for_ai_file.format(index), "w").write(item)
        
        data = get_completion_from_messages(create_msg(item), model='gpt-3.5-turbo-16k-0613')
        try:
            raw_writer.write(f"{index}\n\n" + data + "\n\n\n")
            
            writer.write(json.dumps({"data": data}, ensure_ascii=False) + "\n")
            print(f"process done {index+1} / {num_para}")
            
        except Exception as e:
            traceback.print_exc()
            print(data)
            print(e)
            print(f"process wrong {index+1} / {num_para}")
        print("sleeping ...... 3 seconds")
        time.sleep(30)
        index += 1 
    if token_count > max_count:
        max_count = token_count
        max_item = item
        
# print(f"MAX TOKEN COUNT IS {max_count}")
# print(max_item)
print(len(tmp_para_list))
writer.close()

你是一个总结分析的专家，你要识别内容中务虚的内容，不要将这些内容放置在总结分析报告中。 
例如：“加大研发投入、优化业务结构、提升整体竞争力、拓展境外市场、调整业务结构
、加强技术创新、提升产品质量和服务水平、加强市场调研、优化产品和服务、灵活调整经营策略、加强研发投入、推动技术成果管理、加强国家级和省部级项目申报与建设、加快构建适应数字经济时代的市场营销体系、提升资本运作能力、
持续加强队伍建设、强化风险合规管理、守稳守好大安全工作红线底线、加强顶层设计、完善营销组织体系建设、统筹国际、国内产业资源、完善产品体系建设、加强品牌建设与管理、强化营销队伍建设、推动产业协同发展等措施” 
每一个词组都是口号, 不具体。不能放置到总结分析中。

请记住下面3个背景知识：
  1. 供应商集中风险：
     1.1 单一供应源风险：如果公司主要依赖一个或少数几个供应商，那么任何影响这些供应商的问题，如质量问题，生产中断，价格波动或破产，都可能对公司的运营产生重大影响。
     1.2 议价能力下降：公司可能会因依赖少数供应商而失去谈判能力，导致可能无法获得最优的价格和条件。
     1.3 创新能力下降：如果只依赖特定的供应商，公司可能会错过其他供应商可能提供的创新产品或服务。
  2. 客户集中风险：
     2.1 收入风险：如果公司的收入主要依赖于少数几个大客户，那么任何影响这些客户的问题，如财务困难，业务调整或破产，都可能对公司的销售和利润产生重大影响。
     2.2 客户流失风险：如果主要客户转向竞争对手或选择不再使用公司的产品或服务，公司的收入可能会大幅下降。
     2.3 议价能力下降：如果公司主要依赖少数几个大客户，这些客户可能会有更大的谈判力来要求更低的价格和更优的条款。
  3. 关联公司作为供应商或客户可能带来冲突利益、法规、审计、信誉和市场风险。这些风险可能对公司的财务状况、合规性、声誉和业务多样性产生影响。

  我将在后续提供一个管理层分析报告的内容片断，内容片断被```和````包含。
请将上述背景知识作为总结和分析的原则， 对内容片断进行仔细思考，从如下4个方面来总结和分析公司的经营情况
 每个方面的总结字数控制在50字以内, 采用务实客观严谨的新闻风格总结，提供关键的数据,案例支撑, 不要有抽象的口号，模糊的表述，不要猜想一

process done 1 / 5
sleeping ...... 3 seconds
process done 2 / 5
sleeping ...... 3 seconds
process done 3 / 5
sleeping ...... 3 seconds
process done 4 / 5
sleeping ...... 3 seconds
process done 5 / 5
sleeping ...... 3 seconds
5


In [78]:
## merge
lines = open(openai_out, 'r').readlines()
data = []
for line in lines:
    print(line)
    try:
        print(line)
        item_info = json.loads(line.strip())
        data.append(item_info['data'])
    except:
        traceback.print_exc()
        continue
    # result = {}
    # for item in item_info_list:
    #     for key, value in item.items():
    #         if len(value) <20 and (value.find("未提及") != -1 or value.find("不适用") != -1):
    #             continue
    #         else:
    #             result[key] = value
    #             print(key, value)
    # if len(result) > 0:
        # data.append(result)
# openai_merge_out = 'output/600271.kg_industry_ana.openaiout.merge.jsonl'
# openai_merge_raw_out = 'output/600271.kg_industry_ana.openaiout.merge.raw'
writer = open(openai_merge_out, 'w')
raw_writer = open(openai_merge_raw_out, "w")
# kg_merge_template_file = "./kg/kg_industry_ana_merge.txt"
template_str = open(kg_merge_template_file).read()
import jinja2
environment = jinja2.Environment()
template = environment.from_string(template_str)
prompts = template.render(enumerate=enumerate, lines=data)
# print(prompts)
open(kg_merge_input_for_ai_file, 'w').write(prompts)
print(count_string_tokens(prompts))

data = get_completion_from_messages(create_msg(prompts), model='gpt-3.5-turbo-16k-0613')
try:
    print(data)
    raw_writer.write(f"{index}\n\n" + data + "\n\n\n")
    raw_writer.close()
    # data_str = json.loads(data)
    writer.write(json.dumps({"data": data }, ensure_ascii=False) + "\n")

            
except Exception as e:
    traceback.print_exc()
    print(e)
    print(f"process wrong {index+1} / {num_para}")
writer.close()

{"data": "1. 供应商是否比较集中，如果有，管理层对此风险的解释是怎样的\n   未提及相关内容，暂不分析。\n\n2. 客户是否比较集中，如果有，管理层对此风险的解释是怎样的\n   未提及相关内容，暂不分析。\n\n3. 头部客户是否有关联公司,如果有，管理层对此风险的解释是怎样的\n   未提及相关内容，暂不分析。\n\n4. 头部供应商是否有关联公司,如果有，管理层对此风险的解释是怎样的\n   未提及相关内容，暂不分析。"}

{"data": "1. 供应商是否比较集中，如果有，管理层对此风险的解释是怎样的\n   未提及相关内容，暂不分析。\n\n2. 客户是否比较集中，如果有，管理层对此风险的解释是怎样的\n   未提及相关内容，暂不分析。\n\n3. 头部客户是否有关联公司,如果有，管理层对此风险的解释是怎样的\n   未提及相关内容，暂不分析。\n\n4. 头部供应商是否有关联公司,如果有，管理层对此风险的解释是怎样的\n   未提及相关内容，暂不分析。"}

{"data": "1. 供应商是否比较集中，如果有，管理层对此风险的解释是怎样的\n   公司前五名供应商采购额占年度采购总额的24.23%，其中无关联方采购额占比为100%。管理层未提及供应商集中风险的解释。\n\n2. 客户是否比较集中，如果有，管理层对此风险的解释是怎样的\n   公司前五名客户销售额占年度销售总额的31.48%，其中无关联方销售额占比为0%。管理层未提及客户集中风险的解释。\n\n3. 头部客户是否有关联公司，如果有，管理层对此风险的解释是怎样的\n   管理层未提及头部客户是否有关联公司的情况。\n\n4. 头部供应商是否有关联公司，如果有，管理层对此风险的解释是怎样的\n   管理层未提及头部供应商是否有关联公司的情况。"}

{"data": "1. 供应商是否比较集中，如果有，管理层对此风险的解释是怎样的\n   公司前五名供应商采购额占年度采购总额的24.23%，其中无关联方采购额占比为100%。管理层未提及供应商集中风险的解释。\n\n2. 客户是否比较集中，如果有，管理层对此风险的解释是怎样的\n   公司前五名客户销售额占年度销售总额的31.48%，其中无关联方销售额占比为0%。管理层未提及客户集中风险的解释。\n\n3. 头部客户是否有

## 报告生成