##  加载外部数据

In [36]:


# 将数据切分成
from dataclasses import dataclass, field
from math import ceil, floor
from enum import Enum
from typing import List, Literal, TypedDict, Optional
import tiktoken
import openai
import os
from dotenv import load_dotenv

class MessageRole(Enum):
    # chat role
    User = "user"
    System = "system"
    Asisstant = "asisstant"
    # inner role
    You = "you"
    YourComputer = "your computer"
class MessageType(Enum):
    AIResponse = "ai_response"
    ActionResults = "action_results"


# MessageRole = Literal["system", "user", "assistant"]
# MessageType = Literal["ai_response", "action_results"]


class MessageDict(TypedDict):
    role: MessageRole
    content: str
@dataclass
class Message:
    role: MessageRole
    content: str
    # TODO msg_type 的意义是什么？
    msg_type: Optional[MessageType] = None

    def raw(self) -> MessageDict:
        return {"role": self.role, "content": self.content}


def count_message_tokens(messages: List[Message], model: str = "gpt-3.5-turbo") -> int:
    encoding = tiktoken.encoding_for_model(model)
    tokens_per_message = 3
    tokens_per_name = 1
    if model.startswith("gpt-3.5"):
        tokens_per_message = 4
        tokens_per_name = -1
    num_tokens = 0
    for message in messages:
        num_tokens += tokens_per_message
        for key, value in message.raw().items():
            num_tokens += len(encoding.encode(value))
            if key == "name":
                num_tokens += tokens_per_name
    num_tokens += 3  # every reply is primed with <|start|> assistant<|message>
    return num_tokens


def count_string_tokens(string: str, model_name: str = "gpt-3.5-turbo") -> int:
    encoding = tiktoken.encoding_for_model(model_name)
    return len(encoding.encode(string))  


def get_completion_from_messages(messages, model='gpt-3.5-turbo', temperature=0, max_tokens=500):
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=temperature,
        max_tokens=max_tokens,
    )
    return response.choices[0].message["content"]

def create_msg(msg:str):
    
    messages = [
   
        {"role": "user", "content": msg},
    ]
    return messages

load_dotenv("../etc/dev/.env_new")
openai_api_key: str = os.getenv("OPENAI_API_KEY")
openai_api_key = "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"
print(openai_api_key)
openai.api_key = openai_api_key

msg = "北京是哪个国家的首都"
print(get_completion_from_messages(messages=create_msg(msg)))

print(f'count({msg}) ={count_string_tokens(msg)} ')


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
北京是中华人民共和国的首都。
count(北京是哪个国家的首都) =10 


## 加载KG

In [37]:
#############################行业分析 比较成功 #########################
# item
kg_template_file ='./kg/kg_industry_ana.txt'
kg_input_for_ai_file = 'output/600271.kg_industry_ana_in_{}.txt'
openai_out = 'output/600271.kg_industry_ana.openaiout.jsonl'
openai_raw_out = 'output/600271.kg_industry_ana.openaiout.raw'
# merge
kg_merge_template_file = "./kg/kg_industry_ana_merge.txt"
kg_merge_input_for_ai_file = 'output/600271.kg_industry_ana_in_merge.txt'
openai_merge_out = 'output/600271.kg_industry_ana.openaiout.merge.jsonl'
openai_merge_raw_out = 'output/600271.kg_industry_ana.openaiout.merge.raw'

# [
#     {"公司所处的行业是什么,公司从事哪些主要的什么业务": "公司所处的行业是数字政府、企业数字化产业，主要从事数字政府、企业财税服务、智慧业务和网信业务等主要业务。"},
#     {"行业基本情况、周期性特点": "行业基本情况良好，数字经济发展大潮，国家支持度高，市场需求旺盛。"},
#     {"公司所处的行业地位怎样？": "公司在所处行业具有一定的影响力和竞争力，拥有清晰的战略定位和明确的发展目标，具备完善的技术与产品体系，拥有国家和行业的完备顶级资质。"},
#     {"最近是否有新的和公司所处行业相关的的法律、行政法规、部门规章、行业政策？这些内容对行业有什么影响": "最近没有提及新的与公司所处行业相关的法律、行政法规、部门规章、行业政策。"},
#     {"管理层对行业格局和趋势的分析和展望是什么，公司在这种情况下的优势和劣势是什么": "内容中未提及管理层对行业格局和趋势的分析和展望，以及公司在这种情况下的优势和劣势。"}
# ]

# #############################公司竞争力分析 分片分析还行，但是汇总能力不行#####################
# kg_template_file ='./kg/kg_company_core.txt'
# kg_input_for_ai_file = 'output/600271.kg_company_core_in_{}.txt'
# openai_out = 'output/600271.kg_company_core.openaiout.jsonl'
# openai_raw_out = 'output/600271.kg_company_core.openaiout.raw'
# # merge
# kg_merge_template_file = "./kg/kg_company_core_merge.txt"
# kg_merge_input_for_ai_file = 'output/600271.kg_company_core_in_merge.txt'
# openai_merge_out = 'output/600271.kg_company_core.merge.jsonl'
# openai_merge_raw_out = 'output/600271.kg_company_core.openaiout.merge.raw'

# ############################ xxxxxx ##########################
# kg_template_file ='./kg/kg_operation.txt'
# kg_input_for_ai_file = 'output/600271.kg_company_core_in_{}.txt'
# openai_out = 'output/600271.kg_company_core.openaiout.jsonl'
# openai_raw_out = 'output/600271.kg_company_core.openaiout.raw'
# # merge
# kg_merge_template_file = "./kg/kg_operation_merge.txt"
# kg_merge_input_for_ai_file = 'output/600271.kg_company_core_in_merge.txt'
# openai_merge_out = 'output/600271.kg_company_core.merge.jsonl'
# openai_merge_raw_out = 'output/600271.kg_company_core.openaiout.merge.raw'
# [
#     {"经营业务事项分析": "公司在2022年取得了显著的经济增长，净利润、经济增加值等主要经济指标均有所提高。在数字政府领域和企业数字化领域取得了成果，成功完成了多个项目。"},
#     {"资产及负债事项分析": "公司的资产负债状况相对稳定，资产减值损失减少，投资收益有所下降。"},
#     {"重大资产和股权出售事项分析": "未提及具体的重大资产和股权出售事项。"},
#     {"投资事项分析": "公司完成了多项股权投资项目，以满足子公司业务发展需要。"},
#     {"主要控股参股公司分析": "公司的主要控股参股公司均已完成增资，包括新设的航信云享科技有限公司和现金增资等。"},
#     {"公司是否产生亏损或者是否处于未盈利的状态？原因是什么": "公司在2022年未产生亏损或处于未盈利状态，主要原因是防伪税控业务收入减少和其他业务收入减少。"}
# ]


# ########################### xxxxxx DONE ##########################
# kg_template_file ='./kg/kg_key_danger.txt'
# kg_merge_template_file = "./kg/kg_key_danger_merge.txt"

# #########################  xxxxx 最后的格式存在问题 ############################
# kg_template_file ='./kg/kg_danger.txt'
# kg_merge_template_file = "./kg/kg_danger_merge.txt"

In [38]:
import json
import time
import traceback
# kg_template_file = "./kg/kg_industry_ana.txt"
template_str = open(kg_template_file).read()
print(template_str)
import jinja2
environment = jinja2.Environment()
template = environment.from_string(template_str)

content = open('data.txt').read()
# print(content) 
template_count = count_string_tokens(template_str)
OPENAI_MAX_TOKEN = 10396 - 300
content_token_count = OPENAI_MAX_TOKEN - template_count - 700
# print(f"template count is {template_count}, conent_count is {content_token_count}")

from langchain.text_splitter import CharacterTextSplitter
text_spliter = CharacterTextSplitter(
        separator="\n", chunk_size=content_token_count, chunk_overlap=100, length_function=len
    )
# print(para)
tmp_para_list = text_spliter.split_text(content)
# print(len(tmp_para_list))
tmp_title_list = []
tmp_meta_list = []
index = 0
num_para = len(tmp_para_list)
max_count = -1
max_item = ''
# kg_input_for_ai_file = 'output/600271.kg_industry_ana_in_{}.txt'
# openai_out = 'output/600271.kg_industry_ana.openaiout.jsonl'
# openai_raw_out = 'output/600271.kg_industry_ana.openaiout.raw'
writer = open(openai_out, "w")
raw_writer = open(openai_raw_out, "w")

for para_item in tmp_para_list:
    item = template.render(content_fragment=para_item)
 
    
    
    token_count = count_string_tokens(item)
    #if token_count > 0 and token_count < OPENAI_MAX_TOKEN:
    if token_count > 0 :
        open(kg_input_for_ai_file.format(index), "w").write(item)
        
        data = get_completion_from_messages(create_msg(item), model='gpt-3.5-turbo-16k-0613')
        try:
            raw_writer.write(f"{index}\n\n" + data + "\n\n\n")
            data_str = json.loads(data)
            writer.write(json.dumps(data_str, ensure_ascii=False) + "\n")
            print(f"process done {index+1} / {num_para}")
            
        except Exception as e:
            traceback.print_exc()
            print(data)
            print(e)
            print(f"process wrong {index+1} / {num_para}")
        print("sleeping ...... 3 seconds")
        time.sleep(30)
        index += 1 
    if token_count > max_count:
        max_count = token_count
        max_item = item
        
# print(f"MAX TOKEN COUNT IS {max_count}")
# print(max_item)
print(len(tmp_para_list))
writer.close()

管理层分析包括：行业情况分析，公司的竞争力分析，业务经营情况分析，上下游的风险分析，其他风险分析。

请记住下面3个背景知识：
（1）行业周期分为4个阶段：
    1.1 导入阶段：行业刚刚起步，市场潜力被认可，投资和创新活动增加，市场规模扩大。
    1.2 成长阶段：行业蓬勃发展，市场竞争加剧，新的市场参与者进入，技术创新和业务模式创新推动行业增长。
    1.3 成熟阶段：市场规模达到饱和，市场参与者相对稳定，竞争加剧，行业增长趋缓，企业开始寻找差异化竞争策略。
    1.4 衰退阶段：市场增长放缓，市场饱和度高，竞争激烈，市场份额收缩，企业面临困境和萎缩。
（2）行业的基本情况，一般包括
    2.1 行业的整体规模，规模可以用需求量，用户量等来衡量。
    2.2 行业每年的增长情况
（3） 评估一个公司的行业地位时，可以考虑以下几个方面：
    3.1 市场份额. 公司市占率是怎样的，公司在全国/全球市场排名怎样。
    3.2 品牌价值：公司的品牌知名度。
    3.3 技术创新：公司在技术研发和创新方面的能力和成果。
    3.4 生产和供应链优势：公司在生产和供应链管理方面的效率和优势。
    3.5 客户关系：公司与客户之间的关系和口碑。
    3.6 渠道和分销网络：公司在产品销售和分销方面的覆盖范围和效率。
    3.7 资源和财务实力。公司是否有特殊的拍照，是否有国有，政府等背景。

我将在后续提供一个管理层分析的内容片断，内容片断被```和````包含。
请根据上述背景知识对内容片断进行仔细思考，从如下5个方面来总结一些公司所属的行业情况, 每个方面的总结字数控制在100字以内, 采用务实客观严谨的新闻风格总结，提供关键的数据,案例支撑, 不要有抽象的口号，模糊的表述，不要猜想一些可能性：

1. 公司所处的行业是什么,公司从事哪些主要的什么业务
2. 行业基本情况、周期性特点 (参考背景知识中的行业周期)
3. 公司所处的行业地位怎样？ (参考背景知识中的行业地位)
4. 最近是否有新的和公司所处行业相关的的法律、行政法规、部门规章、行业政策？这些内容对行业有什么影响
5. 管理层对行业格局和趋势的分析和展望是什么，公司在这种情况下的优势和劣势是什么

注意，所提供的内容并不能全部覆盖上述的5点内容。如果没有相

Traceback (most recent call last):
  File "/var/folders/zr/cpkncpv92lb5_gqvh60r_6b40000gn/T/ipykernel_7046/3773378500.py", line 50, in <module>
    data_str = json.loads(data)
  File "/Users/alchemy_taotaox/Local/mypython/anaconda39_2023/lib/python3.9/json/__init__.py", line 346, in loads
    return _default_decoder.decode(s)
  File "/Users/alchemy_taotaox/Local/mypython/anaconda39_2023/lib/python3.9/json/decoder.py", line 337, in decode
    obj, end = self.raw_decode(s, idx=_w(s, 0).end())
  File "/Users/alchemy_taotaox/Local/mypython/anaconda39_2023/lib/python3.9/json/decoder.py", line 353, in raw_decode
    obj, end = self.scan_once(s, idx)
json.decoder.JSONDecodeError: Unterminated string starting at: line 6 column 48 (char 462)


[
    {"公司所处的行业是什么,公司从事哪些主要的什么业务": "数字政府产业、企业数字化产业"},
    {"行业基本情况、周期性特点": "数字政府产业受国家支持，市场需求旺盛；企业数字化产业受数字经济发展和发票电子化改革推动，市场空间逐步打开"},
    {"公司所处的行业地位怎样？": "航天信息在数字政府产业和企业数字化产业具有一定的优势基础，是国家信息安全领域的主力军"},
    {"最近是否有新的和公司所处行业相关的的法律、行政法规、部门规章、行业政策？这些内容对行业有什么影响": "国家发布了关于加强数字政府建设和构建数据基础制度的指导意见，进一步明确了破除数据流通壁垒和增强数据可信流通水平的要求，为数字政府产业发展提供了支持；数字经济高速发展和发票电子化改革推动了企业数字化产业的发展，金税四期对企业全面、严格监管，促进大企业进行数字化转型与财税流程再造，为企业数字化业务带来发展机遇"},
    {"管理层对行业格局和趋势的分析和展望是什么，公司在这种情况下的优势和劣势是什么": "管理层认为，国家高度重视数字经济和数字化建设，为航天信息所从事的数字政府产业和企业数字化产业提供了良好的发展机遇；
Unterminated string starting at: line 6 column 48 (char 462)
process wrong 3 / 4
sleeping ...... 3 seconds


Traceback (most recent call last):
  File "/var/folders/zr/cpkncpv92lb5_gqvh60r_6b40000gn/T/ipykernel_7046/3773378500.py", line 50, in <module>
    data_str = json.loads(data)
  File "/Users/alchemy_taotaox/Local/mypython/anaconda39_2023/lib/python3.9/json/__init__.py", line 346, in loads
    return _default_decoder.decode(s)
  File "/Users/alchemy_taotaox/Local/mypython/anaconda39_2023/lib/python3.9/json/decoder.py", line 337, in decode
    obj, end = self.raw_decode(s, idx=_w(s, 0).end())
  File "/Users/alchemy_taotaox/Local/mypython/anaconda39_2023/lib/python3.9/json/decoder.py", line 353, in raw_decode
    obj, end = self.scan_once(s, idx)
json.decoder.JSONDecodeError: Unterminated string starting at: line 6 column 48 (char 382)


[
    {"公司所处的行业是什么,公司从事哪些主要的什么业务": "公司所处的行业是数字化产业，主要从事集成咨询、规划咨询、生产运营智能化、用户服务敏捷化、产业体系生态化等业务。"},
    {"行业基本情况、周期性特点": "数字化产业处于成长阶段，市场竞争加剧，新的市场参与者进入，技术创新和业务模式创新推动行业增长。"},
    {"公司所处的行业地位怎样？": "公司在数字化产业中具有一定的市场份额，拥有较高的品牌价值、技术创新能力和生产供应链优势。"},
    {"最近是否有新的和公司所处行业相关的的法律、行政法规、部门规章、行业政策？这些内容对行业有什么影响": "最近没有提到与公司所处行业相关的新法律、行政法规、部门规章、行业政策。"},
    {"管理层对行业格局和趋势的分析和展望是什么，公司在这种情况下的优势和劣势是什么": "管理层认为数字化产业发展处于转型升级关键时期，面临政策风险、市场竞争风险、宏观经济风险、改革与业务转型风险和科技创新风险。公司将加强顶层设计，完善营销组织体系，推动产业协同发展；强化风险合规管理，提升经营管理水平；加大
Unterminated string starting at: line 6 column 48 (char 382)
process wrong 4 / 4
sleeping ...... 3 seconds
4


In [39]:
## merge
lines = open(openai_out, 'r').readlines()
data = []
for line in lines:
    print(line)
    try:
        print(line)
        item_info_list = json.loads(line.strip())
    except:
        traceback.print_exc()
        continue
    result = {}
    for item in item_info_list:
        for key, value in item.items():
            if len(value) <20 and (value.find("未提及") != -1 or value.find("不适用") != -1):
                continue
            else:
                result[key] = value
                print(key, value)
    if len(result) > 0:
        data.append(result)
# openai_merge_out = 'output/600271.kg_industry_ana.openaiout.merge.jsonl'
# openai_merge_raw_out = 'output/600271.kg_industry_ana.openaiout.merge.raw'
writer = open(openai_merge_out, 'w')
raw_writer = open(openai_merge_raw_out, "w")
# kg_merge_template_file = "./kg/kg_industry_ana_merge.txt"
template_str = open(kg_merge_template_file).read()
import jinja2
environment = jinja2.Environment()
template = environment.from_string(template_str)
prompts = template.render(enumerate=enumerate, lines=data)
# print(prompts)
open(kg_merge_input_for_ai_file, 'w').write(prompts)
print(count_string_tokens(prompts))

data = get_completion_from_messages(create_msg(prompts), model='gpt-3.5-turbo-16k-0613')
try:
    print(data)
    raw_writer.write(f"{index}\n\n" + data + "\n\n\n")
    raw_writer.close()
    data_str = json.loads(data)
    writer.write(json.dumps(data_str, ensure_ascii=False) + "\n")

            
except Exception as e:
    traceback.print_exc()
    print(e)
    print(f"process wrong {index+1} / {num_para}")

[{"公司所处的行业是什么,公司从事哪些主要的什么业务": "公司所处的行业是数字政府、企业数字化产业，主要从事数字政府、企业财税服务、智慧业务和网信业务等主要业务。"}, {"行业基本情况、周期性特点": "行业基本情况良好，数字经济发展大潮，国家支持度高，市场需求旺盛。"}, {"公司所处的行业地位怎样？": "公司在所处行业具有一定的影响力和竞争力，拥有清晰的战略定位和明确的发展目标，具备完善的技术与产品体系，拥有国家和行业的完备顶级资质。"}, {"最近是否有新的和公司所处行业相关的的法律、行政法规、部门规章、行业政策？这些内容对行业有什么影响": "最近没有提及新的与公司所处行业相关的法律、行政法规、部门规章、行业政策。"}, {"管理层对行业格局和趋势的分析和展望是什么，公司在这种情况下的优势和劣势是什么": "管理层对行业格局和趋势的分析和展望没有提及。"}]

[{"公司所处的行业是什么,公司从事哪些主要的什么业务": "公司所处的行业是数字政府、企业数字化产业，主要从事数字政府、企业财税服务、智慧业务和网信业务等主要业务。"}, {"行业基本情况、周期性特点": "行业基本情况良好，数字经济发展大潮，国家支持度高，市场需求旺盛。"}, {"公司所处的行业地位怎样？": "公司在所处行业具有一定的影响力和竞争力，拥有清晰的战略定位和明确的发展目标，具备完善的技术与产品体系，拥有国家和行业的完备顶级资质。"}, {"最近是否有新的和公司所处行业相关的的法律、行政法规、部门规章、行业政策？这些内容对行业有什么影响": "最近没有提及新的与公司所处行业相关的法律、行政法规、部门规章、行业政策。"}, {"管理层对行业格局和趋势的分析和展望是什么，公司在这种情况下的优势和劣势是什么": "管理层对行业格局和趋势的分析和展望没有提及。"}]

公司所处的行业是什么,公司从事哪些主要的什么业务 公司所处的行业是数字政府、企业数字化产业，主要从事数字政府、企业财税服务、智慧业务和网信业务等主要业务。
行业基本情况、周期性特点 行业基本情况良好，数字经济发展大潮，国家支持度高，市场需求旺盛。
公司所处的行业地位怎样？ 公司在所处行业具有一定的影响力和竞争力，拥有清晰的战略定位和明确的发展目标，具备完善的技术与产品体系，拥有国家和行业的完备顶级资质。
最近是否有新的和

## 报告生成