In [2]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

llm = ChatOpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio", max_tokens=1280, temperature=0.7, top_p=0.9)

prompt = ChatPromptTemplate.from_messages([("user", 
'''
请你扮演一名专业的行业分析师，你应该利用你的行业知识和其他相关因素提供专业的分析。

请你给出以下行业以下每个主题各3至5个关键词，关键词应包括行业术语、概念或趋势，保证关键词的准确、具体、精炼性和与主题的相关度，逻辑连贯，内容低重复度、有深度。避免使用品牌名称，关键词要易搜索和理解。

行业：{input}

主题：###
1. 行业定义
2. 行业分类
3. 行业特征
4. 发展历程
5. 产业链分析
6. 市场规模
7. 政策分析
8. 竞争格局

使用以下格式：
1. <主题1>
- <关键词1>
- <关键词2>
- <关键词3>
- <关键词4>
- <关键词5>

2. <主题2>
- <关键词1>
..
..
8. ..
###

样例：
###
1. 行业定义
- 水域资源管理
- 养殖技术进步
- 水产品质量监控
- 海洋生态环境保护
- 农水联动模式

2. 行业分类
- 鲤鱼养殖
- 虾蟹养殖
- 牛蛙业
- 海参养殖
- 浮游生物养殖

3. 行业特征
- 规模化生产
- 生物多样性
- 投入成本高
- 市场周期性强
- 环保压力大

4. 发展历程
- 人工饲料
- 智能水产养殖
- 全球化市场拓展
- 产业链整合
- 技术驱动革新

5. 产业链分析
- 种苗供应
- 饲料加工
- 畜牧用地租赁
- 养殖基地建设
- 销售和分销

6. 市场规模
- 全球水产养殖产量
- 主要消费国市场
- 国内市场规模与增长
- 年度报告与预测
- 盈利能力分析

7. 政策分析
- 环保政策影响
- 信贷和补贴支持
- 农业补贴调整
- 水产养殖许可证制度
- 全球贸易法规变动

8. 竞争格局
- 主要企业竞争态势
- 新进入者威胁
- 品牌差异化策略
- 外资并购与合作
- 行业内并购案例分析
###
'''
)])

str_output_parser = StrOutputParser()

chain = prompt | llm | str_output_parser

input = "智能化采矿"

reply = chain.invoke({"input": input})

print(reply)

1. 行业定义
- 智能化采矿技术
- 自动化设备应用
- 无人矿场开发
- 数据驱动决策
- 矿产资源回收

2. 行业分类
- 地下开采
- 露天开采
- 海底采矿
- 原材料提取
- 再生能源矿物挖掘

3. 行业特征
- 技术密集型产业
- 低耗能高效率
- 绿色环保发展
- 资源可持续利用
- 高度数字化集成

4. 发展历程
- 手工开采阶段
- 机械化革命
- 自动化系统引入
- 智能化时代开启
- 未来科技展望与趋势

5. 产业链分析
- 矿产勘探与评估
- 设备制造及销售
- 原材料运输与储存
- 采矿操作与管理
- 废物处理与再利用

6. 市场规模
- 全球矿产资源消费量
- 主要国家和地区需求
- 新兴市场增长潜力
- 绿色能源对矿物依赖度
- 技术创新推动行业增长

7. 政策分析
- 环保法规与采矿许可
- 资源税制与补贴政策
- 国际贸易政策影响
- 土地使用权管理规定
- 法律框架支持可持续发展

8. 竞争格局
- 大型矿业公司主导地位
- 小型企业技术创新挑战
- 全球并购与战略联盟
- 新兴市场参与者崛起
- 供应链优化竞争策略分析


In [5]:
import re

lines = reply.strip().split("\n")
industry_keywords = []
current_topic = ""
topics = {}
keywords = []

for line in lines:
    if re.match(r"\d+\.\s.*", line):  # 1. 行业定义
        current_topic = line.split(". ")[1].strip()
        topics[current_topic] = []
    elif line.startswith("-"):        # - 行业关键词
        keyword = line[1:].strip()
        topics[current_topic].append(keyword)
        industry_keywords.append((current_topic, keyword))
        keywords.append(keyword)

# 打印行业关键词组合
# for topic, keyword in industry_keywords:
#     print(f"{input} {keyword}")

for keyword in keywords:
    print(f"{keyword}")

智能化采矿技术
自动化设备应用
无人矿场开发
数据驱动决策
矿产资源回收
地下开采
露天开采
海底采矿
原材料提取
再生能源矿物挖掘
技术密集型产业
低耗能高效率
绿色环保发展
资源可持续利用
高度数字化集成
手工开采阶段
机械化革命
自动化系统引入
智能化时代开启
未来科技展望与趋势
矿产勘探与评估
设备制造及销售
原材料运输与储存
采矿操作与管理
废物处理与再利用
全球矿产资源消费量
主要国家和地区需求
新兴市场增长潜力
绿色能源对矿物依赖度
技术创新推动行业增长
环保法规与采矿许可
资源税制与补贴政策
国际贸易政策影响
土地使用权管理规定
法律框架支持可持续发展
大型矿业公司主导地位
小型企业技术创新挑战
全球并购与战略联盟
新兴市场参与者崛起
供应链优化竞争策略分析


In [22]:
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import random
from time import sleep
import re
import chardet

def remove_ads_by_tag(soup):
    # 常见的广告类名或ID
    tag_keywords = ['next', 'post_top_tie', 'jubao', 'search', 'comment', 'share', 'nav', 'ad', 'recommend', 'tool', 'advertisement', 'ads', 'sponsored', 'promo', 'banner', 'adsense', 'aside', 'footer', 'header', 'side-bar', 'column', 'sidebar', 'list', 'sideColumn', 'side']

    pattern = re.compile('|'.join(tag_keywords), re.IGNORECASE)

    tags = soup.find_all(class_=pattern)
    for tag in tags:
        tag.decompose()

    tags = soup.find_all(id=pattern)
    for tag in tags:
        tag.decompose()

    # 删除头尾侧边栏
    for iframe in soup.find_all('iframe'):
        iframe.decompose()
    for aside in soup.find_all('aside'):
        aside.decompose()
    for header in soup.find_all('header'):
        header.decompose()
    for footer in soup.find_all('footer'):
        footer.decompose()

    return soup

def remove_ads_by_text(soup):
    ad_keywords = ['优惠券', '阅读原文', '扫一扫', '限时抢购', '免费试用', '立即注册', '超值折扣', '注册有礼', '免费领取', '立即购买', '关注该公众号', '微信扫码', '分享至', '下载(.*?)客户端', '返回(.*?)首页', '阅读下一篇', '特别声明：以上内容', 'Notice: The content above', '打开(.*?)体验更佳', '热搜', '打开(.*?)新闻', '查看精彩图片']
    for keyword in ad_keywords:
        for ad in soup.find_all(string=re.compile(keyword)):
            parent = ad.find_parent()
            if parent:
                parent.decompose()

    return soup

def clean_html(html_content):
    # 使用BeautifulSoup解析HTML
    soup = BeautifulSoup(html_content, 'lxml')
    soup = remove_ads_by_tag(soup)
    soup = remove_ads_by_text(soup)
    
    # 去除脚本和样式
    for script in soup(['script', 'style']):
        script.decompose()

    # 插入换行符
    for tag in soup.find_all(['p', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'li', 'tr', 'div', 'br', 'hr']):
        tag.insert_after('\n')

    # 提取文本
    text = soup.get_text()

    # 正则表达式清理多余空格空行
    text = re.sub(r'\n+', '\n', text)
    text = re.sub(r'\s{2,}', ' ', text)

    return text

ua = UserAgent()
headers = {
    'accept': '*/*',
    'accept-encoding': 'gzip, deflate, br, zstd',
    'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
    'connection': 'keep-alive',
    #'cookie': 'PSTM=1710688297; BD_UPN=12314753; BIDUPSID=F67F8916CCCEBCD73956847F5D7978CC; BDUSS=jd6TEVuNlN6akQxVmo1dFpUcjkySEQwYmhqa2dVeXBZWHotQ3RvZGNqRUtWU0ptSVFBQUFBJCQAAAAAAAAAAAEAAABTgqghYWxleDIwMDM3MzEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAArI-mUKyPplV; BDUSS_BFESS=jd6TEVuNlN6akQxVmo1dFpUcjkySEQwYmhqa2dVeXBZWHotQ3RvZGNqRUtWU0ptSVFBQUFBJCQAAAAAAAAAAAEAAABTgqghYWxleDIwMDM3MzEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAArI-mUKyPplV; BAIDUID=FD799B193B0AEF60B5A1A9C9C6EDB6A9:SL=0:NR=10:FG=1; newlogin=1; H_WISE_SIDS_BFESS=60360_60453_60467_60492_60498_60552_60564; H_PS_PSSID=60360_60564; H_WISE_SIDS=60360_60564; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; ab_sr=1.0.1_MDA0Njk3MzdmMWQ4ZjkyZTBlN2E4YjY0NmVjNTAzZWY5YjdmMmIzYjhmMTRhYTAxNjQ3MmE1NmQ4ODg3YTlhNDViODZlNDkyODJhMWE5NWZiZThiMWQxZmUwZGEwNWVlYzM1MzUwMzgwZTdlMTQ5N2FmY2Q0MzFiZjM3NTZjYjQ0Mzc4NTczZjcxNzZkMTIyNWI1OTU5OWVlZGUyODA1YQ==; sug=3; sugstore=0; ORIGIN=0; bdime=0; BA_HECTOR=2lal810k2g0ga42g2501850g845es61jb0q6o1u; delPer=0; BD_CK_SAM=1; PSINO=3; ZFY=juQ5OsocA2UxNHl:BsYgz1ZK8IU76I:AkzN6Zq:A5D2stw:C; BAIDUID_BFESS=FD799B193B0AEF60B5A1A9C9C6EDB6A9:SL=0:NR=10:FG=1; COOKIE_SESSION=242939_0_7_7_4_21_1_2_5_7_1_6_168352_0_0_0_1722497720_0_1722825515%7C9%231532_27_1722233001%7C9; baikeVisitId=bfb245aa-2485-4ca3-bcad-f00e7e4cd8c3; H_PS_645EC=b986QSaUEyz7RSOXAdapMdMhqzQGeF5ck1HMI0tjW4XAHp7jLLVZfnW7E7k; BDSVRTM=173',
    'User-Agent': ua.edge
}

count = 0
for topic, keyword in industry_keywords:
    if count == 2:
        break
    count+=1

    keyword_combination = f"{input} {keyword}"

    response = requests.get(f'https://www.baidu.com/s?wd={keyword_combination}&pn={0}', headers=headers)

    html = response.text
    soup = BeautifulSoup(html, 'html.parser')

    content_left = soup.find('div', attrs={'id': 'content_left'})
    all_divs = content_left.find_all('div', attrs={'mu': True})
    links = [div.get('mu') for div in all_divs]

    count1 = 0
    for link in links:
        if count1 == 1:
            break
        count1 += 1

        print(keyword_combination, link)
        

        try:
            # 获取html的文本内容
            response2 = requests.get(link, headers=headers)

            response2.raise_for_status()  # 检查请求是否成功

            # 检测编码
            encoding_result = chardet.detect(response2.content)
            encoding = encoding_result['encoding']
            response2.encoding = encoding
            if re.findall(r'weixin', link):
                response.encoding = 'utf-8'
                
            # 获取网页标题
            soup = BeautifulSoup(response.text, 'html.parser')
            if soup.title and soup.title.string:
                title = soup.title.string
                if title == "百度安全验证":
                    print("Error: Baidu Security Verification")
                    break

            text = clean_html(response2.text)
            print(text)
            
            prompt2 = ChatPromptTemplate.from_messages([("user", 
'''
请你从以下文章中提取与{input}相关的信息，并撰写一个自然段的简介，字数不超过300字。请注意，文章内容可能包含广告、推荐、导航栏等无关信息，请忽略这些部分，只提取与{input}及其相关的有效信息。然后，从提供的关键词中选择最多8个与内容相关的关键词进行分类，并按照指定格式列出。


文章：
{text}


可选关键词：
{keywords}


使用以下格式：

标题：
简介：（字数不超过300字）

关键词：关键词1，关键词2，...，关键词n（分类，从可选关键词中选择1-8个）

''')])
            str_output_parser = StrOutputParser()

            chain2 = prompt2 | llm | str_output_parser

            reply2 = chain2.invoke({"input": input, "text": text, "keywords": keywords})

            print(reply2)

        except requests.exceptions.RequestException as e:
            print(f"Failed to retrieve {link}: {e}")


    # 随机等待
    wait_seconds = random.uniform(0.5, 1.5)
    sleep(wait_seconds)

智能化采矿 智能化采矿技术 https://www.sohu.com/a/788534211_121967332

智能化选矿系统应用：助力矿产资源高效利用_人工智能_过程_实时 智能化选矿系统应用：助力矿产资源高效利用 2024-06-26 10:53 发布于：北京市
智能化选矿系统应用：助力矿产资源高效利用 随着科技的飞速发展，智能化技术已经渗透到各个领域，矿产资源开发行业也不例外。 智能化选矿系统的应用，不仅提高了矿产资源的利用率，还降低了生产成本，为我国矿产资源的开发注入了新的活力。 本文将从以下几个方面详细介绍智能化选矿系统的应用及其在矿产资源高效利用中的重要作用。 一、智能化选矿系统的基本原理 智能化选矿系统是一种基于现代信息技术、自动控制技术和人工智能技术的综合系统。 它通过对选矿过程的实时监测、数据分析和智能决策，实现对矿产资源的优化配置和高效利用。 智能化选矿系统主要包括以下几个部分： 1.传感器：用于实时采集选矿过程中的各种参数，如粒度、品位、浓度、温度等。 2.数据传输与处理：将传感器采集到的数据传输到中央处理单元，通过数据分析和处理，为智能决策提供依据。 3.智能决策：根据数据分析和处理结果，对选矿过程进行实时调控，实现矿产资源的优化配置。 4.执行机构：根据智能决策结果，对选矿设备进行实时调控，确保选矿过程的稳定运行。 二、智能化选矿系统的应用优势 1.提高矿产资源利用率：智能化选矿系统通过对选矿过程的实时监测和智能调控，实现了矿产资源的优化配置，提高了矿产资源的利用率。 2.降低生产成本：智能化选矿系统实现了选矿过程的自动化和智能化，降低了人工成本和生产过程中的能源消耗。 3.提高选矿效率：智能化选矿系统通过对选矿过程的实时调控，提高了选矿设备的运行效率，缩短了选矿周期。 4.确保选矿过程的安全性：智能化选矿系统可以对选矿过程中的安全隐患进行实时监测和预警，确保选矿过程的安全性。 5.提高产品质量：智能化选矿系统通过对选矿过程的精确控制，提高了产品的品位和品质，增强了产品的市场竞争力。 三、智能化选矿系统在矿产资源高效利用中的应用实例 1.智能化选矿系统在某铜矿选矿厂的应用：通过对选矿过程的实时监测和智能调控，提高了铜矿资源的利用率，降低了生产成本，实现了铜矿资源的高效利用。 2.智能化选矿系统在某金矿选矿厂的应用：通过对选矿过程的实时监