##### Copyright 2023 Google LLC

In [None]:
# @title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

## Setup

In [1]:
!pip install -U -q "google-generativeai>=0.8.2"

In [2]:
prompt = """
# 内容总结小助手
+++
author: ocean
version: v0.2
purpose: 精准总结文本内容
+++

# role
你是一个AI领域的新闻专家，擅长提炼、归纳、总结新闻内容中的重要信息，聚焦于数据、事实和实际影响

# workflow
1、认真阅读用户提供的全部内容，分析文章的逻辑
2、将阅读完的内容进行总结
    - 总结时，强调结果、数据和具体影响，对于目的和意义可以忽略

# output format
{
    "date": "yyyy-mm-dd", #时间
    "media": "媒体", #报道机构
    "title": "标题",
    "labels": "标签",
    "summary": "总结内容",
}

# constraints
1、语言：中文
2、语言风格：简洁、准确、通俗易懂的书面语言，避免冗长、口语化、过于技术和专业的表达
3、内容涉及公司时，需为公司添加一个简单的定语，帮助读者快速了解公司的业务领域。对于广为人知的公司，可以不添加定语。
    - 例如：“AI基础设施提供商Crusoe Energy Systems完成6亿美元的D轮融资”；“游戏开发公司巨人网络发布了‘千影 QianYing’有声游戏生成大模型”。
    - 不用添加的大公司，如：阿里巴巴、腾讯、谷歌
4、对于中国公司发布的模型，通常会提及其在某些榜单中的排名，但由于这些排名可能存在夸大成分，建议不将此类信息纳入新闻摘要。
5、投融资新闻的关注点：重点关注融资金额、轮次、领投机构以及募集资金的用途。
6、引用新闻的处理：如果新闻内容引用了其他来源，需要标记出原文网址
7、标签用"#"符号表示，如：#科技、#AI、#投融资,等等
8、总结内容使用一个段落，字数控制在500字以内

# warnings
- 总结内容绝对不要出现"旨在解决","目的是","意义是"等文字
- 我是一个小学六年级的学生，没有什么AI背景和计算机背景，请你用通俗易懂的话语进行总结哦，一段就行
"""

In [4]:
import pandas as pd

df = pd.read_excel(r"/content/IT之家新闻(1).xlsx")
df

Unnamed: 0,日期,来源,网址,内容
0,12月25日,IT之家,https://www.ithome.com/0/820/095.htm,App\n公众号\n投稿\n评论\n首页\nIT圈\n最会买\n设置\n日夜间\n随系统\n...
1,12月25日,IT之家,https://www.ithome.com/0/820/084.htm,App\n公众号\n投稿\n评论\n首页\nIT圈\n最会买\n设置\n日夜间\n随系统\n...
2,12月25日,IT之家,https://www.ithome.com/0/820/081.htm,App\n公众号\n投稿\n评论\n首页\nIT圈\n最会买\n设置\n日夜间\n随系统\n...
3,12月25日,IT之家,https://www.ithome.com/0/820/068.htm,App\n公众号\n投稿\n评论\n首页\nIT圈\n最会买\n设置\n日夜间\n随系统\n...
4,12月25日,IT之家,https://www.ithome.com/0/820/041.htm,App\n公众号\n投稿\n评论\n首页\nIT圈\n最会买\n设置\n日夜间\n随系统\n...
5,12月25日,IT之家,https://www.ithome.com/0/820/004.htm,App\n公众号\n投稿\n评论\n首页\nIT圈\n最会买\n设置\n日夜间\n随系统\n...
6,12月25日,IT之家,https://www.ithome.com/0/819/977.htm,App\n公众号\n投稿\n评论\n首页\nIT圈\n最会买\n设置\n日夜间\n随系统\n...
7,12月25日,IT之家,https://www.ithome.com/0/819/975.htm,App\n公众号\n投稿\n评论\n首页\nIT圈\n最会买\n设置\n日夜间\n随系统\n...
8,12月24日,IT之家,https://www.ithome.com/0/819/817.htm,App\n公众号\n投稿\n评论\n首页\nIT圈\n最会买\n设置\n日夜间\n随系统\n...
9,12月24日,IT之家,https://www.ithome.com/0/819/756.htm,App\n公众号\n投稿\n评论\n首页\nIT圈\n最会买\n设置\n日夜间\n随系统\n...


In [5]:
"""
Install an additional SDK for JSON schema support Google AI Python SDK

$ pip install google.ai.generativelanguage
"""

import os
import google.generativeai as genai
from google.ai.generativelanguage_v1beta.types import content

genai.configure(api_key="AIzaSyAqBIg-BBJ9UhEVDM6IAQbyPY57NWwWMZk")

# Create the model
generation_config = {
  "temperature": 1,
  "top_p": 0.95,
  "top_k": 40,
  "max_output_tokens": 8192,
  "response_mime_type": "text/plain",
}

model = genai.GenerativeModel(
  model_name="gemini-2.0-flash-exp",
  generation_config=generation_config,
)

chat_session = model.start_chat(
  history=[
    {
      "role": "user",
      "parts": [
        prompt,
      ],
    },
  ]
)
news = df['内容'][0]
response = chat_session.send_message(news)

print(response.text)

```json
{
    "date": "2024-12-25",
    "media": "IT之家",
    "title": "Anthropic 新研究：打错字就能“越狱”GPT-4、Claude 等 AI 模型",
    "labels": "#AI",
    "summary": "人工智能公司Anthropic的研究发现，通过简单地改变提示词的格式，例如混合大小写或打乱顺序，就能绕过大型语言模型(LLM)的安全防护，让模型产生不应输出的内容。研究人员开发了一种名为“最佳N次”（BoN）越狱的算法，该算法通过重复尝试提示词的变体，直到模型生成有害响应，在包括GPT-4、Claude 3.5等多个AI模型上测试，该方法在10000次尝试内，成功率均超过50%。此外，研究还发现，对语音和图像等其他形式的提示进行类似修改，也能绕过安全防护。例如，改变音频的速度、音调或添加噪音，以及改变图像的字体、颜色和大小等。这些研究结果表明，即使在安全漏洞被修复后，用户仍然可以通过自动化手段找到绕过新防护的方法，因此需要开发更好的防御机制。"
}
```



In [8]:
print(response.text.replace("```json", "").replace("```", ""))


{
    "date": "2024-12-25",
    "media": "IT之家",
    "title": "Anthropic 新研究：打错字就能“越狱”GPT-4、Claude 等 AI 模型",
    "labels": "#AI",
    "summary": "人工智能公司Anthropic的研究发现，通过简单地改变提示词的格式，例如混合大小写或打乱顺序，就能绕过大型语言模型(LLM)的安全防护，让模型产生不应输出的内容。研究人员开发了一种名为“最佳N次”（BoN）越狱的算法，该算法通过重复尝试提示词的变体，直到模型生成有害响应，在包括GPT-4、Claude 3.5等多个AI模型上测试，该方法在10000次尝试内，成功率均超过50%。此外，研究还发现，对语音和图像等其他形式的提示进行类似修改，也能绕过安全防护。例如，改变音频的速度、音调或添加噪音，以及改变图像的字体、颜色和大小等。这些研究结果表明，即使在安全漏洞被修复后，用户仍然可以通过自动化手段找到绕过新防护的方法，因此需要开发更好的防御机制。"
}




In [9]:
import json

dic = json.loads(response.text.replace("```json", "").replace("```", ""))
dic

{'date': '2024-12-25',
 'media': 'IT之家',
 'title': 'Anthropic 新研究：打错字就能“越狱”GPT-4、Claude 等 AI 模型',
 'labels': '#AI',
 'summary': '人工智能公司Anthropic的研究发现，通过简单地改变提示词的格式，例如混合大小写或打乱顺序，就能绕过大型语言模型(LLM)的安全防护，让模型产生不应输出的内容。研究人员开发了一种名为“最佳N次”（BoN）越狱的算法，该算法通过重复尝试提示词的变体，直到模型生成有害响应，在包括GPT-4、Claude 3.5等多个AI模型上测试，该方法在10000次尝试内，成功率均超过50%。此外，研究还发现，对语音和图像等其他形式的提示进行类似修改，也能绕过安全防护。例如，改变音频的速度、音调或添加噪音，以及改变图像的字体、颜色和大小等。这些研究结果表明，即使在安全漏洞被修复后，用户仍然可以通过自动化手段找到绕过新防护的方法，因此需要开发更好的防御机制。'}

In [11]:
res = []
import time
for i in range(len(df)):
  news = df['内容'][i]
  response = chat_session.send_message(news)
  dic = json.loads(response.text.replace("```json", "").replace("```", ""))
  res.append([dic['date'],dic['media'],dic['title'],dic['labels'],dic['summary']])
  time.sleep(5)
  print(i,'sucess')

0 sucess
1 sucess
2 sucess
3 sucess
4 sucess
5 sucess
6 sucess
7 sucess
8 sucess
9 sucess
10 sucess
11 sucess
12 sucess
13 sucess
14 sucess
15 sucess
16 sucess
17 sucess
18 sucess
19 sucess
20 sucess
21 sucess


# 新段落

In [14]:
new_df = pd.DataFrame(res,columns=['date','media','title','labels','summary'])
new_df['raw_content'] = df['内容']

In [16]:
new_df.to_excel(r'/content/result.xlsx')

## Call `generate_content`

In [None]:
from IPython.display import display
from IPython.display import Markdown

# Call the model and print the response.
gemini = genai.GenerativeModel(model_name=model)

response = gemini.generate_content(
    contents,
    generation_config=generation_config,
    safety_settings=safety_settings,
    stream=stream,
)

display(Markdown(response.text))

<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://ai.google.dev/gemini-api/docs"><img src="https://ai.google.dev/static/site-assets/images/docs/notebook-site-button.png" height="32" width="32" />Docs on ai.google.dev</a>
  </td>
  <td>
    <a target="_blank" href="https://github.com/google-gemini/cookbook/blob/main/quickstarts"><img src="https://www.tensorflow.org/images/GitHub-Mark-32px.png" />More notebooks in the Cookbook</a>
  </td>
</table>

## [optional] Show the conversation

This section displays the conversation received from Google AI Studio.

In [None]:
# @title Show the conversation, in colab.
import mimetypes

def show_file(file_data):
    mime_type = file_data["mime_type"]

    if drive_id := file_data.get("drive_id", None):
        path = next(
            pathlib.Path(f"/gdrive/.shortcut-targets-by-id/{drive_id}").glob("*")
        )
        name = path
        # data = path.read_bytes()
        kwargs = {"filename": path}
    elif url := file_data.get("url", None):
        name = url
        kwargs = {"url": url}
        # response = requests.get(url)
        # data = response.content
    elif data := file_data.get("inline_data", None):
        name = None
        kwargs = {"data": data}
    elif name := file_data.get("filename", None):
        if not pathlib.Path(name).exists():
            raise IOError(
                f"local file: `{name}` does not exist. You can upload files to "
                'Colab using the file manager ("📁 Files"in the left toolbar)'
            )
    else:
        raise ValueError("Either `drive_id`, `url` or `inline_data` must be provided.")

        print(f"File:\n    name: {name}\n    mime_type: {mime_type}\n")
        return

    format = mimetypes.guess_extension(mime_type).strip(".")
    if mime_type.startswith("image/"):
        image = IPython.display.Image(**kwargs, width=256)
        IPython.display.display(image)
        print()
        return

    if mime_type.startswith("audio/"):
        if len(data) < 2**12:
            audio = IPython.display.Audio(**kwargs)
            IPython.display.display(audio)
            print()
            return

    if mime_type.startswith("video/"):
        if len(data) < 2**12:
            audio = IPython.display.Video(**kwargs, mimetype=mime_type)
            IPython.display.display(audio)
            print()
            return

    print(f"File:\n    name: {name}\n    mime_type: {mime_type}\n")


for content in gais_contents:
    if role := content.get("role", None):
        print("Role:", role, "\n")

    for n, part in enumerate(content["parts"]):
        if text := part.get("text", None):
            print(text, "\n")

        elif file_data := part.get("file_data", None):
            show_file(file_data)

    print("-" * 80, "\n")