In [5]:
from google import genai

client = genai.Client()
# 文字输出
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="用中文解释AI大模型是如何工作的",
)

print(response.text)

Both GOOGLE_API_KEY and GEMINI_API_KEY are set. Using GOOGLE_API_KEY.


通俗地讲，AI大模型（如ChatGPT、Claude、文心一言等）就像是一个**“读过全人类几乎所有书的超级博学者”**。

要理解它是如何工作的，我们可以将其拆解为四个核心步骤：**喂养数据、理解上下文、预测下一个词、人工调教**。

---

### 1. 核心逻辑：概率预测（接龙游戏）
从本质上讲，AI大模型目前做的最核心的事只有一件：**根据上文，预测下一个字（或词）出现的概率。**

*   **例子**：如果你给AI输入“床前明月”，它会根据在大规模语料中学到的知识，计算出下一个字是“光”的概率最高（比如99%）。
*   **进化**：大模型之所以“大”，是因为它不仅能接唐诗，还能接代码、法律条文、甚至是复杂的逻辑推理。它把这种“接龙”做到了极致。

### 2. 核心架构：Transformer（注意力机制）
为什么现在的AI比以前聪明得多？主要是因为一种叫 **Transformer** 的技术架构。它引入了**“注意力机制”（Attention）**。

*   **它的作用**：让模型在处理一段话时，知道哪些词是重点。
*   **例子**：句子是“张三昨天去超市买了一个苹果，它很好吃”。
    *   当AI处理到“它”这个词时，注意力机制会告诉AI，这个“它”指的是前面的“苹果”，而不是“张三”或“超市”。
    *   这种能力让AI能够理解长文本中的复杂关系，而不会“读了后面忘前面”。

### 3. 学习过程：两个阶段

大模型的成长分为两个主要阶段：

#### 第一阶段：预训练（Pre-training）—— “海量阅读”
*   **做法**：把互联网上的维基百科、书籍、代码、新闻、论坛帖子等数万亿字的数据全部塞给AI。
*   **目的**：让AI学习语言的规律、逻辑、常识和知识。在这个阶段，它没有人教，只是通过不断地做“填空题”来自我进化。
*   **结果**：AI变成了一个拥有百科全书式知识，但说话可能口无遮拦、不分好坏的“懂王”。

#### 第二阶段：微调与人类反馈（SFT & RLHF）—— “名师指点”
*   **做法**：人类老师介入。老师会提问，AI回答。如果回答得好（礼貌、准确、安全），老师就给高分；如果回答得不好（胡说八道、有偏见），老师就纠正它。
*   **目的**：让AI学会“说人话”，听懂人

In [6]:
from PIL import Image
# 图像理解
image = Image.open("dog_and_girl.jpeg")

# 注意：contents 变成了一个列表，里面同时放了图片对象和文字
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=[image, "帮我解释下这张照片"]
)

print(response.text)



这张照片捕捉到了一个非常温馨且充满情感的瞬间，展现了人类与宠物之间深厚的羁绊。以下是对这张照片的详细解释：

### 1. **核心主体与互动**
*   **人物与犬只：** 照片中心是一位年轻女性和一只体型较大的浅色犬只（看起来像是拉布拉多寻回犬）。
*   **互动动作：** 狗狗正坐着，并伸出一只前爪与女生的手碰触，就像是在进行“击掌”或“握手”。这个动作通常象征着训练有素、信任以及跨物种的交流。
*   **表情：** 女生脸上带着灿烂且真实的微笑，目光温柔地注视着狗狗，表现出她在这段陪伴中获得的快乐和满足感。

### 2. **环境与氛围**
*   **场景设定：** 场景是在一片开阔的沙滩上，背景是泛着微波的大海。沙滩上的脚印和起伏的沙丘增加了画面的质感。
*   **光线与时间：** 这张照片拍摄于“黄金时段”（Golden Hour），即日落时分。温暖的逆光从女生背后射入，为她的轮廓镀上了一层金边，同时也让整个画面充满了柔和、宁静且浪漫的色调。

### 3. **摄影技巧与构图**
*   **构图：** 拍摄者采用了较低的角度，与主体平视，这增加了观众的代入感，让人感觉仿佛也坐在沙滩上观察这一幕。
*   **色调：** 整体色调偏暖（橙色、金色和浅棕色），这种暖色调进一步强化了“陪伴”和“爱”的主题。
*   **细节：** 狗狗身上的彩色背带和女生的格子衬衫为简约的自然背景增添了一抹生活气息。

### 4. **传达的情感**
这张照片不仅仅是人与狗的合影，它传达了：
*   **信任与友谊：** 狗狗主动伸爪的动作表现了对主人的极度信任。
*   **宁静与治愈：** 在广阔的海边，远离城市喧嚣，这种人宠共处的简单快乐具有很强的治愈感。
*   **默契：** 画面定格在两者互动的瞬间，体现了多年相处积累下的默契。

总的来说，这是一张非常高质量的生活方式摄影作品，完美地诠释了**“忠诚的陪伴”**这一永恒的主题。


In [8]:
# 视频理解
import time

# 1. 上传视频文件
print("正在上传视频...")
video_file = client.files.upload(file="car.mp4") # 汽车剐蹭视频
print(f"上传成功: {video_file.name}")

# 2. 等待视频处理 (关键步骤！)
# 视频上传后，Google 需要几秒钟在云端进行转码。
while video_file.state.name == "PROCESSING":
    print("视频处理中，请稍候...")
    time.sleep(2)
    video_file = client.files.get(name=video_file.name)

if video_file.state.name == "FAILED":
    raise ValueError("视频处理失败")

print("视频就绪，开始推理...")

# 3. 多模态推理
# 将上传好的 video_file 对象直接放入 contents 列表
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=[
        video_file, 
        "详细描述视频里发生了什么？如果有对话，请把关键对话提取出来。"
    ]
)

print(response.text)

# 4. (可选) 删除云端文件以节省空间
# client.files.delete(name=video_file.name)

正在上传视频...
上传成功: files/xj8d9k6p6nph
视频处理中，请稍候...
视频处理中，请稍候...
视频就绪，开始推理...




视频主要记录了一起汽车刮蹭事故及其后的讨论。

### **视频内容详解：**

1.  **展示车辆损伤：** 视频开始展示了一辆银色SUV车身右后侧的严重刮擦和变形。后门及轮眉处的黑色塑料件上有明显的白色刮痕和凹陷。
2.  **事故原因：** 一名女子在画外音中解释，这是男子（盖盖）在地下车库转弯时不小心撞到墙上导致的，车门已经变形。
3.  **男子查看现场：** 随后，男子指着车身上的损伤，详细描述了撞击的程度，提到车门凹陷严重，漆面受损，需要进行钣金维修。
4.  **讨论维修方案：** 男子和女子蹲在车旁商量。女子询问是走保险还是自费修理。男子无奈地表示他们没有购买车损险，只能自己承担维修费用，预计费用在2000元以上。
5.  **查看撞击的墙角：** 视频最后切换到地下车库，男子指着一处被撞掉皮的墙角，说明这就是事故发生的具体位置。

### **关键对话提取：**

*   **女子：** “完了，这没个2000块钱修不出来。盖盖刚才不小心拐弯的时候直接撞墙上了，车门都给撞变形了。”
*   **男子（盖盖）：** “下地下车库的时候，门撞墙上了，整个这个门都凹回去了，这肯定得钣金，下面的漆都掉了，你看一下。”
*   **女子：** “老公你说咱们这走保险呀还是自己修呀？”
*   **男子：** “咱们没有车损险，咱只能自己修了。”
*   **男子：** “这就是刚才拐弯的时候，盖盖磕的这个地方。”
