In [1]:
import google.generativeai as genai
import os

# 環境変数の準備 (左端の鍵アイコンでGOOGLE_API_KEYを設定)
GOOGLE_API_KEY=os.environ["GOOGLE_API_KEY"]
genai.configure(api_key=GOOGLE_API_KEY)

## 解析の対象となる動画をアップロード

In [2]:
# 動画のアップロード
video_file = genai.upload_file(path="keynote_recap.mp4")
print("Completed upload:", video_file.uri)

Completed upload: https://generativelanguage.googleapis.com/v1beta/files/az5hdil4ba8k


## アップロードの進捗状況を調べる

In [None]:
import time

# APIがファイルを受信したことを確認
while video_file.state.name == "PROCESSING":
    print('Waiting for video to be processed.')
    time.sleep(10)
    video_file = genai.get_file(video_file.name)

if video_file.state.name == "FAILED":
  raise ValueError(video_file.state.name)
print("Video processing complete:", video_file.uri)

In [4]:
video_file = genai.get_file(video_file.name)

<google.generativeai.types.file_types.File at 0x2ce4a6c6c90>

## 動画の内容について質問する

In [5]:
# モデルの準備
model = genai.GenerativeModel(
    model_name="models/gemini-1.5-pro-latest"
)

# 推論の実行
response = model.generate_content(
    ["この動画を日本語で説明してください。", video_file],
    request_options={"timeout": 600} # タイムアウト指定
)
print(response.text)

動画は、OpenAI DevDay の基調講演の要約で、OpenAI の CEO である Sam Altman 氏が新しい AI モデルと機能を発表している様子を映しています。

**発表された主な内容は以下のとおりです。**

* **GPT-4 Turbo:** 従来の GPT-4 よりも高速かつ低価格で、最大 128,000 トークンのコンテキストを処理可能。
    * JSON モード: 有効な JSON 形式で応答を返す機能。
    * 関数呼び出し: 複数の関数を一度に呼び出すことができる機能。
    * 知識の向上: 2023 年 4 月までの最新の情報を含む。
* **DALL-E 3:** 画像生成 AI モデル。
* **GPT-4 Turbo with Vision:** 画像を理解する能力を備えた GPT-4 Turbo。
* **新しいテキスト音声合成 (TTS) モデル:** より自然な音声合成が可能。
* **カスタムモデル:** 企業のニーズに合わせてカスタマイズされた AI モデルを作成できるプログラム。
* **レート制限の緩和:** 既存の GPT-4 ユーザー向けのトークン数／分の制限が 2 倍に増加。
* **GPTs:** 特定の目的に合わせてカスタマイズされたチャット GPT のバージョン。
    * 自然言語での構築: コーディングの知識がなくても作成可能。
    * プライベート GPT: 個人用 GPT の作成。
    * パブリック GPT: リンクを共有して誰でも使えるようにする。
    * エンタープライズ GPT: 企業内で共有するための GPT の作成。
    * GPT ストア: 他のユーザーが作成した GPT を公開・共有できるプラットフォーム（近日公開予定）。
* **アシスタンス API:** 開発者が AI アシスタントを簡単に構築するための API。
    * スレッディング: 長い会話履歴を効率的に管理。
    * リトリーバル: 外部データを利用して回答の精度を向上。
    * コードインタープリター: Python コードの実行環境。
    * 関数呼び出しの改善: より複雑なタスクの自動化。

Altman 氏は、AI があらゆる場所に統合され、すべての人がオン

In [7]:
# ファイルの削除
genai.delete_file(video_file.name)