In [2]:
import google.generativeai as genai
import os

# 環境変数の準備 (左端の鍵アイコンでGOOGLE_API_KEYを設定)
GOOGLE_API_KEY=os.environ["GOOGLE_API_KEY"]
genai.configure(api_key=GOOGLE_API_KEY)

## 解析の対象となる動画をアップロード

In [4]:
# 動画のアップロード
video_file = genai.upload_file(path="keynote_recap.mp4")
print("Completed upload:", video_file.uri)

Completed upload: https://generativelanguage.googleapis.com/v1beta/files/pho4kl8ehy6g


## アップロードの進捗状況を調べる

In [None]:
import time

# APIがファイルを受信したことを確認
while video_file.state.name == "PROCESSING":
    print('Waiting for video to be processed.')
    time.sleep(10)
    video_file = genai.get_file(video_file.name)

if video_file.state.name == "FAILED":
  raise ValueError(video_file.state.name)
print("Video processing complete:", video_file.uri)

## 動画の内容について質問する

In [5]:
# モデルの準備
model = genai.GenerativeModel(
    model_name="models/gemini-1.5-pro-latest"
)

# 推論の実行
response = model.generate_content(
    ["この動画を日本語で説明してください。", video_file],
    request_options={"timeout": 600} # タイムアウト指定
)
print(response.text)

この動画は、OpenAI DevDayの基調講演の要約です。

OpenAIのCEOであるサム・アルトマンが、新しい言語モデル「GPT-4 Turbo」を発表しています。このモデルは、従来のGPT-4と比べて、コンテキストの長さが12万8000トークンまで対応可能で、JSONモード、関数呼び出しなど、多くの新機能が搭載されています。また、知識ベースも2023年4月まで更新されており、より最新の情報を取得することができます。

さらに、APIに新しいプログラム「カスタムモデル」が導入されました。これにより、OpenAIの研究者と企業が協力して、企業のニーズに合わせたカスタムモデルを構築することができます。また、既存のGPT-4顧客のレート制限が2倍になり、APIアカウント設定でレート制限とクォータの変更を直接リクエストできるようになりました。

さらに、OpenAIは「GPT」と呼ばれる、ChatGPTの特定の目的に合わせたカスタマイズバージョンを導入しました。GPTは、指示、拡張された知識、アクションを組み合わせることで、よりユーザーにとって役立つものになります。コーディングの知識がない人でも、自然言語でGPTをプログラムできるように設計されています。プライベートGPTを作成したり、作成したGPTを誰でも使用できるように公開したり、ChatGPT Enterpriseを使用している場合は、会社専用のGPTを作成したりすることができます。OpenAIはまた、今月末にGPTストアを立ち上げる予定です。

APIには、アシスタンスAPIが導入され、永続的なスレッド、組み込みの検索、コードインタープリター、サンドボックス環境での動作するPythonインタープリター、そしてもちろん、改善された関数呼び出しが含まれています。

アルトマンは、インテリジェンスがあらゆる場所に統合されるにつれて、私たちは皆、オンデマンドでスーパーパワーを持つようになると述べています。彼は、この技術を使って私たちが何を作り出すかを見ることに興奮しており、私たち全員が一緒に構築していく新しい未来を発見することを楽しみにしています。


In [7]:
# ファイルの削除
genai.delete_file(video_file.name)