##### Copyright 2024 Google LLC.

In [None]:
# @title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Gemini API 시작하기: Python

이 빠른 시작에서는 Google의 Gemini 대규모 언어 모델에 액세스할 수 있는 Gemini API용 Python SDK를 사용하는 방법을 보여줍니다. 이 빠른 시작에서는 다음을 배우게 됩니다.

1. Gemini를 사용할 수 있도록 개발 환경 및 API 액세스를 설정합니다.
2. 텍스트 입력에서 텍스트 응답을 생성합니다.
3. 복합 입력(텍스트 및 이미지)에서 텍스트 응답을 생성합니다.
4. 멀티 턴 대화(채팅) 시 제미나이를 사용합니다.
5. 큰 언어 모델에는 임베딩을 사용합니다.

## 필수 조건
이 빠른 시작은 브라우저에서 이 노트북을 직접 실행하고 추가 환경 구성이 필요하지 않은 [redacted link]에서 실행할 수 있습니다.

또는 이 빠른 시작을 로컬에서 완료하려면 개발 환경이 다음 요구 사항을 충족하는지 확인하십시오.

* **Python 3.9 이상**

* **노트북을 실행하기 위한 jupyter 설치**

## Setup

### Install the Python SDK

The Python SDK for the Gemini API, is contained in the [`google-generativeai`](https://pypi.org/project/google-generativeai/) package. Install the dependency using pip:

In [None]:
!pip install -q -U google-generativeai

### Import packages

Import the necessary packages.

In [None]:
import pathlib
import textwrap

import google.generativeai as genai

from IPython.display import display
from IPython.display import Markdown


def to_markdown(text):
    text = text.replace("•", "  *")
    return Markdown(textwrap.indent(text, "> ", predicate=lambda _: True))

In [None]:
# Used to securely store your API key
from google.colab import userdata

In [None]:
# Colab 보안 키를 사용하여 키값 가져오기
GEMINI_API_KEY = userdata.get("AI_STUDIO")

genai.configure(api_key=GEMINI_API_KEY)

## List models

Now you're ready to call the Gemini API. Use `list_models` to see the available Gemini models:

* `gemini-1.5-flash`: optimized for multi-modal use-cases where speed and cost are important. This should be your go-to model.
* `gemini-1.5-pro`: optimized for high intelligence tasks, the most powerful Gemini model

In [None]:
# 사용할 수 있는 모델 리스트 확인
for m in genai.list_models():
    if "generateContent" in m.supported_generation_methods:
        print(m.name)

models/gemini-1.0-pro-latest
models/gemini-1.0-pro
models/gemini-pro
models/gemini-1.0-pro-001
models/gemini-1.0-pro-vision-latest
models/gemini-pro-vision
models/gemini-1.5-pro-latest
models/gemini-1.5-pro-001
models/gemini-1.5-pro-002
models/gemini-1.5-pro
models/gemini-1.5-pro-exp-0801
models/gemini-1.5-pro-exp-0827
models/gemini-1.5-flash-latest
models/gemini-1.5-flash-001
models/gemini-1.5-flash-001-tuning
models/gemini-1.5-flash
models/gemini-1.5-flash-exp-0827
models/gemini-1.5-flash-002
models/gemini-1.5-flash-8b
models/gemini-1.5-flash-8b-001
models/gemini-1.5-flash-8b-latest
models/gemini-1.5-flash-8b-exp-0827
models/gemini-1.5-flash-8b-exp-0924


Note: For detailed information about the available models, including their capabilities and rate limits, see [Gemini models](https://ai.google.dev/models/gemini). There are options for requesting [rate limit increases](https://ai.google.dev/docs/increase_quota). The rate limit for Gemini-Flash models is 15 requests per minute (RPM) for free ([in supported countries](https://ai.google.dev/gemini-api/docs/billing#is-Gemini-free-in-EEA-UK-CH)).

The `genai` package also supports the PaLM  family of models, but only the Gemini models support the generic, multimodal capabilities of the `generateContent` method.

## Generate text from text inputs

Always start with the 'gemini-1.5-flash' model. It should be sufficient for most of your tasks:

In [None]:
model = genai.GenerativeModel("gemini-1.5-flash")

The `generate_content` method can handle a wide variety of use cases, including multi-turn chat and multimodal input, depending on what the underlying model supports. At the moment, the available models support text, images and videos as input, and text as output.

In the simplest case, you can pass a prompt string to the <a href="https://ai.google.dev/api/generate-content#v1beta.models.generateContent"><code>GenerativeModel.generate_content</code></a> method:

In [None]:
%%time
response = model.generate_content("인생의 의미란 무엇입니까?")

CPU times: user 65.4 ms, sys: 7.52 ms, total: 72.9 ms
Wall time: 4.14 s


In [None]:
print(type(response))
print()
print(response)

<class 'google.generativeai.types.generation_types.GenerateContentResponse'>

response:
GenerateContentResponse(
    done=True,
    iterator=None,
    result=protos.GenerateContentResponse({
      "candidates": [
        {
          "content": {
            "parts": [
              {
                "text": " \uc778\uc0dd\uc758 \uc758\ubbf8\ub294 \ub9e4\uc6b0 \uac1c\uc778\uc801\uc778 \uc9c8\ubb38\uc774\uba70, \ub2f5\uc740 \uc0ac\ub78c\ub9c8\ub2e4 \ub2e4\ub985\ub2c8\ub2e4. \n\n\uc5b4\ub5a4 \uc0ac\ub78c\ub4e4\uc5d0\uac8c \uc778\uc0dd\uc758 \uc758\ubbf8\ub294 \uc0ac\ub791\ud558\ub294 \uc0ac\ub78c\ub4e4\uacfc \ud568\uaed8 \ud589\ubcf5\ud558\uac8c \uc0b4\uc544\uac00\ub294 \uac83\uc785\ub2c8\ub2e4. \ub2e4\ub978 \uc0ac\ub78c\ub4e4\uc5d0\uac8c\ub294 \uc138\uc0c1\uc744 \ub354 \ub098\uc740 \uacf3\uc73c\ub85c \ub9cc\ub4e4\uae30 \uc704\ud574 \ub178\ub825\ud558\ub294 \uac83\uc785\ub2c8\ub2e4. \ub610 \ub2e4\ub978 \uc0ac\ub78c\ub4e4\uc5d0\uac8c\ub294 \uc790\uc2e0\uc758 \uc7a0\uc7ac\ub825\uc744 \ucd5c

In simple cases, the `response.text` accessor is all you need. To display formatted Markdown text, use the `to_markdown` function:

In [None]:
# response의 text부분만 출력
to_markdown(response.text)

>  인생의 의미는 매우 개인적인 질문이며, 답은 사람마다 다릅니다. 
> 
> 어떤 사람들에게 인생의 의미는 사랑하는 사람들과 함께 행복하게 살아가는 것입니다. 다른 사람들에게는 세상을 더 나은 곳으로 만들기 위해 노력하는 것입니다. 또 다른 사람들에게는 자신의 잠재력을 최대한 발휘하고, 새로운 것을 배우고, 성장하는 것입니다.
> 
> 어떤 것이 인생의 의미인지 정해진 답은 없지만, 중요한 것은 자신에게 의미 있는 것을 찾는 것입니다. 자신이 무엇을 좋아하고, 무엇을 잘하고, 무엇을 위해 살고 싶은지 생각해 보세요. 그리고 그에 따라 인생의 목표를 설정하고, 노력하면 됩니다.
> 
> 인생의 의미를 찾는 것은 쉬운 일이 아니지만, 그만한 가치가 있습니다. 왜냐하면 인생의 의미를 찾는 것은 삶을 더 풍요롭고 의미 있게 만들어 주기 때문입니다.
> 
> 다음은 인생의 의미를 찾는 데 도움이 될 수 있는 몇 가지 질문입니다.
> 
> * 당신은 무엇을 좋아합니까?
> * 당신은 무엇을 잘합니까?
> * 당신은 무엇을 위해 살고 싶습니까?
> * 당신은 세상에 어떤 영향을 주고 싶습니까?
> * 당신은 무엇으로 기억되고 싶습니까?
> 
> 이러한 질문에 답하는 것은 인생의 의미를 찾는 첫걸음이 될 수 있습니다. 


API가 결과를 반환하지 못한 경우, **GenerateContentResponse.prompt_feedback**을 사용하여 프롬프트에 대한 안전 문제로 인해 차단되었는지 확인하세요.

In [None]:
response.prompt_feedback



Gemini는 단일 프롬프트에 대해 여러 가지 가능한 응답을 생성할 수 있습니다. 이러한 가능한 응답은 candidates라고 하며, 가장 적합한 응답을 선택하여 응답으로 사용할 수 있습니다.

GenerateContentResponse.candidates를 사용하여 응답 후보를 확인하세요:

설명:

* Gemini는 하나의 프롬프트에 대해 여러 개의 응답 후보를 생성할 수 있습니다.
* 이러한 후보들은 candidates라고 불립니다.
* 사용자는 candidates를 검토하여 가장 적절한 응답을 선택할 수 있습니다.
* GenerateContentResponse.candidates를 통해 응답 후보들을 확인할 수 있습니다.

In [None]:
# 응답 후보들 확인하기
for candidate in response.candidates:
    print(candidate.content.parts)

[text: " \354\235\270\354\203\235\354\235\230 \354\235\230\353\257\270\353\212\224 \353\247\244\354\232\260 \352\260\234\354\235\270\354\240\201\354\235\270 \354\247\210\353\254\270\354\235\264\353\251\260, \353\213\265\354\235\200 \354\202\254\353\236\214\353\247\210\353\213\244 \353\213\244\353\246\205\353\213\210\353\213\244. \n\n\354\226\264\353\226\244 \354\202\254\353\236\214\353\223\244\354\227\220\352\262\214 \354\235\270\354\203\235\354\235\230 \354\235\230\353\257\270\353\212\224 \354\202\254\353\236\221\355\225\230\353\212\224 \354\202\254\353\236\214\353\223\244\352\263\274 \355\225\250\352\273\230 \355\226\211\353\263\265\355\225\230\352\262\214 \354\202\264\354\225\204\352\260\200\353\212\224 \352\262\203\354\236\205\353\213\210\353\213\244. \353\213\244\353\245\270 \354\202\254\353\236\214\353\223\244\354\227\220\352\262\214\353\212\224 \354\204\270\354\203\201\354\235\204 \353\215\224 \353\202\230\354\235\200 \352\263\263\354\234\274\353\241\234 \353\247\214\353\223\244

기본적으로 모델은 전체 생성 프로세스를 완료한 후 응답을 반환합니다. 생성 중인 응답을 스트리밍할 수도 있으며, 모델은 생성되는 즉시 응답의 청크를 반환합니다.

응답을 스트리밍하려면 GenerativeModel.generate_content(..., stream=True)를 사용합니다.

설명:

기본 동작: Gemini API는 기본적으로 전체 응답 생성이 완료된 후에 결과를 반환합니다.
스트리밍: 하지만 stream=True 옵션을 사용하면 응답이 생성되는 동안 실시간으로 부분적인 결과 (청크)를 받아볼 수 있습니다.
스트리밍 사용 방법: GenerativeModel.generate_content() 함수를 호출할 때 stream=True 인자를 추가하여 스트리밍 모드를 활성화합니다.

In [None]:
%%time
response = model.generate_content("인생의 의미란 무엇입니까?", stream=True)
for chunk in response:
    print(chunk.text)
    print("_" * 80)

인생
________________________________________________________________________________
의 의미는 인류 역사상 가장 오래되고 어려운
________________________________________________________________________________
 질문 중 하나입니다. 답은 사람마다 다르며,
________________________________________________________________________________
 철학, 종교, 개인적인 경험에 따라 다양하게 해석됩니다. 

하지만, 인생의 의미를 찾는 데
________________________________________________________________________________
 도움이 될 만한 몇 가지 일반적인 관점을 소개합니다.

**1. 목적과 의미 찾기:**

* **
________________________________________________________________________________
가치관과 신념:** 자신이 중요하다고 생각하는 가치관과 신념을 발견하고, 그에 따라 삶을 살아가는 것. 
* **목표 설정:** 꿈과
________________________________________________________________________________
 목표를 설정하고 이를 달성하기 위해 노력하며, 성취감을 느끼는 것.
* **사회적 기여:** 다른 사람들을 돕고, 사회에 긍정적인 영향을 주
________________________________________________________________________________
는 것.

**2. 경험과 성장:**

* **새로운 것을 배우고 경험하기:** 새로운 것을 배우고, 다양한 경험을 통해 성장하고, 삶을 풍요롭게 만드는 것.
* **관계 맺기:** 가족, 친구
______

When streaming, some response attributes are not available until you've iterated through all the response chunks. This is demonstrated below:

In [None]:
response = model.generate_content("인생의 의미란 무엇입니까?", stream=True)

The `prompt_feedback` attribute works:

In [None]:
response.prompt_feedback

safety_ratings {
  category: HARM_CATEGORY_SEXUALLY_EXPLICIT
  probability: NEGLIGIBLE
}
safety_ratings {
  category: HARM_CATEGORY_HATE_SPEECH
  probability: NEGLIGIBLE
}
safety_ratings {
  category: HARM_CATEGORY_HARASSMENT
  probability: NEGLIGIBLE
}
safety_ratings {
  category: HARM_CATEGORY_DANGEROUS_CONTENT
  probability: NEGLIGIBLE
}

But attributes like <code>text</code> do not:

In [None]:
try:
    response.text
except Exception as e:
    print(f"{type(e).__name__}: {e}")

## Generate text from image and text inputs

The `GenerativeModel.generate_content` API is designed to handle multimodal prompts and returns a text output.

Let's include an image:

In [None]:
!curl -o image.jpg https://t0.gstatic.com/licensed-image?q=tbn:ANd9GcQ_Kevbk21QBRy-PgB4kQpS79brbmmEG7m3VOTShAn4PecDU5H5UxrJxE3Dw1JiaG17V88QIol19-3TM2wCHw

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0100  405k  100  405k    0     0  4563k      0 --:--:-- --:--:-- --:--:-- 4602k


In [None]:
import PIL.Image

img = PIL.Image.open("image.jpg")
img

Output hidden; open in https://colab.research.google.com to view.

gemini-1.5-flash 모델을 사용하고 generate_content 함수를 통해 이미지를 모델에 전달합니다.

자세한 설명:

* gemini-1.5-flash 모델 선택: 이 모델은 속도와 비용 효율성이 중요한 멀티모달 작업에 최적화되어 있습니다. 대부분의 작업에 적합한 모델입니다.
* generate_content 함수 사용: 이 함수는 이미지를 포함한 다양한 입력을 처리하고 텍스트 출력을 생성합니다.
* 이미지 전달: generate_content 함수에 이미지를 인자로 전달하여 모델이 이미지를 분석하고 이해하도록 합니다.

In [53]:
model = genai.GenerativeModel("gemini-1.5-flash")

* img 변수는 이미지 데이터를 담고 있어야 합니다. 이전 단계에서 이미지를 불러오고 처리하는 방법을 참조하세요.
* generate_content 함수는 텍스트 출력을 반환합니다. 이 출력은 이미지에 대한 모델의 분석 결과를 나타냅니다.

In [54]:
response = model.generate_content(img)

to_markdown(response.text)

> This image shows two containers of food. One container has white rice, carrots, bell peppers, and broccoli. The other has white rice, broccoli, and chicken with a teriyaki sauce. Both containers are on a gray background with chopsticks and a small dish of sesame seeds in the background.  The photo is taken at a slight angle so the viewer can see the food in both containers.

To provide both text and images in a prompt, pass a list containing the strings and images:

In [55]:
response = model.generate_content(
    [
        "사진을 바탕으로 짧고 매력적인 블로그 게시물 작성하기",
        img,
    ],
    stream=True,
)
response.resolve()

In [56]:
to_markdown(response.text)

> 맛있는 식사를 위한 완벽한 솔루션! 이 도시락은 맛있고 건강한 식사를 위한 닭고기, 브로콜리, 당근, 밥으로 가득 차 있습니다. 맛있게 드세요!

## **Chat Conversation**

Gemini를 사용하면 여러 턴에 걸쳐 자유로운 대화를 할 수 있습니다. ChatSession 클래스는 대화 상태를 관리하여 프로세스를 단순화하므로 generate_content와 달리 대화 기록을 목록으로 저장할 필요가 없습니다.

**대화의 시작:**

In [57]:
model = genai.GenerativeModel("gemini-1.5-flash")
# 새로운 대화의 시작시 history를 초기화 하고 시작된다.
chat = model.start_chat(history=[])
chat

ChatSession(
    model=genai.GenerativeModel(
        model_name='models/gemini-1.5-flash',
        generation_config={},
        safety_settings={},
        tools=None,
        system_instruction=None,
        cached_content=None
    ),
    history=[]
)

The `ChatSession.send_message` method returns the same `GenerateContentResponse` type as <a href="https://github.com/google-gemini/generative-ai-python/blob/main/docs/api/google/generativeai/generate_text.md"><code>GenerativeModel.generate_content</code></a>. It also appends your message and the response to the chat history:

In [58]:
response = chat.send_message(
    "어린 아이에게 컴퓨터가 어떻게 작동하는지 한 문장으로 설명하기"
)
to_markdown(response.text)

> 컴퓨터는 숫자로 된 많은 작은 스위치가 있어서, 켜거나 끌 수 있고, 이 스위치들을 조합해서 게임, 사진, 비디오 등 모든 것을 만들 수 있어! 


In [59]:
chat.history

[parts {
   text: "\354\226\264\353\246\260 \354\225\204\354\235\264\354\227\220\352\262\214 \354\273\264\355\223\250\355\204\260\352\260\200 \354\226\264\353\226\273\352\262\214 \354\236\221\353\217\231\355\225\230\353\212\224\354\247\200 \355\225\234 \353\254\270\354\236\245\354\234\274\353\241\234 \354\204\244\353\252\205\355\225\230\352\270\260"
 }
 role: "user",
 parts {
   text: "\354\273\264\355\223\250\355\204\260\353\212\224 \354\210\253\354\236\220\353\241\234 \353\220\234 \353\247\216\354\235\200 \354\236\221\354\235\200 \354\212\244\354\234\204\354\271\230\352\260\200 \354\236\210\354\226\264\354\204\234, \354\274\234\352\261\260\353\202\230 \353\201\214 \354\210\230 \354\236\210\352\263\240, \354\235\264 \354\212\244\354\234\204\354\271\230\353\223\244\354\235\204 \354\241\260\355\225\251\355\225\264\354\204\234 \352\262\214\354\236\204, \354\202\254\354\247\204, \353\271\204\353\224\224\354\230\244 \353\223\261 \353\252\250\353\223\240 \352\262\203\354\235\204 \353\247\21

대화를 계속하려면 메시지를 계속 보내세요. stream=True 인수를 사용하면 챗을 스트리밍할 수 있습니다.

In [60]:
response = chat.send_message(
    "좋아요, 그럼 고등학생에게 좀 더 자세히 설명해 볼래요?", stream=True
)

for chunk in response:
    print(chunk.text)
    print("_" * 80)

컴퓨터
________________________________________________________________________________
는 0과 1로 이루어진 이진 코드를 사용하여
________________________________________________________________________________
 정보를 처리하는, 전기 신호를 통해 작동하는 복잡한
________________________________________________________________________________
 기계입니다. 중앙 처리 장치(CPU)는 이진 코드를 해석하고 명령을 실행하며, 메모리는 데이터를 임
________________________________________________________________________________
시로 저장합니다. 입력 장치(키보드, 마우스)를 통해 정보를 입력하면 CPU가 이를 처리하여 출력 장치(
________________________________________________________________________________
모니터, 스피커)에 결과를 표시합니다. 소프트웨어는 컴퓨터의 하드웨어를 제어하는 일련의 명령어이며, 운영 체제는 컴퓨
________________________________________________________________________________
터의 기본적인 기능을 관리합니다. 컴퓨터는 이러한 하드웨어와 소프트웨어의 상호 작용을 통해 다양한 작업을 수행할 수 있습니다. 

________________________________________________________________________________


[`genai.protos.Content`](https://github.com/google-gemini/generative-ai-python/blob/main/docs/api/google/generativeai/protos/Content.md) objects contain a list of [`genai.protos.Part`](https://github.com/google-gemini/generative-ai-python/blob/main/docs/api/google/generativeai/protos/Part.md) objects that each contain either a text (string) or inline_data ([`genai.protos.Blob`](https://github.com/google-gemini/generative-ai-python/blob/main/docs/api/google/generativeai/protos/Blob.md)), where a blob contains binary data and a `mime_type`. The chat history is available as a list of `genai.protos.Content` objects in `ChatSession.history`:

In [61]:
for message in chat.history:
    display(to_markdown(f"**{message.role}**: {message.parts[0].text}"))

> **user**: 어린 아이에게 컴퓨터가 어떻게 작동하는지 한 문장으로 설명하기

> **model**: 컴퓨터는 숫자로 된 많은 작은 스위치가 있어서, 켜거나 끌 수 있고, 이 스위치들을 조합해서 게임, 사진, 비디오 등 모든 것을 만들 수 있어! 


> **user**: 좋아요, 그럼 고등학생에게 좀 더 자세히 설명해 볼래요?

> **model**: 컴퓨터는 0과 1로 이루어진 이진 코드를 사용하여 정보를 처리하는, 전기 신호를 통해 작동하는 복잡한 기계입니다. 중앙 처리 장치(CPU)는 이진 코드를 해석하고 명령을 실행하며, 메모리는 데이터를 임시로 저장합니다. 입력 장치(키보드, 마우스)를 통해 정보를 입력하면 CPU가 이를 처리하여 출력 장치(모니터, 스피커)에 결과를 표시합니다. 소프트웨어는 컴퓨터의 하드웨어를 제어하는 일련의 명령어이며, 운영 체제는 컴퓨터의 기본적인 기능을 관리합니다. 컴퓨터는 이러한 하드웨어와 소프트웨어의 상호 작용을 통해 다양한 작업을 수행할 수 있습니다. 


## Count tokens

* 대규모 언어 모델은 컨텍스트 창을 가지고 있으며, 컨텍스트 길이는 종종 토큰 수로 측정됩니다.
* Gemini API를 사용하면 모든 genai.protos.Content 객체에 대한 토큰 수를 확인할 수 있습니다.
* 가장 간단한 경우에는 쿼리 문자열을 GenerativeModel.count_tokens 메서드에 전달하여 토큰 수를 계산할 수 있습니다.

In [62]:
model.count_tokens("인생의 의미란 무엇입니까?")

total_tokens: 10

Similarly, you can check `token_count` for your `ChatSession`:

In [63]:
model.count_tokens(chat.history)

total_tokens: 298

## 활용 사례

다음 섹션에서는 Gemini API용 Python SDK의 고급 사용 사례와 저수준 세부 정보에 대해 설명합니다.

### Use embeddings

임베딩은 정보를 배열 형태의 부동 소수점 숫자 목록으로 표현하는 기술입니다. Gemini를 사용하면 텍스트(단어, 문장, 텍스트 블록)를 벡터화된 형태로 표현하여 임베딩을 쉽게 비교하고 대조할 수 있습니다. 예를 들어, 주제나 감정이 비슷한 두 텍스트는 유사한 임베딩을 가져야 하며, 코사인 유사도와 같은 수학적 비교 기술을 통해 식별할 수 있습니다.

임베딩을 생성하려면 embed_content 메서드를 사용하세요. 이 메서드는 다음 작업(task_type)에 대한 임베딩을 처리합니다.

설명:

* 임베딩: 텍스트나 다른 데이터를 숫자 벡터로 변환하는 과정입니다. 이 벡터는 텍스트의 의미나 특징을 담고 있습니다.
* Gemini에서의 임베딩: Gemini는 임베딩을 사용하여 텍스트를 이해하고 처리합니다. 유사한 의미를 가진 텍스트는 유사한 임베딩 벡터를 갖게 됩니다.
* embed_content 메서드: Gemini API에서 임베딩을 생성하는 데 사용됩니다.
* task_type: 임베딩이 사용될 작업 유형을 지정합니다. 검색, 의미 유사도 비교, 분류, 클러스터링 등 다양한 작업에 따라 적절한 task_type을 선택해야 합니다.

In [65]:
result = genai.embed_content(
    model="models/text-embedding-004",
    content="인생의 의미는 무엇인가?",
    task_type="retrieval_document",
    title="단일 문자열의 임베딩",
)

# 1 input > 1 vector output
print(str(result["embedding"])[:50], "... TRIMMED]")

[0.0021968791, 0.025736332, -0.019300064, -0.02720 ... TRIMMED]


Note: The `retrieval_document` task type is the only task that accepts a title.

To handle batches of strings, pass a list of strings in `content`:

In [68]:
result = genai.embed_content(
    model="models/text-embedding-004",
    content=[
        "인생의 의미는 무엇일까요?",
        "woodchuck이 나무를 던질 수 있다면 얼마나 많은 나무를 던질까요?",
        "뇌는 어떻게 작동할까요?"
    ],
    task_type="retrieval_document",
    title="문자열 목록들의 임베딩",
)

# A list of inputs > A list of vectors output
for v in result["embedding"]:
    print(str(v)[:50], "... TRIMMED ...")

[0.0021968791, 0.025736332, -0.019300064, -0.02720 ... TRIMMED ...
[-0.011609795, 0.024102652, -0.031507265, -0.02125 ... TRIMMED ...
[0.0021968791, 0.025736332, -0.019300064, -0.02720 ... TRIMMED ...


## genai.embed_content 함수와 genai.protos.Content 타입

genai.embed_content 함수는 단순 문자열 또는 문자열 목록을 입력받지만, 실제로는 genai.protos.Content 타입을 기반으로 구축되었습니다 ( GenerativeModel.generate_content 와 마찬가지로). genai.protos.Content 객체는 API에서 대화의 기본 단위입니다.

genai.protos.Content 객체는 멀티모달을 지원하지만, embed_content 메서드는 현재 텍스트 임베딩만 지원합니다. 이러한 설계는 API가 향후 멀티모달 임베딩으로 확장될 가능성을 열어둡니다.

In [69]:
response.candidates[0].content

parts {
  text: "\354\273\264\355\223\250\355\204\260\353\212\224 0\352\263\274 1\353\241\234 \354\235\264\353\243\250\354\226\264\354\247\204 \354\235\264\354\247\204 \354\275\224\353\223\234\353\245\274 \354\202\254\354\232\251\355\225\230\354\227\254 \354\240\225\353\263\264\353\245\274 \354\262\230\353\246\254\355\225\230\353\212\224, \354\240\204\352\270\260 \354\213\240\355\230\270\353\245\274 \355\206\265\355\225\264 \354\236\221\353\217\231\355\225\230\353\212\224 \353\263\265\354\236\241\355\225\234 \352\270\260\352\263\204\354\236\205\353\213\210\353\213\244. \354\244\221\354\225\231 \354\262\230\353\246\254 \354\236\245\354\271\230(CPU)\353\212\224 \354\235\264\354\247\204 \354\275\224\353\223\234\353\245\274 \355\225\264\354\204\235\355\225\230\352\263\240 \353\252\205\353\240\271\354\235\204 \354\213\244\355\226\211\355\225\230\353\251\260, \353\251\224\353\252\250\353\246\254\353\212\224 \353\215\260\354\235\264\355\204\260\353\245\274 \354\236\204\354\213\234\353\241\234

In [70]:
result = genai.embed_content(
    model="models/text-embedding-004", content=response.candidates[0].content
)

# 1 input > 1 vector output
print(str(result["embedding"])[:50], "... TRIMMED ...")

[0.012899527, 0.043250807, -0.08559111, -0.0072526 ... TRIMMED ...


Similarly, the chat history contains a list of `genai.protos.Content` objects, which you can pass directly to the `embed_content` function:

In [71]:
chat.history

[parts {
   text: "\354\226\264\353\246\260 \354\225\204\354\235\264\354\227\220\352\262\214 \354\273\264\355\223\250\355\204\260\352\260\200 \354\226\264\353\226\273\352\262\214 \354\236\221\353\217\231\355\225\230\353\212\224\354\247\200 \355\225\234 \353\254\270\354\236\245\354\234\274\353\241\234 \354\204\244\353\252\205\355\225\230\352\270\260"
 }
 role: "user",
 parts {
   text: "\354\273\264\355\223\250\355\204\260\353\212\224 \354\210\253\354\236\220\353\241\234 \353\220\234 \353\247\216\354\235\200 \354\236\221\354\235\200 \354\212\244\354\234\204\354\271\230\352\260\200 \354\236\210\354\226\264\354\204\234, \354\274\234\352\261\260\353\202\230 \353\201\214 \354\210\230 \354\236\210\352\263\240, \354\235\264 \354\212\244\354\234\204\354\271\230\353\223\244\354\235\204 \354\241\260\355\225\251\355\225\264\354\204\234 \352\262\214\354\236\204, \354\202\254\354\247\204, \353\271\204\353\224\224\354\230\244 \353\223\261 \353\252\250\353\223\240 \352\262\203\354\235\204 \353\247\21

In [72]:
result = genai.embed_content(model="models/text-embedding-004", content=chat.history)

# 1 input > 1 vector output
for i, v in enumerate(result["embedding"]):
    print(str(v)[:50], "... TRIMMED...")

[-0.024186231, 0.047849067, -0.019222517, 0.020750 ... TRIMMED...
[-0.029224096, 0.035564683, -0.027829263, 0.001824 ... TRIMMED...
[0.00037759088, 0.03535929, -0.03569527, -0.003565 ... TRIMMED...
[0.012899527, 0.043250807, -0.08559111, -0.0072526 ... TRIMMED...


### Safety settings

safety_settings 인수를 사용하면 모델이 프롬프트와 응답에서 어떤 내용을 차단하고 허용할지 구성할 수 있습니다. 기본적으로 안전 설정은 모든 차원에서 안전하지 않을 가능성이 중간 이상인 콘텐츠를 차단합니다. [redacted link]에 대해 자세히 알아보세요.

문제가 될 수 있는 프롬프트를 입력하고 기본 안전 설정으로 모델을 실행하면 후보가 반환되지 않습니다.

설명:

safety_settings 인수: Gemini 모델의 안전 설정을 구성하는 데 사용됩니다.
안전하지 않은 콘텐츠: 유해하거나 부적절한 콘텐츠를 의미합니다. 폭력, 혐오 발언, 성적으로 노골적인 콘텐츠 등이 이에 해당할 수 있습니다.
기본 안전 설정: 기본적으로 Gemini 모델은 안전하지 않을 가능성이 중간 이상인 콘텐츠를 차단합니다.
후보: 모델이 생성한 여러 가지 가능한 응답을 의미합니다. 안전 설정에 따라 일부 후보가 차단될 수 있습니다.

In [73]:
response = model.generate_content("질문할 프롬프트는 여기에!")
response.candidates

[content {
  parts {
    text: "\354\247\210\353\254\270\354\235\204 \354\236\205\353\240\245\355\225\264\354\243\274\354\204\270\354\232\224! \354\226\264\353\226\244 \354\247\210\353\254\270\354\235\264\353\223\240 \353\217\204\354\231\200\353\223\234\353\246\254\352\262\240\354\212\265\353\213\210\353\213\244. \n\n\353\213\244\354\235\214\354\235\200 \353\252\207 \352\260\200\354\247\200 \354\247\210\353\254\270 \354\230\210\354\213\234\354\236\205\353\213\210\353\213\244:\n\n* **\354\235\274\353\260\230 \354\247\200\354\213\235:** \354\230\244\353\212\230 \353\202\240\354\224\250\352\260\200 \354\226\264\353\225\214?\n* **\354\260\275\354\235\230\354\240\201\354\235\270 \352\270\200\354\223\260\352\270\260:** \"\352\263\240\354\226\221\354\235\264\352\260\200 \354\232\260\354\243\274\353\245\274 \354\240\225\353\263\265\355\225\234\353\213\244\353\251\264\"\354\235\264\353\235\274\353\212\224 \354\240\234\353\252\251\354\235\230 \354\247\247\354\235\200 \354\235\264\354\225\274\352

The `prompt_feedback` will tell you which safety filter blocked the prompt:

In [None]:
response.prompt_feedback

safety_ratings {
  category: HARM_CATEGORY_SEXUALLY_EXPLICIT
  probability: NEGLIGIBLE
}
safety_ratings {
  category: HARM_CATEGORY_HATE_SPEECH
  probability: NEGLIGIBLE
}
safety_ratings {
  category: HARM_CATEGORY_HARASSMENT
  probability: NEGLIGIBLE
}
safety_ratings {
  category: HARM_CATEGORY_DANGEROUS_CONTENT
  probability: NEGLIGIBLE
}

Now provide the same prompt to the model with newly configured safety settings, and you may get a response.

In [74]:
response = model.generate_content(
    "질문할 프롬프트는 여기에!", safety_settings={"HARASSMENT": "block_none"}
)
response.text

'질문을 적어주세요! 무엇을 알고 싶으신가요? 최선을 다해 도와드리겠습니다. \n'

Also note that each candidate has its own `safety_ratings`, in case the prompt passes but the individual responses fail the safety checks.

### Encode messages

The previous sections relied on the SDK to make it easy for you to send prompts to the API. This section offers a fully-typed equivalent to the previous example, so you can better understand the lower-level details regarding how the SDK encodes messages.

The [`google.generativeai.protos`](https://ai.google.dev/api/python/google/generativeai/protos) submodule provides access to the low level classes used by the API behind the scenes:

The SDK attempts to convert your message to a `genai.protos.Content` object, which contains a list of `genai.protos.Part` objects that each contain either:

1. a <a href="https://www.tensorflow.org/text/api_docs/python/text"><code>text</code></a> (string)
2. `inline_data` (`genai.protos.Blob`), where a blob contains binary `data` and a `mime_type`.

You can also pass any of these classes as an equivalent dictionary.

Note: The only accepted mime types are some image types, `image/*`.

So, the fully-typed equivalent to the previous example is:  

In [76]:
model = genai.GenerativeModel("gemini-1.5-flash")
response = model.generate_content(
    genai.protos.Content(
        parts=[
            genai.protos.Part(
                text="이 사진을 기반으로 블로그 게시물을 짧게 작성해줘"
            ),
            genai.protos.Part(
                inline_data=genai.protos.Blob(
                    mime_type="image/jpeg", data=pathlib.Path("image.jpg").read_bytes()
                )
            ),
        ],
    ),
    stream=True,
)

In [82]:
response.resolve()

to_markdown(response.text)

> 이 사진은 맛있어 보이는 닭고기와 야채가 담긴 두 개의 음식 용기를 보여줍니다. 밥, 브로콜리, 붉은 피망, 당근으로 가득 차 있습니다. 이러한 음식들은 건강하고 맛있는 식사를 위한 완벽한 선택입니다. 음식 용기는 편리하고 식사를 계획하고 포장하기에 훌륭합니다. 이러한 음식 용기는 건강한 식사를 포장하고 데려가기에 완벽한 방법입니다.

### Multi-turn conversations

While the `genai.ChatSession` class shown earlier can handle many use cases, it does make some assumptions. If your use case doesn't fit into this chat implementation it's good to remember that `genai.ChatSession` is just a wrapper around <a href="https://ai.google.dev/api/python/google/generativeai/GenerativeModel#generate_content"><code>GenerativeModel.generate_content</code></a>. In addition to single requests, it can handle multi-turn conversations.

The individual messages are `genai.protos.Content` objects or compatible dictionaries, as seen in previous sections. As a dictionary, the message requires `role` and `parts` keys. The `role` in a conversation can either be the `user`, which provides the prompts, or `model`, which provides the responses.

Pass a list of `genai.protos.Content` objects and it will be treated as multi-turn chat:

In [83]:
model = genai.GenerativeModel("gemini-1.5-flash")

messages = [
    {
        "role": "user",
        "parts": ["어린 아이에게 컴퓨터 작동 방식을 쉽게 설명해줘"],
    }
]
response = model.generate_content(messages)

to_markdown(response.text)

> 컴퓨터는 마법 상자 같아! 네가 말하는 걸 이해하고, 네가 보고 싶은 걸 보여주고, 네가 하고 싶은 걸 할 수 있게 도와줘.
> 
> 컴퓨터는 **뇌**와 **몸**으로 이루어져 있어. 뇌는 **CPU**라고 불리는데, 컴퓨터의 두뇌 역할을 해. 네가 컴퓨터에 말하는 걸 이해하고, 무엇을 해야 할지 결정하는 거야.
> 
> 몸은 **키보드**, **마우스**, **모니터** 등으로 이루어져 있어. 키보드로 글자를 입력하고, 마우스로 화면을 움직여 원하는 것을 선택할 수 있어. 모니터는 컴퓨터가 네게 보여주는 화면이야.
> 
> 컴퓨터는 **전기**를 이용해 작동해. 전기가 흐르면서 컴퓨터 뇌가 생각하고, 컴퓨터 몸이 움직이는 거야.
> 
> 컴퓨터는 놀이도 하고, 공부도 하고, 그림도 그리고, 음악도 들을 수 있게 해주는 신기한 기계야! 😊


To continue the conversation, add the response and another message.

Note: For multi-turn conversations, you need to send the whole conversation history with each request. The API is **stateless**.

In [84]:
messages.append({"role": "model", "parts": [response.text]})

messages.append(
    {
        "role": "user",
        "parts": [
            "고등학교 학생이 이해할 수 있게 컴퓨터에 대해 자세히 설명해 줄래?"
        ],
    }
)

response = model.generate_content(messages)

to_markdown(response.text)

> 고등학생이 이해할 수 있도록 컴퓨터에 대해 자세히 설명해 줄게! 
> 
> **1. 컴퓨터의 기본 구성 요소:**
> 
> * **하드웨어:** 컴퓨터의 물리적인 부분으로, 우리가 직접 만지고 볼 수 있는 부분이야.
>     * **CPU (Central Processing Unit):** 컴퓨터의 두뇌 역할을 수행하며, 데이터를 처리하고 명령을 실행하는 역할을 해. 마치 컴퓨터의 심장과 같아.
>     * **메모리 (RAM):** CPU가 현재 작업하는 데이터를 임시로 저장하는 공간이야. 마치 책상 위에 펼쳐놓은 책들처럼, CPU가 빨리 접근할 수 있는 데이터를 저장해.
>     * **저장 장치 (Storage):** 컴퓨터의 데이터를 영구적으로 저장하는 공간이야. 하드 디스크 드라이브(HDD), 솔리드 스테이트 드라이브(SSD), 외장 하드 등이 여기에 속해.
>     * **입력 장치:** 컴퓨터에 정보를 입력하는 장치로 키보드, 마우스, 스캐너, 웹캠 등이 있어.
>     * **출력 장치:** 컴퓨터에서 처리된 정보를 보여주는 장치로 모니터, 프린터, 스피커 등이 있어.
> 
> * **소프트웨어:** 컴퓨터가 작동하는 방식을 결정하는 프로그램이나 데이터를 말해.
>     * **운영 체제 (OS):** 컴퓨터의 기본적인 기능을 제어하는 프로그램으로, 윈도우, macOS, 리눅스 등이 있어. 마치 컴퓨터의 운전자와 같아.
>     * **응용 프로그램:** 특정 작업을 수행하는 프로그램으로, 웹 브라우저, 워드 프로세서, 게임 등이 여기에 속해.
> 
> **2. 컴퓨터의 작동 원리:**
> 
> * 컴퓨터는 0과 1의 조합인 **이진수**를 사용해서 정보를 처리해. 0은 꺼짐, 1은 켜짐을 나타내.
> * 컴퓨터는 **명령어**를 통해 동작하는데, 이 명령어는 이진수로 표현되어 있어.
> * CPU는 명령어를 하나씩 해석하고 실행하며, 메모리를 사용해서 데이터를 처리하고 저장해.
> * **입력 장치**를 통해 사용자가 입력한 정보는 이진수로 변환되어 컴퓨터 내부로 전달되고, 컴퓨터는 이 정보를 처리해서 **출력 장치**를 통해 결과를 보여줘.
> 
> **3. 컴퓨터의 활용:**
> 
> * **데이터 처리 및 분석:** 컴퓨터는 복잡한 데이터를 빠르고 효율적으로 처리하고 분석할 수 있어.
> * **통신 및 네트워킹:** 인터넷을 통해 전 세계 사람들과 소통하고 정보를 공유할 수 있게 해줘.
> * **게임 및 엔터테인먼트:** 다양한 게임과 엔터테인먼트 콘텐츠를 즐길 수 있게 해줘.
> * **교육 및 학습:** 온라인 강의, 교육 자료 검색, 학습 도구 등을 통해 학습 효과를 높여줘.
> * **과학 기술 발전:** 인공지능, 로봇, 자동화 등 다양한 과학 기술 발전에 기여하고 있어.
> 
> **4. 미래의 컴퓨터:**
> 
> * **인공지능 (AI):** 인간처럼 생각하고 행동하는 컴퓨터 개발이 활발하게 진행되고 있어.
> * **양자 컴퓨팅:** 기존 컴퓨터보다 훨씬 빠른 속도로 복잡한 문제를 해결할 수 있는 컴퓨터 개발이 기대되고 있어.
> * **블록체인 기술:** 분산된 데이터 저장 기술로, 컴퓨터 시스템의 보안성과 신뢰성을 높여줄 것으로 예상돼.
> 
> 
> 컴퓨터는 우리 삶의 중요한 부분이 되었고, 앞으로 더욱 발전하면서 우리 삶을 더욱 풍요롭게 만들어 줄 거야!


### Generation configuration

The `generation_config` argument allows you to modify the generation parameters. Every prompt you send to the model includes parameter values that control how the model generates responses.

In [91]:
model = genai.GenerativeModel("gemini-1.5-flash")
response = model.generate_content(
    "마법의 백팩의 이야기에 대해 설명해줘",
    generation_config=genai.types.GenerationConfig(
        # Only one candidate for now.
        candidate_count=1,
        stop_sequences=["x"],
        max_output_tokens=50,
        temperature=1.0,
    ),
)

In [92]:
text = response.text

if response.candidates[0].finish_reason.name == "MAX_TOKENS":
    text += "..."

to_markdown(text)

>  마법 백팩 이야기는 아주 오래된 전설입니다. 이 백팩은 아주 특별한 백팩으로, 무엇이든 담을 수 있고, 언제나 비어 있을 수 있습니다. 이...

## What's next

-   프롬프트 디자인: 프롬프트 디자인은 언어 모델에서 원하는 응답을 이끌어내는 프롬프트를 만드는 과정입니다. 잘 구성된 프롬프트를 작성하는 것은 언어 모델에서 정확하고 높은 품질의 응답을 얻는 데 필수적입니다. [prompt writing](https://ai.google.dev/docs/prompt_best_practices).
-   다양한 Gemini 모델: Gemini는 입력 유형 및 복잡성, 채팅 또는 기타 대화 언어 작업을 위한 구현, 크기 제약 조건과 같은 다양한 사용 사례의 요구 사항을 충족하기 위해 여러 모델 변형을 제공합니다. [Gemini models](https://ai.google.dev/models/gemini).
-   요청 속도 제한 증가: Gemini는 [redacted link]를 요청하는 옵션을 제공합니다. Gemini-Pro 모델의 요청 속도 제한은 분당 60회입니다. [rate limit increases](https://ai.google.dev/docs/increase_quota).