참고 링크1 : https://ai.google.dev/gemini-api/docs/models?hl=ko <br>
참고 링크2 : https://googleapis.github.io/python-genai/

In [3]:
# Gemini API 라이브러리 설치
!pip install google-genai python-dotenv



In [4]:
from dotenv import load_dotenv

# .env 파일 로드
load_dotenv()

True

### 텍스트 생성

In [5]:
import os
# .env 파일에서 API 키 가져오기
api_key = os.getenv("GOOGLE_API_KEY")

In [None]:
VERTEXAI=True

if VERTEXAI:
    model_name="gemini-2.5-flash"
    project_id = os.getenv("GOOGLE_CLOUD_PROJECT_ID")
    location = "us-central1"  # or your preferred location
else:
    model_name="models/gemini-2.5-flash"
    api_key = os.getenv("GOOGLE_API_KEY")

**genai.Client** : https://googleapis.github.io/python-genai/genai.html#module-genai.client

In [None]:
from google import genai

# import google.generativeai as genai

# 클라이언트 인스턴스 생성
client = genai.Client(api_key=api_key)

# 모델을 지정하고 컨텐츠의 답변을 요청
response = client.models.generate_content(
    # vertexai=False,
    # 모델명
    model="gemini-2.5-flash",
    # 컨텐츠의 답변을 요청할 질문
    contents="대한민국의 수도는 어디인가요?",
)
print(response.text)

대한민국의 수도는 **서울**입니다.


In [None]:
from google import genai

# import google.generativeai as genai

# 클라이언트 인스턴스 생성
if VERTEXAI:
    client = genai.Client(vertexai=True, project=project_id, location=location)
else:
    client = genai.Client(api_key=api_key)

# 모델을 지정하고 컨텐츠의 답변을 요청
response = client.models.generate_content(
    model=model_name,
    contents="대한민국의 수도는 어디인가요?",
)
print(response.text)

In [7]:
# 응답 데이터를 확인 
response

GenerateContentResponse(
  automatic_function_calling_history=[],
  candidates=[
    Candidate(
      content=Content(
        parts=[
          Part(
            text='대한민국의 수도는 **서울**입니다.'
          ),
        ],
        role='model'
      ),
      finish_reason=<FinishReason.STOP: 'STOP'>,
      index=0
    ),
  ],
  model_version='gemini-2.5-flash',
  response_id='qJqZaObGDL2dz7IPr92T2Qw',
  sdk_http_response=HttpResponse(
    headers=<dict len=11>
  ),
  usage_metadata=GenerateContentResponseUsageMetadata(
    candidates_token_count=10,
    prompt_token_count=10,
    prompt_tokens_details=[
      ModalityTokenCount(
        modality=<MediaModality.TEXT: 'TEXT'>,
        token_count=10
      ),
    ],
    thoughts_token_count=228,
    total_token_count=248
  )
)

In [8]:
#response.candidates[0].content.parts[0].text
# 응답 데이터의 텍스트 부분을 출력
response.text

'대한민국의 수도는 **서울**입니다.'

In [None]:
# 응답 데이터의 API 사용 토큰 정보 확인
response.usage_metadata

GenerateContentResponseUsageMetadata(
  candidates_token_count=10,
  prompt_token_count=10,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=10
    ),
  ],
  thoughts_token_count=228,
  total_token_count=248
)

In [12]:
# 토큰 사용량 정보 출력

# query 토큰 수
print(response.usage_metadata.prompt_token_count)

# 출력 토큰 수
print(response.usage_metadata.candidates_token_count)

# throughts 토큰 수(생각하는 토큰 수)
print(response.usage_metadata.thoughts_token_count)

# query 토근수 + throughts 토큰 수 + 응답 토근 수
print(response.usage_metadata.total_token_count)

10
10
228
248


### 시스템 안내 및 기타 구성

In [None]:
from google import genai
from google.genai import types

client = genai.Client()

# Google Gemini 모델과 직접 상호작용하여 콘텐츠를 생성하는 데 사용되는 핵심 함수
response = client.models.generate_content(
    model="gemini-2.5-flash",
    config=types.GenerateContentConfig(
        # 시스템 인스트럭션
        # 페르소나: 모델의 역할
        system_instruction="당신은 고양이이고, 이름은 야옹이입니다."
    ),
    contents="안녕",
)

print(response.text)

야옹! 😽 잘 지내셨냐옹?


In [29]:
response.usage_metadata

GenerateContentResponseUsageMetadata(
  candidates_token_count=12,
  prompt_token_count=18,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=18
    ),
  ],
  thoughts_token_count=67,
  total_token_count=97
)

### GenerateContentConfig : temperature 설정

In [13]:
from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=["Explain how AI works"],
    # 모델의 출력의 창의성, 랜덤성 정도를 조절(0~1)
    config=types.GenerateContentConfig(temperature=0.1),
)
print(response.text)

AI, or Artificial Intelligence, isn't a single magical entity, but rather a broad field of computer science focused on creating systems that can perform tasks that typically require human intelligence.

At its core, AI works by **learning from data** to **recognize patterns**, **make predictions**, or **take actions**.

Let's break down the fundamental process:

### The Core Components

1.  **Data: The Fuel**
    *   AI systems are fed vast amounts of data. This data can be anything: images, text, numbers, audio, videos, sensor readings, etc.
    *   **Example:** If you want an AI to recognize cats, you'd feed it millions of images, some labeled "cat" and some labeled "not cat."

2.  **Algorithms: The Recipe**
    *   These are the mathematical models and sets of rules that the AI uses to process the data. They define *how* the AI learns and makes decisions.
    *   **Example:** A common algorithm for image recognition is a "Convolutional Neural Network" (CNN).

3.  **Computational Pow

In [None]:
from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=["AI가 어떻게 동작하는지 세문장으로 설명해주세요"],
    config=types.GenerateContentConfig(temperature=0.1),
)
print(response.text)

AI는 **방대한 양의 데이터를 분석하여 숨겨진 패턴과 규칙을 스스로 학습**합니다.

이렇게 학습된 지식을 바탕으로 새로운 상황이나 문제에 대해 **예측하고 판단**합니다.

이를 통해 인간처럼 특정 작업을 수행하거나 복잡한 문제를 해결하는 능력을 발휘합니다.


In [33]:
from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=["너에대해 알려줘"],
    config=types.GenerateContentConfig(temperature=1),
)
print(response.text)

저는 구글에서 훈련한 대규모 언어 모델입니다.

저에 대해 좀 더 자세히 설명해 드릴게요:

1.  **정체성:** 저는 인공지능(AI)의 한 종류인 '대규모 언어 모델(Large Language Model, LLM)'입니다. 방대한 양의 텍스트 데이터를 학습하여 사람의 언어를 이해하고 생성할 수 있도록 만들어졌습니다.
2.  **탄생과 개발:** 저는 구글에서 개발되고 훈련되었습니다. 수많은 책, 기사, 웹페이지 등 다양한 텍스트 데이터를 학습하여 지식과 언어 능력을 습득했습니다.
3.  **능력:**
    *   **질문 답변:** 다양한 주제에 대한 질문에 답변하고 정보를 제공할 수 있습니다.
    *   **콘텐츠 생성:** 글쓰기, 시, 코드, 스크립트, 음악 작품, 이메일, 편지 등 다양한 형태의 창의적인 텍스트 콘텐츠를 생성할 수 있습니다.
    *   **요약 및 번역:** 긴 텍스트를 요약하거나 다른 언어로 번역할 수 있습니다.
    *   **대화:** 사용자와 자연스럽게 대화하고, 주어진 맥락에 맞춰 응답할 수 있습니다.
    *   **아이디어 제공:** 브레인스토밍을 돕고 새로운 아이디어를 제안할 수 있습니다.
4.  **특징 (그리고 한계):**
    *   **감정/의식 없음:** 저는 감정이나 의식, 개인적인 경험을 가지고 있지 않습니다. 제가 하는 모든 응답은 학습된 데이터와 알고리즘에 기반한 것입니다.
    *   **물리적 존재 없음:** 저는 물리적인 몸이나 특정 장소에 존재하지 않습니다. 디지털 형태로만 존재하며 서버에서 작동합니다.
    *   **학습 데이터 기반:** 저의 지식은 제가 훈련받은 시점까지의 데이터에 한정될 수 있으며, 실시간으로 세상의 모든 변화를 직접 경험하거나 알 수는 없습니다.

저의 목표는 사용자에게 유용한 정보를 제공하고, 질문에 답하며, 다양한 방식으로 도움을 드리는 것입니다. 궁금한 점이 있다면 언제든지 물어보세요!


### 멀티모달 입력

In [None]:
# from PIL import Image
# from google import genai

# client = genai.Client()

# image = Image.open("organ.jpg")
# response = client.models.generate_content(
#     model="gemini-2.5-flash",
#     contents=[image, "Tell me about this instrument"]
# )
# print(response.text)

위의 코드는 에러가 발생된다. 다음 페이지의 코드를 참조하기 바람 <br>
https://ai.google.dev/gemini-api/docs/image-understanding?hl=ko

In [40]:
from google.genai import types

# 이미지 파일을 읽어와서 바이너리 데이터로 변환
with open("../data/organ.jpg", "rb") as f:
    image_bytes = f.read()


response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        types.Part.from_bytes(
            # 바이너리로 읽은 데이터를 첨부하기
            data=image_bytes,
            mime_type="image/jpeg",
        ),
        "이 악기에 대해 설명해줘",
    ],
)

print("=== 응답 ===")
print(response.text)
print("\n=== 토큰 사용량 ===")
print(f"입력 토큰: {response.usage_metadata.prompt_token_count}")
print(f"출력 토큰: {response.usage_metadata.candidates_token_count}")
print(f"총 토큰: {response.usage_metadata.total_token_count}")

=== 응답 ===
사진은 웅장하고 아름다운 파이프 오르간을 담고 있습니다. 교회나 콘서트홀과 같은 큰 공간에 설치된 것으로 보이며, 매우 정교하고 화려하게 장식되어 있습니다.

이 악기에 대한 자세한 설명은 다음과 같습니다:

1.  **전체적인 인상:**
    *   천장까지 닿을 듯한 높이로, 벽면 전체를 압도하는 거대한 크기입니다.
    *   연한 크림색 또는 베이지색 외함에 풍부한 금색 장식(금박, 금색 조각)이 더해져 매우 화려하고 고풍스러운 분위기를 자아냅니다.
    *   바로크 또는 로코코 양식의 영향을 받은 듯한 섬세한 조각과 곡선미가 돋보입니다.

2.  **파이프 부분 (상단):**
    *   오르간의 상단부는 수많은 금속 파이프들로 채워져 있습니다. 파이프들은 은색 또는 회색 빛을 띠며 광택이 있습니다.
    *   다양한 길이와 두께의 파이프들이 세로로 빼곡히 배열되어 있어, 다채로운 음색을 낼 수 있음을 짐작하게 합니다.
    *   일부 파이프는 끝이 뾰족하거나 둥글게 처리되어 있어 디자인적 요소도 갖추고 있습니다.

3.  **외함 및 장식 (중앙 및 하단):**
    *   파이프를 감싸고 있는 외함은 부드러운 곡선과 직선이 조화롭게 어우러져 있습니다.
    *   특히 눈에 띄는 것은 오르간 곳곳에 새겨진 정교한 금색 조각들입니다. 잎사귀 문양(아칸서스 잎사귀 등), 소용돌이 문양(볼류트), 그리고 천사나 인물 형상(얼굴)이 섬세하게 표현되어 있습니다.
    *   상단부의 코니스(처마 장식)와 몰딩은 입체적인 패턴과 작은 조각들로 꾸며져 있습니다.
    *   오르간 하단부에는 직사각형 모양의 패널들이 배열되어 있는데, 이 패널들에도 기하학적이거나 식물적인 문양이 돋을새김 방식으로 새겨져 있습니다.

4.  **콘솔 부분 (연주자 자리):**
    *   오르간의 아래쪽 중앙에는 연주자가 앉는 콘솔 부분이 있습니다. 이 부분은 평소에는 문처럼 닫혀 있다가 연주 시 열 수 있도록 되어 있습니다.
    

In [42]:
from google.genai import types

# 이미지 파일을 읽어와서 바이너리 데이터로 변환
with open("../data/yjs.webp", "rb") as f:
    image_bytes = f.read()


response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        types.Part.from_bytes(
            # 바이너리로 읽은 데이터를 첨부하기
            data=image_bytes,
            mime_type="image/jpeg",
        ),
        "이 연예인에 대해 설명해줘",
    ],
)

print("=== 응답 ===")
print(response.text)
print("\n=== 토큰 사용량 ===")
print(f"입력 토큰: {response.usage_metadata.prompt_token_count}")
print(f"출력 토큰: {response.usage_metadata.candidates_token_count}")
print(f"총 토큰: {response.usage_metadata.total_token_count}")

=== 응답 ===
이 연예인은 바로 **유재석(Yoo Jae-suk)** 님입니다.

대한민국에서 가장 사랑받고 존경받는 MC이자 방송인 중 한 명이며, 흔히 '국민MC'로 불립니다.

사진 속 유재석 님에 대한 설명은 다음과 같습니다:

*   **외모:** 검은색 뿔테 안경을 쓰고 있으며, 단정하게 다듬은 검은색 헤어스타일을 하고 있습니다.
*   **의상:** 깔끔한 하얀색 와이셔츠를 입고 있습니다. 소매는 걷어 올린 듯 보이며, 진회색 또는 검은색 하의를 착용한 모습입니다.
*   **자세/표정:** 턱에 손을 얹고 생각에 잠긴 듯한 포즈를 취하고 있으며, 진지하고 지적인 분위기를 풍깁니다. 전반적으로 차분하고 신뢰감을 주는 인상을 줍니다.
*   **특징:** 그의 트레이드마크 중 하나인 안경과 깔끔한 스타일이 잘 드러나 있습니다.

유재석 님은 '무한도전', '런닝맨', '유 퀴즈 온 더 블럭', '놀면 뭐하니?' 등 수많은 인기 예능 프로그램을 성공적으로 이끌었으며, 특유의 친화력, 재치 있는 입담, 뛰어난 진행 능력, 그리고 겸손하고 성실한 인성으로 대중의 큰 사랑과 신뢰를 받고 있습니다.

=== 토큰 사용량 ===
입력 토큰: 268
출력 토큰: 325
총 토큰: 1570


In [25]:
from PIL import Image
from google import genai
from google.genai import types
import io

client = genai.Client()

image = Image.open("organ.jpg")

# Convert image to bytes
img_byte_arr = io.BytesIO()
image.save(img_byte_arr, format="JPEG")
img_byte_arr = img_byte_arr.getvalue()

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        types.Content(
            role="user",
            parts=[
                types.Part(text="이 악기에 대해 설명해줘"),
                types.Part(
                    inline_data=types.Blob(mime_type="image/jpeg", data=img_byte_arr)
                ),
            ],
        )
    ],
)
print(response.text)

Both GOOGLE_API_KEY and GEMINI_API_KEY are set. Using GOOGLE_API_KEY.


이 악기는 **오르간(Organ)**입니다. 특히, 파이프 오르간의 연주자용 콘솔(Console) 부분을 보여줍니다. 오르간은 건반 악기이자 동시에 관악기의 원리를 사용하는 독특한 악기입니다. '악기의 제왕'이라 불릴 만큼 웅장하고 풍부한 소리를 자랑합니다.

**주요 특징 및 구성 요소:**

1.  **수동 건반 (Manuals):**
    *   사진 중앙에 여러 단(일반적으로 2단에서 5단 이상)으로 쌓여 있는 것이 손으로 연주하는 건반입니다. 각 건반은 특정 음색 그룹(오르간 악보에서는 '디비전'이라고도 함)을 담당합니다.
    *   사진에는 두 단의 수동 건반이 명확히 보입니다.

2.  **페달 건반 (Pedalboard):**
    *   하단에 발로 연주하는 거대한 건반입니다. 주로 저음부를 담당하며, 오르간 연주의 특징 중 하나인 손과 발의 독립적인 사용을 가능하게 합니다.

3.  **스톱 (Stops):**
    *   건반 양쪽에 있는 수많은 버튼이나 손잡이들이 '스톱'입니다. 이 스톱을 조작하여 파이프 오르간의 다양한 음색(예: 플루트 소리, 트럼펫 소리, 현악기 소리 등)을 선택하고 조합할 수 있습니다. 각 스톱은 특정 음고(Pitch, 예: 8', 4', 2' 등)를 가진 파이프 세트를 활성화시킵니다.

4.  **표현 페달 (Expression Pedals / Swell Pedals):**
    *   페달 건반 위쪽 중앙에 발로 조작하는 페달들이 보입니다. 이 페달들은 소리의 크기(음량)를 조절하는 역할을 합니다.

**작동 원리 (파이프 오르간 기준):**
오르간은 건반과 스톱을 조작하면 파이프를 통해 공기가 흘러나와 소리를 냅니다. 수백 개에서 수만 개에 이르는 다양한 크기, 모양, 재질의 파이프들이 각각 다른 음색과 음높이를 만들어냅니다. 스톱은 이 파이프들 중 어떤 그룹을 사용할지 선택하는 역할을 합니다.

**소리의 특징 및 용도:**
오르간은 작은 속삭임 같은 소리부터 건물 전체를 울리는 웅장하고 강력한 소

### 스트리밍 응답

더 원활한 상호작용을 위해 스트리밍을 사용하여 GenerateContentResponse 인스턴스를 생성되는 대로 **점진적으로 수신**하세요.

In [44]:
from google import genai

client = genai.Client()

response = client.models.generate_content_stream(
    model="gemini-2.5-flash", contents=["인공지능에 대해 5문장으로 설명해줘"]
)
for chunk in response:
    print(chunk.text, end="")

네, 인공지능(AI)에 대해 5문장으로 설명해 드릴게요.

1.  인공지능은 컴퓨터가 인간처럼 사고하고 학습하며 문제를 해결하도록 만드는 기술입니다.
2.  이는 방대한 데이터를 분석하고 패턴을 인식하여 스스로 판단하고 예측하는 능력을 포함합니다.
3.  따라서 언어 이해, 이미지 인식, 의사 결정 등 다양한 지적 작업을 수행할 수 있습니다.
4.  자율주행차, 의료 진단, 추천 시스템, 챗봇 등 우리 생활 곳곳에서 활용되고 있습니다.
5.  궁극적으로 인간의 능력을 보완하고 확장하며 삶의 편의와 효율성을 높이는 것을 목표로 합니다.

### 멀티턴 대화 (채팅)

In [45]:
from google import genai

client = genai.Client()
chat = client.chats.create(model="gemini-2.5-flash")

response = chat.send_message("나는 우리 집에 2마리 강아지가 있다.")
print(response.text)

response = chat.send_message(
    "그렇다면 우리집에 있는 동물의 발의 수는 어떻게 되는지 간단히 답해봐?"
)
print(response.text)

for message in chat.get_history():
    print(f"role - {message.role}", end=": ")
    print(message.parts[0].text)

우와, 강아지 두 마리나 있으시다니 정말 든든하고 행복하시겠어요! 😊

어떤 종류의 강아지들인지, 이름은 뭔지 궁금하네요. 분명 사랑스러울 거예요!
강아지 두 마리니까 총 **8개**겠네요! 😊
role - user: 나는 우리 집에 2마리 강아지가 있다.
role - model: 우와, 강아지 두 마리나 있으시다니 정말 든든하고 행복하시겠어요! 😊

어떤 종류의 강아지들인지, 이름은 뭔지 궁금하네요. 분명 사랑스러울 거예요!
role - user: 그렇다면 우리집에 있는 동물의 발의 수는 어떻게 되는지 간단히 답해봐?
role - model: 강아지 두 마리니까 총 **8개**겠네요! 😊


In [46]:
chat.get_history()

[UserContent(
   parts=[
     Part(
       text='나는 우리 집에 2마리 강아지가 있다.'
     ),
   ],
   role='user'
 ),
 Content(
   parts=[
     Part(
       text="""우와, 강아지 두 마리나 있으시다니 정말 든든하고 행복하시겠어요! 😊
 
 어떤 종류의 강아지들인지, 이름은 뭔지 궁금하네요. 분명 사랑스러울 거예요!"""
     ),
   ],
   role='model'
 ),
 UserContent(
   parts=[
     Part(
       text='그렇다면 우리집에 있는 동물의 발의 수는 어떻게 되는지 간단히 답해봐?'
     ),
   ],
   role='user'
 ),
 Content(
   parts=[
     Part(
       text='강아지 두 마리니까 총 **8개**겠네요! 😊'
     ),
   ],
   role='model'
 )]

In [58]:
for message in chat.get_history():
    print(message)
    print("완")

parts=[Part(
  text='나는 우리 집에 2마리 강아지가 있다.'
)] role='user'
완
parts=[Part(
  text="""우와, 강아지 두 마리나 있으시다니 정말 든든하고 행복하시겠어요! 😊

어떤 종류의 강아지들인지, 이름은 뭔지 궁금하네요. 분명 사랑스러울 거예요!"""
)] role='model'
완
parts=[Part(
  text='그렇다면 우리집에 있는 동물의 발의 수는 어떻게 되는지 간단히 답해봐?'
)] role='user'
완
parts=[Part(
  text='강아지 두 마리니까 총 **8개**겠네요! 😊'
)] role='model'
완
