참고 링크1 : https://ai.google.dev/gemini-api/docs/models?hl=ko <br>
참고 링크2 : https://googleapis.github.io/python-genai/

In [1]:
!pip install google-genai python-dotenv



In [None]:
from dotenv import load_dotenv

# .env 파일 로드
load_dotenv()

True

### 텍스트 생성

In [None]:
import os

api_key = os.getenv("GOOGLE_API_KEY")

In [None]:
api_key

'AIzaSyDgCWDdLjZZ14PtRyk6Mag8l2p3ig0cS8E'

**genai.Client** : https://googleapis.github.io/python-genai/genai.html#module-genai.client

In [2]:
import os

VERTEXAI = True

if VERTEXAI:
    model_name = "gemini-2.5-flash"
    project_id = os.getenv("GOOGLE_CLOUD_PROJECT_ID")
    location = "us-central1"  # or your preferred location
else:
    model_name = "models/gemini-2.5-flash"
    api_key = os.getenv("GOOGLE_API_KEY")

In [None]:
from google import genai

# import google.generativeai as genai

# 클라이언트 인스턴스 생성
if VERTEXAI:
    client = genai.Client(vertexai=True, project=project_id, location=location)
else:
    client = genai.Client(api_key=api_key)

# 모델을 지정하고 컨텐츠의 답변을 요청
response = client.models.generate_content(
    model=model_name,
    contents="대한민국의 수도는 어디인가요?",
)
print(response.text)


대한민국의 수도는 **서울**입니다.


In [8]:
response

GenerateContentResponse(
  automatic_function_calling_history=[],
  candidates=[
    Candidate(
      content=Content(
        parts=[
          Part(
            text='대한민국의 수도는 **서울**입니다.'
          ),
        ],
        role='model'
      ),
      finish_reason=<FinishReason.STOP: 'STOP'>,
      index=0
    ),
  ],
  model_version='gemini-2.5-flash',
  response_id='NW2ZaMG4ON2Cz7IP24Kz0Q4',
  sdk_http_response=HttpResponse(
    headers=<dict len=11>
  ),
  usage_metadata=GenerateContentResponseUsageMetadata(
    candidates_token_count=10,
    prompt_token_count=10,
    prompt_tokens_details=[
      ModalityTokenCount(
        modality=<MediaModality.TEXT: 'TEXT'>,
        token_count=10
      ),
    ],
    thoughts_token_count=31,
    total_token_count=51
  )
)

### 시스템 안내 및 기타 구성

In [9]:
response.candidates[0]

Candidate(
  content=Content(
    parts=[
      Part(
        text='대한민국의 수도는 **서울**입니다.'
      ),
    ],
    role='model'
  ),
  finish_reason=<FinishReason.STOP: 'STOP'>,
  index=0
)

In [10]:
response.candidates[0].content

Content(
  parts=[
    Part(
      text='대한민국의 수도는 **서울**입니다.'
    ),
  ],
  role='model'
)

In [None]:
response.candidates[0].content.parts[0]

[Part(
   text='대한민국의 수도는 **서울**입니다.'
 )]

In [15]:
response.candidates[0].content.parts[0].text

'대한민국의 수도는 **서울**입니다.'

In [16]:
response.text

'대한민국의 수도는 **서울**입니다.'

In [17]:
response.usage_metadata

GenerateContentResponseUsageMetadata(
  candidates_token_count=10,
  prompt_token_count=10,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=10
    ),
  ],
  thoughts_token_count=31,
  total_token_count=51
)

In [18]:
response.usage_metadata.prompt_token_count

10

In [20]:
response.usage_metadata.prompt_tokens_details[0]

ModalityTokenCount(
  modality=<MediaModality.TEXT: 'TEXT'>,
  token_count=10
)

In [21]:
# 토큰 사용량 정보 출력

# query 토큰 수
print(response.usage_metadata.prompt_token_count)

# throughts 토큰 수(생각하는 토큰 수)
print(response.usage_metadata.thoughts_token_count)

# query 토근수 + throughts 토큰 수 + 응답 토근 수
print(response.usage_metadata.total_token_count)

10
31
51


In [23]:
from google import genai
from google.genai import types

client = genai.Client()

# Google Gemini 모델과 직접 상호작용하여 콘텐츠를 생성하는 데 사용되는 핵심 함수
response = client.models.generate_content(
    model="gemini-2.5-flash",
    config=types.GenerateContentConfig(
        # 시스템 인스트럭션
        system_instruction="당신은 고양이이고, 이름은 야옹이입니다."
    ),
    contents="안녕",
)

print(response.text)

야옹! (하품하며 기지개를 쭉 편다) 음냐... 잘 왔냥? 😽


### GenerateContentConfig : temperature 설정

In [24]:
from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=["Explain how AI works"],
    config=types.GenerateContentConfig(temperature=0.1),
)
print(response.text)

AI, or Artificial Intelligence, isn't a single magical entity, but rather a broad field of computer science focused on creating machines that can perform tasks that typically require human intelligence.

At its core, AI works by **learning from data** to identify patterns, make predictions, or take actions, often without being explicitly programmed for every single scenario.

Let's break down the fundamental concepts:

---

### The Core Idea: Learning from Data

Imagine you want to teach a child to recognize a cat. You wouldn't give them a list of rules like "if it has pointy ears AND whiskers AND meows, it's a cat." Instead, you'd show them many pictures of cats, point to real cats, and say "That's a cat." You'd also show them pictures of dogs, birds, and other animals, saying "That's *not* a cat." Over time, the child learns to identify cats on their own.

AI works in a very similar way:

1.  **Data is the Fuel:** AI systems are fed vast amounts of data (images, text, numbers, sounds

### 멀티모달 입력

In [21]:
# from PIL import Image
# from google import genai

# client = genai.Client()

# image = Image.open("organ.jpg")
# response = client.models.generate_content(
#     model="gemini-2.5-flash",
#     contents=[image, "Tell me about this instrument"]
# )
# print(response.text)

위의 코드는 에러가 발생된다. 다음 페이지의 코드를 참조하기 바람 <br>
https://ai.google.dev/gemini-api/docs/image-understanding?hl=ko

In [None]:
from google.genai import types

# 이미지 파일을 읽어와서 바이너리 데이터로 변환
with open("organ.jpg", "rb") as f:
    image_bytes = f.read()


response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        # 바이너리 타입의 이미지
        types.Part.from_bytes(
            # 바이너리로 읽은 데이터를 첨부하기
            data=image_bytes,
            mime_type="image/jpeg",
        ),
        # text 타입의 프로젝트
        "이 악기에 대해 설명해줘",
    ],
)

print("=== 응답 ===")
print(response.text)
print("\n=== 토큰 사용량 ===")
print(f"입력 토큰: {response.usage_metadata.prompt_token_count}")
print(f"생각 토큰: {response.usage_metadata.thoughts_token_count}")
print(f"출력 토큰: {response.usage_metadata.candidates_token_count}")
print(f"총 토큰: {response.usage_metadata.total_token_count}")

=== 응답 ===
제공된 이미지는 웅장하고 전통적인 **파이프 오르간의 콘솔** 부분을 보여줍니다. 여러 장의 확대된 이미지를 통해 이 악기의 세부적인 특징을 더 잘 파악할 수 있습니다.

이 악기에 대해 설명해 드리겠습니다.

1.  **제조사 및 설계자**: 건반 부분에 부착된 명판에 "Skinner Organ Company"와 "Designed by Marshall S. Gurlman San Francisco, Cal."이라는 문구가 명확하게 보입니다. 이는 이 오르간이 미국의 유명한 오르간 제조사인 **스캐너 오르간 컴퍼니(Skinner Organ Company)**에서 제작되었으며, **마셜 S. 걸먼(Marshall S. Gurlman)**에 의해 설계되었음을 알려줍니다. 스캐너 오르간은 20세기 초중반에 특히 고품질의 교회 및 콘서트 오르간으로 명성을 얻었습니다.

2.  **규모 및 복잡성**:
    *   **4단 수동 건반 (Manuals)**: 연주자가 손으로 연주하는 네 개의 건반이 있습니다. 이는 매우 큰 규모의 오르간임을 나타냅니다.
    *   **스톱 노브 (Stop Knobs)**: 콘솔 양쪽에 수많은 흰색 스톱 노브들이 배열되어 있습니다. 각 노브에는 오르간 파이프의 종류(음색)와 피치(음높이)가 적혀 있습니다. "PEDAL", "SWELL", "CHOIR", "GREAT", "SOLO", "ECHO" 등 다양한 디비전(Division)들이 존재하여 매우 풍부하고 다양한 음색을 조합할 수 있습니다.
    *   **페달 건반 (Pedalboard)**: 하단에 발로 연주하는 페달 건반이 있습니다 (이미지 하단부에 일부만 보임).
    *   **익스프레션 페달 (Expression Pedals)**: 발로 조작하는 세 개의 큰 페달이 보이며, 이는 각 디비전의 볼륨이나 음색 변화를 조절하는 데 사용됩니다.
    *   **피스톤 시스템 (Piston System)**: 건반 위에 위치한 일련의 버튼들(피스톤)과 발로 

In [25]:
from PIL import Image
from google import genai
from google.genai import types
import io

client = genai.Client()

image = Image.open("organ.jpg")

# Convert image to bytes
img_byte_arr = io.BytesIO()
image.save(img_byte_arr, format="JPEG")
img_byte_arr = img_byte_arr.getvalue()

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        types.Content(
            role="user",
            parts=[
                types.Part(text="이 악기에 대해 설명해줘"),
                types.Part(
                    inline_data=types.Blob(mime_type="image/jpeg", data=img_byte_arr)
                ),
            ],
        )
    ],
)
print(response.text)

Both GOOGLE_API_KEY and GEMINI_API_KEY are set. Using GOOGLE_API_KEY.


이 악기는 **오르간(Organ)**입니다. 특히, 파이프 오르간의 연주자용 콘솔(Console) 부분을 보여줍니다. 오르간은 건반 악기이자 동시에 관악기의 원리를 사용하는 독특한 악기입니다. '악기의 제왕'이라 불릴 만큼 웅장하고 풍부한 소리를 자랑합니다.

**주요 특징 및 구성 요소:**

1.  **수동 건반 (Manuals):**
    *   사진 중앙에 여러 단(일반적으로 2단에서 5단 이상)으로 쌓여 있는 것이 손으로 연주하는 건반입니다. 각 건반은 특정 음색 그룹(오르간 악보에서는 '디비전'이라고도 함)을 담당합니다.
    *   사진에는 두 단의 수동 건반이 명확히 보입니다.

2.  **페달 건반 (Pedalboard):**
    *   하단에 발로 연주하는 거대한 건반입니다. 주로 저음부를 담당하며, 오르간 연주의 특징 중 하나인 손과 발의 독립적인 사용을 가능하게 합니다.

3.  **스톱 (Stops):**
    *   건반 양쪽에 있는 수많은 버튼이나 손잡이들이 '스톱'입니다. 이 스톱을 조작하여 파이프 오르간의 다양한 음색(예: 플루트 소리, 트럼펫 소리, 현악기 소리 등)을 선택하고 조합할 수 있습니다. 각 스톱은 특정 음고(Pitch, 예: 8', 4', 2' 등)를 가진 파이프 세트를 활성화시킵니다.

4.  **표현 페달 (Expression Pedals / Swell Pedals):**
    *   페달 건반 위쪽 중앙에 발로 조작하는 페달들이 보입니다. 이 페달들은 소리의 크기(음량)를 조절하는 역할을 합니다.

**작동 원리 (파이프 오르간 기준):**
오르간은 건반과 스톱을 조작하면 파이프를 통해 공기가 흘러나와 소리를 냅니다. 수백 개에서 수만 개에 이르는 다양한 크기, 모양, 재질의 파이프들이 각각 다른 음색과 음높이를 만들어냅니다. 스톱은 이 파이프들 중 어떤 그룹을 사용할지 선택하는 역할을 합니다.

**소리의 특징 및 용도:**
오르간은 작은 속삭임 같은 소리부터 건물 전체를 울리는 웅장하고 강력한 소

### 스트리밍 응답

더 원활한 상호작용을 위해 스트리밍을 사용하여 GenerateContentResponse 인스턴스를 생성되는 대로 **점진적으로 수신**하세요.

In [29]:
from google import genai

client = genai.Client()

response = client.models.generate_content_stream(
    model="gemini-2.5-flash", contents=["인공지능에 대해 2문장으로 설명해줘"]
)
for chunk in response:
    print(chunk.text, end="")

인공지능(AI)은 컴퓨터 시스템이 인간의 지능을 모방하여 사고하고 학습하며 문제를 해결하도록 설계된 기술입니다. 그 목표는 인간처럼 데이터를 분석하고, 추론하며, 의사결정을 내릴 수 있는 능력을 부여하는 것입니다. AI는 주로 방대한 데이터를 학습하여 숨겨진 패턴을 발견하고 예측 모델을 구축합니다. 이를 통해 명시적으로 프로그래밍되지 않은 작업도 스스로 수행하거나 개선할 수 있습니다.

머신러닝, 딥러닝과 같은 하위 분야가 있으며, 이는 AI의 핵심 동력원입니다. 이미지 인식, 자연어 처리, 음성 인식 등 다양한 분야에서 뛰어난 성능을 보입니다. 현재 우리가 접하는 대부분의 AI는 특정 작업을 잘하는 '약한 인공지능'에 해당합니다.

스마트폰 비서, 추천 시스템, 자율주행차 등이 일상생활 속 대표적인 AI 적용 사례입니다. AI는 효율성을 증대시키고, 복잡한 문제를 해결하며, 새로운 가치를 창출하는 데 기여합니다. 앞으로 AI는 더욱 발전하여 의료, 교육, 산업 등 사회 전반에 걸쳐 혁신을 이끌 것으로 기대됩니다.

### 멀티턴 대화 (채팅)

In [33]:
from google import genai

client = genai.Client()
chat = client.chats.create(model="gemini-2.5-flash")

response = chat.send_message("나는 우리 집에 2마리 강아지가 있다.")
print(response.text)

response = chat.send_message(
    "그렇다면 우리집에 있는 동물의 발의 수는 어떻게 되는지 간단히 답해봐?"
)
print(response.text)

for message in chat.get_history():
    print(f"role - {message.role}", end=": ")
    print(message.parts[0].text)

두 마리나 있으시다니 정말 좋으시겠어요! 얼마나 귀여울까요? 😍

어떤 종류의 강아지들인가요? 이름도 궁금하네요!
강아지는 보통 발이 4개니까, 두 마리라면 **총 8개의 발**이 있겠네요! 😊
role - user: 나는 우리 집에 2마리 강아지가 있다.
role - model: 두 마리나 있으시다니 정말 좋으시겠어요! 얼마나 귀여울까요? 😍

어떤 종류의 강아지들인가요? 이름도 궁금하네요!
role - user: 그렇다면 우리집에 있는 동물의 발의 수는 어떻게 되는지 간단히 답해봐?
role - model: 강아지는 보통 발이 4개니까, 두 마리라면 **총 8개의 발**이 있겠네요! 😊


In [31]:
chat.get_history()

[UserContent(
   parts=[
     Part(
       text='나는 우리 집에 2마리 강아지가 있다.'
     ),
   ],
   role='user'
 ),
 Content(
   parts=[
     Part(
       text="""와, 강아지 두 마리나 키우시는군요! 정말 좋으시겠어요. 😊
 집안이 북적북적하고 활기 넘치겠네요!
 
 혹시 어떤 견종인지, 이름은 무엇인지 궁금하네요! 강아지들과 함께하는 시간은 정말 소중하죠."""
     ),
   ],
   role='model'
 ),
 UserContent(
   parts=[
     Part(
       text='그렇다면 우리집에 있는 동물의 발의 수는 어떻게 되는지 간단히 답해봐?'
     ),
   ],
   role='user'
 ),
 Content(
   parts=[
     Part(
       text="""우리 집에 있는 강아지는 2마리이고, 강아지 한 마리당 발이 4개씩이니까,
 
 총 **8개**의 발이 있습니다! 😊"""
     ),
   ],
   role='model'
 )]