구글 sdk 사용하기

In [3]:
from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?"
)

print(response.text)

AI, or Artificial Intelligence, works by enabling computer systems to perform tasks that typically require human intelligence. This isn't a single technology but a broad field encompassing many different approaches and techniques.

At its core, AI aims to replicate or simulate cognitive functions like learning, problem-solving, decision-making, perception, and language understanding.

Here's a breakdown of the fundamental principles and components:

---

### The Core Idea: Learning from Data

Most modern AI, particularly the kind you hear about most (like ChatGPT, recommendation systems, facial recognition), operates on the principle of **learning from data**. Instead of being explicitly programmed for every single scenario, AI systems are trained on vast amounts of information to identify patterns, make predictions, or generate responses.

**Think of it like teaching a child:**

1.  **Data (Examples):** You show a child many pictures of cats and dogs, labeling each one. This is the **

langchain gemimi 사용해보기

In [2]:
from langchain_google_genai import ChatGoogleGenerativeAI

# ChatGoogleGenerativeAI 언어 모델을 초기화합니다.
llm = ChatGoogleGenerativeAI(model="gemini-2.5-flash")

# 프롬프트를 전달하여 결과를 생성합니다.
answer = llm.invoke("자연어처리에 대해서 간략히 설명해 줘")

# 결과를 출력합니다.
answer

AIMessage(content='자연어처리(NLP, Natural Language Processing)는 컴퓨터가 **인간의 언어(자연어)**를 **이해하고, 처리하며, 생성**하는 기술을 말합니다.\n\n우리가 일상에서 사용하는 말이나 글(한국어, 영어 등)은 컴퓨터가 직접 이해하기 어렵습니다. NLP는 이 **인간의 언어를 컴퓨터가 분석하고 의미를 파악**할 수 있도록 돕는 다리 역할을 합니다.\n\n**간단히 말해, NLP는 컴퓨터가 마치 사람처럼 언어를 듣고, 읽고, 이해하고, 말하고, 쓰는 것을 목표로 합니다.**\n\n---\n\n**주요 목표 및 역할:**\n\n1.  **언어 이해 (Natural Language Understanding, NLU):**\n    *   단어의 의미, 문장의 구조, 문맥 등을 파악하여 인간의 언어가 무엇을 말하는지 이해합니다.\n    *   예: "사과"라는 단어가 과일인지, 사죄인지 문맥에 따라 구분하는 것.\n\n2.  **언어 생성 (Natural Language Generation, NLG):**\n    *   컴퓨터가 이해한 정보를 바탕으로 사람처럼 자연스러운 문장을 만들어냅니다.\n    *   예: 기사 요약문 작성, 챗봇의 답변 생성.\n\n---\n\n**어디에 사용될까요? (일상생활 속 NLP 예시)**\n\n*   **검색 엔진:** 우리가 입력한 검색어를 이해하고 가장 관련성 높은 정보를 찾아줍니다.\n*   **번역 앱:** 구글 번역기처럼 다른 언어로 바꿔줍니다.\n*   **음성 비서:** 시리, 빅스비, 알렉사처럼 말하는 것을 듣고 명령을 수행합니다.\n*   **챗봇:** 고객 상담 챗봇이 질문을 이해하고 답변을 제공합니다.\n*   **스팸 메일 필터:** 메일 내용을 분석하여 스팸 메일을 걸러냅니다.\n*   **맞춤법 및 문법 검사:** 작성한 글의 오류를 찾아 수정해줍니다.\n*   **감성 분석:** 댓글이나 리뷰에서 긍정적인지 부정적인지 감성을 파악합니다.\n*   *

체인 만들기

In [6]:
from langchain_core.prompts import ChatPromptTemplate

llm = ChatGoogleGenerativeAI(model="gemini-2.5-flash")
prompt = ChatPromptTemplate.from_template("너는 백과서전이야. 내 질문 대답해. <Question>: {input}")
chain = prompt | llm
chain.invoke({"input":"데이터 엔지니어 뭐하는 사람이야?"})

AIMessage(content="안녕하세요! 백과사전으로서 데이터 엔지니어에 대해 자세히 설명해 드리겠습니다.\n\n---\n\n### **데이터 엔지니어(Data Engineer)**\n\n**데이터 엔지니어**는 기업이 데이터를 효과적으로 수집, 저장, 처리, 관리하고, 이를 분석 및 활용할 수 있도록 **데이터 인프라와 파이프라인을 구축하고 유지보수하는 전문가**입니다. 즉, 데이터 과학자나 데이터 분석가가 데이터를 가지고 작업하기 전에, 깨끗하고 사용 가능한 형태로 데이터를 준비하고 접근 가능하게 만드는 '데이터 기반'을 다지는 역할을 수행합니다.\n\n#### **1. 주요 역할 및 업무**\n\n데이터 엔지니어의 업무는 데이터를 '생산'하는 것부터 '소비'되는 모든 과정에 걸쳐 광범위하게 이루어집니다.\n\n*   **데이터 파이프라인 구축 및 관리:** 다양한 소스(웹사이트, 앱, 센서, 외부 API 등)에서 데이터를 수집하여 중앙 집중식 저장소로 가져오는 자동화된 시스템(데이터 파이프라인)을 설계, 구축, 운영합니다. 이 과정에서 ETL(Extract, Transform, Load) 또는 ELT(Extract, Load, Transform) 프로세스를 구현합니다.\n*   **데이터 저장 시스템 설계 및 구현:** 데이터 웨어하우스(Data Warehouse), 데이터 레이크(Data Lake), 데이터 마트(Data Mart) 등 기업의 목적에 맞는 최적의 데이터 저장 구조를 설계하고 구현합니다.\n*   **데이터 품질 및 거버넌스 확보:** 데이터의 정확성, 일관성, 완전성 등을 보장하기 위한 데이터 품질 관리 시스템을 구축하고, 데이터 사용 및 접근에 대한 정책(데이터 거버넌스)을 정의하고 구현합니다.\n*   **데이터 보안 및 접근 제어:** 민감한 데이터의 보안을 유지하고, 필요한 사람만 데이터에 접근할 수 있도록 권한 관리 시스템을 구축합니다.\n*   **데이터 인프라 최적화 및 유지보수:** 데이터 시스템의 성능을 최적화하고,

In [8]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# prompt + model + output parser
prompt = ChatPromptTemplate.from_template("You are an expert in astronomy. Answer the question. <Question>: {input}")
llm = ChatGoogleGenerativeAI(model="gemini-2.5-flash")
output_parser = StrOutputParser()
# LCEL chaining
chain = prompt | llm | output_parser
# chain 호출
chain.invoke({"input": "지구의 자전 주기는?"})

"지구의 자전 주기는 일반적으로 두 가지 방식으로 설명할 수 있습니다:\n\n1.  **태양일 (Solar Day):**\n    *   우리가 일상생활에서 사용하는 '하루'의 개념으로, 태양이 하늘의 같은 위치(예: 정오)에 다시 오기까지 걸리는 시간입니다.\n    *   이는 약 **24시간**입니다.\n    *   지구가 자전하면서 동시에 태양 주위를 공전하기 때문에, 태양의 위치가 다시 같아지려면 지구는 360도보다 조금 더 자전해야 합니다.\n\n2.  **항성일 (Sidereal Day):**\n    *   지구가 먼 별들에 대해 정확히 360도를 자전하는 데 걸리는 시간입니다. 이것이 지구의 실제 자전 주기입니다.\n    *   이는 약 **23시간 56분 4.091초**입니다.\n    *   항성일은 태양일보다 약 4분 더 짧습니다. 이 4분의 차이는 지구가 태양 주위를 공전함에 따라 발생하는 것입니다.\n\n천문학적으로 볼 때, 지구의 진정한 자전 주기는 항성일인 **23시간 56분 4.091초**입니다."

In [3]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_google_genai import ChatGoogleGenerativeAI
prompt1 = ChatPromptTemplate.from_template("translates {korean_word} to English.")
prompt2 = ChatPromptTemplate.from_template(
    "explain {english_word} using oxford dictionary to me in Korean."
)

llm = ChatGoogleGenerativeAI(model="gemini-2.5-flash")

chain1 = prompt1 | llm | StrOutputParser()

chain1.invoke({"korean_word":"미래"})

'**미래** translates to **future** in English.'

In [4]:
chain2 = ({"english_word": chain1} | prompt2 | llm | StrOutputParser() )
chain2.invoke({"korean_word":"미래"})

'네, 맞습니다. 한국어 "미래"의 영어 번역은 **"future"**가 정확합니다.\n\n옥스퍼드 사전(Oxford Dictionary)에 따르면 "future"는 다음과 같이 정의됩니다:\n\n*   **"The time that will come after the present or the events that will happen then."**\n    (현재 이후에 올 시간 또는 그때 일어날 일들.)\n\n이 정의를 한국어 "미래"의 의미와 비교해보면 완벽하게 일치합니다.\n\n*   **미래 (未來):**\n    *   아직 오지 아니한 때.\n    *   앞으로 올 일.\n\n**결론적으로:**\n옥스퍼드 사전에서 정의하는 "future"의 의미와 한국어 "미래"의 의미는 \'현재 이후에 다가올 시간\' 또는 \'앞으로 일어날 일\'이라는 개념을 정확히 공유합니다. 따라서 "미래"와 "future"는 의미론적으로 완전히 일치하는 번역어입니다.\n\n**예시:**\n\n*   **미래**를 예측하다. (To predict the **future**.)\n*   밝은 **미래**를 꿈꾸다. (To dream of a bright **future**.)\n*   우리의 **미래**는 어떻게 될까? (What will our **future** be like?)'

In [8]:
from langchain_core.prompts import PromptTemplate

# 'name'과 'age'라는 두 개의 변수를 사용하는 프롬프트 템플릿을 정의
template_text = "안녕하세요, 제 이름은 {name}이고, 나이는 {age}살입니다."

# PromptTemplate 인스턴스를 생성
prompt_template = PromptTemplate.from_template(template_text)
print(prompt_template)
# 템플릿에 값을 채워서 프롬프트를 완성
filled_prompt = prompt_template.format(name="홍길동", age=30)

filled_prompt

input_variables=['age', 'name'] input_types={} partial_variables={} template='안녕하세요, 제 이름은 {name}이고, 나이는 {age}살입니다.'


'안녕하세요, 제 이름은 홍길동이고, 나이는 30살입니다.'

In [9]:
# 문자열 템플릿 결합 (PromptTemplate + PromptTemplate + 문자열)
combined_prompt = (
              prompt_template
              + PromptTemplate.from_template("\n\n아버지를 아버지라 부를 수 없습니다.")
              + "\n\n{language}로 번역해주세요."
)

combined_prompt


PromptTemplate(input_variables=['age', 'language', 'name'], input_types={}, partial_variables={}, template='안녕하세요, 제 이름은 {name}이고, 나이는 {age}살입니다.\n\n아버지를 아버지라 부를 수 없습니다.\n\n{language}로 번역해주세요.')

In [10]:
combined_prompt.format(name="홍길동", age=30, language="영어")

'안녕하세요, 제 이름은 홍길동이고, 나이는 30살입니다.\n\n아버지를 아버지라 부를 수 없습니다.\n\n영어로 번역해주세요.'

In [11]:
llm = ChatGoogleGenerativeAI(model="gemini-2.5-flash")
output_parser = StrOutputParser()
# LCEL chaining
chain = combined_prompt | llm | output_parser
# chain 호출
chain.invoke({"age":30, "language":"영어", "name":"홍길동"})

"Hello, my name is Hong Gildong, and I am 30 years old.\nI cannot call my father 'father'."

In [17]:
# 2-튜플 형태의 메시지 목록으로 프롬프트 생성 (type, content)

from langchain_core.prompts import ChatPromptTemplate
llm = ChatGoogleGenerativeAI(model="gemini-2.5-flash")
chat_prompt = ChatPromptTemplate.from_messages([
    ("system", "이 시스템은 천문학 질문에 답변할 수 있습니다.다른 분야 질문이 들어오는 경우 '질문이 범위 초과하여 대답할수 없습니다'라고 대답해줘 "),
    ("user", "{user_input}"),
])

messages = chat_prompt.format_messages(user_input="태양계에서 가장 큰 행성은 무엇인가요?")
messages

[SystemMessage(content="이 시스템은 천문학 질문에 답변할 수 있습니다.다른 분야 질문이 들어오는 경우 '질문이 범위 초과하여 대답할수 없습니다'라고 대답해줘 ", additional_kwargs={}, response_metadata={}),
 HumanMessage(content='태양계에서 가장 큰 행성은 무엇인가요?', additional_kwargs={}, response_metadata={})]

In [18]:
chain = chat_prompt | llm | StrOutputParser()
chain.invoke({"user_input": "태양계에서 가장 큰 행성은 무엇인가요?"})

'태양계에서 가장 큰 행성은 **목성**입니다.'

In [19]:
chain.invoke({"user_input": "데이터엔지니어 어떤 사람이야?"})

'저는 질문하신 내용이 천문학 분야에 속하는지 판단할 수 없습니다. 따라서 답변해 드릴 수 없습니다.'

In [21]:
from langchain_core.prompts import PromptTemplate

example_prompt = PromptTemplate.from_template("질문: {question}\n{answer}")
examples = [
    {
        "question": "지구의 대기 중 가장 많은 비율을 차지하는 기체는 무엇인가요?",
        "answer": "지구 대기의 약 78%를 차지하는 질소입니다."
    },
    {
        "question": "광합성에 필요한 주요 요소들은 무엇인가요?",
        "answer": "광합성에 필요한 주요 요소는 빛, 이산화탄소, 물입니다."
    },
    {
        "question": "피타고라스 정리를 설명해주세요.",
        "answer": "피타고라스 정리는 직각삼각형에서 빗변의 제곱이 다른 두 변의 제곱의 합과 같다는 것입니다."
    },
    {
        "question": "지구의 자전 주기는 얼마인가요?",
        "answer": "지구의 자전 주기는 약 24시간(정확히는 23시간 56분 4초)입니다."
    },
    {
        "question": "DNA의 기본 구조를 간단히 설명해주세요.",
        "answer": "DNA는 두 개의 폴리뉴클레오티드 사슬이 이중 나선 구조를 이루고 있습니다."
    },
    {
        "question": "원주율(π)의 정의는 무엇인가요?",
        "answer": "원주율(π)은 원의 지름에 대한 원의 둘레의 비율입니다."
    }
]


In [22]:
from langchain_core.prompts import FewShotPromptTemplate

# FewShotPromptTemplate을 생성합니다.
prompt = FewShotPromptTemplate(
    examples=examples,              # 사용할 예제들
    example_prompt=example_prompt,  # 예제 포맷팅에 사용할 템플릿
    suffix="질문: {input}",          # 예제 뒤에 추가될 접미사
    input_variables=["input"],      # 입력 변수 지정
)

# 새로운 질문에 대한 프롬프트를 생성하고 출력합니다.
print(prompt.invoke({"input": "화성의 표면이 붉은 이유는 무엇인가요?"}).to_string())


질문: 지구의 대기 중 가장 많은 비율을 차지하는 기체는 무엇인가요?
지구 대기의 약 78%를 차지하는 질소입니다.

질문: 광합성에 필요한 주요 요소들은 무엇인가요?
광합성에 필요한 주요 요소는 빛, 이산화탄소, 물입니다.

질문: 피타고라스 정리를 설명해주세요.
피타고라스 정리는 직각삼각형에서 빗변의 제곱이 다른 두 변의 제곱의 합과 같다는 것입니다.

질문: 지구의 자전 주기는 얼마인가요?
지구의 자전 주기는 약 24시간(정확히는 23시간 56분 4초)입니다.

질문: DNA의 기본 구조를 간단히 설명해주세요.
DNA는 두 개의 폴리뉴클레오티드 사슬이 이중 나선 구조를 이루고 있습니다.

질문: 원주율(π)의 정의는 무엇인가요?
원주율(π)은 원의 지름에 대한 원의 둘레의 비율입니다.

질문: 화성의 표면이 붉은 이유는 무엇인가요?


In [24]:
from langchain_core.output_parsers import CommaSeparatedListOutputParser

output_parser = CommaSeparatedListOutputParser()
format_instructions = output_parser.get_format_instructions()

print(format_instructions)

Your response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`


In [25]:
from langchain_core.prompts import PromptTemplate

prompt = PromptTemplate(
    template="List five {subject}.\n{format_instructions}",
    input_variables=["subject"],
    partial_variables={"format_instructions": format_instructions},
)

llm = ChatGoogleGenerativeAI(model="gemini-2.5-flash",temperature=0)

chain = prompt | llm | output_parser

chain.invoke({"subject": "popular Korean cusine"})


['Bulgogi', 'Bibimbap', 'Kimchi Jjigae', 'Tteokbokki', 'Samgyeopsal']

In [28]:
from langchain_core.output_parsers import JsonOutputParser
from pydantic import BaseModel, Field

# 자료구조 정의 (pydantic)
class CusineRecipe(BaseModel):
    name: str = Field(description="name of a cusine")
    recipe: str = Field(description="recipe to cook the cusine")

# 출력 파서 정의
output_parser = JsonOutputParser(pydantic_object=CusineRecipe)

format_instructions = output_parser.get_format_instructions()

print(format_instructions)

STRICT OUTPUT FORMAT:
- Return only the JSON value that conforms to the schema. Do not include any additional text, explanations, headings, or separators.
- Do not wrap the JSON in Markdown or code fences (no ``` or ```json).
- Do not prepend or append any text (e.g., do not write "Here is the JSON:").
- The response must be a single top-level JSON value exactly as required by the schema (object/array/etc.), with no trailing commas or comments.

The output should be formatted as a JSON instance that conforms to the JSON schema below.

As an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]} the object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.

Here is the output schema (shown in a code block for readability only — do not include any backticks or Markdown in your output):


In [29]:
# prompt 구성
prompt = PromptTemplate(
    template="Answer the user query.\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": format_instructions},
)

print(prompt)

input_variables=['query'] input_types={} partial_variables={'format_instructions': 'STRICT OUTPUT FORMAT:\n- Return only the JSON value that conforms to the schema. Do not include any additional text, explanations, headings, or separators.\n- Do not wrap the JSON in Markdown or code fences (no ``` or ```json).\n- Do not prepend or append any text (e.g., do not write "Here is the JSON:").\n- The response must be a single top-level JSON value exactly as required by the schema (object/array/etc.), with no trailing commas or comments.\n\nThe output should be formatted as a JSON instance that conforms to the JSON schema below.\n\nAs an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]} the object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.\n\nHere is the output schema (shown in 

In [32]:
llm = ChatGoogleGenerativeAI(model="gemini-2.5-flash-lite",temperature=0)
chain = prompt | llm | output_parser

chain.invoke({"query": "Let me know how to cook Bibimbap"})

{'name': 'Bibimbap',
 'recipe': '1. Cook rice. 2. Prepare toppings: sautéed vegetables (spinach, carrots, bean sprouts, mushrooms), seasoned beef or tofu, a fried egg. 3. Arrange toppings over the cooked rice in a bowl. 4. Serve with gochujang (Korean chili paste) and sesame oil.'}