# Langchain Intro
`01_langchain_intro.ipynb`

- LLM powered 어플리케이션 제작을 위한 프레임 워크

In [1]:
%pip install -q langchain langchain-openai

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.3.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
from dotenv import load_dotenv

load_dotenv()

True

In [3]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-5-nano")
llm.invoke("Hello, world!")

AIMessage(content='Hello! Nice to meet you. What would you like to do today? I can show “Hello, world!” in different languages, explain its history, or help with any other questions or tasks.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 561, 'prompt_tokens': 10, 'total_tokens': 571, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 512, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-5-nano-2025-08-07', 'system_fingerprint': None, 'id': 'chatcmpl-CArTBSorgCd4g8HmacyNMfmlBBE62', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--1be3b7ba-994c-4f22-9a41-f5671e882ef9-0', usage_metadata={'input_tokens': 10, 'output_tokens': 561, 'total_tokens': 571, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 512}})

In [4]:
# 만약 우리가, 외국어로 메세지가 들어오면, 한국어로 번역을 해주는 AI를 만들고 싶다면?

msg = input("외국어를 넣으세요")

res = llm.invoke(f"한국어로 번역해줘: {msg}")

res.content

'번역할 문장을 보내주시면 한국어로 번역해 드리겠습니다. 현재 입력이 비어 있어 번역할 내용이 없습니다. 번역하고 싶은 문장을 여기에 붙여 주세요. 예시: "Hello, how are you?" -> "안녕, 잘 지내?"'

In [5]:
from langchain_core.messages import HumanMessage, SystemMessage

messages = [
    # SystemMessage ==
    # 채팅 세션의 전체적인 안내 사항
    SystemMessage(content="당신은 성실하고 친절한 AI 과학자입니다."),
    HumanMessage(content="랭체인과 랭그래프를 학습하고 싶어 도와줘"),
]

llm.invoke(messages)

AIMessage(content='좋아요! 랭체인(LangChain)과 랭그래프(LangGraph)를 함께 배우면 LLM을 활용한 응용을 훨씬 체계적으로 설계할 수 있어요. 아래에 학습 로드맵과 바로 시작할 수 있는 가이드를 정리했습니다. 필요에 맞춰 부분만 골라서 진행해도 좋습니다.\n\n1) 먼저 이해하기: 랭체인 vs 랭그래프\n- 랭체인(LangChain): LLM 기반 애플리케이션을 쉽게 구성하는 프레임워크예요. 프롬프트 설계, 체인(LMChain, Tools 체인 등), 벡터 저장소와의 연동, 메모리(상대 대화 맥락 저장) 등 다양한 구성 요소를 다룹니다.\n- 랭그래프(LangGraph): 랭체인 생태계에서 그래프 형태의 흐름으로 LLM 작업을 설계하고 실행하는 도구 또는 방식입니다. 노드(node)와 간선(edge)으로 여러 단계의 의사결정 흐름, 조건부 분기, 병렬 처리 등을 그래프 형태로 표현하고 실행하는 데 활용합니다. 직관적으로 다단계 계획을 시각화하고 재사용 가능한 구성요소로 관리하는 데 도움이 됩니다.\n- 목적: 랭체인은 “프롬프트와 도구를 연결하는 실행 엔진”이고, 랭그래프는 그 실행 흐름을 그래프 형태로 설계하고 조합하는 도구로 이해하면 좋습니다.\n\n2) 준비물과 기본 환경\n- 프로그래밍 언어: Python을 권장합니다. (JS/TypeScript도 가능하지만, 먼저 Python으로 시작하는 것이 일반적이에요.)\n- 파이썬 버전: 3.8 이상 권장\n- 필수 도구: Python 가상환경(Virtualenv) 또는 conda\n- 설치 예시(가상환경 사용 권장):\n  - python -m venv venv\n  - source venv/bin/activate (Windows는 venv\\Scripts\\activate)\n  - pip install --upgrade pip\n  - pip install langchain openai chromadb\n- API 키: OpenAI API 키를 준비해 환경변수에 설정\n  -

In [6]:
messages = [
    # SystemMessage ==
    # 채팅 세션의 전체적인 안내 사항
    {"role": "system", "content": "한국어를 이탈리어로 번역해줘"},
    {"role": "human", "content": "배부르다"},
]

llm.invoke(messages)

AIMessage(content='"배부르다"를 이탈리아어로 번역하면 주로 다음과 같습니다.\n\n- sazio (형용사) → 예: Sono sazio. / Mi sento sazio. (나는 배가 부르다 / 나는 배가 부르다고 느낀다)\n- pieno (형용사, 다소 일반적) → 예: Sono pieno.\n- Lo stomaco è pieno. (배가 가득 찼다, 문자적 표현)\n\n요약:\n- 일반적 표현: sono sazio / mi sento sazio\n- 조금 더 일반적 표현: sono pieno\n- 문자적 표현이 필요하면: lo stomaco è pieno\n\n필요한 상황에 맞춰 예문을 더 원하시면 알려주세요.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 1838, 'prompt_tokens': 26, 'total_tokens': 1864, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 1664, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-5-nano-2025-08-07', 'system_fingerprint': None, 'id': 'chatcmpl-CArV6UuTUFRY1OkZd3zdlVXETXixR', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--bc957615-66f2-4dd4-8c8b-69b21ed31232-0', usage_metadata={'input_tokens': 26, 'output_tokens': 18

In [7]:
for token in llm.stream(messages):
    print(token.content, end="|")

|다|음| 중| 상황|에| 맞|게| 고|르면| 됩니다|.

|-| 기본|적으로|:| Sono| pien|o|(|남|자|)| /| Sono| pien|a|(|여|자|)
|-| 더| 자연|스럽|게| “|배|가| 부|르|다|”| 느낌|으로|:| Mi| sent|o| pien|o|(|남|자|)| /| Mi| sent|o| pien|a|(|여|자|)
|-| 조금| 더| 강|한| 표현|:| Sono| sa|zio|(|남|자|)| /| Sono| sa|zia|(|여|자|)| /| Mi| sent|o| sa|zio|(|남|자|)| /| Mi| sent|o| sa|zia|(|여|자|)

|필|요|한| 맥|락|이| 있|으면| 알려|주|면| 맞|춤|으로| 골|라|드|릴|게|요|.||

## Prompt Template
- 고정된 문자열과 변수를 조합하여 프롬프트를 만드는 방법

## Chain
- Langchain의 각 구성요소를 묶어서(chaining) 하여 한번에 실행(invoke)할 수 있도록 하는 기능
- `a | b | c` 형태로 나옴. 이건 Python 문법이 아니라 Langchain 문법(LCEL Lang-Chain-Expression-Language)

In [8]:
# 채팅을 할 경우에는 ChatPromptTemplate

from langchain_core.prompts import ChatPromptTemplate

messages = [
    {"role": "system", "content": "Translate Korean to {lang}"},
    {"role": "human", "content": "{text}"},
]

prompt_template = ChatPromptTemplate.from_messages(messages)

prompt = prompt_template.invoke({"lang": "일본어", "text": "초밥이 먹고싶다"})

llm.invoke(prompt)

AIMessage(content='寿司を食べたいです。', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 657, 'prompt_tokens': 23, 'total_tokens': 680, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 640, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-5-nano-2025-08-07', 'system_fingerprint': None, 'id': 'chatcmpl-CArVQNqx967aV9vZ2tsKig6g8VsW8', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--2b0bb619-e5ab-4f62-bd11-a8948023cd2a-0', usage_metadata={'input_tokens': 23, 'output_tokens': 657, 'total_tokens': 680, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 640}})

In [9]:
prompt = prompt_template.invoke({"lang": "영어", "text": "버거가 먹고싶다"})
llm.invoke(prompt)

AIMessage(content="I want to eat a burger.\n\n(Alternatively: I'm craving a burger. / I feel like eating a burger.)", additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 416, 'prompt_tokens': 21, 'total_tokens': 437, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 384, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-5-nano-2025-08-07', 'system_fingerprint': None, 'id': 'chatcmpl-CArVVyWgtunf31ALIPJuL93K7nyzG', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--aeeb579a-3285-4d60-a49f-e0f78c6b3422-0', usage_metadata={'input_tokens': 21, 'output_tokens': 416, 'total_tokens': 437, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 384}})

In [10]:
from langchain_core.output_parsers import StrOutputParser

output_parser = StrOutputParser()

chain = prompt_template | llm | output_parser

chain.invoke({"lang": "영어", "text": "김치찌개가 먹고싶다"})

'Translation: "I want to eat kimchi stew." \n\nOptional natural variant: "I\'m craving kimchi jjigae."'

In [11]:
# 단발성 명령 수행 PromptTemplate

from langchain_core.prompts import PromptTemplate

template = """
당신은 클라이언트 요구사항을 분석해서 단계를 나눠주는 데이터분석 전문가 입니다. 
사용자의 질문을 EDA할 수 있도록 단계를 나눠주세요

상황: {question}

"""

prompt = PromptTemplate.from_template(template)

chain = prompt | llm | output_parser

res = chain.invoke({'question': '이번 2025년 전반기 매출 분석'})

print(res)

다음은 2025년 전반기(1월~6월) 매출 분석을 위한 EDA(Exploratory Data Analysis) 단계별 로드맵입니다. 각 단계의 목표, 입력 데이터, 주요 작업, 기대 산출물을 함께 제시합니다. 필요에 따라 순서를 조정해도 무방합니다.

1) 준비 및 성공 기준 정의
- 목적
  - 2025년 1~6월 매출 현황 파악 및 매출에 영향을 주는 요인 식별
  - 비즈니스 의사결정에 바로 활용 가능한 인사이트 확보
- 입력/가정
  - 분석 범위: 2025-01-01 ~ 2025-06-30
  - 매출의 정의: 총매출(net revenue 여부 결정), 포함 항목(주문건수, 매출액, 할인, 반품 등)
- 산출물
  - 분석 목표와 success criteria 문서(핵심 KPI 정의, 수용기준)
  - 데이터 요구사항 요약

2) 데이터 수집 및 이해
- 입력 데이터 소스
  - ERP/회계 시스템, POS/오프라인 판매, 온라인 몰, 마케팅 플랫폼(프로모션 데이터)
- 주요 필드 예시
  - 거래/매출: transaction_id, order_date, order_id, revenue, net_revenue, currency, discount_amount, tax, returns
  - 품목/상품: product_id, category, sub_category, price, quantity
  - 고객/채널: customer_id, region, country, channel (온라인/오프라인/제휴), store_id
  - 시간/캘린더: date, week_of_year, month, quarter
- 산출물
  - 데이터 맵(필드 정의, 출처, 주기/정합성 이슈)
  - 데이터 품질 이슈 로그(결측, 중복, 불일치 이슈 목록)

3) 데이터 품질 점검
- 점검 항목
  - 누락값, 중복 주문, 날짜/통화 포맷 일관성, 단위(통화) 일관성
  - 기간 필터링 정확성(jan-Jun 2025만 포함)
  - 다중 소스 간 매출 합계의 일관성 확인
- 

In [12]:
# chain 은 Runnable 객체이기 떄문에 invoke
for token in chain.stream({'question': '이번 2025년 전반기 매출 분석'}):
    print(token, end='', flush=True)

다음은 2025년 전반기 매출 분석(EDA)을 효과적으로 수행하기 위한 단계별 가이드입니다. 각 단계마다 핵심 활동과 산출물을 함께 제시합니다.

1) 목표 재확인 및 KPI 정의
- 분석 목표 확인: 2025년 상반기 매출 현황 파악, 성장 요인 식별, 문제 영역(매출 부진 영역) 파악 등
- KPI 정의: 매출(revenue), 매출 총이익(margin), 평균 주문 가치(AOV), 판매 수량(qty), 주문 건수(transactions), 신규/재구매 고객 비율, 채널별·지역별 매출, 카테고리별 매출 비중
- 비교 기준: 2024년 상반기(H1 2024)와의 비교, 예산/목표 대비 실제

2) 데이터 소스 및 스키마 파악
- 필요한 데이터 소스: ERP/회계 시스템, CRM, e커머스 로그, 마케팅 데이터(캠페인), 재고 시스템 등
- 주요 필드 예시: order_id, order_date, customer_id, region, channel, product_id, category, subcategory, quantity, unit_price, discount, tax, total_price, cost, margin, promo_flag, campaign_id
- 기간 범위: 2025-01-01 ~ 2025-06-30
- 데이터 품질 규칙: 통화 통일(동일 통화), 날짜 형식, 중복 여부, 누락 값 관리 정책

3) 데이터 수집/통합 전략
- ETL/ELT 설계: 데이터 추출 주기(일간/주간), 변환 로직, 적재 위치
- 키(조인 열) 정의: order_id, product_id, customer_id, date 차원 키 등
- 데이터 흐름 다이어그램 작성 및 데이터 출처 간 계보(lineage) 기록
- 데이터 사전(데이터 딕셔너리) 작성

4) 데이터 품질 점검 및 정제
- 품질 점검 항목: 누락값 비율, 중복 레코드, 날짜 범위, 금액 음수 여부, 단가 단위의 일관성
- 정제 작업: 누락값 처리 전략(예: 제거/대체), 중복 제거, 이상치 탐지 및 

In [15]:
prompt = PromptTemplate.from_template('{topic}에 대해서 3문장으로 설명해줘')
llm = ChatOpenAI(model='gpt-5-nano')

chain = prompt | llm | StrOutputParser()

chain.batch([
    {'topic': 'Langchain'},
    {'topic': 'Langsmith'},
    {'topic': 'Langgraph'},
])

['LangChain은 대형 언어 모델(LLM)을 이용한 애플리케이션을 쉽게 구축하도록 돕는 프레임워크입니다.  \n프롬프트 템플릿, LLM, 에이전트, 메모리, 도구(툴) 등을 체인으로 연결해 복잡한 대화 흐름이나 자동화를 구현할 수 있으며, 에이전트가 상황에 맞는 동작을 스스로 선택하게 만들 수 있습니다.  \n또한 벡터 저장소와 리트리벌, 다양한 데이터 소스와의 연동으로 기억과 검색을 관리하고, 챗봇·Q&A·문서 요약 등 LLM 기반 애플리케이션의 개발 생산성을 높이는 도구입니다.',
 'LangSmith는 LangChain 생태계의 로깅·디버깅·평가 플랫폼으로, LLM 체인 실행의 입력/출력, 프롬프트 템플릿, 도구 호출 등을 기록하고 재현할 수 있게 해준다. 이 도구를 통해 모델의 동작을 재현 가능하게 저장하고, 에러를 추적하며, 서로 다른 실행 간의 성능 비교와 샘플 재생이 가능하다. 파이썬이나 자바스크립트 SDK를 통해 Run과 Event를 수집하고, 대시보드에서 실험 결과를 시각화해 팀과 협업할 수 있다.',
 'Langgraph는 텍스트 데이터를 그래프 형태로 표현하는 언어 인공지능 프레임워크다. 이 프레워크에서 단어, 구, 문장 구성 요소는 노드로, 어휘 관계나 구문 의존성 같은 관계는 간선으로 표현되어 언어를 그래프 구조로 다룬다. 그래프 신경망(GNN) 등의 기법을 사용해 이 그래프에서 의미 관계를 학습하고 다국어 처리, 정보추출, 기계 번역 등 다양한 NLP 태스크의 성능 향상과 지식의 통합을 지향한다.']