## LLM 모델
LangChain에서 LLM은 대규모 언어 모델(GPT, Claude, Gemini, Llama 등)을 일관된 인터페이스로 연결해 텍스트 생성·분석을 수행하는 핵심 엔진이다.<br>
LLM은 AI의 뇌 역할을 하며 LangChain은 이를 체인·에이전트 구조로 확장해 다양한 응용 서비스를 구현한다

In [1]:
import os
from dotenv import load_dotenv

# .env 파일의 내용 불러오기
load_dotenv("C:/env/.env")

True

### OpenAI

In [2]:
from langchain_openai import ChatOpenAI
model = ChatOpenAI(model="gpt-4o-mini")

response= model.invoke("하늘은 왜 파란가요?")
print(response.content)

하늘이 파란 이유는 대기 중의 산란 현상 때문입니다. 태양빛은 여러 색의 빛으로 이루어져 있으며, 각 색은 서로 다른 파장을 가지고 있습니다. 이 중 파란색 빛은 파장이 짧기 때문에 대기 중의 먼지와 공기 분자에 의해 더 많이 산란됩니다. 

태양이 하늘 높이 있을 때, 우리가 보는 하늘은 주로 이 산란된 파란색 빛을 반사하여 나타나므로, 하늘이 파랗게 보이는 것입니다. 해가 지거나 지평선 가까이 있을 때는, 태양빛이 대기를 통과하는 거리가 길어져, 짧은 파장의 파란색 빛은 많이 산란되고 긴 파장의 빨간색이나 주황색 빛이 더욱 두드러지게 보여지면서 아름다운 석양의 색을 만들어냅니다.


### Anthropic
https://docs.claude.com/en/docs/about-claude/models/overview?utm_source=chatgpt.com

.env 파일에 ANTHROPIC_API_KEY="YOUR_API_KEY" 를 추가한다.

In [3]:
# !pip install langchain-anthropic
# notebook Kernel Restart!!

In [4]:
from langchain_anthropic import ChatAnthropic
from langchain_core.messages import HumanMessage

# 모델 초기화
llm = ChatAnthropic(
    model="claude-sonnet-4-5-20250929",  # 사용 가능한 버전: opus, sonnet, haiku 등
    temperature=0.7
)

# 메시지 구성
messages = [HumanMessage(content="하늘은 왜 파란가요?")]

# 모델 응답
response = llm.invoke(messages)

print(response.content)

# 하늘이 파란 이유

하늘이 파랗게 보이는 이유는 **레일리 산란(Rayleigh scattering)** 때문입니다.

## 원리

1. **태양빛의 구성**
   - 태양빛은 여러 색깔(파장)이 섞인 백색광입니다

2. **대기와의 상호작용**
   - 태양빛이 대기를 통과할 때 공기 분자와 충돌합니다
   - 파란색 계열의 짧은 파장은 더 많이 산란됩니다
   - 빨간색 계열의 긴 파장은 덜 산란됩니다

3. **우리 눈에 보이는 것**
   - 사방으로 산란된 파란빛이 우리 눈에 들어옵니다
   - 그래서 하늘 전체가 파랗게 보입니다

## 재미있는 사실

- **일몰이 빨간 이유**: 해질녘에는 빛이 대기를 더 길게 통과하면서 파란빛은 모두 산란되고, 빨간빛만 우리에게 도달하기 때문입니다

- **우주에서 본 하늘**: 대기가 없는 우주에서는 하늘이 검게 보입니다


### Google Gemini
https://ai.google.dev/gemini-api/docs/models/gemini?hl=ko

.env 파일에 GOOGLE_API_KEY="YOUR_API_KEY"를 추가한다.

In [5]:
# !pip install langchain_google_genai

### Ollama
Ollama는 로컬 환경에서 Llama 3, Mistral, Gemma 등 다양한 LLM을 직접 실행할 수 있게 해주는 오픈소스 플랫폼이다.
클라우드 요금 없이 빠르고 보안성 높게 AI 모델을 구동·연동할 수 있다는 점이 가장 큰 장점이다. <br>
 https://ollama.com/
 
- Llama 3: 성능 최고, 논리·코딩·대화 품질이 가장 우수하지만 모델이 커서 속도는 다소 느림. <br>
- Mistral 7B : 성능과 속도의 균형형, 중간 크기 모델로 가볍고 빠르며 추론력도 양호. <br>
- Gemma 2 / 3 : ⚡속도 가장 빠름, 작은 환경에 적합하지만 이해력·정확도는 낮음. <br>
고성능이 목표라면 Llama 3, 속도·효율을 원하면 Mistral, 저사양 환경이면 Gemma가 가장 적합하다. <br>


In [6]:
# ! pip install langchain-ollama

In [7]:
from langchain_ollama import ChatOllama

# Ollama 모델을 불러옵니다.
llm = ChatOllama(model="gemma3:4b")

response= llm.invoke("하늘은 왜 파란가요?")
print(response.content)


하늘이 파랗게 보이는 이유는 **레일리 산란(Rayleigh scattering)**이라는 현상 때문입니다. 좀 더 자세히 설명해 드릴게요.

1. **태양빛의 구성:** 태양빛은 빨간색, 주황색, 노란색, 초록색, 파란색, 보라색 등 다양한 색깔의 빛으로 이루어져 있습니다. 이 빛들은 서로 다른 파장을 가지고 있습니다. 파장이 짧을수록 에너지가 높고, 파장이 길수록 에너지가 낮습니다.

2. **대기 중의 입자:** 지구를 둘러싼 대기에는 질소, 산소와 같은 작은 입자들이 떠다니고 있습니다.

3. **레일리 산란:** 태양빛이 대기 중의 작은 입자들과 부딪히면서 빛이 사방으로 흩어지는 현상을 레일리 산란이라고 합니다. 특히 파장이 짧은 파란색과 보라색 빛은 파장이 길한 빨간색 빛보다 대기 중의 입자들과 더 쉽게 산란됩니다.

4. **파란색 빛이 더 많이 보이는 이유:** 태양빛이 대기 중을 통과할 때, 파란색 빛이 다른 색깔의 빛보다 훨씬 더 많이 산란됩니다. 이 산란된 파란색 빛이 우리 눈에 들어오면서 하늘이 파랗게 보이는 것입니다.

**보라색 빛은 왜 파란색보다 더 많이 산란될까요?**

보라색 빛은 파란색 빛보다 파장이 더 짧기 때문에, 대기 중의 입자들에 의해 더 많이 산란됩니다. 하지만 태양빛 자체에 보라색 빛의 양이 파란색 빛보다 적고, 우리 눈이 파란색 빛에 더 민감하기 때문에 하늘이 파랗게 보이는 것입니다.

**해가 질 때 하늘이 붉게 보이는 이유는 무엇일까요?**

해가 질 때는 태양빛이 대기층을 더 긴 거리를 통과해야 합니다. 이 과정에서 파란색 빛은 대부분 산란되어 사라지고, 상대적으로 파장이 긴 빨간색 빛이나 주황색 빛이 우리 눈에 도달하기 때문입니다.

이해가 되셨나요? 😊 궁금한 점이 있다면 언제든지 다시 질문해주세요!


In [9]:
from langchain_ollama import ChatOllama

# Ollama 모델을 불러옵니다.
llm = ChatOllama(model="gemma3:12b")

response= llm.invoke("하늘은 왜 파란가요?")
print(response.content)
# 응답 오래 걸림

### HuggingFacePipeline
HuggingFacePipeline은 LangChain에서 Hugging Face의 Transformer 모델을 직접 호출할 수 있도록 연결해주는 클래스이다.<br>
OpenAI API처럼 외부 LLM을 쓰지 않고 로컬 또는 Hugging Face Hub 모델을 바로 사용할 수 있게 해준다.

In [None]:
# !pip install transformers torch  langchain-huggingface

In [10]:
from transformers import pipeline
from langchain_huggingface import HuggingFacePipeline

# 1. Hugging Face 파이프라인 생성
pipe = pipeline(
    "text-generation",
    model="gpt2",     # 영어 전용 모델    ,  성능 낮음      
    max_new_tokens=200,
    temperature=0.7
)

# 2. LangChain용 래퍼로 감싸기
llm = HuggingFacePipeline(pipeline=pipe)

# 3. 모델 호출
response = llm.invoke("Explain Why the sky is blue.")
print(response)

Device set to use cpu
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Explain Why the sky is blue.

That's why the "Blue Sky" is so great. It's the only place in the world where it can be seen.

The sky is blue, it's the only place in the world where it can be seen.

The sky is blue, it's the only place in the world where it can be seen.

The sky is blue, it's the only place in the world where it can be seen.

The sky is blue, it's the only place in the world where it can be seen.

The sky is blue, it's the only place in the world where it can be seen.

The sky is blue, it's the only place in the world where it can be seen.

The sky is blue, it's the only place in the world where it can be seen.

The sky is blue, it's the only place in the world where it can be seen.

The sky


In [11]:
from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline

# HuggingFace 모델을 다운로드
hf = HuggingFacePipeline.from_model_id(
    model_id="beomi/llama-2-ko-7b",  # 사용할 모델의 ID
    task="text-generation",          # 수행할 작업을 지정 -> 텍스트 생성
                                     
    pipeline_kwargs={"max_new_tokens": 512},
)

# 모델 크기 12.5 GB  , 100 Mbps에서 약 17분 예상, 다운로드 완료 후 재실행시는 캐시에서 읽어서 바로 실행됨
# 다운로드 경로 : C:\Users\storm\.cache\huggingface

Loading checkpoint shards:   0%|          | 0/15 [00:00<?, ?it/s]

Device set to use cpu


In [None]:
# 모델 호출 (추론)  : # CPU 환경에서 수십분 소요
prompt = "하늘은 왜 파란가요?"
response = hf.invoke(prompt)  # CPU 환경에서 수십분 소요

print("질문:", prompt)
print("모델 응답:", response)

# 일반 데스크탑 (i5, 16GB RAM) 6~8코어 --> 20 ~ 40분
# 토큰 생성 속도 초당 0.5~1 토큰n
# CUDA 지원 GPU (예: RTX 3060 이상) device_map="auto" 또는 device=0 설정으로 GPU로 전환 → 512토큰 기준 5 ~ 10초 이내 완료

In [None]:
# GPU가 있을 경우 : device_map="auto" 또는 device=0 으로 설정
# GPU 없으면 오류
from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline

hf = HuggingFacePipeline.from_model_id(
    model_id="beomi/llama-2-ko-7b",
    task="text-generation",
    device=0,
    # model_kwargs={"device_map": "auto"},
    pipeline_kwargs={"max_new_tokens": 512},
)

# 모델 호출 (추론)
prompt = "하늘은 왜 파란가요?"
response = hf.invoke(prompt)

print("질문:", prompt)
print("모델 응답:", response)

In [None]:
from langchain_huggingface import HuggingFacePipeline

llm = HuggingFacePipeline.from_model_id(
    model_id="EleutherAI/polyglot-ko-1.3b", # 성능 낮음
    task="text-generation",
    pipeline_kwargs={"max_new_tokens": 100, "temperature": 0.7},
)

response = llm.invoke("하늘은 왜 파란가? 그 이유는")
print(response)
# 모델 크기 약 2.1 GB  , 100 Mbps에서 약 3~5분 예상, 다운로드 완료 후 재실행시는 캐시에서 읽어서 바로 실행됨
# 다운로드 경로 : C:\Users\storm\.cache\huggingface

# Polyglot-Ko-1.3B는 “Instruction (질문-답변)” 모델이 아님
# 이 모델은 단순 언어 모델 (Language Model) 입니다.
# “Q&A 구조”로 학습된 게 아니라 “문장 다음에 올 단어를 예측하는” 형태로 학습됨.

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

### GPT4All
GPT4All은 Nomic AI가 개발한 오픈소스 로컬 LLM(Local Large Language Model) 프레임워크이다. <br>
이 모델은 인터넷 연결 없이 실행할 수 있으며, GPU 없이도 CPU 기반으로 추론 가능하다는 점이 특징이다. <br>
https://www.nomic.ai/gpt4all

In [None]:
# ! pip install  gpt4all

In [None]:
# GTP4All Falcon 모델 : (3.9GB) , 한국어 지원 안됨
# 윈도우 메뉴의 GTP4All 프로그램을 실행해서 모델을 미리 다운로드해 놓은 다음 실행
# 모델 다운로드 경로:  C:\Users\storm\AppData\Local\nomic.ai\GPT4All\gpt4all-falcon-newbpe-q4_0.gguf

from langchain_community.llms import GPT4All

model_path = "C:/Users/storm/AppData/Local/nomic.ai/GPT4All/gpt4all-falcon-newbpe-q4_0.gguf"

llm = GPT4All(model=model_path)
response = llm.invoke("Why is the sky blue?") # 한국어는 지원 안됨
print(response)

In [None]:
# EEVE-Korean-Instruct-10.8B-v1.0-Q4_0.gguf 한국어 지원 모델 : 5.7GB 
# 윈도우 메뉴의 GTP4All 프로그램을 실행해서 모델을 미리 다운로드해 놓은 다음 실행
# 모델 다운로드 경로:  C:\Users\storm\AppData\Local\nomic.ai\GPT4All\EEVE-Korean-Instruct-10.8B-v1.0-Q4_0.gguf

rom langchain_community.llms import GPT4All
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.callbacks import StreamingStdOutCallbackHandler

# 프롬프트 
prompt = ChatPromptTemplate.from_template(
    """<s>A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.</s>
<s>Human: {question}</s>
<s>Assistant:
"""
)

#  모델 초기화
# model는 GPT4All 모델 파일의 경로를 지정
model_path = "C:/Users/storm/AppData/Local/nomic.ai/GPT4All/EEVE-Korean-Instruct-10.8B-v1.0-Q4_0.gguf"

llm = GPT4All(
    model=model_path,
    # backend="gpu",  # GPU 설정
    streaming=True,   # 스트리밍 설정
    callbacks=[StreamingStdOutCallbackHandler()],  # 콜백 설정
)

# 체인 생성
chain = prompt | llm | StrOutputParser()

# 실행
response = chain.invoke({"question": "하늘은 왜 파란가요?"})   # CPU에서 동작 응답 느림
print(response)